論文の概要: Thinker: A vision-language foundation model for embodied intelligence
- arxiv url: http://arxiv.org/abs/2601.21199v1
- Date: Thu, 29 Jan 2026 02:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.532675
- Title: Thinker: A vision-language foundation model for embodied intelligence
- Title(参考訳): Thinker: インテリジェンスを具現化する視覚言語基盤モデル
- Authors: Baiyu Pan, Daqin Luo, Junpeng Yang, Jiyuan Wang, Yixuan Zhang, Hailin Shi, Jichao Jiao,
- Abstract要約: 我々は,インテリジェンスを具現化した大規模視覚言語基盤モデルであるThinkerを提案する。
ロボットの知覚と推論に適した大規模データセットを構築した。
本稿では,映像理解におけるモデルの能力を大幅に向上させる,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 9.661713829767605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: When large vision-language models are applied to the field of robotics, they encounter problems that are simple for humans yet error-prone for models. Such issues include confusion between third-person and first-person perspectives and a tendency to overlook information in video endings during temporal reasoning. To address these challenges, we propose Thinker, a large vision-language foundation model designed for embodied intelligence. We tackle the aforementioned issues from two perspectives. Firstly, we construct a large-scale dataset tailored for robotic perception and reasoning, encompassing ego-view videos, visual grounding, spatial understanding, and chain-of-thought data. Secondly, we introduce a simple yet effective approach that substantially enhances the model's capacity for video comprehension by jointly incorporating key frames and full video sequences as inputs. Our model achieves state-of-the-art results on two of the most commonly used benchmark datasets in the field of task planning.
- Abstract(参考訳): ロボット工学の分野に大規模な視覚言語モデルを適用すると、人間にとって単純な問題に遭遇する。
このような問題には、第三者と一人称視点の混同や、時間的推論中のビデオエンディングにおける情報を見落としてしまう傾向などが含まれる。
これらの課題に対処するために,我々は,インテリジェンスを具現化した大規模視覚言語基盤モデルであるThinkerを提案する。
上記の問題に2つの視点から取り組む。
まず、ロボットの知覚と推論に適した大規模なデータセットを構築し、エゴビュービデオ、視覚的接地、空間的理解、思考の連鎖データを含む。
第2に、キーフレームとフルビデオシーケンスを共同で入力として組み込むことで、映像理解のためのモデルの能力を大幅に向上する、シンプルで効果的なアプローチを提案する。
本モデルでは,タスクプランニング分野において,最もよく使用されるベンチマークデータセットの2つについて,最先端の結果を得る。
関連論文リスト
- Video models are zero-shot learners and reasoners [33.694362486721865]
Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。
Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
論文 参考訳(メタデータ) (2025-09-24T17:17:27Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。
多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。
本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文 参考訳(メタデータ) (2024-12-20T18:58:24Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。