論文の概要: Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2508.17922v1
- Date: Mon, 25 Aug 2025 11:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.754489
- Title: Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model
- Title(参考訳): 大規模マルチモーダルモデルによるエゴセントリックインストラクション指向のアフォーマンス予測
- Authors: Bokai Ji, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen, Guangxia Li,
- Abstract要約: 物体操作の文脈では、知能ロボットにとってアフォーダンスは不可欠である。
本稿では,手頃さはタスク・インストラクション・インストラクションに依存しているべきだと論じる。
本研究では,1万5000件のオブジェクト命令-アダクタンス三重項からなる新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.393736608344872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance is crucial for intelligent robots in the context of object manipulation. In this paper, we argue that affordance should be task-/instruction-dependent, which is overlooked by many previous works. That is, different instructions can lead to different manipulation regions and directions even for the same object. According to this observation, we present a new dataset comprising fifteen thousand object-instruction-affordance triplets. All scenes in the dataset are from an egocentric viewpoint, designed to approximate the perspective of a human-like robot. Furthermore, we investigate how to enable large multimodal models (LMMs) to serve as affordance predictors by implementing a ``search against verifiers'' pipeline. An LMM is asked to progressively predict affordances, with the output at each step being verified by itself during the iterative process, imitating a reasoning process. Experiments show that our method not only unlocks new instruction-oriented affordance prediction capabilities, but also achieves outstanding performance broadly.
- Abstract(参考訳): 物体操作の文脈では、知能ロボットにとってアフォーダンスは不可欠である。
本稿では,多くの先行研究で見過ごされているタスク/インストラクション依存の余裕を論じる。
つまり、異なる命令が同じオブジェクトであっても異なる操作領域や方向につながる可能性がある。
そこで本研究では,1万5000個のオブジェクト命令・アダクタンス三重項からなる新しいデータセットを提案する。
データセットのすべてのシーンは、人間のようなロボットの視点を近似するために設計された、エゴセントリックな視点から来ている。
さらに, 大規模マルチモーダルモデル (LMM) を, ` ``search against verifiers'' パイプラインを実装することで, 価格予測器として機能させる方法について検討した。
LMMは段階的に価格を予測するよう求められ、各ステップの出力は反復過程中にそれ自体で検証され、推論過程を模倣する。
実験の結果,提案手法は新たな命令指向のアベイランス予測能力を解放するだけでなく,優れた性能を発揮できることがわかった。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices [0.24475591916185496]
Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。
本研究では,変圧器の青写真に基づくディープラーニングアーキテクチャを提案する。
この方法で得られた多次元の予測は、その答えを選択するために直接近似される。
論文 参考訳(メタデータ) (2023-08-12T11:02:21Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - A Survey on Contrastive Self-supervised Learning [0.0]
自己教師付き学習は、大規模なデータセットのアノテートコストを回避する能力によって人気を集めている。
コントラスト学習は近年,コンピュータビジョン,自然言語処理(NLP)などの分野において,自己指導型学習手法の主流となっている。
本稿では, コントラスト的アプローチに従う自己教師型手法について, 広範囲にわたるレビューを行う。
論文 参考訳(メタデータ) (2020-10-31T21:05:04Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。