論文の概要: Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale
- arxiv url: http://arxiv.org/abs/2506.12009v1
- Date: Fri, 13 Jun 2025 17:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.91569
- Title: Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale
- Title(参考訳): Affogato: 大規模データの自動生成によるオープンボキャブラリベース学習
- Authors: Junha Lee, Eunha Park, Chunghyun Park, Dahyun Kang, Minsu Cho,
- Abstract要約: 我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
- 参考スコア(独自算出の注目度): 41.693908591580175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance grounding-localizing object regions based on natural language descriptions of interactions-is a critical challenge for enabling intelligent agents to understand and interact with their environments. However, this task remains challenging due to the need for fine-grained part-level localization, the ambiguity arising from multiple valid interaction regions, and the scarcity of large-scale datasets. In this work, we introduce Affogato, a large-scale benchmark comprising 150K instances, annotated with open-vocabulary text descriptions and corresponding 3D affordance heatmaps across a diverse set of objects and interactions. Building on this benchmark, we develop simple yet effective vision-language models that leverage pretrained part-aware vision backbones and a text-conditional heatmap decoder. Our models trained with the Affogato dataset achieve promising performance on the existing 2D and 3D benchmarks, and notably, exhibit effectiveness in open-vocabulary cross-domain generalization. The Affogato dataset is shared in public: https://huggingface.co/datasets/project-affogato/affogato
- Abstract(参考訳): 対話の自然言語記述に基づく局所的対象領域の高度化 - 知的エージェントが環境を理解し、対話できるようにする上で重要な課題である。
しかし、この課題は、粒度の細かい部分レベルのローカライゼーションの必要性、複数の有効な相互作用領域から生じるあいまいさ、大規模データセットの不足など、依然として困難な課題である。
本稿では,150Kのインスタンスからなる大規模ベンチマークであるAffogatoを紹介する。
このベンチマークに基づいて、事前学習した部分認識型視覚バックボーンとテキスト条件のヒートマップデコーダを利用する、シンプルで効果的な視覚言語モデルを構築した。
Affogatoデータセットを用いてトレーニングしたモデルは、既存の2Dおよび3Dベンチマークで有望な性能を実現し、特に、オープン語彙のクロスドメイン一般化における有効性を示す。
https://huggingface.co/datasets/project-affogato/affogato
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - Tri-level Joint Natural Language Understanding for Multi-turn
Conversational Datasets [5.3361357265365035]
本稿では,新しい三段階共同自然言語理解手法,ドメインの追加,意味情報をすべてのレベル間で明示的に交換する手法を提案する。
我々は,2つのマルチターンデータセットを用いて,共同スロット充填とインテント検出を行った最初のモデルとして評価を行った。
論文 参考訳(メタデータ) (2023-05-28T13:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。