Fugu-MT 論文翻訳(概要): Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge

論文の概要: Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge

arxiv url: http://arxiv.org/abs/2310.15066v1
Date: Mon, 23 Oct 2023 16:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 18:59:25.648187
Title: Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge
Title（参考訳）: シンボル的世界知識を用いた自我中心視からの能動物体の定位
Authors: Te-Lin Wu, Yu Zhou, Nanyun Peng
Abstract要約: タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
参考スコア（独自算出の注目度）: 62.981429762309226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to actively ground task instructions from an egocentric view is crucial for AI agents to accomplish tasks or assist humans virtually. One important step towards this goal is to localize and track key active objects that undergo major state change as a consequence of human actions/interactions to the environment without being told exactly what/where to ground (e.g., localizing and tracking the `sponge` in video from the instruction "Dip the `sponge` into the bucket."). While existing works approach this problem from a pure vision perspective, we investigate to which extent the textual modality (i.e., task instructions) and their interaction with visual modality can be beneficial. Specifically, we propose to improve phrase grounding models' ability on localizing the active objects by: (1) learning the role of `objects undergoing change` and extracting them accurately from the instructions, (2) leveraging pre- and post-conditions of the objects during actions, and (3) recognizing the objects more robustly with descriptional knowledge. We leverage large language models (LLMs) to extract the aforementioned action-object knowledge, and design a per-object aggregation masking technique to effectively perform joint inference on object phrases and symbolic knowledge. We evaluate our framework on Ego4D and Epic-Kitchens datasets. Extensive experiments demonstrate the effectiveness of our proposed framework, which leads to>54% improvements in all standard metrics on the TREK-150-OPE-Det localization + tracking task, >7% improvements in all standard metrics on the TREK-150-OPE tracking task, and >3% improvements in average precision (AP) on the Ego4D SCOD task.
Abstract（参考訳）: タスク指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを遂行したり、人間をバーチャルに支援する上で極めて重要です。この目標に向けた重要なステップの1つは、人間によるアクション/インタラクションの結果として大きな状態変化を起こす重要なアクティブオブジェクトを、正確な場所や場所を告げることなく、環境にローカライズし、追跡することである(例えば、"Dip the `sponge` into the bucket")。既存の研究は純粋視覚の観点からこの問題にアプローチしているが、テキスト的モダリティ(タスク命令)とその視覚モダリティとの相互作用がどの程度有益かを検討する。具体的には,(1)変化中のオブジェクトの役割を学習し,指示から正確に抽出すること,(2)行動中のオブジェクトの事前条件と後条件を活用すること,(3)記述的知識でオブジェクトをより堅牢に認識することによる,アクティブなオブジェクトのローカライズにおけるフレーズ基盤モデルの能力の向上を提案する。本研究では,大規模言語モデル(LLM)を用いて,上記の行動対象知識を抽出し,オブジェクトごとの集約マスキング手法を設計し,対象句とシンボル知識の協調推論を効果的に行う。 Ego4DとEpic-Kitchensデータセットのフレームワークを評価する。 TREK-150-OPE-Detローカライゼーション+トラッキングタスクにおける標準指標の54%改善,TREK-150-OPEトラッキングタスクにおける標準指標の7%改善,Ego4D SCODタスクにおける平均精度(AP)の3%改善,などである。

関連論文リスト

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文参考訳（メタデータ） (2025-05-27T17:29:31Z)
DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation [1.4154022683679812]
VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
論文参考訳（メタデータ） (2025-04-30T06:47:13Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文参考訳（メタデータ） (2024-08-04T06:34:24Z)
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。最近のソリューションは主にオールインワンモデルです。汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:02Z)
KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文参考訳（メタデータ） (2023-03-28T08:00:46Z)
Learning Action-Effect Dynamics for Hypothetical Vision-Language Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文参考訳（メタデータ） (2022-12-07T05:41:58Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。