論文の概要: Improving the Robustness to Variations of Objects and Instructions with
a Neuro-Symbolic Approach for Interactive Instruction Following
- arxiv url: http://arxiv.org/abs/2110.07031v1
- Date: Wed, 13 Oct 2021 21:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:52:11.603643
- Title: Improving the Robustness to Variations of Objects and Instructions with
a Neuro-Symbolic Approach for Interactive Instruction Following
- Title(参考訳): 対話的指導に対するニューロシンボリックアプローチによる物体・指示の変動に対するロバスト性の改善
- Authors: Kazutoshi Shinoda and Yuki Takezawa and Masahiro Suzuki and Yusuke
Iwasawa and Yutaka Matsuo
- Abstract要約: 自然言語命令と1対1の視覚を行動列にマッピングする学習のためのベンチマークとして,対話型命令追従タスクが提案されている。
このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではないことが分かりました。
本稿では,入力の小さな変化に対して頑健な高レベルなシンボル表現に対する推論を行うニューロシンボリックアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.197640949226756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An interactive instruction following task has been proposed as a benchmark
for learning to map natural language instructions and first-person vision into
sequences of actions to interact with objects in a 3D simulated environment. We
find that an existing end-to-end neural model for this task is not robust to
variations of objects and language instructions. We assume that this problem is
due to the high sensitiveness of neural feature extraction to small changes in
vision and language inputs. To mitigate this problem, we propose a
neuro-symbolic approach that performs reasoning over high-level symbolic
representations that are robust to small changes in raw inputs. Our experiments
on the ALFRED dataset show that our approach significantly outperforms the
existing model by 18, 52, and 73 points in the success rate on the
ToggleObject, PickupObject, and SliceObject subtasks in unseen environments
respectively.
- Abstract(参考訳): 3次元シミュレーション環境でオブジェクトと対話するアクションのシーケンスに、自然言語命令とファーストパーソンビジョンをマッピングするためのベンチマークとして、対話的命令追従タスクが提案されている。
このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではない。
この問題は、視覚と言語入力の小さな変化に対する神経特徴抽出の高感度によるものであると仮定する。
この問題を軽減するため,我々は,生入力の小さな変化にロバストな高レベルな記号表現に対して推論を行うニューロシンボリックアプローチを提案する。
alfredデータセットを用いた実験では,既存のモデルよりも18点,52点,73点,未認識環境におけるtoggleobject, pickupobject,sliceobjectの各サブタスクの成功率を有意に上回っていた。
関連論文リスト
- Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Learning Neuro-symbolic Programs for Language Guided Robot Manipulation [10.287265801542999]
自然言語命令と入力と出力シーンが与えられた場合、我々の目標は、操作プログラムを出力できるニューロシンボリックモデルを訓練することである。
i) トレーニング中に見られる以上の一般化を制限するが、密集したサブゴールの監督を必要とする概念に対して、手書きのシンボルに依存する。
我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監督を必要としないエンドツーエンドの差別化が可能であり、潜伏したニューラルオブジェクト中心の表現で機能するシンボリック推論構造を利用する。
論文 参考訳(メタデータ) (2022-11-12T12:31:17Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。