論文の概要: Look Wide and Interpret Twice: Improving Performance on Interactive
Instruction-following Tasks
- arxiv url: http://arxiv.org/abs/2106.00596v1
- Date: Tue, 1 Jun 2021 16:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 16:33:11.927120
- Title: Look Wide and Interpret Twice: Improving Performance on Interactive
Instruction-following Tasks
- Title(参考訳): Look Wide and Interpret Twice: 対話型インストラクションフォロータスクのパフォーマンス向上
- Authors: Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
- Abstract要約: 近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に対処している。
本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
- 参考スコア(独自算出の注目度): 29.671268927569063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in the community in making an embodied AI agent
perform a complicated task while interacting with an environment following
natural language directives. Recent studies have tackled the problem using
ALFRED, a well-designed dataset for the task, but achieved only very low
accuracy. This paper proposes a new method, which outperforms the previous
methods by a large margin. It is based on a combination of several new ideas.
One is a two-stage interpretation of the provided instructions. The method
first selects and interprets an instruction without using visual information,
yielding a tentative action sequence prediction. It then integrates the
prediction with the visual information etc., yielding the final prediction of
an action and an object. As the object's class to interact is identified in the
first stage, it can accurately select the correct object from the input image.
Moreover, our method considers multiple egocentric views of the environment and
extracts essential information by applying hierarchical attention conditioned
on the current instruction. This contributes to the accurate prediction of
actions for navigation. A preliminary version of the method won the ALFRED
Challenge 2020. The current version achieves the unseen environment's success
rate of 4.45% with a single view, which is further improved to 8.37% with
multiple views.
- Abstract(参考訳): インボディードAIエージェントを自然言語の指示に従う環境と対話しながら複雑なタスクを実行することに、コミュニティへの関心が高まっている。
近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に取り組んでいるが、精度は非常に低い。
本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
それはいくつかの新しいアイデアの組み合わせに基づいている。
1つは提供された命令の2段階の解釈である。
まず、視覚情報を用いずに命令を選択して解釈し、仮の動作シーケンス予測を行う。
そして、その予測を視覚情報等と統合し、アクションとオブジェクトの最終的な予測を生成する。
対話するオブジェクトのクラスが第一段階で識別されるので、入力画像から正しいオブジェクトを正確に選択することができる。
また,本手法では,環境の複数の自己中心的視点を考察し,現在の指示に基づく階層的注意を応用して本質的な情報を抽出する。
これはナビゲーションに対するアクションの正確な予測に寄与する。
この手法の予備版がALFRED Challenge 2020で優勝した。
現在のバージョンでは、単一のビューで4.45%の成功率を達成しており、複数のビューで8.37%に改善されている。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation [14.188006024550257]
我々は,エゴセントリックな視点から,短期的な物体相互作用予測問題を考察した。
提案手法は静止画像と映像を同時に処理し,次のアクティブ物体を検出する。
本手法は,EGO4D短期オブジェクトインタラクション予測課題2022において,第1位にランクされている。
論文 参考訳(メタデータ) (2023-04-08T09:01:37Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。