論文の概要: Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions?
- arxiv url: http://arxiv.org/abs/2311.17280v2
- Date: Sat, 2 Dec 2023 06:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:49:54.863003
- Title: Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions?
- Title(参考訳): VLNは非感覚的または無関係な指示による作業の事前訓練を行っているか?
- Authors: Wang Zhu, Ishika Singh, Yuan Huang, Robin Jia and Jesse Thomason
- Abstract要約: R2R 上の HAMT と VLN-BERT の下流性能には, 事前学習中の非意味的あるいは無関係な言語命令がほとんど影響しないことがわかった。
ダウンストリーム性能を向上する非意味な命令を生成する効率的な拡張手法であるUnigram + Objectを考案する。
- 参考スコア(独自算出の注目度): 27.278510417844046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation via back-translation is common when pretraining
Vision-and-Language Navigation (VLN) models, even though the generated
instructions are noisy. But: does that noise matter? We find that nonsensical
or irrelevant language instructions during pretraining can have little effect
on downstream performance for both HAMT and VLN-BERT on R2R, and is still
better than only using clean, human data. To underscore these results, we
concoct an efficient augmentation method, Unigram + Object, which generates
nonsensical instructions that nonetheless improve downstream performance. Our
findings suggest that what matters for VLN R2R pretraining is the quantity of
visual trajectories, not the quality of instructions.
- Abstract(参考訳): バックトランスレーションによるデータ拡張は、生成した命令がノイズであっても、Vision-and-Language Navigation (VLN)モデルを事前訓練する場合に一般的である。
しかし、そのノイズは重要か?
R2R上のHAMTとVLN-BERTの両方のダウンストリーム性能には,事前学習中の非感覚的あるいは無関係な言語命令がほとんど影響しないことがわかった。
これらの結果を評価するために、下流の性能を改善する非感覚的な命令を生成する効率的な拡張手法Unigram + Objectを考案した。
以上の結果から,VLN R2R事前訓練で重要なことは,指示の質ではなく,視線量であることが示唆された。
関連論文リスト
- Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models [34.13519934563742]
現代言語モデル(LM)は忠実でありながら人間の指示に従う必要があることを示す。
ReSet(Continuousd Self-Instruction Tuning)におけるリジェクションサンプリングを利用した簡易かつ効果的な手法を提案する。
高品質なReSetをトレーニングするほど、より少ないデータ(3倍少ないデータ)が優れた結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2024-07-31T08:05:04Z) - Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - AIGeN: An Adversarial Approach for Instruction Generation in VLN [35.932836008492174]
本稿では,GAN(Generative Adrial Networks)にインスパイアされた新しいアーキテクチャであるAIGeNを提案する。
本研究では,Habitat-Matterport 3Dデータセット(HM3D)上でAIGeNを用いた217K軌道の合成命令を生成し,市販VLN法の性能向上を示す。
論文 参考訳(メタデータ) (2024-04-15T18:00:30Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。