論文の概要: FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2206.04294v1
- Date: Thu, 9 Jun 2022 06:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 01:41:04.621137
- Title: FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation
- Title(参考訳): FOAM:視覚・言語ナビゲーションのための追従型話者モデル
- Authors: Zi-Yi Dou, Nanyun Peng
- Abstract要約: 追従者からのフィードバックを受けて常に更新されるtextscfoam, textscFollower-textscaware speaker textscModelを提案する。
両レベル最適化フレームワークを用いて話者を最適化し、ラベル付きデータ上で追従者を評価することにより、学習信号を得る。
- 参考スコア(独自算出の注目度): 45.99831101677059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The speaker-follower models have proven to be effective in
vision-and-language navigation, where a speaker model is used to synthesize new
instructions to augment the training data for a follower navigation model.
However, in many of the previous methods, the generated instructions are not
directly trained to optimize the performance of the follower. In this paper, we
present \textsc{foam}, a \textsc{Fo}llower-\textsc{a}ware speaker
\textsc{M}odel that is constantly updated given the follower feedback, so that
the generated instructions can be more suitable to the current learning state
of the follower. Specifically, we optimize the speaker using a bi-level
optimization framework and obtain its training signals by evaluating the
follower on labeled data. Experimental results on the Room-to-Room and
Room-across-Room datasets demonstrate that our methods can outperform strong
baseline models across settings. Analyses also reveal that our generated
instructions are of higher quality than the baselines.
- Abstract(参考訳): 話者従者モデルは視覚言語ナビゲーションにおいて有効であることが証明されており、従者ナビゲーションモデルの訓練データを強化するために新しい指示を合成するために話者モデルが使用される。
しかし、従来の多くの手法では、生成した命令はフォロワーのパフォーマンスを最適化するために直接訓練されない。
本稿では,学習者フィードバックにより常に更新される話者である \textsc{foam}, \textsc{fo}llower-\textsc{a}ware speaker \textsc{m}odel について述べる。
具体的には,2レベル最適化フレームワークを用いて話者を最適化し,ラベル付きデータに対する追従者の評価により学習信号を得る。
Room-to-RoomデータセットとRoom-across-Roomデータセットの実験的結果は、我々の手法が設定全体にわたって強力なベースラインモデルより優れていることを示している。
分析により、生成された命令はベースラインよりも高品質であることが判明した。
関連論文リスト
- Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T13:12:11Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。