論文の概要: On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets
- arxiv url: http://arxiv.org/abs/2205.09249v1
- Date: Wed, 18 May 2022 23:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:00:33.747801
- Title: On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets
- Title(参考訳): 検証集合を用いた身体エージェントモデル一般化の限界について
- Authors: Hyounghun Kim, Aishwarya Padmakumar, Di Jin, Mohit Bansal, Dilek
Hakkani-Tur
- Abstract要約: 本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
- 参考スコア(独自算出の注目度): 101.28658250723804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language guided embodied task completion is a challenging problem
since it requires understanding natural language instructions, aligning them
with egocentric visual observations, and choosing appropriate actions to
execute in the environment to produce desired changes. We experiment with
augmenting a transformer model for this task with modules that effectively
utilize a wider field of view and learn to choose whether the next step
requires a navigation or manipulation action. We observed that the proposed
modules resulted in improved, and in fact state-of-the-art performance on an
unseen validation set of a popular benchmark dataset, ALFRED. However, our best
model selected using the unseen validation set underperforms on the unseen test
split of ALFRED, indicating that performance on the unseen validation set may
not in itself be a sufficient indicator of whether model improvements
generalize to unseen test sets. We highlight this result as we believe it may
be a wider phenomenon in machine learning tasks but primarily noticeable only
in benchmarks that limit evaluations on test splits, and highlights the need to
modify benchmark design to better account for variance in model performance.
- Abstract(参考訳): 自然言語ガイド付き具体化タスク補完は、自然言語の指示を理解し、エゴセントリックな視覚的観察と整合させ、望ましい変化を生み出すために環境内で実行する適切なアクションを選択する必要があるため、難しい問題である。
本研究では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールを用いて,このタスクのためのトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に一般的なベンチマークデータセットであるALFREDの見知らぬ検証セット上での最先端のパフォーマンスが得られた。
しかし, ALFREDの未確認テストスプリットにおいて, 未確認検証セットを用いて選択した最良のモデルでは, 未確認検証セットの性能が未確認テストセットに一般化するかどうかの指標にはならない可能性が示唆された。
この結果は、機械学習タスクではより広範な現象かもしれないが、主にテスト分割の評価を制限するベンチマークでのみ顕著であり、モデルパフォーマンスのばらつきを考慮に入れたベンチマーク設計を修正する必要性を強調している。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Increasing Performance And Sample Efficiency With Model-agnostic
Interactive Feature Attributions [3.0655581300025996]
我々は,2つの一般的な説明手法(Occlusion と Shapley の値)に対して,モデルに依存しない実装を提供し,その複雑なモデルにおいて,完全に異なる属性を強制する。
提案手法は,修正された説明に基づいてトレーニングデータセットを増強することで,モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-28T15:23:28Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Are you doing what I say? On modalities alignment in ALFRED [6.46147328920679]
ALFREDは、自然言語の命令によって指定されたシミュレーションされた住宅環境におけるタスクを完了させるモデルを必要とする。
成功への鍵となるモダリティは、テキストを視覚的な入力と正確に整合させることである。
モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンス向上を実証する。
論文 参考訳(メタデータ) (2021-10-12T01:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。