論文の概要: On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets
- arxiv url: http://arxiv.org/abs/2205.09249v1
- Date: Wed, 18 May 2022 23:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:00:33.747801
- Title: On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets
- Title(参考訳): 検証集合を用いた身体エージェントモデル一般化の限界について
- Authors: Hyounghun Kim, Aishwarya Padmakumar, Di Jin, Mohit Bansal, Dilek
Hakkani-Tur
- Abstract要約: 本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
- 参考スコア(独自算出の注目度): 101.28658250723804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language guided embodied task completion is a challenging problem
since it requires understanding natural language instructions, aligning them
with egocentric visual observations, and choosing appropriate actions to
execute in the environment to produce desired changes. We experiment with
augmenting a transformer model for this task with modules that effectively
utilize a wider field of view and learn to choose whether the next step
requires a navigation or manipulation action. We observed that the proposed
modules resulted in improved, and in fact state-of-the-art performance on an
unseen validation set of a popular benchmark dataset, ALFRED. However, our best
model selected using the unseen validation set underperforms on the unseen test
split of ALFRED, indicating that performance on the unseen validation set may
not in itself be a sufficient indicator of whether model improvements
generalize to unseen test sets. We highlight this result as we believe it may
be a wider phenomenon in machine learning tasks but primarily noticeable only
in benchmarks that limit evaluations on test splits, and highlights the need to
modify benchmark design to better account for variance in model performance.
- Abstract(参考訳): 自然言語ガイド付き具体化タスク補完は、自然言語の指示を理解し、エゴセントリックな視覚的観察と整合させ、望ましい変化を生み出すために環境内で実行する適切なアクションを選択する必要があるため、難しい問題である。
本研究では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールを用いて,このタスクのためのトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に一般的なベンチマークデータセットであるALFREDの見知らぬ検証セット上での最先端のパフォーマンスが得られた。
しかし, ALFREDの未確認テストスプリットにおいて, 未確認検証セットを用いて選択した最良のモデルでは, 未確認検証セットの性能が未確認テストセットに一般化するかどうかの指標にはならない可能性が示唆された。
この結果は、機械学習タスクではより広範な現象かもしれないが、主にテスト分割の評価を制限するベンチマークでのみ顕著であり、モデルパフォーマンスのばらつきを考慮に入れたベンチマーク設計を修正する必要性を強調している。
関連論文リスト
- Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Increasing Performance And Sample Efficiency With Model-agnostic
Interactive Feature Attributions [3.0655581300025996]
我々は,2つの一般的な説明手法(Occlusion と Shapley の値)に対して,モデルに依存しない実装を提供し,その複雑なモデルにおいて,完全に異なる属性を強制する。
提案手法は,修正された説明に基づいてトレーニングデータセットを増強することで,モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-28T15:23:28Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Assessing Out-of-Domain Language Model Performance from Few Examples [38.245449474937914]
ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:45:26Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Are you doing what I say? On modalities alignment in ALFRED [6.46147328920679]
ALFREDは、自然言語の命令によって指定されたシミュレーションされた住宅環境におけるタスクを完了させるモデルを必要とする。
成功への鍵となるモダリティは、テキストを視覚的な入力と正確に整合させることである。
モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンス向上を実証する。
論文 参考訳(メタデータ) (2021-10-12T01:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。