論文の概要: Beyond In-Distribution Performance: A Cross-Dataset Study of Trajectory Prediction Robustness
- arxiv url: http://arxiv.org/abs/2501.15842v1
- Date: Mon, 27 Jan 2025 08:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:18.982408
- Title: Beyond In-Distribution Performance: A Cross-Dataset Study of Trajectory Prediction Robustness
- Title(参考訳): 分布内性能を超える:軌道予測ロバスト性に関するクロスデータセット研究
- Authors: Yue Yao, Daniel Goehring, Joerg Reichardt,
- Abstract要約: In-Distribution (ID) に匹敵する性能を持つ3つのSotA軌道予測モデルのOoD一般化能力について検討した。
誘導バイアスが最も大きい最小モデルでは、様々な拡張戦略にまたがる最高のOoD一般化が示される。
- 参考スコア(独自算出の注目度): 2.0965639599405366
- License:
- Abstract: We study the Out-of-Distribution (OoD) generalization ability of three SotA trajectory prediction models with comparable In-Distribution (ID) performance but different model designs. We investigate the influence of inductive bias, size of training data and data augmentation strategy by training the models on Argoverse 2 (A2) and testing on Waymo Open Motion (WO) and vice versa. We find that the smallest model with highest inductive bias exhibits the best OoD generalization across different augmentation strategies when trained on the smaller A2 dataset and tested on the large WO dataset. In the converse setting, training all models on the larger WO dataset and testing on the smaller A2 dataset, we find that all models generalize poorly, even though the model with the highest inductive bias still exhibits the best generalization ability. We discuss possible reasons for this surprising finding and draw conclusions about the design and test of trajectory prediction models and benchmarks.
- Abstract(参考訳): In-Distribution (ID) に匹敵する性能を持つ3つのSotA軌道予測モデルのOoD一般化能力について検討した。
本稿では,Argoverse 2 (A2) とWaymo Open Motion (WO) の学習による誘導バイアス,トレーニングデータのサイズ,データ拡張戦略の影響について検討する。
最大誘導バイアスを持つ最小モデルは、より小さなA2データセットでトレーニングし、大きなWOデータセットでテストすると、異なる拡張戦略をまたいだ最高のOoD一般化を示す。
逆設定では、より大規模なWOデータセット上の全てのモデルをトレーニングし、より小さなA2データセット上でテストすると、最も誘導バイアスの高いモデルでも、すべてのモデルが依然として最高の一般化能力を示すにもかかわらず、すべてのモデルが十分に一般化されていないことが分かる。
軌道予測モデルとベンチマークの設計とテストについて、この驚くべき発見と結論の導出の可能な理由について論じる。
関連論文リスト
- Intrinsic Bias is Predicted by Pretraining Data and Correlates with Downstream Performance in Vision-Language Encoders [13.474737752636608]
本稿は,CLIPモデルの上流事前学習要因と下流性能が内在バイアスにどのように関係しているかを,これまでで最大の包括的分析結果として提示する。
55のアーキテクチャを使用して,26のデータセットでトレーニングされた131のCLIPモデルを,さまざまなサイズで検討した。
事前トレーニングデータセットの選択がバイアスの上流で最も重要な予測要因であることに気付きました。
論文 参考訳(メタデータ) (2025-02-11T21:11:47Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Improving Out-of-Distribution Generalization of Trajectory Prediction for Autonomous Driving via Polynomial Representations [16.856874154363588]
本稿では,2つの大規模動作データセット間でデータセットと予測タスクを均質化するOoDテストプロトコルを提案する。
モデルのサイズ、トレーニングの労力、推論時間を大幅に小さくすることで、IDテストのSotAに近いパフォーマンスに達し、OoDテストの堅牢性を大幅に向上します。
論文 参考訳(メタデータ) (2024-07-18T12:00:32Z) - GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models [41.76935689355034]
識別的および生成的事前学習により、強力な一般化能力を持つ幾何推定モデルが得られた。
幾何推定モデルの評価と解析のための,公平で強力なベースラインを構築した。
多様なシーンと高品質なアノテーションを用いた幾何推定タスクにおいて,より困難なベンチマークを用いて,単色幾何推定器の評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:44:12Z) - Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning [0.2812395851874055]
本稿では,AIモデルのバイアスを取り除くために,複数の手法を用いた包括的アプローチを提案する。
我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。
我々は、単一のバイアスのないニューラルネットワークをもたらす知識蒸留を用いて、ソリューションを結論付けている。
論文 参考訳(メタデータ) (2024-02-01T09:24:36Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。