論文の概要: Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
- arxiv url: http://arxiv.org/abs/2503.20105v1
- Date: Tue, 25 Mar 2025 23:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:01.488073
- Title: Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
- Title(参考訳): 事前学習デモからのインシシットフィードバックを用いたマルチエージェント運動生成モデルの直接学習後予測アライメント
- Authors: Ran Tian, Kratarth Goel,
- Abstract要約: トレーニング後の選好アライメントは、人間の好む動きを生み出すために不可欠である。
我々は、事前学習されたモデルの世代間での選好ランキングを構築するために、事前学習のデモで符号化された暗黙の選好を利用する。
提案手法を大規模交通シミュレーションに適用し,事前学習したモデルが生成する行動のリアリズムを改善する上での有効性を実証する。
- 参考スコア(独自算出の注目度): 5.4726256850993735
- License:
- Abstract: Recent advancements in LLMs have revolutionized motion generation models in embodied applications. While LLM-type auto-regressive motion generation models benefit from training scalability, there remains a discrepancy between their token prediction objectives and human preferences. As a result, models pre-trained solely with token-prediction objectives often generate behaviors that deviate from what humans would prefer, making post-training preference alignment crucial for producing human-preferred motions. Unfortunately, post-training alignment requires extensive preference rankings of motions generated by the pre-trained model, which are costly to annotate, especially in multi-agent settings. Recently, there has been growing interest in leveraging pre-training demonstrations to scalably generate preference data for post-training alignment. However, these methods often adopt an adversarial assumption, treating all pre-trained model-generated samples as unpreferred examples. This adversarial approach overlooks the valuable signal provided by preference rankings among the model's own generations, ultimately reducing alignment effectiveness and potentially leading to misaligned behaviors. In this work, instead of treating all generated samples as equally bad, we leverage implicit preferences encoded in pre-training demonstrations to construct preference rankings among the pre-trained model's generations, offering more nuanced preference alignment guidance with zero human cost. We apply our approach to large-scale traffic simulation and demonstrate its effectiveness in improving the realism of pre-trained model's generated behaviors, making a lightweight 1M motion generation model comparable to SOTA large imitation-based models by relying solely on implicit feedback from pre-training demonstrations, without additional post-training human preference annotations or high computational costs.
- Abstract(参考訳): LLMの最近の進歩は、エンボディド・アプリケーションにおけるモーション・ジェネレーション・モデルに革命をもたらした。
LLM型自動回帰運動生成モデルは、トレーニングスケーラビリティの恩恵を受けるが、トークン予測目標と人間の嗜好との間には相違点がある。
結果として、トークン予測目的のみで事前訓練されたモデルは、人間が好むものから逸脱する振る舞いをしばしば生み出す。
残念なことに、トレーニング後のアライメントは、特にマルチエージェント設定において、アノテートにコストがかかる事前トレーニングモデルによって生成される動きの広範な優先順位付けを必要とする。
近年,事前学習のデモンストレーションを活用して,学習後アライメントのための選好データを生成することへの関心が高まっている。
しかしながら、これらの手法はしばしば逆の仮定を採用し、事前訓練されたモデル生成サンプルを非推奨の例として扱う。
この敵対的アプローチは、モデルの世代間での優先順位付けによって得られる貴重な信号を見落とし、最終的にアライメントの有効性を低下させ、潜在的に不整合な振る舞いにつながる可能性がある。
本研究では,すべての生成したサンプルを等しく悪い扱いをする代わりに,事前学習されたモデルの世代間での選好ランキングを構築するために,事前学習のデモで符号化された暗黙の選好を利用して,より微妙な選好アライメントガイダンスを人的コストゼロで提供する。
提案手法を大規模交通シミュレーションに適用し,事前学習後の人間の嗜好アノテーションや高い計算コストを伴わずに,事前学習後の実験からの暗黙のフィードバックのみを頼りに,SOTA大模倣モデルに匹敵する軽量な1M運動生成モデルを構築することにより,事前学習モデルが生成する行動の現実性向上に有効であることを示す。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Annealed Winner-Takes-All for Motion Forecasting [48.200282332176094]
本稿では,AWTAの損失を最先端のモーション予測モデルと統合して性能を向上させる方法を示す。
我々の手法は、WTAを用いて訓練された任意の軌道予測モデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-17T13:26:17Z) - Amuro and Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models [17.288865972774587]
本研究では,複数の中間学習モデルチェックポイントの微調整による事前学習と微調整の関係について検討する。
18のデータセットで得られた結果は、事前学習が微調整後に発表される潜在的な方法でモデルを改善することを示唆している。
論文 参考訳(メタデータ) (2024-08-13T06:28:43Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Evaluation of Differentially Constrained Motion Models for Graph-Based
Trajectory Prediction [1.1947990549568765]
本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。
この研究は、低階積分子モデルのようなより単純なモデルは、正確な予測を達成するために、より複雑な、例えばキネマティックモデルよりも好まれることを示している。
論文 参考訳(メタデータ) (2023-04-11T10:15:20Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。