Fugu-MT 論文翻訳(概要): Efficient Controller Learning from Human Preferences and Numerical Data Via Multi-Modal Surrogate Models

論文の概要: Efficient Controller Learning from Human Preferences and Numerical Data Via Multi-Modal Surrogate Models

arxiv url: http://arxiv.org/abs/2603.24138v1
Date: Wed, 25 Mar 2026 10:04:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.238536
Title: Efficient Controller Learning from Human Preferences and Numerical Data Via Multi-Modal Surrogate Models
Title（参考訳）: マルチモーダルサロゲートモデルを用いた人間の選好と数値データからの効率的な制御器学習
Authors: Lukas Theiner, Maik Pfefferkorn, Yongpeng Zhao, Sebastian Hirt, Rolf Findeisen,
Abstract要約: 本稿では,低忠実度数値データと高忠実度人間の嗜好を融合したマルチ忠実・マルチモーダルベイズ最適化フレームワークを提案する。本稿では,自律走行車の軌道プランナをチューニングすることで,数値データと嗜好データを組み合わせることで,人間の意思決定者による実験の必要性を著しく低減することを示す。
参考スコア（独自算出の注目度）: 1.2526963688768455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tuning control policies manually to meet high-level objectives is often time-consuming. Bayesian optimization provides a data-efficient framework for automating this process using numerical evaluations of an objective function. However, many systems, particularly those involving humans, require optimization based on subjective criteria. Preferential Bayesian optimization addresses this by learning from pairwise comparisons instead of quantitative measurements, but relying solely on preference data can be inefficient. We propose a multi-fidelity, multi-modal Bayesian optimization framework that integrates low-fidelity numerical data with high-fidelity human preferences. Our approach employs Gaussian process surrogate models with both hierarchical, autoregressive and non-hierarchical, coregionalization-based structures, enabling efficient learning from mixed-modality data. We illustrate the framework by tuning an autonomous vehicle's trajectory planner, showing that combining numerical and preference data significantly reduces the need for experiments involving the human decision maker while effectively adapting driving style to individual preferences.
Abstract（参考訳）: 高いレベルの目標を達成するために手動でコントロールポリシーをチューニングするのは、しばしば時間を要する。ベイズ最適化は、目的関数の数値評価を用いて、このプロセスを自動化するためのデータ効率のよいフレームワークを提供する。しかしながら、多くのシステム、特に人間を含むシステムは、主観的基準に基づいて最適化を必要とする。優先順位ベイズ最適化は、定量的な測定ではなくペアワイズ比較から学習することでこの問題に対処するが、選好データのみに依存することは非効率である。本稿では,低忠実度数値データと高忠実度人間の嗜好を融合したマルチ忠実・マルチモーダルベイズ最適化フレームワークを提案する。このアプローチでは,階層的,自己回帰的,非階層的,非階層的,コリージョン化に基づくモデルを用いて,混合モダリティデータからの効率的な学習を実現する。本研究では,自律走行車両の軌道プランナをチューニングすることにより,数値データと嗜好データを組み合わせることにより,運転スタイルを個別の嗜好に効果的に適用しつつ,人間の意思決定者を含む実験の必要性を著しく低減することを示す。

関連論文リスト

Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文参考訳（メタデータ） (2025-09-03T10:20:08Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
A Data Driven Sequential Learning Framework to Accelerate and Optimize Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文参考訳（メタデータ） (2023-04-18T20:33:08Z)
Optimizing Closed-Loop Performance with Data from Similar Systems: A Bayesian Meta-Learning Approach [1.370633147306388]
性能最適化タスクから収集したデータに基づいて,メタ学習を用いて初期サロゲートモデルを生成する。制御系の性能最適化を高速化するためのDKN-BO手法の有効性を実証した。
論文参考訳（メタデータ） (2022-10-31T18:25:47Z)
Conservative Objective Models for Effective Offline Model-Based Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。 COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文参考訳（メタデータ） (2021-07-14T17:55:28Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。