Fugu-MT 論文翻訳(概要): MAPLE: A Framework for Active Preference Learning Guided by Large Language Models

論文の概要: MAPLE: A Framework for Active Preference Learning Guided by Large Language Models

arxiv url: http://arxiv.org/abs/2412.07207v2
Date: Fri, 20 Dec 2024 01:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.534896
Title: MAPLE: A Framework for Active Preference Learning Guided by Large Language Models
Title（参考訳）: MAPLE: 大規模言語モデルでガイドされたアクティブな嗜好学習フレームワーク
Authors: Saaduddin Mahmud, Mason Nakamura, Shlomo Zilberstein,
Abstract要約: 大規模言語モデルに基づくベイズ的能動的嗜好学習のためのフレームワークであるMAPLEを紹介する。以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。
参考スコア（独自算出の注目度）: 9.37268652939886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of large language models (LLMs) has sparked significant interest in using natural language for preference learning. However, existing methods often suffer from high computational burdens, taxing human supervision, and lack of interpretability. To address these issues, we introduce MAPLE, a framework for large language model-guided Bayesian active preference learning. MAPLE leverages LLMs to model the distribution over preference functions, conditioning it on both natural language feedback and conventional preference learning feedback, such as pairwise trajectory rankings. MAPLE also employs active learning to systematically reduce uncertainty in this distribution and incorporates a language-conditioned active query selection mechanism to identify informative and easy-to-answer queries, thus reducing human burden. We evaluate MAPLE's sample efficiency and preference inference quality across two benchmarks, including a real-world vehicle route planning benchmark using OpenStreetMap data. Our results demonstrate that MAPLE accelerates the learning process and effectively improves humans' ability to answer queries.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現は、好みの学習に自然言語を使うことに大きな関心を喚起した。しかし、既存の手法は、しばしば高い計算負担、人間の監督への課税、解釈可能性の欠如に悩まされる。これらの問題に対処するため,大規模言語モデルに基づくベイジアン能動的嗜好学習のためのフレームワークであるMAPLEを紹介した。 MAPLE は LLM を利用して好み関数の分布をモデル化し、自然言語フィードバックと従来の嗜好学習フィードバックの両方を条件付けている。 MAPLEはまた、この分布における不確実性を体系的に低減するために、アクティブラーニングを採用し、言語条件のアクティブクエリ選択機構を導入して、情報的かつ分かりやすいクエリを識別し、人間の負担を軽減する。我々は,OpenStreetMapデータを用いた実車載経路計画ベンチマークを含む2つのベンチマークにおいて,MAPLEのサンプル効率と選好推論品質を評価した。以上の結果から,MAPLEは学習過程を加速し,質問に答える能力を向上させることが示唆された。

関連論文リスト

Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking [21.23826888841565]
本稿では、推論集約型文書ランキングのための小言語モデルをトレーニングするための新しいアプローチを提案する。我々は Web データと教師 LLM を用いて,関連性の説明付き高品質な学習例を自動生成する。私たちのモデルは、他のアプローチよりもはるかに少ないパラメータを使用しながら、リーダーボードで3位です。
論文参考訳（メタデータ） (2025-04-04T21:27:48Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
Efficient or Powerful? Trade-offs Between Machine Learning and Deep Learning for Mental Illness Detection on Social Media [0.036136619420474754]
ソーシャルメディアプラットフォームは、うつ病、不安、自殺などの状況に関するユーザー生成の議論を捉え、メンタルヘルスのトレンドに関する貴重な洞察を提供する。機械学習(ML)とディープラーニング(DL)モデルは、テキストデータからメンタルヘルス状態を分類するためにますます応用されている。本研究では、ALBERTやGated Recurrent Units(GRU)といったディープラーニングアーキテクチャとともに、ロジスティック回帰、ランダムフォレスト、LightGBMを含む複数のMLモデルを評価する。その結果,MLモデルとDLモデルでは,中規模データセットの分類性能が同等であることが示唆された。
論文参考訳（メタデータ） (2025-03-03T00:51:41Z)
Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文参考訳（メタデータ） (2024-06-17T07:25:09Z)
Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。 OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文参考訳（メタデータ） (2024-06-12T08:31:34Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages [1.149936119867417]
低リソース言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面している。データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。 GPT-4-Turboを用いた実証的な評価では、データ要求が大幅に削減され、最先端の性能が実証された。
論文参考訳（メタデータ） (2024-04-02T19:34:22Z)
Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-03-08T18:57:52Z)
Active Preference Inference using Language Models and Probabilistic Reasoning [13.523369679010685]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-12-19T09:58:54Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Offline RL for Natural Language Generation with Implicit Language Q Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。 ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文参考訳（メタデータ） (2022-06-05T18:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。