Fugu-MT 論文翻訳(概要): Value Alignment from Unstructured Text

論文の概要: Value Alignment from Unstructured Text

arxiv url: http://arxiv.org/abs/2408.10392v1
Date: Mon, 19 Aug 2024 20:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 17:43:23.963431
Title: Value Alignment from Unstructured Text
Title（参考訳）: 非構造化テキストからの値アライメント
Authors: Inkit Padhi, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Manish Nagireddy, Pierre Dognin, Kush R. Varshney,
Abstract要約: 構造化されていないテキストデータに表される暗黙的および明示的な値に,大規模言語モデル(LLM)を整合させる体系的なエンドツーエンド手法を提案する。提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。提案手法は,LCMを文書内に埋め込まれた値に忠実に整合させ,他の手法に対する性能向上を示す。
参考スコア（独自算出の注目度）: 32.9140028463247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aligning large language models (LLMs) to value systems has emerged as a significant area of research within the fields of AI and NLP. Currently, this alignment process relies on the availability of high-quality supervised and preference data, which can be both time-consuming and expensive to curate or annotate. In this paper, we introduce a systematic end-to-end methodology for aligning LLMs to the implicit and explicit values represented in unstructured text data. Our proposed approach leverages the use of scalable synthetic data generation techniques to effectively align the model to the values present in the unstructured data. Through two distinct use-cases, we demonstrate the efficiency of our methodology on the Mistral-7B-Instruct model. Our approach credibly aligns LLMs to the values embedded within documents, and shows improved performance against other approaches, as quantified through the use of automatic metrics and win rates.
Abstract（参考訳）: 大規模言語モデル(LLM)をバリューシステムに適応させることは、AIとNLPの分野における重要な研究領域として現れている。現在、このアライメントプロセスは高品質な教師付きデータや好みデータの利用に頼っている。本稿では,非構造化テキストデータに表される暗黙的かつ明示的な値にLCMを整合させる手法を提案する。提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。 2つの異なるユースケースを通して、我々はMistral-7B-Instructモデル上で方法論の有効性を実証した。提案手法は, LLMを文書内に埋め込まれた値に忠実に整合させ, 自動メトリクスと勝利率を用いて定量化した他の手法に対する性能向上を示す。

関連論文リスト

The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-25T06:40:25Z)
Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文参考訳（メタデータ） (2025-06-11T02:08:52Z)
Larger or Smaller Reward Margins to Select Preferences for Alignment? [47.11487070429289]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。モデルが持つ現在の暗黙の報酬マージンと目標の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャル計量を導入する。実験結果から,この測定値から選択したデータによるトレーニングはアライメント性能を継続的に向上させることが示された。
論文参考訳（メタデータ） (2025-02-25T06:43:24Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文参考訳（メタデータ） (2024-12-22T21:56:15Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-15T19:36:15Z)
Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-15T09:19:42Z)
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文参考訳（メタデータ） (2024-06-20T17:59:58Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文参考訳（メタデータ） (2024-05-28T00:08:29Z)
RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-27T09:47:36Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Semantics Altering Modifications for Evaluating Comprehension in Machine Reading [1.1355639618103164]
機械読解モデルがセマンティック・アターリング・モディフィケーションを正しく処理できるかどうかを検討する。本稿では,原例と変更例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。本手法を用いて,SAMデータを正しく処理する能力について,MRCモデルを評価する。
論文参考訳（メタデータ） (2020-12-07T21:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。