論文の概要: Anchored Alignment for Self-Explanations Enhancement
- arxiv url: http://arxiv.org/abs/2410.13216v1
- Date: Thu, 17 Oct 2024 04:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:02.640704
- Title: Anchored Alignment for Self-Explanations Enhancement
- Title(参考訳): 自己説明力向上のためのアンコレッドアライメント
- Authors: Luis Felipe Villa-Arenas, Ata Nizamoglu, Qianli Wang, Sebastian Möller, Vera Schmitt,
- Abstract要約: 本稿では,大規模言語モデルによる推論の表現能力の向上を目的としたアライメント手法を提案する。
提案手法は,説明品質評価,自己指導データセット生成,モデルアライメントという3つの重要な要素から構成される。
- 参考スコア(独自算出の注目度): 10.322090458234735
- License:
- Abstract: In this work, we introduce a methodology for alignment designed to enhance the ability of large language models (LLMs) to articulate their reasoning (self-explanation) even in the absence of annotated rationale explanations. Our alignment methodology comprises three key components: explanation quality assessment, self-instruction dataset generation, and model alignment. Additionally, we present a novel technique called Alignment with Anchor Preference Pairs, which improves the selection of preference pairs by categorizing model outputs into three groups: consistently correct, consistently incorrect, and variable. By applying tailored strategies to each category, we enhance the effectiveness of Direct Preference Optimization (DPO). Our experimental results demonstrate that this approach significantly improves explanation quality while maintaining accuracy compared to other fine-tuning strategies.
- Abstract(参考訳): 本研究では,注釈付き論理的説明がなくても,大規模言語モデル(LLM)の推論(自己説明)を明確化するためのアライメント手法を提案する。
我々のアライメント手法は、説明品質評価、自己インストラクションデータセット生成、モデルアライメントの3つの重要な要素から構成される。
さらに、モデル出力を3つのグループに分類することで、選好ペアの選択を改善する「アライメント・ウィズ・アンカー選好ペア」(Alignment with Anchor Preference Pairs)という新しい手法を提案する。
各カテゴリに調整戦略を適用することにより、直接選好最適化(DPO)の有効性を高める。
実験により,本手法は,他の微調整手法と比較して,精度を保ちながら説明精度を著しく向上することを示した。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Preference optimization of protein language models as a multi-objective
binder design paradigm [0.0]
命令の微調整と直接選好最適化に基づく多目的バインダー設計パラダイムを提案する。
提案したアライメント戦略により,ProtGPT2は特定の受容体に条件付けられたバインダーを効果的に設計し,薬物発生性基準を策定できることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:36:03Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Refining the Responses of LLMs by Themselves [0.0]
繰り返し自己評価最適化機構を導入し、イテレーションが進むにつれて出力品質が向上する可能性を秘めている。
実験結果から, GPT-3.5モデルにおける応答改善フレームワークの利用は, 最先端の GPT-4 モデルと同等あるいはそれ以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-06T13:03:45Z) - Heterogeneous Calibration: A post-hoc model-agnostic framework for
improved generalization [8.815439276597818]
モデル出力にポストホックモデル非依存変換を適用した不均一キャリブレーションの概念を導入し、二項分類タスクにおけるAUC性能を改善する。
単純なパターンを特徴空間の不均一なパーティションと呼び、各パーティションの完全校正がAUCを個別に最適化することを理論的に示す。
このフレームワークの理論的最適性はどんなモデルにも当てはまるが、ディープニューラルネットワーク(DNN)に注目し、このパラダイムの最も単純なインスタンス化をさまざまなオープンソースデータセットでテストする。
論文 参考訳(メタデータ) (2022-02-10T05:08:50Z) - Local and Global Context-Based Pairwise Models for Sentence Ordering [0.0]
本稿では,局所的およびグローバルな文脈に基づくペアワイズ・オーダリング・ストラテジーの集合を提示する。
提案手法は,この段落の豊富なグローバルな文脈情報を用いて,ペアの順序を予測する。
提案した2つのデコード戦略の解析は、ペアワイズモデルにおけるエラーの伝播をよりよく説明するのに役立つ。
論文 参考訳(メタデータ) (2021-10-08T17:57:59Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。