Fugu-MT 論文翻訳(概要): Alignment for Honesty

論文の概要: Alignment for Honesty

arxiv url: http://arxiv.org/abs/2312.07000v1
Date: Tue, 12 Dec 2023 06:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 17:10:48.976564
Title: Alignment for Honesty
Title（参考訳）: 誠実さの合理化
Authors: Yuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu
Abstract要約: 我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
参考スコア（独自算出の注目度）: 113.42626737461129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research has made significant strides in applying alignment techniques to enhance the helpfulness and harmlessness of large language models (LLMs) in accordance with human intentions. In this paper, we argue for the importance of alignment for honesty, ensuring that LLMs proactively refuse to answer questions when they lack knowledge, while still not being overly conservative. However, a pivotal aspect of alignment for honesty involves discerning the limits of an LLM's knowledge, which is far from straightforward. This challenge demands comprehensive solutions in terms of metric development, benchmark creation, and training methodologies. In this paper, we address these challenges by first establishing a precise problem definition and defining ``honesty'' inspired by the Analects of Confucius. This serves as a cornerstone for developing metrics that effectively measure an LLM's honesty by quantifying its progress post-alignment. Furthermore, we introduce a flexible training framework which is further instantiated by several efficient fine-tuning techniques that emphasize honesty without sacrificing performance on other tasks. Our extensive experiments reveal that these aligned models show a marked increase in honesty, as indicated by our proposed metrics. We open-source a wealth of resources to facilitate future research at https://github.com/GAIR-NLP/alignment-for-honesty, including honesty-aligned models, training and evaluation datasets for honesty alignment, concept glossary, as well as all relevant source code.
Abstract（参考訳）: 近年の研究では、人間の意図に従って大規模言語モデル(llm)の有用性と無害性を高めるためにアライメント技術を適用している。本稿では,LLMが知識の欠如に対して積極的に回答を拒む一方で,過度に保守的でないことを確実にする,誠実さの調整の重要性を論じる。しかし、正直さに対するアライメントの重要な側面は、単純ではないllmの知識の限界を理解することである。この課題は、メトリック開発、ベンチマーク作成、トレーニング方法論という観点で包括的なソリューションを要求する。本稿では,これらの課題に,まずは厳密な問題定義を定め,儒教の解釈に触発された「正直」を定め,対処する。これは、LCMの誠実さを定量的に測定し、調整後の進捗を定量化するメトリクスを開発するための基盤となる。さらに、他のタスクのパフォーマンスを犠牲にすることなく、誠実さを強調する複数の効率的な微調整手法により、よりフレキシブルなトレーニングフレームワークを導入する。広範な実験により,提案する指標で示されるように,これらの整合モデルが誠実さを著しく高めていることが判明した。私たちはhttps://github.com/gair-nlp/alignment-for-honestyで将来の研究を促進するための豊富なリソースをオープンソースとして公開しています。

関連論文リスト

Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文参考訳（メタデータ） (2025-07-25T20:52:58Z)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning [74.21524111840652]
本稿では、textitKnowledge-aligned Language Modeling アプローチである textbfKaLM を提案する。明示的な知識アライメントと暗黙的な知識アライメントという共同目的を通じて、KG知識と整合するように、自己回帰的な大規模言語モデルを微調整する。特に,本手法は知識駆動型タスクの評価において顕著な性能向上を実現している。
論文参考訳（メタデータ） (2024-12-06T11:08:24Z)
FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-02T16:03:13Z)
A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文参考訳（メタデータ） (2024-09-27T14:34:54Z)
BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文参考訳（メタデータ） (2024-06-19T06:46:59Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness [39.74642729786543]
我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
論文参考訳（メタデータ） (2024-03-30T02:08:28Z)
SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文参考訳（メタデータ） (2024-02-21T11:23:21Z)
Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文参考訳（メタデータ） (2024-02-05T15:43:50Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文参考訳（メタデータ） (2023-10-09T11:45:59Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。