論文の概要: Alignment for Honesty
- arxiv url: http://arxiv.org/abs/2312.07000v1
- Date: Tue, 12 Dec 2023 06:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:10:48.976564
- Title: Alignment for Honesty
- Title(参考訳): 誠実さの合理化
- Authors: Yuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu
- Abstract要約: 我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。
この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。
正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
- 参考スコア(独自算出の注目度): 113.42626737461129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has made significant strides in applying alignment techniques
to enhance the helpfulness and harmlessness of large language models (LLMs) in
accordance with human intentions. In this paper, we argue for the importance of
alignment for honesty, ensuring that LLMs proactively refuse to answer
questions when they lack knowledge, while still not being overly conservative.
However, a pivotal aspect of alignment for honesty involves discerning the
limits of an LLM's knowledge, which is far from straightforward. This challenge
demands comprehensive solutions in terms of metric development, benchmark
creation, and training methodologies. In this paper, we address these
challenges by first establishing a precise problem definition and defining
``honesty'' inspired by the Analects of Confucius. This serves as a cornerstone
for developing metrics that effectively measure an LLM's honesty by quantifying
its progress post-alignment. Furthermore, we introduce a flexible training
framework which is further instantiated by several efficient fine-tuning
techniques that emphasize honesty without sacrificing performance on other
tasks. Our extensive experiments reveal that these aligned models show a marked
increase in honesty, as indicated by our proposed metrics. We open-source a
wealth of resources to facilitate future research at
https://github.com/GAIR-NLP/alignment-for-honesty, including honesty-aligned
models, training and evaluation datasets for honesty alignment, concept
glossary, as well as all relevant source code.
- Abstract(参考訳): 近年の研究では、人間の意図に従って大規模言語モデル(llm)の有用性と無害性を高めるためにアライメント技術を適用している。
本稿では,LLMが知識の欠如に対して積極的に回答を拒む一方で,過度に保守的でないことを確実にする,誠実さの調整の重要性を論じる。
しかし、正直さに対するアライメントの重要な側面は、単純ではないllmの知識の限界を理解することである。
この課題は、メトリック開発、ベンチマーク作成、トレーニング方法論という観点で包括的なソリューションを要求する。
本稿では,これらの課題に,まずは厳密な問題定義を定め,儒教の解釈に触発された「正直」を定め,対処する。
これは、LCMの誠実さを定量的に測定し、調整後の進捗を定量化するメトリクスを開発するための基盤となる。
さらに、他のタスクのパフォーマンスを犠牲にすることなく、誠実さを強調する複数の効率的な微調整手法により、よりフレキシブルなトレーニングフレームワークを導入する。
広範な実験により,提案する指標で示されるように,これらの整合モデルが誠実さを著しく高めていることが判明した。
私たちはhttps://github.com/gair-nlp/alignment-for-honestyで将来の研究を促進するための豊富なリソースをオープンソースとして公開しています。
関連論文リスト
- FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。
本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。
オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-02T16:03:13Z) - A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。
将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文 参考訳(メタデータ) (2024-09-27T14:34:54Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness [39.74642729786543]
我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。
実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-30T02:08:28Z) - SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。