論文の概要: Alignment for Honesty
- arxiv url: http://arxiv.org/abs/2312.07000v2
- Date: Mon, 28 Oct 2024 05:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:37.789181
- Title: Alignment for Honesty
- Title(参考訳): アライメント・フォー・プライオリティ (特集 名誉のためのアライメント)
- Authors: Yuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu,
- Abstract要約: 最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
- 参考スコア(独自算出の注目度): 105.72465407518325
- License:
- Abstract: Recent research has made significant strides in aligning large language models (LLMs) with helpfulness and harmlessness. In this paper, we argue for the importance of alignment for \emph{honesty}, ensuring that LLMs proactively refuse to answer questions when they lack knowledge, while still not being overly conservative. However, a pivotal aspect of alignment for honesty involves discerning an LLM's knowledge boundaries, which demands comprehensive solutions in terms of metric development, benchmark creation, and training methodologies. We address these challenges by first establishing a precise problem definition and defining ``honesty'' inspired by the Analects of Confucius. This serves as a cornerstone for developing metrics that effectively measure an LLM's honesty by quantifying its progress post-alignment. Furthermore, we introduce a flexible training framework which is further instantiated by several efficient fine-tuning techniques that emphasize honesty without sacrificing performance on other tasks. Our extensive experiments reveal that these aligned models show a marked increase in honesty, as indicated by our proposed metrics. We open-source all relevant resources to facilitate future research at \url{https://github.com/GAIR-NLP/alignment-for-honesty}.
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿では,LLMが知識の欠如に対して積極的に回答を拒みながら,過度に保守的でないことを確実にする,emph{honesty} のアライメントの重要性を論じる。
しかしながら、誠実性に対するアライメントの重要な側面は、メトリクス開発、ベンチマーク作成、トレーニング方法論の観点で包括的なソリューションを必要とするLLMの知識境界を識別することである。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の解釈に触発された「正直」を定義します。
これは、LCMの誠実さを定量的に測定し、調整後の進捗を定量化するメトリクスを開発するための基盤となる。
さらに、他のタスクのパフォーマンスを犠牲にすることなく、誠実さを強調する複数の効率的な微調整手法により、よりフレキシブルなトレーニングフレームワークを導入する。
我々の広範な実験により、これらの整列モデルは、提案した指標によって示されるように、顕著な正当性の増加を示すことが明らかとなった。
我々は,今後の研究を促進するため,すべての関連リソースをオープンソースとして公開している。
関連論文リスト
- FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。
本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。
オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-02T16:03:13Z) - A Survey on the Honesty of Large Language Models [115.8458596738659]
正直とは、大きな言語モデル(LLM)を人間の価値と整合させる基本的な原則である。
将来性はあるものの、現在のLLMは依然として重大な不正直な行動を示す。
論文 参考訳(メタデータ) (2024-09-27T14:34:54Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness [39.74642729786543]
我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。
実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-30T02:08:28Z) - SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。