論文の概要: The Art of Refusal: A Survey of Abstention in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.18418v1
- Date: Thu, 25 Jul 2024 22:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:49:32.087794
- Title: The Art of Refusal: A Survey of Abstention in Large Language Models
- Title(参考訳): 拒絶の芸術:大規模言語モデルにおける無視に関する調査
- Authors: Bingbing Wen, Jihan Yao, Shangbin Feng, Chenjun Xu, Yulia Tsvetkov, Bill Howe, Lucy Lu Wang,
- Abstract要約: 無視は、答えを提供するための大きな言語モデルの拒絶である。
本稿では,3つの視点(クエリ,モデル,人的価値)から禁忌を検証するためのフレームワークを提案する。
我々は,AIシステムにおける禁忌方法論の範囲と影響を広げることを目的としている。
- 参考スコア(独自算出の注目度): 39.042502727013364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in building LLM systems. In this survey, we introduce a framework to examine abstention behavior from three perspectives: the query, the model, and human values. We review the literature on abstention methods (categorized based on the development stages of LLMs), benchmarks, and evaluation metrics, and discuss the merits and limitations of prior work. We further identify and motivate areas for future research, such as encouraging the study of abstention as a meta-capability across tasks and customizing abstention abilities based on context. In doing so, we aim to broaden the scope and impact of abstention methodologies in AI systems.
- Abstract(参考訳): 大型言語モデル (LLM) の拒絶は, 幻覚を緩和し, LLM システム構築の安全性を高める可能性から, ますます認識されている。
本稿では,質問文,モデル,人的価値の3つの視点から,禁忌行動を調べるための枠組みを提案する。
本稿では, 留置方法, ベンチマーク, 評価指標に関する文献をレビューし, 先行作業のメリットと限界について考察する。
我々は、タスク間のメタ能力としての禁忌研究の奨励や、文脈に基づく禁忌能力のカスタマイズなど、将来の研究の領域を更に特定し、動機づける。
そこで我々は,AIシステムにおける禁忌方法論の範囲と影響を広げることを目指している。
関連論文リスト
- Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。
記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。
本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。