論文の概要: The Art of Refusal: A Survey of Abstention in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.18418v1
- Date: Thu, 25 Jul 2024 22:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:49:32.087794
- Title: The Art of Refusal: A Survey of Abstention in Large Language Models
- Title(参考訳): 拒絶の芸術:大規模言語モデルにおける無視に関する調査
- Authors: Bingbing Wen, Jihan Yao, Shangbin Feng, Chenjun Xu, Yulia Tsvetkov, Bill Howe, Lucy Lu Wang,
- Abstract要約: 無視は、答えを提供するための大きな言語モデルの拒絶である。
本稿では,3つの視点(クエリ,モデル,人的価値)から禁忌を検証するためのフレームワークを提案する。
我々は,AIシステムにおける禁忌方法論の範囲と影響を広げることを目的としている。
- 参考スコア(独自算出の注目度): 39.042502727013364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in building LLM systems. In this survey, we introduce a framework to examine abstention behavior from three perspectives: the query, the model, and human values. We review the literature on abstention methods (categorized based on the development stages of LLMs), benchmarks, and evaluation metrics, and discuss the merits and limitations of prior work. We further identify and motivate areas for future research, such as encouraging the study of abstention as a meta-capability across tasks and customizing abstention abilities based on context. In doing so, we aim to broaden the scope and impact of abstention methodologies in AI systems.
- Abstract(参考訳): 大型言語モデル (LLM) の拒絶は, 幻覚を緩和し, LLM システム構築の安全性を高める可能性から, ますます認識されている。
本稿では,質問文,モデル,人的価値の3つの視点から,禁忌行動を調べるための枠組みを提案する。
本稿では, 留置方法, ベンチマーク, 評価指標に関する文献をレビューし, 先行作業のメリットと限界について考察する。
我々は、タスク間のメタ能力としての禁忌研究の奨励や、文脈に基づく禁忌能力のカスタマイズなど、将来の研究の領域を更に特定し、動機づける。
そこで我々は,AIシステムにおける禁忌方法論の範囲と影響を広げることを目指している。
関連論文リスト
- Rethinking stance detection: A theoretically-informed research agenda for user-level inference using language models [6.13550450196734]
スタンス検出は自然言語処理研究において一般的な課題となっている。
我々は,(i)スタンスの理論的概念化の欠如,(ii)個人レベルでのスタンス処理に関する重要なギャップを強調した。
論文 参考訳(メタデータ) (2025-02-04T07:52:20Z) - Development of Application-Specific Large Language Models to Facilitate Research Ethics Review [0.0]
IRBレビュープロセスを容易にするアプリケーション固有大規模言語モデル(LLM)を提案する。
これらのIRB固有のLCMは、IRB固有の文献と機関的なデータセットに基づいて微調整される。
我々は、事前レビューのスクリーニング、予備分析、一貫性チェック、意思決定支援など、潜在的なアプリケーションの概要を述べる。
論文 参考訳(メタデータ) (2025-01-18T12:05:05Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。
記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。
本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。
まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。
本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文 参考訳(メタデータ) (2024-09-05T17:59:12Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。