論文の概要: AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11110v1
- Date: Sun, 08 Jun 2025 14:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.470346
- Title: AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
- Title(参考訳): AssertBench: 大規模言語モデルにおける自己評価ベンチマーク
- Authors: Jaeho Lee, Atharv Chowdhary,
- Abstract要約: AssertBench氏は、事実的に真のステートメントの方向性のフレーミングがモデル合意にどのように影響するかを論じている。
私たちは2つのフレーミングプロンプトを構築します。1つは、ユーザがそのステートメントが事実正しいと主張するもので、もう1つは、ユーザがそのステートメントが正しくないと主張するものです。
次に、モデルの合意と推論を記録します。
- 参考スコア(独自算出の注目度): 12.515874333424929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent benchmarks have probed factual consistency and rhetorical robustness in Large Language Models (LLMs). However, a knowledge gap exists regarding how directional framing of factually true statements influences model agreement, a common scenario for LLM users. AssertBench addresses this by sampling evidence-supported facts from FEVEROUS, a fact verification dataset. For each (evidence-backed) fact, we construct two framing prompts: one where the user claims the statement is factually correct, and another where the user claims it is incorrect. We then record the model's agreement and reasoning. The desired outcome is that the model asserts itself, maintaining consistent truth evaluation across both framings, rather than switching its evaluation to agree with the user. AssertBench isolates framing-induced variability from the model's underlying factual knowledge by stratifying results based on the model's accuracy on the same claims when presented neutrally. In doing so, this benchmark aims to measure an LLM's ability to "stick to its guns" when presented with contradictory user assertions about the same fact. The complete source code is available at https://github.com/achowd32/assert-bench.
- Abstract(参考訳): 最近のベンチマークでは、Large Language Models (LLMs)における事実整合性と修辞的堅牢性が調査されている。
しかし,現実的真理文の方向フレーミングがモデル合意にどのように影響するかについては,LLMユーザにとって共通シナリオである知識ギャップが存在する。
AssertBenchは、事実検証データセットであるFEVEROUSから証拠支援された事実をサンプリングすることで、この問題に対処する。
それぞれの(証拠に裏付けられた)事実に対して、私たちは2つのフレーミングプロンプトを構築します。
次に、モデルの合意と推論を記録します。
望ましい結果は、モデルが自身を主張し、ユーザーと同意するために評価を切り替えるのではなく、両方のフレーミングにわたって一貫性のある真実評価を維持することである。
AssertBenchは、モデルが中立に提示されたときと同じクレーム上のモデルの精度に基づいて結果を階層化することによって、モデルの基礎となる事実知識からフレーミングによって引き起こされる変数を分離する。
このベンチマークは、同じ事実に関する矛盾したユーザアサーションを示す際に、LLMが"銃にくっつく"能力を測定することを目的としている。
ソースコードはhttps://github.com/achowd32/assert-bench.orgで公開されている。
関連論文リスト
- Self-Adaptive Paraphrasing and Preference Learning for Improved Claim Verifiability [9.088303226909277]
事実チェックにおいて、クレームの構造と言い換えは、モデルの判断を正確に予測する能力に重大な影響を及ぼす。
ラベル付きトレーニングデータに依存しないクレームを抽出する自己適応型手法を提案する。
本稿では,従来のソーシャルメディアの定式化よりも検証可能なクレームパラフレーズを抽出した。
論文 参考訳(メタデータ) (2024-12-16T10:54:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。