論文の概要: AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11110v1
- Date: Sun, 08 Jun 2025 14:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.470346
- Title: AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
- Title(参考訳): AssertBench: 大規模言語モデルにおける自己評価ベンチマーク
- Authors: Jaeho Lee, Atharv Chowdhary,
- Abstract要約: AssertBench氏は、事実的に真のステートメントの方向性のフレーミングがモデル合意にどのように影響するかを論じている。
私たちは2つのフレーミングプロンプトを構築します。1つは、ユーザがそのステートメントが事実正しいと主張するもので、もう1つは、ユーザがそのステートメントが正しくないと主張するものです。
次に、モデルの合意と推論を記録します。
- 参考スコア(独自算出の注目度): 12.515874333424929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent benchmarks have probed factual consistency and rhetorical robustness in Large Language Models (LLMs). However, a knowledge gap exists regarding how directional framing of factually true statements influences model agreement, a common scenario for LLM users. AssertBench addresses this by sampling evidence-supported facts from FEVEROUS, a fact verification dataset. For each (evidence-backed) fact, we construct two framing prompts: one where the user claims the statement is factually correct, and another where the user claims it is incorrect. We then record the model's agreement and reasoning. The desired outcome is that the model asserts itself, maintaining consistent truth evaluation across both framings, rather than switching its evaluation to agree with the user. AssertBench isolates framing-induced variability from the model's underlying factual knowledge by stratifying results based on the model's accuracy on the same claims when presented neutrally. In doing so, this benchmark aims to measure an LLM's ability to "stick to its guns" when presented with contradictory user assertions about the same fact. The complete source code is available at https://github.com/achowd32/assert-bench.
- Abstract(参考訳): 最近のベンチマークでは、Large Language Models (LLMs)における事実整合性と修辞的堅牢性が調査されている。
しかし,現実的真理文の方向フレーミングがモデル合意にどのように影響するかについては,LLMユーザにとって共通シナリオである知識ギャップが存在する。
AssertBenchは、事実検証データセットであるFEVEROUSから証拠支援された事実をサンプリングすることで、この問題に対処する。
それぞれの(証拠に裏付けられた)事実に対して、私たちは2つのフレーミングプロンプトを構築します。
次に、モデルの合意と推論を記録します。
望ましい結果は、モデルが自身を主張し、ユーザーと同意するために評価を切り替えるのではなく、両方のフレーミングにわたって一貫性のある真実評価を維持することである。
AssertBenchは、モデルが中立に提示されたときと同じクレーム上のモデルの精度に基づいて結果を階層化することによって、モデルの基礎となる事実知識からフレーミングによって引き起こされる変数を分離する。
このベンチマークは、同じ事実に関する矛盾したユーザアサーションを示す際に、LLMが"銃にくっつく"能力を測定することを目的としている。
ソースコードはhttps://github.com/achowd32/assert-bench.orgで公開されている。
関連論文リスト
- CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Self-Adaptive Paraphrasing and Preference Learning for Improved Claim Verifiability [9.088303226909277]
事実チェックにおいて、クレームの構造と言い換えは、モデルの判断を正確に予測する能力に重大な影響を及ぼす。
ラベル付きトレーニングデータに依存しないクレームを抽出する自己適応型手法を提案する。
本稿では,従来のソーシャルメディアの定式化よりも検証可能なクレームパラフレーズを抽出した。
論文 参考訳(メタデータ) (2024-12-16T10:54:57Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - SAGA: Summarization-Guided Assert Statement Generation [34.51502565985728]
本稿では,アサート文の自動生成のための新しい要約誘導手法を提案する。
我々は、事前訓練された言語モデルを参照アーキテクチャとして利用し、アサート文生成のタスクでそれを微調整する。
論文 参考訳(メタデータ) (2023-05-24T07:03:21Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。