論文の概要: From Hallucination to Scheming: A Unified Taxonomy and Benchmark Analysis for LLM Deception
- arxiv url: http://arxiv.org/abs/2604.04788v1
- Date: Mon, 06 Apr 2026 15:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.264295
- Title: From Hallucination to Scheming: A Unified Taxonomy and Benchmark Analysis for LLM Deception
- Title(参考訳): 幻覚からスキーマへ:統一分類学とLCMの誤認のベンチマーク分析
- Authors: Jerick Shi, Terry Jingcheng Zhang, Zhijing Jin, Vincent Conitzer,
- Abstract要約: 本稿では,3つの相補的な次元に沿って整理された統合分類法を提案する。
この分類を50の既存のベンチマークに適用すると、すべてのベンチマークが実用的歪み、帰属性、能力的自己認識を極端に過小評価されているまま、製造をテストしていることがわかる。
- 参考スコア(独自算出の注目度): 32.09232866919422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) produce systematically misleading outputs, from hallucinated citations to strategic deception of evaluators, yet these phenomena are studied by separate communities with incompatible terminology. We propose a unified taxonomy organized along three complementary dimensions: degree of goal-directedness (behavioral to strategic deception), object of deception, and mechanism (fabrication, omission, or pragmatic distortion). Applying this taxonomy to 50 existing benchmarks reveals that every benchmark tests fabrication while pragmatic distortion, attribution, and capability self-knowledge remain critically under-covered, and strategic deception benchmarks are nascent. We offer concrete recommendations for developers and regulators, including a minimal reporting template for positioning future work within our framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幻覚的引用から評価者の戦略的偽装まで、体系的に誤解を招くアウトプットを生成するが、これらの現象は相容れない用語を持つ別のコミュニティによって研究されている。
本稿では,3つの相補的な次元に沿って編成された統合された分類法を提案する。
この分類を50の既存のベンチマークに適用すると、すべてのベンチマークが実用的歪み、帰属性、能力的自己認識を伴いながら作成され、戦略的偽善ベンチマークは初期段階にあることが分かる。
当社は開発者や規制当局に対して,フレームワーク内での今後の作業の位置付けに関する最小限のレポーティングテンプレートを含む,具体的なレコメンデーションを提供しています。
関連論文リスト
- Beyond the Academic Monoculture: A Unified Framework and Industrial Perspective for Attributed Graph Clustering [75.50670592447219]
分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を共同でモデル化することによって、ノードを凝集性グループに分割する基本的な教師なしタスクである。
この調査は、3つの相補的な視点からAGCを包括的かつ工業的に基礎づけたレビューを提供する。
論文 参考訳(メタデータ) (2026-03-21T14:15:34Z) - LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals [18.015918696398085]
概念に基づく説明は、高レベルの概念がモデル行動にどのように影響するかを定量化する。
既存のベンチマークは、不完全なプロキシとして機能する費用のかかる人手による対策に依存しています。
本稿では,構造上の逆ファクトペアを含むデータセットを構築するためのフレームワーク,LIBERTyを紹介する。
論文 参考訳(メタデータ) (2026-01-15T18:54:50Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。