論文の概要: ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
- arxiv url: http://arxiv.org/abs/2508.07321v1
- Date: Sun, 10 Aug 2025 12:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.809573
- Title: ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
- Title(参考訳): ObfusQAte: 難解なFactual Question AnsweringにおけるLCMロバスト性評価フレームワークの提案
- Authors: Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh,
- Abstract要約: 大規模言語モデル(LLM)は、現実的な質問応答が可能なAIシステムの開発に寄与している。
難解な質問が提示されたとき、LSMの堅牢性をテストする既知の研究はない。
本稿では,多層難読化レベルのフレームワークであるObfusQAを紹介し,LLMの能力について検討する。
- 参考スコア(独自算出の注目度): 3.131352561462676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed to examine LLM capabilities across three distinct dimensions: (i) Named-Entity Indirection, (ii) Distractor Indirection, and (iii) Contextual Overload. By capturing these fine-grained distinctions in language, ObfusQA provides a comprehensive benchmark for evaluating LLM robustness and adaptability. Our study observes that LLMs exhibit a tendency to fail or generate hallucinated responses when confronted with these increasingly nuanced variations. To foster research in this direction, we make ObfusQAte publicly available.
- Abstract(参考訳): LLM(Large Language Models)の急速な普及は、現実的な質問応答(QA)が可能な公平なAIシステムの開発に大きく貢献している。
しかし、難解な質問を提示する際、LSMの堅牢性をテストする既知の研究はない。
これらの制限を体系的に評価するために、ObfusQAteという新しい手法を提案し、それを活用して、三つの異なる次元にわたるLLM機能を調べるために設計された多層難読度を持つ包括的で第一級のフレームワークであるObfusQAを導入する。
i) Named-Entity Indirection,
(二)ディトラクタ間接、及び
(iii)コンテキストオーバーロード。
ObfusQAは、これらの細かい言語の違いを捉えることで、LSMの堅牢性と適応性を評価するための包括的なベンチマークを提供する。
本研究は, LLMがこれらの変化に直面すると, 失敗する傾向や幻覚反応を生じる傾向を観察する。
この方向の研究を促進するため、ObfusQAteを一般公開する。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。