論文の概要: Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis
- arxiv url: http://arxiv.org/abs/2508.03396v1
- Date: Tue, 05 Aug 2025 12:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.963112
- Title: Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis
- Title(参考訳): Hide and Seek with LLMs: A Adversarial Game for Sneaky Error Generation and Self-Improving diagnosis
- Authors: Rui Zou, Mengqi Wei, Yutao Zhu, Jirong Wen, Xin Zhao, Jing Chen,
- Abstract要約: 本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
- 参考スコア(独自算出の注目度): 51.88592148135258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel in reasoning and generation across domains, but still struggle with identifying and diagnosing complex errors. This stems mainly from training objectives that prioritize correct answers, limiting exposure to and learning from errors. While recent studies have begun to address this by introducing error signals, most rely on shallow, static errors, restricting improvement in deep diagnostic ability. To overcome this, we propose Hide and Seek Game (HSG), a dynamic adversarial framework for error generation and diagnosis, and evaluate it on mathematical problem-solving. HSG involves two adversarial roles: Sneaky, which "hides" by generating subtle, deceptive reasoning errors, and Diagnosis, which "seeks" to accurately detect them. Through adversarial co-evolution, both error stealth and diagnostic precision are enhanced. Experiments on several math reasoning tasks show that HSG significantly boosts error diagnosis, achieving 16.8\%--31.4\% higher accuracy than baselines like GPT-4o. We also release a challenging dataset of deceptive errors and diagnostic annotations as a benchmark for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)はドメイン間の推論と生成に優れていますが、複雑なエラーの特定と診断に苦慮しています。
これは主に、正しい回答を優先し、露出を制限し、エラーから学習するトレーニング目標に起因しています。
近年の研究では、エラー信号の導入によってこの問題に対処し始めているが、ほとんどの場合、浅い静的なエラーに依存しており、深い診断能力の改善が制限されている。
これを克服するために,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG) を提案し,数学的問題解決に基づいて評価する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
逆の共進化により、エラーステルスと診断精度が向上する。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8\%--31.4\%高い精度を達成した。
また、将来の研究のベンチマークとして、偽装エラーと診断アノテーションの挑戦的なデータセットもリリースしています。
関連論文リスト
- Text-Guided Multi-Instance Learning for Scoliosis Screening via Gait Video Analysis [33.88520129574637]
早期側頭症は、特に遅発性診断が重篤な健康問題を引き起こす青年期において、検出が困難である。
従来のX線ベースの方法は放射線リスクを持ち、臨床の専門知識に大きく依存し、大規模なスクリーニングでの使用を制限する。
歩行映像を用いた非侵襲的側頭症検出のためのテキストガイド型マルチインスタンス学習ネットワーク(TG-MILNet)を提案する。
論文 参考訳(メタデータ) (2025-07-01T22:13:27Z) - Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割
近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。
本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文 参考訳(メタデータ) (2024-12-09T09:32:20Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - On the Within-class Variation Issue in Alzheimer's Disease Detection [60.08015780474457]
Alzheimer's Disease (AD) 検出では、ADと非ADの個人を区別するために、機械学習の分類モデルを使用している。
そこで本研究では,サンプルスコア推定器を用いて,認知的スコアと整合した標本特異的なソフトスコアを生成できることを確認した。
ソフトターゲット蒸留(SoTD)とインスタンスレベルの再分散(InRe)の2つの簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-09-22T02:06:05Z) - Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。
私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文 参考訳(メタデータ) (2024-02-15T17:05:48Z) - DDxT: Deep Generative Transformer Models for Differential Diagnosis [51.25660111437394]
より単純な教師付き学習信号と自己教師付き学習信号で訓練した生成的アプローチが,現在のベンチマークにおいて優れた結果が得られることを示す。
The proposed Transformer-based generative network, named DDxT, autoregressive produce a set of possible pathology,, i. DDx, and predicts the real pathology using a neural network。
論文 参考訳(メタデータ) (2023-12-02T22:57:25Z) - PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation [7.508437260320598]
医療報告作成のための診断駆動プロンプト(PromptMRG)を提案する。
PromptMRGは、追加の疾患分類ブランチを持つエンコーダデコーダアーキテクチャに基づいている。
クロスモーダル機能拡張は、クエリイメージの診断を支援するために、データベースから類似したレポートを検索する。
論文 参考訳(メタデータ) (2023-08-24T07:10:31Z) - Deep Reinforcement Learning Framework for Thoracic Diseases
Classification via Prior Knowledge Guidance [49.87607548975686]
関連疾患に対するラベル付きデータの不足は、正確な診断にとって大きな課題となる。
本稿では,診断エージェントの学習を指導するための事前知識を導入する,新しい深層強化学習フレームワークを提案する。
提案手法の性能はNIHX-ray 14とCheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-06-02T01:46:31Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z) - Learning from Subjective Ratings Using Auto-Decoded Deep Latent
Embeddings [23.777855250882244]
ラベルにおける主観性管理は医用画像解析における根本的な問題である。
自動復号型ディープ潜在埋め込み(addle)を導入する
ADDLEは自動デコーダフレームワークを使用して各レーダの傾向を明示的にモデル化する。
論文 参考訳(メタデータ) (2021-04-12T15:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。