論文の概要: Prompt-Based Clarity Evaluation and Topic Detection in Political Question Answering
- arxiv url: http://arxiv.org/abs/2601.08176v1
- Date: Tue, 13 Jan 2026 03:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.040473
- Title: Prompt-Based Clarity Evaluation and Topic Detection in Political Question Answering
- Title(参考訳): 政治質問応答におけるプロンプトに基づく明瞭度評価とトピック検出
- Authors: Lavanya Prahallad, Sai Utkarsh Choudarypally, Pragna Prahallad, Pranathi Prahallad,
- Abstract要約: 本研究では,SemEval 2026共有タスクのCLARITYデータセットを用いて,プロンプトに基づく明瞭度評価を行う。
我々は,GPT-5.2に対して,データセットを付加したGPT-3.5ベースラインを3つのプロンプト戦略で評価した。
その結果、GPT-5.2は明度予測においてGPT-3.5ベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation of large language model (LLM) responses requires not only factual correctness but also clarity, particularly in political question-answering. While recent datasets provide human annotations for clarity and evasion, the impact of prompt design on automatic clarity evaluation remains underexplored. In this paper, we study prompt-based clarity evaluation using the CLARITY dataset from the SemEval 2026 shared task. We compare a GPT-3.5 baseline provided with the dataset against GPT-5.2 evaluated under three prompting strategies: simple prompting, chain-of-thought prompting, and chain-of-thought with few-shot examples. Model predictions are evaluated against human annotations using accuracy and class-wise metrics for clarity and evasion, along with hierarchical exact match. Results show that GPT-5.2 consistently outperforms the GPT-3.5 baseline on clarity prediction, with accuracy improving from 56 percent to 63 percent under chain-of-thought with few-shot prompting. Chain-of-thought prompting yields the highest evasion accuracy at 34 percent, though improvements are less stable across fine-grained evasion categories. We further evaluate topic identification and find that reasoning-based prompting improves accuracy from 60 percent to 74 percent relative to human annotations. Overall, our findings indicate that prompt design reliably improves high-level clarity evaluation, while fine-grained evasion and topic detection remain challenging despite structured reasoning prompts.
- Abstract(参考訳): 大規模言語モデル (LLM) 応答の自動評価には, 事実の正当性だけでなく, 政治的質問応答にも明確性が必要である。
最近のデータセットでは、明快さと回避のための人間のアノテーションが提供されているが、素早い設計が自動明快さ評価に与える影響は未調査である。
本稿では,SemEval 2026共有タスクのCLARITYデータセットを用いた,プロンプトに基づく明瞭度評価について検討する。
我々は、単純なプロンプト、チェーン・オブ・シークレット、チェーン・オブ・シークレットの3つのプロンプト戦略に基づいて評価されたGPT-5.2に対して、データセットを備えたGPT-3.5ベースラインを比較した。
モデル予測は、精度とクラスワイドのメトリクスを用いて人間のアノテーションに対して、階層的な正確な一致とともに、明快さと回避性について評価する。
その結果、GPT-5.2は、正確性予測においてGPT-3.5ベースラインを一貫して上回り、精度は66%から63%に向上し、ほとんどショットのプロンプトは得られなかった。
チェーン・オブ・シークレット(Chain-of- Thought)は回避精度を34%と高いが、微粒な回避カテゴリーでは改善は少ない。
さらに、トピックの識別を評価し、推論に基づくプロンプトが、人間のアノテーションと比較して60%から74%の精度を改善することを発見した。
以上の結果から, 構造的推論のプロンプトにもかかわらず, きめ細かな回避や話題検出が困難でありながら, 素早い設計により高次明瞭度評価が確実に向上することが示唆された。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction [25.85736569130897]
大規模言語モデル(LLM)のペアワイズ評価は、オープンエンドタスクのベンチマークにおいて支配的なパラダイムとなっている。
この重要な問題は、本質的に曖昧な選好ペアを含む低品質データに起因していることを示す。
トーナメントグラフとしてペアの選好をモデル化する,原則付きグラフ理論フレームワークであるESSPRを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:00:03Z) - Enhancing Granular Sentiment Classification with Chain-of-Thought Prompting in Large Language Models [0.0]
我々は,大規模言語モデル (LLM) によるアプリストアレビューにおける微粒な感情分類の精度向上を目的として,Chain-of-Thought (CoT) の利用について検討した。
我々は,2000年のAmazonアプリレビューにおいて,CoTプロンプトと単純なプロンプトの有効性を,それぞれの手法の予測と人間の判断を比較して評価した。
論文 参考訳(メタデータ) (2025-05-07T05:13:15Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Multiclass Classification of Policy Documents with Large Language Models [0.0]
我々は,OpenAI の GPT 3.5 および GPT 4 モデルを用いて,議会法案と議会公聴会を,比較アジェンダプロジェクトの21の政策課題に分類する。
本稿では,シナリオとGPTモデルに基づいて,3つのユースケースシナリオを提案し,全体の精度を%58~83の範囲で推定する。
以上の結果から,人的介入が最小限に抑えられたGPTへの完全依存の欠如,人的努力による精度の向上,人的要求の最も高いユースケースにおける驚くほど高い精度の実現が示唆された。
論文 参考訳(メタデータ) (2023-10-12T09:41:22Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。