論文の概要: COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives
- arxiv url: http://arxiv.org/abs/2603.15897v1
- Date: Mon, 16 Mar 2026 20:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.979832
- Title: COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives
- Title(参考訳): COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives (英語)
- Authors: Azwad Anjum Islam, Tisa Islam Erana,
- Abstract要約: 5-point Likert スケールの短編記事において,与えられた単語の同義語感覚の妥当性を評価するシステムについて述べる。
システムは、(平均的人間の判断の標準偏差が1つある)非重み付き平均精度とスピアマンランク相関によって評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We describe our system for SemEval-2026 Task 5, which requires rating the plausibility of given word senses of homonyms in short stories on a 5-point Likert scale. Systems are evaluated by the unweighted average of accuracy (within one standard deviation of mean human judgments) and Spearman Rank Correlation. We explore three prompting strategies using multiple closed-source commercial LLMs: (i) a baseline zero-shot setup, (ii) Chain-of-Thought (CoT) style prompting with structured reasoning, and (iii) a comparative prompting strategy for evaluating candidate word senses simultaneously. Furthermore, to account for the substantial inter-annotator variation present in the gold labels, we propose an ensemble setup by averaging model predictions. Our best official system, comprising an ensemble of LLMs across all three prompting strategies, placed 4th on the competition leaderboard with 0.88 accuracy and 0.83 Spearman's rho (0.86 average). Post-competition experiments with additional models further improved this performance to 0.92 accuracy and 0.85 Spearman's rho (0.89 average). We find that comparative prompting consistently improved performance across model families, and model ensembling significantly enhanced alignment with mean human judgments, suggesting that LLM ensembles are especially well suited for subjective semantic evaluation tasks involving multiple annotators.
- Abstract(参考訳): 本システムでは, 5-point Likert スケールの短編記事において, 与えられた単語の同義語知覚の妥当性を評価することを必要とするSemEval-2026タスク5について述べる。
システムは、(平均的人間の判断の標準偏差が1つある)非重み付き平均精度とスピアマンランク相関によって評価される。
複数のクローズドソース商用LCMを用いた3つのプロンプト戦略について検討する。
(i)ベースラインゼロショット設定
(二)構造的推論を推し進めるCoT形式及び
(iii)候補語感覚を同時に評価するための比較促進戦略。
さらに,ゴールドラベルに存在するアノテータ間の実質的な変動を考慮し,モデル予測を平均化してアンサンブル設定を提案する。
我々の最も優れたオフィシャルシステムは、3つのプロンプト戦略にまたがるLSMのアンサンブルであり、競争のリーダーボードでは0.88の正確さと0.83のスピアマンのロー(0.86の平均)で4位にランクされた。
さらなるモデルによる競争後の実験により、この性能は 0.92 の精度と 0.85 のスピアマンのロー (0.89 平均) まで改善された。
モデルファミリ間の性能を一貫して向上させ,モデルアンサンブルは平均的人的判断との整合性を大幅に向上させ,LLMアンサンブルは複数のアノテータを含む主観的意味評価タスクに特に適していることが示唆された。
関連論文リスト
- PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses [5.396994583933599]
提案するPEEM(Prompt Engineering Evaluation Metrics)は,プロンプトと応答を統一的に評価するためのフレームワークである。
PEEMは9つの軸を持つ構造化ルーブリックを定義している。3つのプロンプト基準(明瞭さ/構造、言語的品質、公正)と6つの応答基準(正確さ、客観性、妥当性、明確さ、簡潔さ)。
論文 参考訳(メタデータ) (2026-03-11T07:00:59Z) - NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating [5.91164076667492]
単語感覚の可視性評価には、与えられた単語の人間の知覚的可視性を1~5スケールで予測する必要がある。
本稿では,単語知覚の妥当性を予測するための3つのアプローチを体系的に比較する。
最高のパフォーマンスシステムでは、評価を物語コンポーネントに分解する構造化されたプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2026-03-09T11:25:41Z) - Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文 参考訳(メタデータ) (2025-12-29T05:25:49Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - SAGE: A Realistic Benchmark for Semantic Understanding [9.688555356614044]
SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。
9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。
OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
論文 参考訳(メタデータ) (2025-09-25T15:27:15Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。