論文の概要: Semantic Reranking at Inference Time for Hard Examples in Rhetorical Role Labeling
- arxiv url: http://arxiv.org/abs/2605.18007v1
- Date: Mon, 18 May 2026 08:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.095937
- Title: Semantic Reranking at Inference Time for Hard Examples in Rhetorical Role Labeling
- Title(参考訳): 修辞的役割ラベリングにおけるハード例の推論時間におけるセマンティック再ランク付け
- Authors: Anas Belfathi, Nicolas Hernandez, Laura Monceaux, Warren Bonnard, Richard Dufour,
- Abstract要約: 修辞的役割ラベルリング(Rhetorical Role Labeling、RRL)は、文書内の各文に機能的な役割を割り当て、法律、医学、科学の領域で広く使われている。
本稿では,ラベルのセマンティクスを活用してハードインスタンスの予測を洗練する推論時セマンティクスのフレームワークRISEを紹介する。
エンコーダベースのアーキテクチャや因果アーキテクチャを含む7つのLMを持つ8つのドメイン固有のRRLデータセットの実験では、ハードな例では、平均で+9.15のマクロF1ポイントが得られた。
- 参考スコア(独自算出の注目度): 5.963398606353896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rhetorical Role Labeling (RRL) assigns a functional role to each sentence in a document and is widely used in legal, medical, and scientific domains. While language models (LMs) achieve strong average performance, they remain unreliable on hard examples, where prediction confidence is low. Existing approaches typically handle uncertainty implicitly and treat labels as discrete identifiers, overlooking the semantic information encoded in label names. We introduce RISE, an inference-time semantic reranking framework that leverages label semantics to refine predictions on hard instances. RISE automatically identifies low-confidence predictions and reranks model outputs using contrastively learned label representations, without retraining or modifying the underlying model. Experiments on eight domain-specific RRL datasets with seven LMs, including encoder-based and causal architectures, show an average gain of +9.15 macro-F1 points on hard examples. For explainability, we further propose manual hardness annotations to study difficulty from both model and human perspectives, revealing a moderate agreement with Cohen's kappa = 0.40.
- Abstract(参考訳): 修辞的役割ラベルリング(Rhetorical Role Labeling、RRL)は、文書内の各文に機能的な役割を割り当て、法律、医学、科学の領域で広く使われている。
言語モデル(LM)は高い平均性能を達成するが、予測信頼性が低い厳しい例では信頼性が低いままである。
既存のアプローチは、通常、不確実性を暗黙的に扱い、ラベルを個別の識別子として扱い、ラベル名にエンコードされた意味情報を見渡す。
本稿では,ラベルのセマンティクスを活用してハードインスタンスの予測を洗練する推論時セマンティクスのフレームワークRISEを紹介する。
RISEは、低信頼の予測を自動的に識別し、学習したラベル表現を使ってモデル出力を再訓練したり修正したりすることなく、モデル出力を再参照する。
エンコーダベースのアーキテクチャや因果アーキテクチャを含む7つのLMを持つ8つのドメイン固有のRRLデータセットの実験では、ハードな例では、平均で+9.15のマクロF1ポイントが得られた。
さらに、モデルと人間の両面から難易度を研究するための手動硬度アノテーションを提案し、コーエンのkappa = 0.40との適度な一致を明らかにした。
関連論文リスト
- Optimizing LLM Annotation of Classroom Discourse through Multi-Agent Orchestration [0.21410799064827235]
大規模言語モデル(LLM)は、教育データを注釈付けするためのスケーラブルなツールとしてますます位置づけられている。
しかし, シングルパスLCMの出力は, ハイテイクな教育施設では信頼性が低いことが示唆されている。
このスケールと妥当性の緊張は、現代の教育データ科学の核心にある。
論文 参考訳(メタデータ) (2026-03-08T16:51:03Z) - Humans Hallucinate Too: Language Models Identify and Correct Subjective Annotation Errors With Label-in-a-Haystack Prompts [41.162545164426085]
大規模言語モデル(LLM)を用いた文脈におけるラベル検証について検討する。
主観的ラベル補正のためのLiaHR(Label-in-a-Haystack Rectification)フレームワークを提案する。
このアプローチは、信号と雑音の比率を高めるために、アノテーションパイプラインに統合することができる。
論文 参考訳(メタデータ) (2025-05-22T18:55:22Z) - Uncertainty-Aware Label Refinement on Hypergraphs for Personalized Federated Facial Expression Recognition [58.98052764581606]
我々はhYpergraphs (AMY) 法に基づく新しい不確実性認識ラベルリファレントを開発する。
ローカルトレーニングでは、各ローカルモデルは、バックボーン、不確実性推定(UE)ブロック、および式分類(EC)ブロックで構成される。
次に、ローカルクライアントにおける標本の不確実性重みを推定するために、パーソナライズされた不確実性推定器を導入する。
論文 参考訳(メタデータ) (2025-01-03T13:59:21Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - How to trust unlabeled data? Instance Credibility Inference for Few-Shot
Learning [47.21354101796544]
本稿では,未ラベルのインスタンスを数発の視覚認識に利用するために,ICI (Instance Credibility Inference) と呼ばれる統計的アプローチを提案する。
擬似ラベル付きインスタンスの信頼性は, それらの付随パラメータの正規化経路に沿ってランク付けし, 最も信頼性の高い擬似ラベル付きインスタンスを拡張ラベル付きインスタンスとして保存する。
論文 参考訳(メタデータ) (2020-07-15T03:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。