論文の概要: LeWiDi-2025 at NLPerspectives: The Third Edition of the Learning with Disagreements Shared Task
- arxiv url: http://arxiv.org/abs/2510.08460v1
- Date: Thu, 09 Oct 2025 17:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.224751
- Title: LeWiDi-2025 at NLPerspectives: The Third Edition of the Learning with Disagreements Shared Task
- Title(参考訳): LeWiDi-2025 - NLPerspectives: The Third Edition of the Learning with Disagreements Shared Task
- Authors: Elisa Leonardelli, Silvia Casola, Siyao Peng, Giulia Rizzi, Valerio Basile, Elisabetta Fersini, Diego Frassinelli, Hyewon Jang, Maja Pavlovic, Barbara Plank, Massimo Poesio,
- Abstract要約: LEWIDIシリーズは、AIモデルのトレーニングと評価に対するこのアプローチを促進するために、学習と認識に関するタスクを共有している。
タスクの第3版は、LEWIDIベンチマークをパラフレーズ識別、皮肉検出、皮肉検出、自然言語推論の4つのデータセットに拡張することで、この目標に基づいている。
- 参考スコア(独自算出の注目度): 38.500623751317896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many researchers have reached the conclusion that AI models should be trained to be aware of the possibility of variation and disagreement in human judgments, and evaluated as per their ability to recognize such variation. The LEWIDI series of shared tasks on Learning With Disagreements was established to promote this approach to training and evaluating AI models, by making suitable datasets more accessible and by developing evaluation methods. The third edition of the task builds on this goal by extending the LEWIDI benchmark to four datasets spanning paraphrase identification, irony detection, sarcasm detection, and natural language inference, with labeling schemes that include not only categorical judgments as in previous editions, but ordinal judgments as well. Another novelty is that we adopt two complementary paradigms to evaluate disagreement-aware systems: the soft-label approach, in which models predict population-level distributions of judgments, and the perspectivist approach, in which models predict the interpretations of individual annotators. Crucially, we moved beyond standard metrics such as cross-entropy, and tested new evaluation metrics for the two paradigms. The task attracted diverse participation, and the results provide insights into the strengths and limitations of methods to modeling variation. Together, these contributions strengthen LEWIDI as a framework and provide new resources, benchmarks, and findings to support the development of disagreement-aware technologies.
- Abstract(参考訳): 多くの研究者は、AIモデルは人間の判断における変化と不一致の可能性を認識し、そのような変化を認識する能力によって評価されるように訓練されるべきである、という結論に達した。
LEWIDIシリーズは、適切なデータセットをよりアクセスしやすくし、評価方法を開発することにより、AIモデルのトレーニングと評価に対するこのアプローチを促進するために、学習と認識に関する共有タスクが確立された。
タスクの第3版は、LEWIDIベンチマークを、パラフレーズ識別、皮肉検出、皮肉検出、自然言語推論を対象とする4つのデータセットに拡張することで、この目標に基づいている。
また、不一致認識システムを評価するために、2つの相補的パラダイム、すなわち、モデルが判断の集団レベルの分布を予測するソフトラベルアプローチと、モデルが個々のアノテーションの解釈を予測するパースペクティブアプローチを採用しています。
重要なことに、私たちはクロスエントロピーのような標準的な指標を超えて、この2つのパラダイムの新たな評価指標をテストしました。
このタスクは多様な参加者を惹きつけ、結果はバリエーションをモデル化する手法の長所と短所についての洞察を与える。
これらの貢献により、LEWIDIはフレームワークとして強化され、新たなリソース、ベンチマーク、発見が提供され、不一致認識技術の開発を支援する。
関連論文リスト
- Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability [25.096987279649436]
私たちは、機能、データ、コンポーネントの属性メソッドが基本的な類似点を共有しており、それらの統一された見解は、解釈可能性とより広範なAI研究の両方に利益があると主張している。
まず,これら3種類の属性に対する一般的な手法を解析し,それぞれが類似した手法を用いていることを示す統一的な視点を提示する。
そして、この統一された視点が、既存の帰属方法の理解を高め、これらの方法の共通概念と評価基準を強調し、共通の課題に対処し、クロス帰属イノベーションを促進することによって、解釈可能性研究の両面での新しい研究方向へと導くことを実証する。
論文 参考訳(メタデータ) (2025-01-31T04:42:45Z) - Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文 参考訳(メタデータ) (2024-05-22T21:49:28Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。