論文の概要: Multiperspectivity as a Resource for Narrative Similarity Prediction
- arxiv url: http://arxiv.org/abs/2603.22103v1
- Date: Mon, 23 Mar 2026 15:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.753329
- Title: Multiperspectivity as a Resource for Narrative Similarity Prediction
- Title(参考訳): 物語的類似性予測のための資源としての多視点性
- Authors: Max Upravitelev, Veronika Solopova, Jing Yang, Charlott Jakob, Premtim Sahitaj, Ariana Sahitaj, Vera Schmitt,
- Abstract要約: 同じテキストの異なる、等しく有効な読解は、異なる解釈を生じさせ、したがって異なる類似性判断を生じさせる。
本稿では,予測システムの意思決定プロセスに,このマルチスペクティビティを取り入れることを提案する。
実験はSemEval-2026 Task 4で行われ、精度は0.705。
- 参考スコア(独自算出の注目度): 5.242380995471618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting narrative similarity can be understood as an inherently interpretive task: different, equally valid readings of the same text can produce divergent interpretations and thus different similarity judgments, posing a fundamental challenge for semantic evaluation benchmarks that encode a single ground truth. Rather than treating this multiperspectivity as a challenge to overcome, we propose to incorporate it in the decision making process of predictive systems. To explore this strategy, we created an ensemble of 31 LLM personas. These range from practitioners following interpretive frameworks to more intuitive, lay-style characters. Our experiments were conducted on the SemEval-2026 Task 4 dataset, where the system achieved an accuracy score of 0.705. Accuracy improves with ensemble size, consistent with Condorcet Jury Theorem-like dynamics under weakened independence. Practitioner personas perform worse individually but produce less correlated errors, yielding larger ensemble gains under majority voting. Our error analysis reveals a consistent negative association between gender-focused interpretive vocabulary and accuracy across all persona categories, suggesting either attention to dimensions not relevant for the benchmark or valid interpretations absent from the ground truth. This finding underscores the need for evaluation frameworks that account for interpretive plurality.
- Abstract(参考訳): 物語の類似性を予測することは、本質的に解釈的なタスクとして理解することができる: 同一テキストの異なる、同等に有効な読解は、異なる解釈を生み出し、異なる類似性判断を生じさせ、単一の根拠の真実を符号化するセマンティック評価ベンチマークの根本的な課題を提起する。
このマルチパースペクティビティを克服するための課題として扱うのではなく、予測システムの意思決定プロセスに組み込むことを提案する。
この戦略を探求するため、31個のLDMペルソナのアンサンブルを作成しました。
これらは解釈的な枠組みに従う実践者から、より直感的で平易なキャラクターまで様々である。
実験はSemEval-2026 Task 4で行われ、精度は0.705。
精度はアンサンブルサイズで改善され、独立性の弱さの下で、コンドルチェット・ジュリア・セオレムのような力学と一致している。
実践者のペルソナは個々に悪化するが、相関の少ないエラーを発生させ、多数決においてより大きなアンサンブルゲインをもたらす。
誤り分析の結果,性別中心の解釈語彙と全ペルソナカテゴリーの精度との間には一貫した負の相関関係がみられた。
この発見は、解釈的な複数の要素を考慮に入れた評価フレームワークの必要性を浮き彫りにする。
関連論文リスト
- More or Less Wrong: A Benchmark for Directional Bias in LLM Comparative Reasoning [10.301985230669684]
本研究では,大規模言語モデルにおける意味的キュー形状推論のメカニズムについて検討する。
我々は300の比較シナリオのベンチマークであるMathCompを紹介する。
モデル誤差は、しばしば言語的ステアリングを反映し、プロンプトに存在する比較項への体系的なシフトを反映している。
論文 参考訳(メタデータ) (2025-06-04T13:15:01Z) - Large Language Models Often Say One Thing and Do Another [49.22262396351797]
我々はWords and Deeds Consistency Test (WDCT)と呼ばれる新しい評価ベンチマークを開発した。
このベンチマークは、異なるドメインにわたる単語ベースの質問とdeedベースの質問の厳密な対応を確立する。
評価結果から,異なるLLMとドメイン間で単語と行為の矛盾が広範囲にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T07:34:54Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Arbitrariness and Social Prediction: The Confounding Role of Variance in
Fair Classification [31.392067805022414]
異なる訓練されたモデル間での予測のばらつきは、公正なバイナリ分類における重要な、未探索のエラーの原因である。
実際には、いくつかのデータ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。
予測が任意である場合に分類を省略するアンサンブルアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-27T06:52:04Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - Dealing with Disagreements: Looking Beyond the Majority Vote in
Subjective Annotations [6.546195629698355]
主観的タスクに対するマルチアノテータモデルの有効性について検討する。
このアプローチは、トレーニング前にラベルをアグリゲートするよりも、同じまたは良いパフォーマンスが得られることを示す。
提案手法は予測の不確かさを推定する手段も提供し,従来の手法よりもアノテーションの不一致との相関が良好であることを示す。
論文 参考訳(メタデータ) (2021-10-12T03:12:34Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。