論文の概要: Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation
- arxiv url: http://arxiv.org/abs/2505.23368v1
- Date: Thu, 29 May 2025 11:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.838078
- Title: Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation
- Title(参考訳): スレッディング・オブ・ニードル:人間のラベルの変動を説明
- Authors: Beiduo Chen, Yang Janet Liu, Anna Korhonen, Barbara Plank,
- Abstract要約: 大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.25455164977285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent rise of reasoning-tuned Large Language Models (LLMs)--which generate chains of thought (CoTs) before giving the final answer--has attracted significant attention and offers new opportunities for gaining insights into human label variation, which refers to plausible differences in how multiple annotators label the same data instance. Prior work has shown that LLM-generated explanations can help align model predictions with human label distributions, but typically adopt a reverse paradigm: producing explanations based on given answers. In contrast, CoTs provide a forward reasoning path that may implicitly embed rationales for each answer option, before generating the answers. We thus propose a novel LLM-based pipeline enriched with linguistically-grounded discourse segmenters to extract supporting and opposing statements for each answer option from CoTs with improved accuracy. We also propose a rank-based HLV evaluation framework that prioritizes the ranking of answers over exact scores, which instead favor direct comparison of label distributions. Our method outperforms a direct generation method as well as baselines on three datasets, and shows better alignment of ranking methods with humans, highlighting the effectiveness of our approach.
- Abstract(参考訳): 近年の推論チューニング型大規模言語モデル(LLM)の台頭 – 最終回答を出す前に思考の連鎖(CoT)を生成する — が注目され、複数のアノテーションが同じデータインスタンスをラベル付けする方法に明確な違いを示す、人間のラベルのバリエーションに対する洞察を得る新たな機会を提供する。
これまでの研究では、LLMが生成した説明は、モデル予測と人間のラベルの分布を一致させるのに役立つが、典型的には逆パラダイム(与えられた回答に基づいた説明を生成する)を採用する。
対照的に、CoTsは、回答を生成する前に、各回答オプションに暗黙的に有理性を埋め込む前方推論パスを提供する。
そこで我々は,言語的に接地された談話セグメンタを組み込んだLLMベースのパイプラインを提案し,CoTから各回答オプションに対するサポート文と反対文を抽出し,精度を向上した。
また、ランクに基づくHLV評価フレームワークを提案し、その代わりにラベル分布の直接比較を優先する。
提案手法は,3つのデータセットのベースラインだけでなく,直接生成手法よりも優れ,評価手法と人間との整合性が向上し,提案手法の有効性が強調される。
関連論文リスト
- Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension [9.67774998354062]
これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。
本稿では,CoTの論理式を生成するためのPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。
また,本論文では,原案と反実例の推論経路を比較検討する新たな思考経路コントラスト学習手法についても紹介する。
論文 参考訳(メタデータ) (2024-09-22T15:44:43Z) - Self-Consistent Decoding for More Factual Open Responses [28.184313177333642]
Sample & Selectは、DoLA、P-CRR、S-CRRのデコーダに対して、30%の相対的なマージンで事実性を向上する。
生成した要約の人間による検証を収集し,本手法の実際的優位性を確認する。
論文 参考訳(メタデータ) (2024-03-01T17:31:09Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。