論文の概要: Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection
- arxiv url: http://arxiv.org/abs/2508.13365v1
- Date: Mon, 18 Aug 2025 21:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.727404
- Title: Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection
- Title(参考訳): 推論の立場:推論が慣用性検出に及ぼす影響の検討
- Authors: Dylan Phelps, Rodrigo Wilkens, Edward Gow-Smith, Thomas Pickard, Maggie Mi, Aline Villavicencio,
- Abstract要約: 大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
- 参考スコア(独自算出の注目度): 2.8330244018167945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent trend towards utilisation of reasoning models has improved the performance of Large Language Models (LLMs) across many tasks which involve logical steps. One linguistic task that could benefit from this framing is idiomaticity detection, as a potentially idiomatic expression must first be understood before it can be disambiguated and serves as a basis for reasoning. In this paper, we explore how reasoning capabilities in LLMs affect idiomaticity detection performance and examine the effect of model size. We evaluate, as open source representative models, the suite of DeepSeek-R1 distillation models ranging from 1.5B to 70B parameters across four idiomaticity detection datasets. We find the effect of reasoning to be smaller and more varied than expected. For smaller models, producing chain-of-thought (CoT) reasoning increases performance from Math-tuned intermediate models, but not to the levels of the base models, whereas larger models (14B, 32B, and 70B) show modest improvements. Our in-depth analyses reveal that larger models demonstrate good understanding of idiomaticity, successfully producing accurate definitions of expressions, while smaller models often fail to output the actual meaning. For this reason, we also experiment with providing definitions in the prompts of smaller models, which we show can improve performance in some cases.
- Abstract(参考訳): 最近の推論モデルの利用傾向は、論理的なステップを含む多くのタスクにおいて、LLM(Large Language Models)の性能を改善している。
このフレーミングの恩恵を受けることができる言語的課題の一つが慣用性の検出である。
本稿では, LLMにおける推論能力が慣用性検出性能に与える影響について検討し, モデルサイズの影響について検討する。
オープンソースの代表モデルとして,4つの慣用性検出データセットにまたがる1.5Bから70Bパラメータを含むDeepSeek-R1蒸留モデルのスイートを評価した。
推論の効果は,予想よりも小さく,多様であることがわかった。
小型モデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
より詳細な分析により、より大きなモデルは慣用性をよく理解し、正確な表現の定義を導き出すのに成功し、小さいモデルは実際の意味を出力できないことが判明した。
そのため、より小さなモデルのプロンプトに定義を提供することも試みており、いくつかのケースでは性能の向上が期待できる。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Reasoning Capabilities of Large Language Models on Dynamic Tasks [0.017476232824732776]
大規模言語モデルは静的なベンチマークでは優れているが、動的環境における自己学習エージェントとしての能力は依然として不明である。
オープンソースモデルを用いた動的タスクにおける自己回帰、突然変異、計画という3つのプロンプト戦略を評価した。
より大きなモデルは一般的により小さなモデルよりも優れていますが、戦略的なプロンプトはこのパフォーマンスギャップを埋めることができます。
論文 参考訳(メタデータ) (2025-05-15T17:53:47Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。