論文の概要: Exchange of Perspective Prompting Enhances Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03573v1
- Date: Wed, 04 Jun 2025 04:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.15889
- Title: Exchange of Perspective Prompting Enhances Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるパースペクティブ・プロンプトの交換による推論
- Authors: Lin Sun, Can Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクに対処する上で大きな進歩を遂げてきた。
本稿では,問題定義の異なる視点の交換を目的とした新しいフレームワークであるExchange-of-Perspective(EoP)を提案する。
- 参考スコア(独自算出の注目度): 4.886432474047018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant advancements in addressing diverse natural language processing (NLP) tasks. However, their performance is often limited by inherent comprehension of problems. To address this limitation, we propose Exchange-of-Perspective (EoP), a novel framework designed to exchange perspectives across different definitions of problem, so that it can break the fixed mindset from any particular formulation of the question. We conducted extensive and comprehensive experiments on 8 benchmarks. The results show that EoP can significantly improve performance. For instance, compared to the non-commutative baseline PHP, with GPT-3.5-Turbo and EoP, we observe a 3.6% improvement on AQuA (60.6% to 64.2%), while GPT-4-powered EoP demonstrates a 7.7% overall accuracy enhancement on Math (53.9% to 61.6%) and a 3.5% improvement on OlympiadBench Maths (43.5% to 47.0%) when using Qwen-2.5-72b.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクに対処する上で大きな進歩を遂げてきた。
しかしながら、それらのパフォーマンスは、しばしば問題の固有の理解によって制限される。
この制限に対処するために,問題定義の異なる視点を交換するために設計された新しいフレームワークであるExchange-of-Perspective (EoP)を提案する。
8つのベンチマークで広範な総合的な実験を行った。
その結果,EoPは性能を著しく向上させることができることがわかった。
例えば、GPT-3.5-TurboとEoPの非可換ベースラインPHPと比較して、AQuA(60.6%から64.2%)は3.6%改善され、GPT-4によるEoPは数学(53.9%から61.6%)では7.7%、Qwen-2.5-72bではOlympiadBench Maths(43.5%から47.0%)では3.5%改善されている。
関連論文リスト
- Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。
800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。
PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文 参考訳(メタデータ) (2025-04-09T23:57:44Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(英: Cumulative Reasoning, CR)は、大規模言語モデルを累積的かつ反復的に利用する手法である。
いくつかの複雑な推論タスクを通じてCRの利点を実証する。
論文 参考訳(メタデータ) (2023-08-08T16:18:20Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。