論文の概要: Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction
- arxiv url: http://arxiv.org/abs/2504.07357v1
- Date: Thu, 10 Apr 2025 00:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:40.611629
- Title: Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction
- Title(参考訳): 大規模推論モデルによるプロンプト最適化の再検討-イベント抽出を事例として-
- Authors: Saurabh Srivastava, Ziyu Yao,
- Abstract要約: DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
- 参考スコア(独自算出の注目度): 8.88001387249786
- License:
- Abstract: Large Reasoning Models (LRMs) such as DeepSeek-R1 and OpenAI o1 have demonstrated remarkable capabilities in various reasoning tasks. Their strong capability to generate and reason over intermediate thoughts has also led to arguments that they may no longer require extensive prompt engineering or optimization to interpret human instructions and produce accurate outputs. In this work, we aim to systematically study this open question, using the structured task of event extraction for a case study. We experimented with two LRMs (DeepSeek-R1 and o1) and two general-purpose Large Language Models (LLMs) (GPT-4o and GPT-4.5), when they were used as task models or prompt optimizers. Our results show that on tasks as complicated as event extraction, LRMs as task models still benefit from prompt optimization, and that using LRMs as prompt optimizers yields more effective prompts. Finally, we provide an error analysis of common errors made by LRMs and highlight the stability and consistency of LRMs in refining task instructions and event guidelines.
- Abstract(参考訳): DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈し正確な出力を生成するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながっている。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
タスクモデルやプロンプトオプティマイザとして使用した2つの LRM (DeepSeek-R1 と o1) と2つの汎用Large Language Model (LLM) (GPT-4o と GPT-4.5) を実験した。
その結果、イベント抽出ほど複雑なタスクでは、タスクモデルとしてのLEMが迅速な最適化の恩恵を受けており、プロンプトオプティマイザとしてのLEMを使用することでより効果的なプロンプトが得られることがわかった。
最後に, LRMによる共通エラーの誤り解析を行い, タスク命令やイベントガイドラインの精査において, LRMの安定性と一貫性を強調した。
関連論文リスト
- ORI: O Routing Intelligence [0.7493096930372414]
単一大規模言語モデル(LLM)は、成長を続けるタスクの範囲に直面すると、しばしば不足する。
我々は,一組のLLMを利用する動的フレームワークであるORI(O Routing Intelligence)を提案する。
クエリをインテリジェントにルーティングすることで、ORIはMMLUで最大2.7ポイント、MuSRで1.8ポイントという最強の個別モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-14T10:00:20Z) - Self-Supervised Prompt Optimization [16.06653117043314]
十分に設計されたプロンプトは、Large Language Model(LLM)推論能力の強化に不可欠である。
既存のプロンプト最適化手法は、地上の真実や人間による外部参照に大きく依存している。
本稿では,閉じたタスクとオープンなタスクの両方に効果的なプロンプトを発見する費用効率のよいフレームワークであるセルフ・スーパービジョン・プロンプト・最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-07T17:45:16Z) - Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.239220558484373]
OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。
エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
論文 参考訳(メタデータ) (2025-01-09T16:48:17Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models [13.478123641238277]
RARE(Retrieval-Augmented Reasoning Enhancement)は相互推論フレームワーク(rStar)の汎用的拡張である
これは、コモンセンスや医学的推論といった複雑な知識集約的なタスクに対して、大規模言語モデル(LLM)の推論精度と事実整合性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-03T20:52:35Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。