論文の概要: Writing as a testbed for open ended agents
- arxiv url: http://arxiv.org/abs/2503.19711v1
- Date: Tue, 25 Mar 2025 14:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:41.295073
- Title: Writing as a testbed for open ended agents
- Title(参考訳): オープンエンドエージェントのテストベッドとしての書記
- Authors: Sian Gooding, Lucia Lopez-Rivilla, Edward Grefenstette,
- Abstract要約: 我々は,LLMが共同編集者として機能し,テキスト改善を自律的に提案し,実装できる可能性について検討する。
Gemini 1.5 Pro、Claude 3.5 Sonnet、GPT-4oの3つの有名なLCMを分析し、そのアクションの多様性、人間のアライメント、反復的な改善能力が全体的なパフォーマンスに与える影響に注目します。
この研究は、自律的な書記エージェントをベンチマークするためのフレームワークを確立し、より広範に、多様なオープンエンドドメインで優れたシステムを構築するための根本的な課題と潜在的なソリューションを強調します。
- 参考スコア(独自算出の注目度): 15.94931120507606
- License:
- Abstract: Open-ended tasks are particularly challenging for LLMs due to the vast solution space, demanding both expansive exploration and adaptable strategies, especially when success lacks a clear, objective definition. Writing, with its vast solution space and subjective evaluation criteria, provides a compelling testbed for studying such problems. In this paper, we investigate the potential of LLMs to act as collaborative co-writers, capable of suggesting and implementing text improvements autonomously. We analyse three prominent LLMs - Gemini 1.5 Pro, Claude 3.5 Sonnet, and GPT-4o - focusing on how their action diversity, human alignment, and iterative improvement capabilities impact overall performance. This work establishes a framework for benchmarking autonomous writing agents and, more broadly, highlights fundamental challenges and potential solutions for building systems capable of excelling in diverse open-ended domains.
- Abstract(参考訳): オープンエンドタスクは、広大なソリューション空間のために特に困難であり、特に成功が明確で客観的な定義を欠いている場合、拡張的な探索と適応可能な戦略の両方を要求する。
膨大な解空間と主観的評価基準を持つ書記は、そのような問題を研究するための魅力的なテストベッドを提供する。
本稿では,LLMが共同編集者として機能し,テキスト改善を自律的に提案し,実装できる可能性について検討する。
Gemini 1.5 Pro、Claude 3.5 Sonnet、GPT-4oの3つの有名なLCMを分析し、そのアクションの多様性、人間のアライメント、反復的な改善能力が全体的なパフォーマンスに与える影響に注目します。
この研究は、自律的な書記エージェントをベンチマークするためのフレームワークを確立し、より広範に、多様なオープンエンドドメインで優れたシステムを構築するための根本的な課題と潜在的なソリューションを強調します。
関連論文リスト
- Perspective Transition of Large Language Models for Solving Subjective Tasks [18.322631948136973]
パースペクティブ・トランジション(RPT)による推論(Reasoning through Perspective transition)は、LLMが直接、役割、第三者の視点を動的に選択できる、コンテキスト内学習に基づく手法である。
提案手法は,チェーン・オブ・シークレット・プロンプトやエキスパート・プロンプトといった,単一の固定視点に基づく手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-16T03:30:47Z) - TACOMORE: Leveraging the Potential of LLMs in Corpus-based Discourse Analysis with Prompt Engineering [4.422315636150272]
LLMを取り入れたコーパスベースの談話分析は、不満足なパフォーマンス、幻覚、そして不成功の問題によって妨げられていると論じられている。
提案手法であるTACOMOREは,この領域において効果的なプロンプトフレームワークとして機能することを目的としている。
我々は, GPT-4o, Gemini-1.5-Pro, Gemini-1.5.Flashの3つのLLM実験を行い, TACOMOREが3つの代表的な談話解析タスクにおいて, LLMの性能向上に役立つことを発見した。
論文 参考訳(メタデータ) (2024-12-13T13:41:24Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。
複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。
我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文 参考訳(メタデータ) (2024-08-22T11:41:35Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。
しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。
LLMを異なる役割に指定した3段階のフレームワークを設計する。
複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-16T14:46:52Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。