論文の概要: U2F: Encouraging SWE-Agent to Seize Novelty without Losing Feasibility
- arxiv url: http://arxiv.org/abs/2511.03517v1
- Date: Wed, 05 Nov 2025 14:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.451541
- Title: U2F: Encouraging SWE-Agent to Seize Novelty without Losing Feasibility
- Title(参考訳): U2F:SWE-Agentを普及させ、実現可能性を失うことなくノベルティをつかむ
- Authors: Wencheng Ye, Yan Liu,
- Abstract要約: U2F(Unknown Unknowns to Functional Solution)は,認知に着想を得た,不確実性を伴うマルチエージェントフレームワークである。
U2Fは「未知の未知」を表面化し、最初の定式化を欠いているが、革新的な可能性を持っている。
人間の専門家は、全体的なノベルティが14%、セマンティックノベルティが51%向上し、実現可能性も安定していると報告した。
- 参考スコア(独自算出の注目度): 4.711056535735579
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have shown strong capabilities in software engineering tasks, yet most existing LLM-based SWE-Agents mainly tackle well-defined problems using conventional methods, often overlooking alternative or innovative solutions beyond their predefined frameworks. This limitation is evident in open-world software environments, where emerging challenges transcend established paradigms. We propose U2F (Unknown Unknowns to Functional solutions), a cognitive-inspired, uncertainty-embracing multi-agent framework that systematically surfaces "Unknown Unknowns" - novel solution pathways absent from initial formulations but holding innovative potential. U2F consists of two key components: (1) a Discovery-Exploration-Integration agent system for uncovering and synthesizing potential solutions, and (2) cognitive enhancement mechanisms across three dimensions: cross-domain analogical reasoning, reverse thinking, and external validation, which strategically reframe and extend conventional solution boundaries. Applied to 218 real-world software enabler stories curated from authentic engineering tasks, U2F achieved notable improvements: human experts reported a 14 percent increase in overall novelty, 51 percent improvement in semantic novelty, and stable feasibility (4.02/5.0), corroborated by an LLM-based evaluator. These results highlight the potential of embracing uncertainty as a catalyst for innovation in software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて強力な能力を示しているが、既存のLLMベースのSWE-Agentは、主に従来の手法を使って明確に定義された問題に対処する。
この制限は、新たな課題が確立されたパラダイムを超越する、オープンワールドなソフトウェア環境において明らかです。
U2F (Unknown Unknowns to Functional Solution) は、認知に触発され、不確実性を受け入れるマルチエージェントフレームワークで、「未知の未知」を体系的に表面化する。
U2Fは,(1)潜在解の発見・合成のための発見・探索・統合エージェントシステム,(2)クロスドメインアナログ推論,リバース思考,外部検証の3次元にわたる認知強化機構,の2つの重要な構成要素から構成され,従来の解境界を戦略的に再構成し拡張する。
U2Fは、実世界の218のソフトウェアイネーブラーストーリーを本物のエンジニアリングタスクからキュレートし、顕著な改善を成し遂げた。人間の専門家は、全体的な新規性が14パーセント向上し、セマンティックノベルティが51パーセント改善し、安定した実現性(4.02/5.0)がLLMベースの評価者によって裏付けられていると報告した。
これらの結果は、ソフトウェア工学における革新の触媒として不確実性を受け入れる可能性を浮き彫りにしている。
関連論文リスト
- An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning [82.14973479594367]
複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T15:42:55Z) - Algorithm Generation via Creative Ideation [4.174203390496298]
3つの自己回帰原理に基づいて構築された創造的思考のためのフレームワークであるMetaMuseを紹介する。
グローバルクラウドプロバイダにおける2つの重要な問題に対して,MetaMuseはハイパフォーマンスなソリューションを生成することができることを示す。
論文 参考訳(メタデータ) (2025-10-04T15:52:31Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - QUBE: Enhancing Automatic Heuristic Design via Quality-Uncertainty Balanced Evolution [14.131178103518907]
Quality-Uncertainty Balanced Evolution (QUBE)は、FunSearchフレームワーク内で優先度基準を再定義することによって、LLM+EAメソッドを強化する新しいアプローチである。
QUBEは、提案した不確実性-包括的品質基準に基づいて、品質-不確実性トレードオフ基準(QUTC)を採用している。
NP完全問題に対する広範な実験を通じて、QUBEはFunSearchやベースラインメソッドよりも大きなパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2024-12-30T04:05:22Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Enhanced POET: Open-Ended Reinforcement Learning through Unbounded
Invention of Learning Challenges and their Solutions [20.671903144896742]
Paired Open-Ended Trailblazer (POET)は、独自の課題を生成し解決するアルゴリズムである。
POETはアルゴリズム自体の限界のため、その完全な創造可能性を示すことができなかった。
我々は、元のアルゴリズムに2つの新しいイノベーションを導入し、実証的に検証し、また、その潜在能力を解明するために設計された2つの外部イノベーションを紹介します。
論文 参考訳(メタデータ) (2020-03-19T01:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。