Fugu-MT 論文翻訳(概要): SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study

論文の概要: SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study

arxiv url: http://arxiv.org/abs/2510.10010v1
Date: Sat, 11 Oct 2025 04:24:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:29.735853
Title: SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study
Title（参考訳）: SLEAN: マルチプロバイダLLMコーディネーションのための簡易軽量アンサンブル解析ネットワーク:設計,実装,バイブ符号化バグ調査事例
Authors: Matheus J. T. Vargas,
Abstract要約: SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present SLEAN (Simple Lightweight Ensemble Analysis Network), a deterministic framework for coordinating multiple LLM providers through text-based prompt orchestration. Unlike complex multi-agent systems requiring specialized infrastructure, SLEAN operates as a simple prompt bridge between LLMs using .txt templates, requiring no deep technical knowledge for deployment. The three-phase protocol formed by independent analysis, cross-critique, and arbitration, filters harmful AI-generated code suggestions before production deployment, addressing how AI-assisted debugging increasingly produces modifications that introduce unnecessary complexity, break existing functionality, or address problems. Evaluating 15 software bugs, we analyzed 69 AI-generated fix propositions. SLEAN's filtering accepted 22 fixes (31.9%, 95% CI 20.9-42.9%) while rejecting 47 that would have been harmful if applied verbatim. The arbitration process reduced code change surface by 83-90% relative to raw AI outputs, enforcing minimal causal edits over scope-expanding modifications. Minimal Type 2 inputs proved more efficient than detailed Type 1 inputs, requiring 2.85 versus 3.56 propositions per accepted fix (35.1% versus 28.1% acceptance, about a 20% efficiency gain). Agreement between AI systems showed weak correlation with fix quality: high convergence (at least 80%) occurred in 4 of 15 cases and improved acceptance by only 2.4% points; arbitration appeared only at exactly 10% convergence in 2 of 15 cases, although low convergence alone did not necessitate arbitration. The file-driven, provider-agnostic architecture enables deployment without specialized coding expertise, making it applicable to security auditing, code review, document verification, and other domains requiring reliable multi-provider synthesis with end-to-end auditability.
Abstract（参考訳）: SLEAN(Simple Lightweight Ensemble Analysis Network)は、テキストベースのプロンプトオーケストレーションによって複数のLLMプロバイダを協調する決定論的フレームワークである。特殊なインフラを必要とする複雑なマルチエージェントシステムとは異なり、SLEANは.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。独立分析、相互批判、仲裁によって形成される3フェーズプロトコルは、運用前に有害なAI生成コード提案をフィルタリングし、AI支援デバッグが不要な複雑さを導入し、既存の機能を壊したり、問題に対処する修正をAIがどのように生み出すかに対処する。 15のソフトウェアバグを評価し、69のAI生成修正提案を分析した。 SLEANのフィルタリングは22の修正(31.9%、95% CI 20.9-42.9%)を受け入れたが、適用された場合有害な47の修正は拒否された。仲裁処理により、生のAI出力に対してコード変更表面を83-90%削減し、スコープ拡張による最小の因果編集を強制した。最小限のタイプ2入力は、詳細なタイプ1入力よりも効率が良く、承認された修正ごとに2.85対3.56の命題を必要とする(35.1%対28.1%、約20%の効率向上)。ハイコンバージェンス(少なくとも80%)は15件中4件で発生し、わずか2.4%のポイントで受理が改善した; 調停は15件中2件で正確に10%のコンバージェンスでしか現れなかったが、低コンバージェンスだけでは調停は必要なかった。ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識なしでデプロイを可能にし、セキュリティ監査、コードレビュー、ドキュメント検証、およびエンドツーエンドの監査性を備えた信頼性の高いマルチプロデューサ合成を必要とする他のドメインに適用できる。

関連論文リスト

ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。 2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文参考訳（メタデータ） (2026-02-17T20:20:33Z)
SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients [1.711666249985278]
SPECAは、標準要件をチェックリストに変換する仕様からChecklistフレームワークである。 SPECAは,11社を対象とし,フサカアップグレードのセキュリティ監査コンテストの会場内でインスタンス化を行う。我々の改善されたエージェントは、競争監査の基礎的真実に対して評価され、高影響の脆弱性について27.3%の厳格なリコールを達成した。
論文参考訳（メタデータ） (2026-02-07T12:19:00Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches [0.0]
動的テンプレート選択は応答品質を損なうことなく大幅なコスト削減を実現する。この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
論文参考訳（メタデータ） (2025-11-17T21:00:22Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文参考訳（メタデータ） (2025-06-19T16:18:53Z)
Automated Repair of Ambiguous Problem Descriptions for LLM-Based Code Generation [9.943472604121425]
自然言語(NL)の曖昧さは、ソフトウェアの品質を損なう可能性がある。あいまいなNL記述の自動修復を導入する。このアプローチをSpecFixというツールで実装しています。
論文参考訳（メタデータ） (2025-05-12T06:47:53Z)
Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。 LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文参考訳（メタデータ） (2025-04-01T06:58:15Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。 19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Classification or Prompting: A Case Study on Legal Requirements Traceability [4.629156733452248]
法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。本稿では,言語モデルに基づく2つの自動解について検討する。最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
論文参考訳（メタデータ） (2025-02-07T13:33:40Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
Global Context Aggregation Network for Lightweight Saliency Detection of Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。 3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文参考訳（メタデータ） (2023-09-22T06:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。