論文の概要: Evaluating the effectiveness of LLM-based interoperability
- arxiv url: http://arxiv.org/abs/2510.23893v1
- Date: Mon, 27 Oct 2025 22:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.597167
- Title: Evaluating the effectiveness of LLM-based interoperability
- Title(参考訳): LLMを用いた相互運用の有効性評価
- Authors: Rodrigo Falcão, Stefan Schweitzer, Julien Siebert, Emily Calvet, Frank Elberzhager,
- Abstract要約: 我々は,大規模言語モデル (LLM) の有効性を解析し,システムを自律的に相互運用させる。
Qwen2.5-coder:32bは、DIRECTとCODEGENを使った最も効果的なモデルである。
- 参考スコア(独自算出の注目度): 0.3131740922192114
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Systems of systems are becoming increasingly dynamic and heterogeneous, and this adds pressure on the long-standing challenge of interoperability. Besides its technical aspect, interoperability has also an economic side, as development time efforts are required to build the interoperability artifacts. Objectives: With the recent advances in the field of large language models (LLMs), we aim at analyzing the effectiveness of LLM-based strategies to make systems interoperate autonomously, at runtime, without human intervention. Method: We selected 13 open source LLMs and curated four versions of a dataset in the agricultural interoperability use case. We performed three runs of each model with each version of the dataset, using two different strategies. Then we compared the effectiveness of the models and the consistency of their results across multiple runs. Results: qwen2.5-coder:32b was the most effective model using both strategies DIRECT (average pass@1 >= 0.99) and CODEGEN (average pass@1 >= 0.89) in three out of four dataset versions. In the fourth dataset version, which included an unit conversion, all models using the strategy DIRECT failed, whereas using CODEGEN qwen2.5-coder:32b succeeded with an average pass@1 = 0.75. Conclusion: Some LLMs can make systems interoperate autonomously. Further evaluation in different domains is recommended, and further research on reliability strategies should be conducted.
- Abstract(参考訳): 背景: システムのシステムはますます動的で異質になってきています。
相互運用性の技術的側面に加えて、相互運用性のアーティファクトを構築するには開発時間が必要なので、相互運用性も経済的側面です。
目的: 大規模言語モデル (LLMs) の分野での最近の進歩により, 人間の介入なしに, システムが実行時に自律的に相互運用できるようにする LLM ベースの戦略の有効性を解析することを目指す。
方法: 農業用インターオペラビリティのユースケースにおいて, 13個のオープンソースLCMを選択し, データセットの4つのバージョンをキュレートした。
私たちは2つの異なる戦略を用いて、データセットの各バージョンで各モデルの3つの実行を実行しました。
次に、モデルの有効性と結果の一貫性を複数の実行で比較した。
結果: qwen2.5-coder:32bは、DIRECT(平均pass@1 >= 0.99)とCODEGEN(平均pass@1 >= 0.89)を4つのデータセットバージョンのうち3つで用いた最も効果的なモデルであった。
一方、CODEGEN qwen2.5-coder:32bは平均パス@1 = 0.75で成功した。
結論: 一部のLLMはシステムが自律的に相互運用できるようにします。
異なる領域でのさらなる評価が推奨され、信頼性戦略のさらなる研究が望まれる。
関連論文リスト
- Wisdom and Delusion of LLM Ensembles for Code Generation and Repair [45.969630994412846]
3つのソフトウェアエンジニアリングベンチマークで10個の大規模言語モデルと3つのLLMのアンサンブルを比較した。
アンサンブルのパフォーマンスの理論的上限は、最高のシングルモデルよりも83%高いことが判明した。
多様性に基づく戦略は、この理論ポテンシャルの最大95%を実現し、小さな2モデルアンサンブルでも有効であることを示す。
論文 参考訳(メタデータ) (2025-10-24T14:39:23Z) - Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - Access Paths for Efficient Ordering with Large Language Models [7.826046892571884]
本稿では,LLM ORDER BY演算子を論理抽象として提示し,その物理実装を統一評価フレームワーク内で検討する。
合意に基づくバッチサイズポリシー,ペアソートのための多数投票機構,LLMに適合した双方向の外部マージソートという3つの新しい設計を導入する。
論文 参考訳(メタデータ) (2025-08-30T01:44:36Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。
投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。
実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T04:38:56Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。