論文の概要: LLARS: Enabling Domain Expert & Developer Collaboration for LLM Prompting, Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2605.10593v1
- Date: Mon, 11 May 2026 14:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.871817
- Title: LLARS: Enabling Domain Expert & Developer Collaboration for LLM Prompting, Generation and Evaluation
- Title(参考訳): LLARS: LLMのプロンプト,生成,評価のためのドメインエキスパートと開発者のコラボレーションの実現
- Authors: Philipp Steigerwald, Mara Stieler, Jennifer Burghardt, Eric Rudolph, Jens Albrecht,
- Abstract要約: LLARSは、LLMベースのシステムを構築するためのドメインエキスパートと開発者の間のギャップを埋めるオープンソースのプラットフォームです。
6人のドメインエキスパートと3人の開発者からのインタビューで、LARSは直感的で、すべてをひとつの場所に留めて、学際的なコラボレーションをシームレスにすることで、かなりの時間を節約できると確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate LLARS (LLM Assisted Research System), an open-source platform that bridges the gap between domain experts and developers for building LLM-based systems. It integrates three tightly connected modules into an end-to-end pipeline: Collaborative Prompt Engineering for real-time co-authoring with version control and instant LLM testing, Batch Generation for configurable output production across user-selected prompts $\times$ models $\times$ data with cost control, and Hybrid Evaluation where human and LLM evaluators jointly assess outputs through diverse assessment methods, with live agreement metrics and provenance analysis to identify the best model-prompt combination for a given use case. New prompts and models are automatically available for batch generation and completed batches can be turned into evaluation scenarios with a single click. Interviews with six domain experts and three developers in online counselling confirmed that LLARS feels intuitive, saves considerable time by keeping everything in one place and makes interdisciplinary collaboration seamless.
- Abstract(参考訳): LLARS(LLM Assisted Research System)は、LLMベースのシステムを構築するためのドメインエキスパートと開発者の間のギャップを埋めるオープンソースのプラットフォームである。
3つの密結合したモジュールをエンドツーエンドのパイプラインに統合する: バージョン管理とインスタントLLMテストとリアルタイムの共同オーサリングのためのコラボレーティブ・プロンプトエンジニアリング、ユーザ選択されたプロンプト間で構成可能なアウトプット生成のためのバッチ生成 $\times$ model $\times$ data with cost control, and Hybrid Evaluation ここでは、人間とLLM評価者が、さまざまなアセスメントメソッドを通じてアウトプットを共同評価し、ライブコンセンサスメトリクスとプロファイランス分析を使用して、所定のユースケースで最高のモデルとプロンプトの組み合わせを特定する。
新しいプロンプトとモデルがバッチ生成のために自動的に利用可能になり、完了したバッチを1クリックで評価シナリオに変換することができる。
ドメインの専門家6人とオンラインカウンセリングの開発者3人のインタビューは、LARSは直感的で、すべてをひとつの場所に留めて、学際的なコラボレーションをシームレスにすることで、かなりの時間を節約できることを確認した。
関連論文リスト
- MSCoRe: A Benchmark for Multi-Stage Collaborative Reasoning in LLM Agents [7.339769470891067]
MSCoReは、自動車、医薬品、エレクトロニクス、エネルギー分野のシナリオにまたがる126696ドメイン固有のQAインスタンスからなる新しいベンチマークである。
商用モデルはすべてのタスクやシナリオで最高に機能するが、ROUGEのスコアの顕著な差は、単純なタスクと複雑なタスクの間にある。
MSCoReは、LLMエージェントの多段階推論を評価し改善するための、コミュニティにとって価値のある新しいリソースを提供する。
論文 参考訳(メタデータ) (2025-09-22T11:36:16Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data [60.09659670497899]
大規模言語モデル(LLM)は、さまざまなモデルのランドスケープを持ち、それぞれが異なるタスクで優れています。
この多様性は、研究者に複数のLLMを実際に採用させ、貴重なマルチLLMログデータを残します。
1)実世界のサービスシナリオ(例えば、ローカルおよびAPIベースのサービス)との互換性と、(2)様々なユーザニーズを満たすためにLLMパイプラインの異なる段階での運用の柔軟性である。
論文 参考訳(メタデータ) (2025-07-14T17:58:02Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - The Fellowship of the LLMs: Multi-Model Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチモデルを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文 参考訳(メタデータ) (2024-08-16T12:01:55Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。