論文の概要: It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows
- arxiv url: http://arxiv.org/abs/2605.13245v1
- Date: Wed, 13 May 2026 09:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.943456
- Title: It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows
- Title(参考訳): 言語モデルではなく、ツールである:科学ワークフローのための決定論的メディエーション
- Authors: Marios Adamidis, Danae Katrisioti, Yannis Tzitzikas, Emmanuel Stratakis,
- Abstract要約: 言語モデルは、説得力のある科学的分析を生成できるが、同じデータ上で繰り返される世代は、同じ結果を保証しない。
本稿では,モデルが解析コードを生成するのではなく,決定論的ツールを編成するパターンであるタイプドメディエーションを提案する。
約6ヶ月にわたってユーザに提供する2つの計器にこのパターンをデプロイします。
- 参考スコア(独自算出の注目度): 0.27998963147546146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can produce convincing scientific analyses, but repeated generations on the same data do not guarantee the same result. A researcher may regenerate an identical query and receive a different fit, a different peak position or a different analysis procedure, without an obvious way to decide which output to trust. We propose typed mediation, a pattern in which the model orchestrates deterministic tools rather than generating analytical code. Each tool encodes one researcher's exact procedure for one instrument, ported through structured interviews. The model selects which tool to call and with what parameters. The tool produces the result. Regeneration does not change it. We evaluate this claim by running the same photoluminescence analysis on four platforms, including three commercial foundation models, four times each with the same prompt. The typed tool produces identical results across all runs. The commercial platforms either vary in numerical output and analytical methodology across runs, or fail to produce valid results on the task. We deploy this pattern on two instruments serving users over approximately six months, with very positive user feedback. Both cases are very challenging: they involve proprietary binary formats and per-seat licensed software, which force the tool to remain on local infrastructure alongside the data and the instrument it operates. We argue that deployment topology is not just a preference, but a structural requirement of scientific tool mediation. The result is a practical pattern for deploying language models in scientific workflows where reproducibility is mandatory, reducing analysis time from weeks to minutes while guaranteeing identical outputs across runs.
- Abstract(参考訳): 言語モデルは、説得力のある科学的分析を生成できるが、同じデータ上で繰り返される世代は、同じ結果を保証しない。
研究者は、同一のクエリを再生して、どのアウトプットを信頼するかを明確に判断することなく、異なる適合、異なるピーク位置、または異なる分析手順を受け取ることができる。
本稿では,モデルが解析コードを生成するのではなく,決定論的ツールを編成するパターンであるタイプドメディエーションを提案する。
各ツールは、ある研究者の1つの楽器の正確な手順を符号化し、構造化されたインタビューを通して移植する。
モデルはどのツールを呼び出すか、どのパラメータを呼ぶかを選択する。
ツールは結果を生成します。
再生は変化しない。
3つの基礎モデルを含む4つのプラットフォーム上で同じ光ルミネッセンス解析を行うことにより、この主張を評価する。
タイプされたツールは、すべての実行で同じ結果を生成する。
商用プラットフォームは、実行中の数値出力と分析手法が異なるか、タスク上で有効な結果が得られないかのいずれかである。
約6ヶ月にわたってユーザに提供する2つの計器にこのパターンをデプロイします。
どちらも非常に難しいケースです – プロプライエタリなバイナリフォーマットと,サービス毎のライセンスソフトウェアが関与しているため,ツールが運用するデータや機器とともに,ローカルインフラストラクチャに留まることを余儀なくされるのです。
デプロイメントトポロジは単なる好みではなく,科学的ツールの仲介という構造的な要件である,と我々は主張する。
その結果、再現性が必須である科学ワークフローに言語モデルをデプロイするための実践的なパターンとなり、分析時間を数週間から数分に短縮し、実行中に同じ出力を保証する。
関連論文リスト
- Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis [2.335152769484958]
大規模言語モデルは、自然言語を通して静的解析ツールにアクセスできるようにするために、ますます使われている。
自然言語をJoernのクエリ言語cpgqlに変換するために,LLMの関与範囲に沿って3つのアーキテクチャを比較した。
これらは、3つの複雑性層にわたる20のコード解析タスクのベンチマークで評価される。
論文 参考訳(メタデータ) (2026-04-23T14:51:18Z) - When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning [58.75883713573783]
Tool-Integrated Reasoningは、推論軌道にツール呼び出しと実行を組み込む有望なパラダイムとして登場した。
モデルの推論がツールの結果と矛盾する場合、モデルは自身の推論を信じる傾向にあります。
アダプティブ・ツール・トラスト(ATTC、Adaptive Tool Trust)は、モデルに対して、ツール結果の信頼性や無視を適応的に選択するフレームワークである。
論文 参考訳(メタデータ) (2026-04-09T14:14:37Z) - On the Limitations of Combining Sentiment Analysis Tools in a Cross-Platform Setting [2.3818760805173342]
投票分類器における3つの感情分析ツールの組み合わせを信頼性と性能に応じて分析する。
結果として、この種のツールの組み合わせは、プラットフォーム内設定において良い選択であることが示された。
しかし、多数決は必ずしもクロスプラットフォームのドメインに適用する場合により良い結果をもたらすとは限らない。
論文 参考訳(メタデータ) (2025-02-10T16:51:51Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce
Data Annotation Required in Visual Commonsense Tasks [3.42658286826597]
我々は,言語モデルとマルチモーダル因果変換器モデルの両方における結果を改善するために,異なるプロンプトベースの微調整手法を解析する。
以上の結果から,モデルに依存しないインシデントベースの微調整により,微調整データセットの35%~40%のみを用いて,同等の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T18:56:55Z) - Fine-Tuning Data Structures for Analytical Query Processing [0.5156484100374058]
分析ワークロードの効率的な計算を支援するために,データ構造を自動的に選択するフレームワークを提案する。
本稿では,クエリ処理パラダイムの背景にあるアルゴリズムを表現可能な,新しい低レベル中間言語を提案する。
我々は,我々のフレームワークが生成したコードの性能が,最先端の分析クエリエンジンに匹敵するか,あるいは同等であることを示す。
論文 参考訳(メタデータ) (2021-12-24T16:36:35Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。