論文の概要: Lost in Execution: On the Multilingual Robustness of Tool Calling in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05366v1
- Date: Thu, 08 Jan 2026 20:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.763865
- Title: Lost in Execution: On the Multilingual Robustness of Tool Calling in Large Language Models
- Title(参考訳): 実行における損失:大規模言語モデルにおけるツール呼び出しの多言語ロバスト性について
- Authors: Zheng Luo, T Pranav Kutralingam, Ogochukwu N Okoani, Wanpeng Xu, Hua Wei, Xiyang Hu,
- Abstract要約: 大規模言語モデル(LLM)は、構造化関数呼び出しを通じて外部ツールを呼び出すエージェントとして、ますます多くデプロイされている。
診断ベンチマークであるMLCLを導入し,中国語,ヒンディー語,低リソース言語Igboを対象とした多言語ツールコールの体系的評価を行う。
- 参考スコア(独自算出の注目度): 5.6688028729584055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as agents that invoke external tools through structured function calls. While recent work reports strong tool-calling performance under standard English-centric evaluations, the robustness of tool calling under multilingual user interactions remains underexplored. In this work, we introduce MLCL, a diagnostic benchmark, and conduct a systematic evaluation of multilingual tool calling across Chinese, Hindi, and the low-resource language Igbo. Through fine-grained error analysis, we show that many failures occur despite correct intent understanding and tool selection. We identify parameter value language mismatch as a dominant failure mode, where models generate semantically appropriate parameter values in the user's language, violating language-invariant execution conventions. We further evaluate several inference-time system strategies and find that while these strategies substantially reduce language-induced execution errors, none of them can fully recover English-level performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化関数呼び出しを通じて外部ツールを呼び出すエージェントとして、ますます多くデプロイされている。
最近の研究報告では、標準英語による評価では強力なツールコール性能が報告されているが、多言語ユーザインタラクション下でのツールコールの堅牢性はまだ未定である。
本研究では,診断ベンチマークであるMLCLを導入し,中国語,ヒンディー語,低リソース言語Igboを対象とした多言語通話の体系的評価を行う。
きめ細かい誤差解析により、正しい意図の理解とツールの選択にもかかわらず、多くの障害が発生することを示す。
パラメータ値言語ミスマッチは、モデルがユーザの言語で意味的に適切なパラメータ値を生成し、言語不変な実行規約に違反する、支配的な失敗モードである。
さらに、いくつかの推論時システム戦略を評価し、これらの戦略は言語による実行エラーを大幅に低減するが、いずれも英語レベルの性能を完全に回復することはできないことを発見した。
関連論文リスト
- Asm2SrcEval: Evaluating Large Language Models for Assembly-to-Source Code Translation [4.45354703148321]
アセンブリ・トゥ・ソースのコード翻訳はリバースエンジニアリング、サイバーセキュリティ、ソフトウェアメンテナンスにおいて重要なタスクである。
本稿では,アセンブリ・トゥ・ソース・トランスフォーメーションにおける5つの最先端大規模言語モデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-11-28T12:40:30Z) - Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Teaching a Language Model to Speak the Language of Tools [0.0]
この研究は、既存の言語モデルを適用するための方法論を示し、あらゆるターゲット言語で堅牢なツールの使用を可能にする。
この研究は、基本モデルよりも関数呼び出し精度を最大28.75%改善するTUCANを紹介している。
論文 参考訳(メタデータ) (2025-06-29T20:47:27Z) - Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline [36.2731426595852]
その結果,多言語大言語モデル (LLM) は,他の言語に比べて,実際のリコールタスクにおいて有意に優れた性能を示すことがわかった。
事実的リコールのための信頼性の高い英語中心のメカニズムの関与が不十分なことと、ターゲット言語への英語からの誤った翻訳である。
我々の介入によって、最低パフォーマンス言語では、リコール精度が35%以上向上しました。
論文 参考訳(メタデータ) (2025-05-26T22:20:45Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Scaffolded Language Models with Language Supervision for Mixed-Autonomy: A Survey [52.00674453604779]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。