論文の概要: HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions
- arxiv url: http://arxiv.org/abs/2511.18715v1
- Date: Mon, 24 Nov 2025 03:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.990304
- Title: HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions
- Title(参考訳): HuggingR$^{4}$: 最適なモデルコンパニオンを発見するためのプログレッシブ推論フレームワーク
- Authors: Shaoyin Ma, Jie Song, Huiqiong Wang, Li Sun, Mingli Song,
- Abstract要約: HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
- 参考スコア(独自算出の注目度): 50.61510609116118
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have made remarkable progress in their ability to interact with external interfaces. Selecting reasonable external interfaces has thus become a crucial step in constructing LLM agents. In contrast to invoking API tools, directly calling AI models across different modalities from the community (e.g., HuggingFace) poses challenges due to the vast scale (> 10k), metadata gaps, and unstructured descriptions. Current methods for model selection often involve incorporating entire model descriptions into prompts, resulting in prompt bloat, wastage of tokens and limited scalability. To address these issues, we propose HuggingR$^4$, a novel framework that combines Reasoning, Retrieval, Refinement, and Reflection, to efficiently select models. Specifically, We first perform multiple rounds of reasoning and retrieval to get a coarse list of candidate models. Then, we conduct fine-grained refinement by analyzing candidate model descriptions, followed by reflection to assess results and determine if retrieval scope expansion is necessary. This method reduces token consumption considerably by decoupling user query processing from complex model description handling. Through a pre-established vector database, complex model descriptions are stored externally and retrieved on-demand, allowing the LLM to concentrate on interpreting user intent while accessing only relevant candidate models without prompt bloat. In the absence of standardized benchmarks, we construct a multimodal human-annotated dataset comprising 14,399 user requests across 37 tasks and conduct a thorough evaluation. HuggingR$^4$ attains a workability rate of 92.03% and a reasonability rate of 82.46%, surpassing existing method by 26.51% and 33.25% respectively on GPT-4o-mini.
- Abstract(参考訳): 大きな言語モデル(LLM)は、外部インターフェースと対話する能力において顕著な進歩を遂げています。
合理的な外部インタフェースの選択は、LCMエージェントを構築する上で重要なステップとなっている。
APIツールの呼び出しとは対照的に、コミュニティ(例えばHuggingFace)からさまざまなモダリティを直接AIモデルを呼び出すと、大規模な(10k)やメタデータのギャップ、構造化されていない記述といった問題が発生する。
モデル選択の現在の手法では、モデル記述全体をプロンプトに組み込むことがしばしばあり、結果として急激な肥大化、トークンの無駄遣い、スケーラビリティの制限が生じる。
これらの問題に対処するために、Reasoning、Retrieval、Refinement、Reflectionを組み合わせた新しいフレームワークであるHuggingR$^4$を提案し、モデルを効率的に選択する。
具体的には、まず複数の推論と検索を行い、候補モデルの粗いリストを得る。
そして、候補モデル記述を解析し、次に反射して結果を評価し、検索範囲の拡張が必要かどうかを判断する。
複雑なモデル記述処理からユーザクエリ処理を分離することでトークン消費を大幅に削減する。
事前に確立されたベクトルデータベースを通じて、複雑なモデル記述が外部に格納され、オンデマンドで検索されるため、LCMは、急激な肥大なしに関連する候補モデルのみにアクセスしながら、ユーザの意図を解釈することに集中することができる。
標準化されたベンチマークがなければ、37のタスクにまたがる14,399のユーザリクエストからなるマルチモーダルなヒューマンアノテートデータセットを構築し、徹底的な評価を行う。
HuggingR$^4$は92.03%、理性率は82.46%に達し、GPT-4o-miniでそれぞれ26.51%、33.25%を超える。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文 参考訳(メタデータ) (2024-10-04T22:21:43Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - iSNEAK: Partial Ordering as Heuristics for Model-Based Reasoning in Software Engineering [11.166755101891402]
iSNEAKは、インクリメンタルなAI問題解決ツールである。
情報過負荷問題を解決するため,iSNEAKのような部分順序付けやツールを提案する。
論文 参考訳(メタデータ) (2023-10-29T19:21:37Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Tryage: Real-time, intelligent Routing of User Prompts to Large Language
Models [1.0878040851637998]
Hugging Faceエコシステムには20万以上のモデルがあり、ユーザーは多面的およびデータドメインに適したモデルを選択し、最適化する。
本稿では,言語モデルルータを利用した文脈認識型ルーティングシステムTryageを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:48:24Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。