論文の概要: Interfaze: The Future of AI is built on Task-Specific Small Models
- arxiv url: http://arxiv.org/abs/2602.04101v1
- Date: Wed, 04 Feb 2026 00:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.321491
- Title: Interfaze: The Future of AI is built on Task-Specific Small Models
- Title(参考訳): Interfaze: AIの未来はタスク特有の小さなモデルの上に構築される
- Authors: Harsha Vardhan Khurdula, Vineet Agarwal, Yoeven D Khemlani,
- Abstract要約: 現代LLMアプリケーションをコンテキスト上で構築および動作する問題として扱うシステムであるInterfazeを提案する。
このスタックの上に薄いコントローラがあり、単一のOpenAIスタイルのエンドポイントを公開する。
このアーキテクチャでは、Interfaze-BetaはMMLU-Proで83.6%、MMLUで91.4%、GPQA-Diamondで81.3%、LiveCodeBench v5で57.8%、AIME-2025で90.0%を達成している。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Interfaze, a system that treats modern LLM applications as a problem of building and acting over context, not just picking the right monolithic model. Instead of a single transformer, we combine (i) a stack of heterogeneous DNNs paired with small language models as perception modules for OCR involving complex PDFs, charts and diagrams, and multilingual ASR with (ii) a context-construction layer that crawls, indexes, and parses external sources (web pages, code, PDFs) into compact structured state, and (iii) an action layer that can browse, retrieve, execute code in a sandbox, and drive a headless browser for dynamic web pages. A thin controller sits on top of this stack and exposes a single, OpenAI-style endpoint: it decides which small models and actions to run and always forwards the distilled context to a user-selected LLM that produces the final response. On this architecture, Interfaze-Beta achieves 83.6% on MMLU-Pro, 91.4% on MMLU, 81.3% on GPQA-Diamond, 57.8% on LiveCodeBench v5, and 90.0% on AIME-2025, along with strong multimodal scores on MMMU (val) (77.3%), AI2D (91.5%), ChartQA (90.9%), and Common Voice v16 (90.8%). We show that most queries are handled primarily by the small-model and tool stack, with the large LLM operating only on distilled context, yielding competitive accuracy while shifting the bulk of computation away from the most expensive and monolithic models.
- Abstract(参考訳): 現代のLLMアプリケーションを適切なモノリシックモデルを選択するだけでなく、コンテキスト上で構築および動作する問題として扱うシステムであるInterfazeを紹介します。
1つの変圧器の代わりに、我々は組み合わせる
一 複雑なPDF、図表、図表、多言語ASRを含むOCRの知覚モジュールとして、小言語モデルと組み合わせた異種DNNのスタック。
(ii)外部ソース(Webページ、コード、PDF)をクローリング、インデックス化、解析し、コンパクトな構造化状態にするコンテキスト構成層
三)サンドボックスでコードを閲覧、検索、実行し、動的なWebページのためのヘッドレスブラウザを駆動するアクション層。
薄いコントローラがこのスタックの上にあり、OpenAIスタイルのエンドポイントを公開する。どの小さなモデルとアクションを実行するかを決定し、最終応答を生成するユーザ選択のLCMに蒸留コンテキストを常に転送する。
このアーキテクチャでは、Interfaze-BetaはMMLU-Proで83.6%、MMLUで91.4%、GPQA-Diamondで81.3%、LiveCodeBench v5で57.8%、AIME-2025で90.0%、MMMU (val) (77.3%)、AI2D (91.5%)、ChartQA (90.9%)、Common Voice v16 (90.8%) で強いマルチモーダルスコアを獲得した。
ほとんどのクエリは、主に小さなモデルとツールスタックで処理され、大きなLLMは蒸留コンテキストのみで動作し、計算の大部分を最も高価でモノリシックなモデルから切り離しながら、競合する精度が得られる。
関連論文リスト
- MMR-Bench: A Comprehensive Benchmark for Multimodal LLM Routing [41.77627136743721]
実際のデプロイメントでは、ワークロードは軽量なOCRから複雑なマルチモーダル推論にまたがる。
ルーティングは、モダリティの融合、モデル間での計算コストの変動、標準化された予算対応評価の欠如などにより、簡単ではない。
MMR-Benchは、マルチモーダルルーティング問題を分離し、固定された候補セットとコストモデルで比較できる統一ベンチマークである。
論文 参考訳(メタデータ) (2026-01-25T12:44:14Z) - LFM2 Technical Report [87.58431408281973]
LFM2は、デバイス上での効率的なデプロイと強力なタスク機能を実現するために設計された、Liquid Foundation Modelsのファミリーである。
LFM2ファミリーは350M-8.3Bパラメータをカバーしており、密度の高いモデル(350M, 700M, 1.2B, 2.6B)と試験用混合物(合計8.3B, 1.5B)を含んでいる。
視覚遅延タスクのためのLFM2-VL,音声のためのLFM2-Audio,検索のためのLFM2-ColBERTを構築した。
論文 参考訳(メタデータ) (2025-11-28T17:56:35Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - Towards General Computer Control with Hierarchical Agents and Multi-Level Action Spaces [5.258138614911196]
我々は,OS制御を2段階のオプションプロセスとして定式化する軽量階層型強化学習フレームワークであるComputerAgentを導入する。
135の現実世界のデスクトップタスクで、ComputerAgentは92.1%の簡単なタスクで成功し、58.8%のハードタスクで成功している。
その結果、階層型RLは、コンピュータ制御のためのモノリシックMLLMベースの自動化に代わる実用的でスケーラブルな代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-09-22T13:14:47Z) - ChatCFD: An LLM-Driven Agent for End-to-End CFD Automation with Domain-Specific Structured Reasoning [4.098524616768554]
ChatCFDはOpenFOAMシミュレーションのための自動エージェントシステムである。
その4段階のパイプラインは、複雑なセットアップのために反復的なトライアル-リフレクション-リファインメントを可能にする。
ChatCFDは、協調マルチエージェントシステムのためのMPPベースのエージェントネットワークにおいて、モジュラーコンポーネントとして強力な可能性を示している。
論文 参考訳(メタデータ) (2025-05-28T08:43:49Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Can LLMs Revolutionize the Design of Explainable and Efficient TinyML Models? [8.953379216683736]
本稿では,小さな機械学習(TinyML)プラットフォームに特化して,効率的なニューラルネットワークアーキテクチャを設計するための新しいフレームワークを提案する。
大規模言語モデル(LLM)をニューラルネットワーク探索(NAS)、視覚変換器(ViT)ベースの知識蒸留(KD)戦略、説明可能性モジュールに活用することにより、精度、計算効率、メモリ使用率の最適なバランスをとることができる。
論文 参考訳(メタデータ) (2025-04-13T18:36:03Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。