論文の概要: Seed1.8 Model Card: Towards Generalized Real-World Agency
- arxiv url: http://arxiv.org/abs/2603.20633v1
- Date: Sat, 21 Mar 2026 04:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.005304
- Title: Seed1.8 Model Card: Towards Generalized Real-World Agency
- Title(参考訳): Seed1.8 Model Card:Generalized Real-World Agencyを目指して
- Authors: Bytedance Seed,
- Abstract要約: Seed1.8は、一般化された現実世界のエージェンシーを対象とした基礎モデルである。
シングルターン予測から、マルチターンインタラクション、ツール使用、マルチステップ実行まで、さまざまです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Seed1.8, a foundation model aimed at generalized real-world agency: going beyond single-turn prediction to multi-turn interaction, tool use, and multi-step execution. Seed1.8 keeps strong LLM and vision-language performance while supporting a unified agentic interface-search, code generation and execution, and GUI interaction. For deployment, it offers latency- and cost-aware inference, including configurable thinking modes and optimized visual encoding for images and video. We report evaluations on standard benchmarks and application-aligned workflows spanning foundational skills, multimodal understanding, and agentic behavior. Seed1.8 is released to support further research and development on interactive, real-world use cases.
- Abstract(参考訳): Seed1.8は、一ターン予測からマルチターンインタラクション、ツール使用、マルチステップ実行まで、一般化された実世界のエージェンシーを対象とした基礎モデルである。
Seed1.8は、統一されたエージェントインターフェイス検索、コード生成と実行、GUIインタラクションをサポートしながら、強力なLLMとビジョン言語のパフォーマンスを維持している。
デプロイメントには、設定可能な思考モードや、画像やビデオの視覚的エンコーディングの最適化など、レイテンシとコストを意識した推論を提供する。
本稿では,基礎的スキル,マルチモーダル理解,エージェント行動にまたがる標準ベンチマークとアプリケーション指向ワークフローの評価について報告する。
Seed1.8はインタラクティブで現実世界のユースケースに関するさらなる研究と開発をサポートするためにリリースされた。
関連論文リスト
- Benchmark Test-Time Scaling of General LLM Agents [27.756239376314294]
General AgentBenchは、検索、コーディング、推論、ツール使用ドメインにわたる一般的なLLMエージェントを評価するためのベンチマークである。
ドメイン固有評価から一般エージェント設定に移行する際の性能劣化について検討する。
どちらのスケーリングも2つの基本的な制限のため、実行時の効果的なパフォーマンス改善にはならないことが分かりました。
論文 参考訳(メタデータ) (2026-02-22T01:08:02Z) - FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning [30.018325742295243]
OpenAI o3は問題解決のためにイメージを変換するツールを作成、運用することができる。
ビジュアル検索のテストは、ローカライズやトリミングといった基本的な操作のみであり、より複雑で動的で、ツールに依存した推論に関する洞察はほとんど提供されない。
エージェント思考とイメージを13種類のタスクで評価するための総合的なベンチマークである textbfTIR-Bench を紹介する。
論文 参考訳(メタデータ) (2025-11-03T18:40:17Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。