論文の概要: GENIUS: Generative Fluid Intelligence Evaluation Suite
- arxiv url: http://arxiv.org/abs/2602.11144v1
- Date: Wed, 11 Feb 2026 18:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.345322
- Title: GENIUS: Generative Fluid Intelligence Evaluation Suite
- Title(参考訳): GENIUS:Generative Fluid Intelligence Evaluation Suite
- Authors: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang,
- Abstract要約: 我々は、$textbfGENIUS$ $textbfGEN$ fluid $textbfI$ntelligence Eval$textbfU$ation $textbfS$uiteを紹介します。
例えば、$textitInducing Implicit Patterns$(例えば、パーソナライズされた視覚的嗜好を推測する)、$textitExecuting Ad-hoc Constraints$(例えば、抽象メタファを視覚化する)、そして。
- 参考スコア(独自算出の注目度): 45.98061608718251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess $\textit{Crystallized Intelligence}$, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks $\textit{Generative Fluid Intelligence (GFI)}$: the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce $\textbf{GENIUS}$ ($\textbf{GEN}$ Fluid $\textbf{I}$ntelligence Eval$\textbf{U}$ation $\textbf{S}$uite). We formalize $\textit{GFI}$ as a synthesis of three primitives. These include $\textit{Inducing Implicit Patterns}$ (e.g., inferring personalized visual preferences), $\textit{Executing Ad-hoc Constraints}$ (e.g., visualizing abstract metaphors), and $\textit{Adapting to Contextual Knowledge}$ (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, $\textbf{GENIUS}$ establishes a rigorous standard for $\textit{GFI}$, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: $\href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS}$.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、視覚生成において顕著な進歩を示している。
しかし、既存のベンチマークは、蓄積した知識と学習したスキーマのリコールに依存する$\textit{Crystallized Intelligence}$を主に評価している。
この焦点は、$\textit{Generative Fluid Intelligence (GFI)}$:パターンを誘導し、制約を通じて推論し、オンザフライで新しいシナリオに適応する能力である。
この能力を厳密に評価するために、$\textbf{GENIUS}$$$\textbf{GEN}$ fluid $\textbf{I}$ntelligence Eval$\textbf{U}$ation $\textbf{S}$uiteを紹介します。
3つのプリミティブの合成として$\textit{GFI}$を定式化する。
例えば、$\textit{Inducing Implicit Patterns}$ (e g , inferring personal visual preferences), $\textit{Executing Ad-hoc Constraints}$ (e g , visualizing abstract metaphors), $\textit{Adapting to Contextual Knowledge}$ (e g ,simulated counter-intuitive Physics)である。
集合的に、これらのプリミティブは、直近の文脈に完全に根ざした問題を解決するためにモデルに挑戦する。
12種類の代表モデルの系統的評価は,これらの課題において顕著な性能低下を示す。
重要なことは、診断分析がこれらの障害モードをアンハングリングすることです。
これは、欠陥は内在的生成能力の不足よりも、文脈的理解の限定によるものであることを示している。
このギャップを埋めるために、トレーニング不要な注意介入戦略を提案する。
最終的に、$\textbf{GENIUS}$ は $\textit{GFI}$ の厳密な標準を確立し、知識利用以外の分野を動的で汎用的な推論へと導く。
データセットとコードは以下の通りリリースされます。 $\href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS}$.com/github.com
関連論文リスト
- VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection [6.72903082348742]
テキスト誘導型オープン語彙オブジェクト $textbfDet$ection フレームワークを提案する。
我々は,視覚エンコーダ固有の情報領域の認識を発見・活用し,微細な局所化と適応蒸留を実現する。
実験は最先端のパフォーマンスを示し、DIORでは30.1$mathrmmAPN$、DOTAでは23.3$mathrmmAPN$を達成し、さらに監督された方法よりも優れていた。
論文 参考訳(メタデータ) (2025-11-22T14:19:59Z) - UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Inertial Confinement Fusion Forecasting via Large Language Models [48.76222320245404]
本研究では,従来の貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$textbfLPI-LLM$を紹介する。
我々は、$textitLLM-anchored Reservoir$, augmented with a $textitFusion-specific Prompt$を提案する。
また、最初の$textttLPI$ベンチマークである$textbfLPI4AI$も提示します。
論文 参考訳(メタデータ) (2024-07-15T05:46:44Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。