論文の概要: GENIUS: Generative Fluid Intelligence Evaluation Suite
- arxiv url: http://arxiv.org/abs/2602.11144v1
- Date: Wed, 11 Feb 2026 18:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.345322
- Title: GENIUS: Generative Fluid Intelligence Evaluation Suite
- Title(参考訳): GENIUS:Generative Fluid Intelligence Evaluation Suite
- Authors: Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang,
- Abstract要約: 我々は、$textbfGENIUS$ $textbfGEN$ fluid $textbfI$ntelligence Eval$textbfU$ation $textbfS$uiteを紹介します。
例えば、$textitInducing Implicit Patterns$(例えば、パーソナライズされた視覚的嗜好を推測する)、$textitExecuting Ad-hoc Constraints$(例えば、抽象メタファを視覚化する)、そして。
- 参考スコア(独自算出の注目度): 45.98061608718251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess $\textit{Crystallized Intelligence}$, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks $\textit{Generative Fluid Intelligence (GFI)}$: the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce $\textbf{GENIUS}$ ($\textbf{GEN}$ Fluid $\textbf{I}$ntelligence Eval$\textbf{U}$ation $\textbf{S}$uite). We formalize $\textit{GFI}$ as a synthesis of three primitives. These include $\textit{Inducing Implicit Patterns}$ (e.g., inferring personalized visual preferences), $\textit{Executing Ad-hoc Constraints}$ (e.g., visualizing abstract metaphors), and $\textit{Adapting to Contextual Knowledge}$ (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, $\textbf{GENIUS}$ establishes a rigorous standard for $\textit{GFI}$, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: $\href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS}$.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、視覚生成において顕著な進歩を示している。
しかし、既存のベンチマークは、蓄積した知識と学習したスキーマのリコールに依存する$\textit{Crystallized Intelligence}$を主に評価している。
この焦点は、$\textit{Generative Fluid Intelligence (GFI)}$:パターンを誘導し、制約を通じて推論し、オンザフライで新しいシナリオに適応する能力である。
この能力を厳密に評価するために、$\textbf{GENIUS}$$$\textbf{GEN}$ fluid $\textbf{I}$ntelligence Eval$\textbf{U}$ation $\textbf{S}$uiteを紹介します。
3つのプリミティブの合成として$\textit{GFI}$を定式化する。
例えば、$\textit{Inducing Implicit Patterns}$ (e g , inferring personal visual preferences), $\textit{Executing Ad-hoc Constraints}$ (e g , visualizing abstract metaphors), $\textit{Adapting to Contextual Knowledge}$ (e g ,simulated counter-intuitive Physics)である。
集合的に、これらのプリミティブは、直近の文脈に完全に根ざした問題を解決するためにモデルに挑戦する。
12種類の代表モデルの系統的評価は,これらの課題において顕著な性能低下を示す。
重要なことは、診断分析がこれらの障害モードをアンハングリングすることです。
これは、欠陥は内在的生成能力の不足よりも、文脈的理解の限定によるものであることを示している。
このギャップを埋めるために、トレーニング不要な注意介入戦略を提案する。
最終的に、$\textbf{GENIUS}$ は $\textit{GFI}$ の厳密な標準を確立し、知識利用以外の分野を動的で汎用的な推論へと導く。
データセットとコードは以下の通りリリースされます。 $\href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS}$.com/github.com
関連論文リスト
- ConvexBench: Can LLMs Recognize Convex Functions? [70.53167848190624]
凸解析は数学の現代的な分野であり、多くの応用がある。
大規模言語モデル(LLM)が研究レベルの数学と科学を自動化し始めるにつれ、LLMが凸性を理解し、推論する能力を示すことが重要である。
我々は,LLMが深い機能的構成下での象徴的対象の凸性を識別できるかどうかを,スケーラブルで機械的に検証できるベンチマークであるcbを紹介する。
論文 参考訳(メタデータ) (2026-02-01T07:41:17Z) - VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection [6.72903082348742]
テキスト誘導型オープン語彙オブジェクト $textbfDet$ection フレームワークを提案する。
我々は,視覚エンコーダ固有の情報領域の認識を発見・活用し,微細な局所化と適応蒸留を実現する。
実験は最先端のパフォーマンスを示し、DIORでは30.1$mathrmmAPN$、DOTAでは23.3$mathrmmAPN$を達成し、さらに監督された方法よりも優れていた。
論文 参考訳(メタデータ) (2025-11-22T14:19:59Z) - Reliability, Embeddedness, and Agency: A Utility-Driven Mathematical Framework for Agent-Centric AI Adoption [0.0]
我々は,マルチステップタスクを実行するエージェント中心のAIシステムの採用を継続するための3つの公理を定式化する。
我々は、崩壊するノベルティ用語と成長するユーティリティ用語の和として、採用をモデル化する。
論文 参考訳(メタデータ) (2025-08-18T12:53:38Z) - UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Inertial Confinement Fusion Forecasting via Large Language Models [48.76222320245404]
本研究では,従来の貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$textbfLPI-LLM$を紹介する。
我々は、$textitLLM-anchored Reservoir$, augmented with a $textitFusion-specific Prompt$を提案する。
また、最初の$textttLPI$ベンチマークである$textbfLPI4AI$も提示します。
論文 参考訳(メタデータ) (2024-07-15T05:46:44Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。