FuguReport
最新の週次テーマと直近の日次レポートをまとめて確認できます。
2026-05-01 - 2026-05-07
最新の日次レポート
Continuous Latent Diffusion Language Model
本論文は、テキスト生成を連続潜在空間におけるグローバルな意味組織化とローカルなテキスト実現(条件付きデコーディング)に分解する階層的連続潜在拡散言語モデル「Cola DLM」を提案する。
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
本論文は、Distribution Matching Distillation(DMD)を離散的なアンカーベースの監督から連続時間最適化へ拡張する、少ステップ拡散蒸留フレームワーク「Continuous-Time Distribution Matching(CDM)」を提案している。
OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
OpenGaFFは、3D Gaussian Splattingに基づくオープンボキャブラリー3Dシーン理解フレームワークであり、ビュー間での断片的かつ空間的に不整合なセマンティック予測の問題に対処する。
Safactory: A Scalable Agent Factory for Trustworthy Autonomous Intelligence
本報告は、上海AI研究所が開発した信頼性の高い自律エージェントのためのインフラストラクチャスタック「Safactory」を紹介する。
MiA-Signature: Approximating Global Activation for Long-Context Understanding
本論文は、構造化された意味記憶空間(「マインドスケープ」)上でクエリによって誘起されるグローバルなメモリ活性化パターンを近似するコンパクトな表現であるMindscape Activation Signature(MiA-Signature)を提案する。
Syn4D: A Multiview Synthetic 4D Dataset
Syn4Dは、動的シーンの理解・再構成・追跡を目的とした大規模合成マルチビュー4Dデータセットである。
CAST: Mitigating Object Hallucination in Large Vision-Language Models via Caption-Guided Visual Attention Steering
本論文は、大規模視覚言語モデル(LVLM)におけるオブジェクト幻覚(ハルシネーション)を研究し、視覚トークンへの注意が不十分であることが重要な原因であると主張している。
On the Wasserstein Gradient Flow Interpretation of Drifting Models
本論文は、Generative Modeling via Drifting(GMD)をWasserstein勾配流(WGF)の枠組みを通じて分析し、ドリフティング手続きを完全な流れの軌道をシミュレーションするのではなく、確率空間における不動点を目標とするものとして扱っている。
Stream-T1: Test-Time Scaling for Streaming Video Generation
Stream-T1は、ストリーミング動画生成に特化したテスト時スケーリングフレームワークであり、チャンクレベルの自己回帰合成が少数のデノイジングステップのみで行われるため、フルビデオ拡散生成よりも推論時探索との計算的互換性が高いという観察に基づいている。
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
PhysForgeは、単一画像からインタラクティブな仮想世界やエンボディードAI向けに、物理的に基盤づけられたパーツ認識型3Dアセットを生成する2段階フレームワークである。
RLDX-1 Technical Report
RLDX-1は、Multi-Stream Action Transformer(MSAT)に基づく器用な操作のための汎用ビジョン・言語・行動(VLA)ポリシーである。
Centralizing Task-based Approach to Quantum Network Control
本論文は、SeQUeNCe離散イベントシミュレータを用いて、リソース中心・タスクベースの量子ネットワーク制御アーキテクチャの集中型バージョンを実装・評価している。
When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
本論文は、単一ストリームの自己回帰生成においてトークンがモデル状態の更新と不可逆的な公開コミットメントを同時に行うという制約に取り組み、熟考中にユーザー可視コンテンツが遅延する「沈黙税」の問題を扱う。
ProgramBench: Can Language Models Rebuild Programs From Scratch?
ProgramBenchは、ソフトウェアエンジニアリングエージェントが、コンパイル済み実行ファイルとその使用ドキュメントのみを与えられた状態で、完全なソフトウェアプロジェクトをゼロから再構築できるかどうかを評価するベンチマークを導入する。
GRIFDIR: Graph Resolution-Invariant FEM Diffusion Models in Function Spaces over Irregular Domains
本論文は、無限次元関数空間で定式化されたスコアベース拡散モデルのためのマルチスケールグラフニューラルオペレータアーキテクチャであるGRIFDIRを紹介する。
VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition
VideoNetは、37のドメインにまたがる1,000種類のアクションを対象としたドメイン特化型行動認識ベンチマークであり、現代のビジョン言語モデル(VLM)の細粒度行動理解能力を評価するために設計されている。
AcademiClaw: When Students Set Challenges for AI Agents
AcademiClawは、OpenClawエージェントエコシステム内の80の複雑な長期タスクからなるバイリンガルベンチマークであり、現在のAIエージェントが効果的に解決できなかった大学生の実際の学術ワークフローから収集されたものである。
Perceptual Flow Network for Visually Grounded Reasoning
本論文は、大規模視覚言語モデル(LVLM)における視覚的根拠に基づく推論のためのフレームワークであるPFlowNet(Perceptual Flow Network)を提案する。
Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution
本ポジションペーパーは、信頼できるAIの中核的目標である公平性、頑健性、プライバシー、説明可能性を同時に最適化することが困難である理由として、それぞれがモデルの振る舞いに対して異なる不変性要件を課すことを論じている。
NTIRE 2026 Challenge on Efficient Low Light Image Enhancement: Methods and Results
本論文は、NTIRE 2026 効率的低照度画像強調(E-LLIE)チャレンジを報告するものであり、モデルサイズ1 MB未満という厳格な制約の下でモバイル環境における低照度画像強調に焦点を当てている。
Act2See: Emergent Active Visual Perception for Video Reasoning
Act2Seeは、視覚言語モデルが思考連鎖(Chain of Thought)の中で視覚的証拠を能動的にインターリーブできるようにする、ビデオ推論のための教師あり微調整フレームワークである。
Video Active Perception: Effective Inference-Time Long-Form Video Understanding with Vision-Language Models
本論文は、視覚言語モデルを用いた長時間動画質問応答のための学習不要な推論時手法であるVideo Active Perception(VAP)を提案している。
Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering
本論文は、大規模マルチモーダルモデル(LMM)における複数領域の視覚的参照問題に取り組んでいる。
TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
本論文は、テキスト駆動型の音楽・ダンス同時生成を評価するベンチマークTMD-Benchを提案している。
Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics
本論文は、Expected Calibration Error(ECE)が過信リスクの評価に不十分であることを主張している。
Compute Optimal Tokenization
本論文は、トークン圧縮率(トークンあたりの平均バイト数)が言語モデルの計算最適スケーリング挙動にどのように影響するかを調査している。
LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation
本論文は、LLMおよびエージェントベースの形式仕様生成を評価するための、データ汚染を考慮したベンチマークであるLiveFMBenchを提示する。
Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery
Sentinel-VLAは、ロボットマニピュレーション中に推論(計画、サブタスク更新、またはエラー回復)が必要なタイミングを判断するアクティブステータスモニターモジュールを組み込んだメタ認知型ビジョン言語行動モデルである。
Spectral- and Energy-efficient Multi-BS Multi-RIS Pinching-antenna Systems: A GNN-based Approach
本論文は、複数基地局(multi-BS)・複数RIS支援ピンチングアンテナ(PA)システムにおける協調下りリンク伝送を研究している。
Robust Parameter Learning for Uncertain MDPs
本論文は、経験的遷移頻度から得られる統計的不確実性を、既知のパラメトリックMDP(pMDP)のパラメータ空間に射影することで、不確実MDP(UMDP)を学習するフレームワークを提案している。
Let ViT Speak: Generative Language-Image Pre-training
本論文は、マルチモーダル大規模言語モデルにおけるビジョンエンコーダとして機能するよう設計された、Vision Transformer向けのミニマリストな生成的言語-画像事前学習フレームワーク「GenLIP」を提案する。
Beyond Heuristics: Learnable Density Control for 3D Gaussian Splatting
本論文は、3D Gaussian Splatting(3DGS)における手作業で設計されたヒューリスティックな密度制御を、強化学習(RL)で最適化された学習可能なポリシーネットワークに置き換えるフレームワーク「LeGS」を提案する。
Revealing graph bandits for maximizing local influence
本論文は、グラフ構造に関する事前知識がない状況で、グラフ内で最も影響力のあるノードを特定することを目的としたグラフバンディット問題を研究している。
Map2World: Segment Map Conditioned Text to 3D World Generation
Map2Worldは、ユーザー定義の任意形状・任意スケールのセグメントマップを空間条件として使用するテキスト条件付き3Dワールド生成フレームワークであり、従来手法のグリッドベースレイアウトを超える拡張を実現している。
Posterior Augmented Flow Matching
本論文は、標準的なフローマッチング(FM)が各中間潜在状態に対して1つのターゲット軌道のみを対応させるため、疎な教師信号を提供し、高次元生成タスクにおいて高分散の学習信号やフロー崩壊を引き起こす可能性があると主張している。
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
本論文は、現代のビジュアル生成に関するロードマップを提示し、この分野が単発の外観合成を超えて、知的でインタラクティブかつ因果関係に基づくワールドモデリングシステムへと進化する必要があると主張している。
3D-ReGen: A Unified 3D Geometry Regeneration Framework
3D-ReGenは、拡散モデルに基づく統一フレームワークであり、3Dの強化・再構成・編集といった複数のタスクを、低情報量の初期3D形状からオプションの画像ガイダンスを用いて高情報量の3D形状を予測する単一の「再生成」問題として定式化している。
YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal
本論文は、Diffusion Transformer(DiT)ベースの動画オブジェクト除去における高い推論コストの問題に取り組んでいる。
TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
TopBenchは、回答がテーブルに明示的に格納されておらず、履歴パターンから推論する必要があるテーブル質問応答のためのベンチマークを導入している。
PhyCo: Learning Controllable Physical Priors for Generative Motion
PhyCoは、摩擦、反発係数、変形、外力などの物理特性に対して連続的かつ解釈可能な条件付けを導入した、制御可能な動画生成フレームワークである。
Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance
本論文は、事前構築された高精度地図に依存せず、高レベルの人間の指示から長期的な屋外ソーシャルナビゲーションを実現する階層的フレームワーク「Walk with Me」を提案している。
Large-scale semi-supervised learning with online spectral graph sparsification
本論文は、完全な類似度グラフをメモリに格納することが不可能な厳しいメモリおよび計算制約の下で動作する、スケーラブルなグラフベース半教師あり学習アルゴリズムSparse-HFSを提案している。
The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation
本論文は、生成音声の感情類似性評価において、音声感情埋め込み(特にemotion2vec)のコサイン類似度が妥当な客観的指標であるかを批判的に検証している。
HOI-aware Adaptive Network for Weakly-supervised Action Segmentation
本論文は、トランスクリプト監督下での弱教師付き行動セグメンテーションのためのHOI認識適応ネットワーク「AdaAct」を提案する。
GaitKD: A Universal Decoupled Distillation Framework for Efficient Gait Recognition
本論文は、部位構造化歩行認識モデルのための知識蒸留フレームワークGaitKDを提案している。
Recursive Multi-Agent Systems
本論文は、異種LLMエージェントをテキスト交換ではなく潜在空間における再帰ループで接続するマルチエージェントフレームワーク「RecursiveMAS」を提案する。
A Systematic Post-Train Framework for Video Generation
本論文は、動画拡散モデルのための統一的なポストトレーニングフレームワークを提案しており、4つの段階で構成される:安定した指示追従行動を確立するための教師ありファインチューニング(SFT)、知覚品質と時間的一貫性を改善するためのGRPOベースの人間フィードバックからの強化学習(RLHF)、同じ報酬信号で訓練されたLLMによるプロンプト強化(PE)でユーザー入力を洗練する段階、および自己強制目的関数を用いた自己回帰蒸留(AD)による効率的な推論。
From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models
本論文は、Sparse Autoencoders(SAEs)を活用して大規模言語モデル内の因果的に検証されたタスク固有の特徴を特定し、それをファインチューニング用の学習データ選択に利用するフレームワーク「Interpretability-Guided Data Selection(IGDS)」を提案している。
Improving Sensing Coverage and Compliance of 3D-Printed Artificial Skins Through Multi-Modal Sensing and Soft Materials
本論文は、飛行時間(ToF)センシングと自己容量(SC)センシングを組み合わせた3Dプリント人工皮膚を提案し、ロボット本体における触覚および近接センシングのカバレッジ向上を目指している。
DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
DV-Worldは、データ可視化エージェントを孤立したコードサンドボックス環境ではなく、現実的な専門的ワークフローにおいて評価するために設計された260タスクのベンチマークである。
アーカイブ
週次アーカイブ
15世界モデル・動画モデルの包括的評価
今週のテーマは、世界モデル、動画生成モデル、マルチビュー生成モデルを表面的な視覚品質を超えて評価するベンチマーク研究に焦点を当てている。
強化学習におけるカリキュラムと多様なスキル学習
今週の強化学習テーマは、カリキュラム設計とモジュール型スキル表現を通じて、エージェントがより豊かな行動を学習することに焦点を当てている。
活性化ステアリングと表現幾何学
本テーマは、パラメータを変更せずに推論時に言語モデルを制御・適応させる手法としての活性化ステアリングを追跡する。
世界モデルとしての生成モデル
今週の論文群は、先進的な動画およびマルチモーダル生成システムを単なるコンテンツ生成器ではなく、新たな世界モデルとして位置づけている。
科学研究エージェントのベンチマーク評価
本テーマは、現実的かつ制御された条件下で、科学研究や複雑な情報探索を行うLLMベースエージェントをどのように評価するかに焦点を当てている。
拡散言語モデルとトークン順序制御
今週のテーマは、自己回帰型LLMの代替としての離散・マスク拡散言語モデルに焦点を当てており、特にデコード順序が能力と効率にどのように影響するかが重視されている。
モデル評価とベンチマーク
今週の評価研究は、視覚モデルの評価方法と実際の運用条件との間に根強いギャップがあることを浮き彫りにしている。
時間的動画推論の評価
本テーマは、動画における時間的構造のモデル理解をいかに評価・改善するかを扱う。
GUIエージェント評価
今週の研究は、GUI対応のVLM/LLMエージェントの構築から、プラットフォーム・能力レベル・障害モードを横断したより厳密な評価への移行を反映している。
統合画像復元ベンチマーク
今週は、画像復元の評価を単一劣化設定から拡張する複数の新しいコンペティションベンチマークが発表された。
LLM向け効率的MoE手法
今週の代表的論文は、Mixture-of-Experts(MoE)アーキテクチャとより賢い事前学習データ混合設計を通じて、大規模言語モデルをいかに効率的にスケールさせるかに取り組んでいる。
マルチメディア生成における時間的制御
今週の進展は、拡散モデルが画像から動画・音声へと拡張される中で、マルチメディア生成の時間的一貫性と制御性の向上に焦点を当てている。
ロバストな3D再構成の評価
今週のテーマは、現実的な悪条件下での3D再構成の評価に焦点を当てている。
Transformerによるイン・コンテキスト強化学習
今週は、重み更新なしに逐次的意思決定におけるイン・コンテキスト適応を可能にするTransformerベースの事前学習の研究がさらに進展した。
LLMエージェントの記憶と協調
今週の論文群は、LLMエージェントが複雑かつ長期的なタスクにおいてより信頼性を高めるために、知識の保存・抽出・共有・保護の方法を改善することに焦点を当てている。