FuguReport

FuguReport

最新の週次テーマと直近の日次レポートをまとめて確認できます。

ページ基準日: 2026-05-07
Weekly

2026-05-01 - 2026-05-07

Daily

最新の日次レポート

50 件のレポート
2026-05-07 Method / Latent Diffusion / Hierarchical information decomposition

Continuous Latent Diffusion Language Model

本論文は、テキスト生成を連続潜在空間におけるグローバルな意味組織化とローカルなテキスト実現(条件付きデコーディング)に分解する階層的連続潜在拡散言語モデル「Cola DLM」を提案する。

2026-05-07 Method / Diffusion Model Training / Continuous-time alignment objective

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

本論文は、Distribution Matching Distillation(DMD)を離散的なアンカーベースの監督から連続時間最適化へ拡張する、少ステップ拡散蒸留フレームワーク「Continuous-Time Distribution Matching(CDM)」を提案している。

2026-05-07 Method / Feature Fields / Gaussian feature field for 3D scenes

OpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention

OpenGaFFは、3D Gaussian Splattingに基づくオープンボキャブラリー3Dシーン理解フレームワークであり、ビュー間での断片的かつ空間的に不整合なセマンティック予測の問題に対処する。

2026-05-07 Method / Autonomous Agents / Scalable agent factory design

Safactory: A Scalable Agent Factory for Trustworthy Autonomous Intelligence

本報告は、上海AI研究所が開発した信頼性の高い自律エージェントのためのインフラストラクチャスタック「Safactory」を紹介する。

2026-05-07 Method / Representation Learning / Global activation approximation

MiA-Signature: Approximating Global Activation for Long-Context Understanding

本論文は、構造化された意味記憶空間(「マインドスケープ」)上でクエリによって誘起されるグローバルなメモリ活性化パターンを近似するコンパクトな表現であるMindscape Activation Signature(MiA-Signature)を提案する。

2026-05-06 Task / 3D Reconstruction / Dynamic scene reconstruction

Syn4D: A Multiview Synthetic 4D Dataset

Syn4Dは、動的シーンの理解・再構成・追跡を目的とした大規模合成マルチビュー4Dデータセットである。

2026-05-06 Method / Visual Attention / Caption-guided attention steering method

CAST: Mitigating Object Hallucination in Large Vision-Language Models via Caption-Guided Visual Attention Steering

本論文は、大規模視覚言語モデル(LVLM)におけるオブジェクト幻覚(ハルシネーション)を研究し、視覚トークンへの注意が不十分であることが重要な原因であると主張している。

2026-05-06 Method / Generative Modeling / Drifting models framework analysis

On the Wasserstein Gradient Flow Interpretation of Drifting Models

本論文は、Generative Modeling via Drifting(GMD)をWasserstein勾配流(WGF)の枠組みを通じて分析し、ドリフティング手続きを完全な流れの軌道をシミュレーションするのではなく、確率空間における不動点を目標とするものとして扱っている。

2026-05-06 Method / Model Scaling / Test-time scaling framework for streaming video

Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-T1は、ストリーミング動画生成に特化したテスト時スケーリングフレームワークであり、チャンクレベルの自己回帰合成が少数のデノイジングステップのみで行われるため、フルビデオ拡散生成よりも推論時探索との計算的互換性が高いという観察に基づいている。

2026-05-06 Method / 3D Asset Generation / Physics-grounded synthesis framework

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

PhysForgeは、単一画像からインタラクティブな仮想世界やエンボディードAI向けに、物理的に基盤づけられたパーツ認識型3Dアセットを生成する2段階フレームワークである。

2026-05-05 Method / Robot Policy / General dexterous manipulation policy

RLDX-1 Technical Report

RLDX-1は、Multi-Stream Action Transformer(MSAT)に基づく器用な操作のための汎用ビジョン・言語・行動(VLA)ポリシーである。

2026-05-05 Method / Network Control / Centralized task-based control

Centralizing Task-based Approach to Quantum Network Control

本論文は、SeQUeNCe離散イベントシミュレータを用いて、リソース中心・タスクベースの量子ネットワーク制御アーキテクチャの集中型バージョンを実装・評価している。

2026-05-05 Method / Reasoning / Interleaved reasoning techniques

When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

本論文は、単一ストリームの自己回帰生成においてトークンがモデル状態の更新と不可逆的な公開コミットメントを同時に行うという制約に取り組み、熟考中にユーザー可視コンテンツが遅延する「沈黙税」の問題を扱う。

2026-05-05 Evaluation / Program Synthesis Evaluation / Measuring agent development ability

ProgramBench: Can Language Models Rebuild Programs From Scratch?

ProgramBenchは、ソフトウェアエンジニアリングエージェントが、コンパイル済み実行ファイルとその使用ドキュメントのみを与えられた状態で、完全なソフトウェアプロジェクトをゼロから再構築できるかどうかを評価するベンチマークを導入する。

2026-05-05 Method / Diffusion Models / Score-based diffusion modeling

GRIFDIR: Graph Resolution-Invariant FEM Diffusion Models in Function Spaces over Irregular Domains

本論文は、無限次元関数空間で定式化されたスコアベース拡散モデルのためのマルチスケールグラフニューラルオペレータアーキテクチャであるGRIFDIRを紹介する。

2026-05-04 Evaluation / Action Recognition Benchmark / Domain-specific benchmark with 37 domains

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

VideoNetは、37のドメインにまたがる1,000種類のアクションを対象としたドメイン特化型行動認識ベンチマークであり、現代のビジョン言語モデル(VLM)の細粒度行動理解能力を評価するために設計されている。

2026-05-04 Evaluation / Benchmarking / Complex academic task benchmark

AcademiClaw: When Students Set Challenges for AI Agents

AcademiClawは、OpenClawエージェントエコシステム内の80の複雑な長期タスクからなるバイリンガルベンチマークであり、現在のAIエージェントが効果的に解決できなかった大学生の実際の学術ワークフローから収集されたものである。

2026-05-04 Method / Reinforcement Learning / Separation of inference and perception

Perceptual Flow Network for Visually Grounded Reasoning

本論文は、大規模視覚言語モデル(LVLM)における視覚的根拠に基づく推論のためのフレームワークであるPFlowNet(Perceptual Flow Network)を提案する。

2026-05-04 Task / AI Reliability Objectives / Fairness, robustness, privacy, explainability

Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution

本ポジションペーパーは、信頼できるAIの中核的目標である公平性、頑健性、プライバシー、説明可能性を同時に最適化することが困難である理由として、それぞれがモデルの振る舞いに対して異なる不変性要件を課すことを論じている。

2026-05-04 Evaluation / Benchmarking / Low light image enhancement challenge

NTIRE 2026 Challenge on Efficient Low Light Image Enhancement: Methods and Results

本論文は、NTIRE 2026 効率的低照度画像強調(E-LLIE)チャレンジを報告するものであり、モデルサイズ1 MB未満という厳格な制約の下でモバイル環境における低照度画像強調に焦点を当てている。

2026-05-03 Method / Active Perception / Active visual perception for video

Act2See: Emergent Active Visual Perception for Video Reasoning

Act2Seeは、視覚言語モデルが思考連鎖(Chain of Thought)の中で視覚的証拠を能動的にインターリーブできるようにする、ビデオ推論のための教師あり微調整フレームワークである。

2026-05-03 Method / Active Perception / Inference optimization for video VLM

Video Active Perception: Effective Inference-Time Long-Form Video Understanding with Vision-Language Models

本論文は、視覚言語モデルを用いた長時間動画質問応答のための学習不要な推論時手法であるVideo Active Perception(VAP)を提案している。

2026-05-03 Method / Latent Variable Methods / Training-free contextual steering approach

Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering

本論文は、大規模マルチモーダルモデル(LMM)における複数領域の視覚的参照問題に取り組んでいる。

2026-05-03 Evaluation / Multimodal Benchmarking / Music and dance co-generation quality

TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation

本論文は、テキスト駆動型の音楽・ダンス同時生成を評価するベンチマークTMD-Benchを提案している。

2026-05-03 Evaluation / Risk Assessment / Evaluating overconfidence risk

Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics

本論文は、Expected Calibration Error(ECE)が過信リスクの評価に不十分であることを主張している。

2026-05-02 Method / Tokenization / Optimal tokenization for model scaling

Compute Optimal Tokenization

本論文は、トークン圧縮率(トークンあたりの平均バイト数)が言語モデルの計算最適スケーリング挙動にどのように影響するかを調査している。

2026-05-02 Evaluation / Model Evaluation / Systematic evaluation of specification generation

LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation

本論文は、LLMおよびエージェントベースの形式仕様生成を評価するための、データ汚染を考慮したベンチマークであるLiveFMBenchを提示する。

2026-05-02 Method / Meta-Learning / Metacognitive VLA model design

Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery

Sentinel-VLAは、ロボットマニピュレーション中に推論(計画、サブタスク更新、またはエラー回復)が必要なタイミングを判断するアクティブステータスモニターモジュールを組み込んだメタ認知型ビジョン言語行動モデルである。

2026-05-02 Method / Graph Neural Networks / GNN for wireless system optimization

Spectral- and Energy-efficient Multi-BS Multi-RIS Pinching-antenna Systems: A GNN-based Approach

本論文は、複数基地局(multi-BS)・複数RIS支援ピンチングアンテナ(PA)システムにおける協調下りリンク伝送を研究している。

2026-05-02 Method / Robustness / Learning with uncertain MDPs

Robust Parameter Learning for Uncertain MDPs

本論文は、経験的遷移頻度から得られる統計的不確実性を、既知のパラメトリックMDP(pMDP)のパラメータ空間に射影することで、不確実MDP(UMDP)を学習するフレームワークを提案している。

2026-05-01 Method / Multimodal Pre-training / Generative pre-training for ViT

Let ViT Speak: Generative Language-Image Pre-training

本論文は、マルチモーダル大規模言語モデルにおけるビジョンエンコーダとして機能するよう設計された、Vision Transformer向けのミニマリストな生成的言語-画像事前学習フレームワーク「GenLIP」を提案する。

2026-05-01 Method / Reinforcement Learning / Learnable density control framework

Beyond Heuristics: Learnable Density Control for 3D Gaussian Splatting

本論文は、3D Gaussian Splatting(3DGS)における手作業で設計されたヒューリスティックな密度制御を、強化学習(RL)で最適化された学習可能なポリシーネットワークに置き換えるフレームワーク「LeGS」を提案する。

2026-05-01 Method / Bandit Algorithms / Graph-based bandit problem

Revealing graph bandits for maximizing local influence

本論文は、グラフ構造に関する事前知識がない状況で、グラフ内で最も影響力のあるノードを特定することを目的としたグラフバンディット問題を研究している。

2026-05-01 Method / 3D Generation / 3D world generation from segment maps

Map2World: Segment Map Conditioned Text to 3D World Generation

Map2Worldは、ユーザー定義の任意形状・任意スケールのセグメントマップを空間条件として使用するテキスト条件付き3Dワールド生成フレームワークであり、従来手法のグリッドベースレイアウトを超える拡張を実現している。

2026-05-01 Method / Generative Modeling / Posterior Augmented Flow Matching

Posterior Augmented Flow Matching

本論文は、標準的なフローマッチング(FM)が各中間潜在状態に対して1つのターゲット軌道のみを対応させるため、疎な教師信号を提供し、高次元生成タスクにおいて高分散の学習信号やフロー崩壊を引き起こす可能性があると主張している。

2026-04-30 Task / Visual Generation / Classification of five generative stages

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

本論文は、現代のビジュアル生成に関するロードマップを提示し、この分野が単発の外観合成を超えて、知的でインタラクティブかつ因果関係に基づくワールドモデリングシステムへと進化する必要があると主張している。

2026-04-30 Method / 3D Reconstruction / Unified 3D geometry regeneration framework

3D-ReGen: A Unified 3D Geometry Regeneration Framework

3D-ReGenは、拡散モデルに基づく統一フレームワークであり、3Dの強化・再構成・編集といった複数のタスクを、低情報量の初期3D形状からオプションの画像ガイダンスを用いて高情報量の3D形状を予測する単一の「再生成」問題として定式化している。

2026-04-30 Method / Token Selection / Mask-based essential token selection

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

本論文は、Diffusion Transformer(DiT)ベースの動画オブジェクト除去における高い推論コストの問題に取り組んでいる。

2026-04-30 Evaluation / Benchmarking / Benchmark for tabular QA prediction

TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering

TopBenchは、回答がテーブルに明示的に格納されておらず、履歴パターンから推論する必要があるテーブル質問応答のためのベンチマークを導入している。

2026-04-30 Method / Physical Control / Controllable physical priors in generation

PhyCo: Learning Controllable Physical Priors for Generative Motion

PhyCoは、摩擦、反発係数、変形、外力などの物理特性に対して連続的かつ解釈可能な条件付けを導入した、制御可能な動画生成フレームワークである。

2026-04-29 Method / Social Navigation / Long-horizon mapless navigation framework

Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

本論文は、事前構築された高精度地図に依存せず、高レベルの人間の指示から長期的な屋外ソーシャルナビゲーションを実現する階層的フレームワーク「Walk with Me」を提案している。

2026-04-29 Method / Semi-Supervised Learning / Scalable SSL algorithm design

Large-scale semi-supervised learning with online spectral graph sparsification

本論文は、完全な類似度グラフをメモリに格納することが不可能な厳しいメモリおよび計算制約の下で動作する、スケーラブルなグラフベース半教師あり学習アルゴリズムSparse-HFSを提案している。

2026-04-29 Evaluation / Speech Generation Evaluation / Emotion embedding similarity assessment

The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation

本論文は、生成音声の感情類似性評価において、音声感情埋め込み(特にemotion2vec)のコサイン類似度が妥当な客観的指標であるかを批判的に検証している。

2026-04-29 Method / Action Segmentation / Weakly-supervised segmentation with HOI

HOI-aware Adaptive Network for Weakly-supervised Action Segmentation

本論文は、トランスクリプト監督下での弱教師付き行動セグメンテーションのためのHOI認識適応ネットワーク「AdaAct」を提案する。

2026-04-29 Method / Knowledge Distillation / Teacher-student knowledge transfer

GaitKD: A Universal Decoupled Distillation Framework for Efficient Gait Recognition

本論文は、部位構造化歩行認識モデルのための知識蒸留フレームワークGaitKDを提案している。

2026-04-28 Method / Multi-Agent Systems / Collaborative heterogeneous agents

Recursive Multi-Agent Systems

本論文は、異種LLMエージェントをテキスト交換ではなく潜在空間における再帰ループで接続するマルチエージェントフレームワーク「RecursiveMAS」を提案する。

2026-04-28 Method / Model Fine-Tuning / Post-training framework for alignment

A Systematic Post-Train Framework for Video Generation

本論文は、動画拡散モデルのための統一的なポストトレーニングフレームワークを提案しており、4つの段階で構成される:安定した指示追従行動を確立するための教師ありファインチューニング(SFT)、知覚品質と時間的一貫性を改善するためのGRPOベースの人間フィードバックからの強化学習(RLHF)、同じ報酬信号で訓練されたLLMによるプロンプト強化(PE)でユーザー入力を洗練する段階、および自己強制目的関数を用いた自己回帰蒸留(AD)による効率的な推論。

2026-04-28 Method / Data Selection / Causal task feature identification

From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models

本論文は、Sparse Autoencoders(SAEs)を活用して大規模言語モデル内の因果的に検証されたタスク固有の特徴を特定し、それをファインチューニング用の学習データ選択に利用するフレームワーク「Interpretability-Guided Data Selection(IGDS)」を提案している。

2026-04-28 Method / Sensing Technology / Hybrid Time-of-Flight and Self-Capacitance sensing

Improving Sensing Coverage and Compliance of 3D-Printed Artificial Skins Through Multi-Modal Sensing and Soft Materials

本論文は、飛行時間(ToF)センシングと自己容量(SC)センシングを組み合わせた3Dプリント人工皮膚を提案し、ロボット本体における触覚および近接センシングのカバレッジ向上を目指している。

2026-04-28 Evaluation / Benchmarking / Data visualization agent performance

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

DV-Worldは、データ可視化エージェントを孤立したコードサンドボックス環境ではなく、現実的な専門的ワークフローにおいて評価するために設計された260タスクのベンチマークである。

ページ基準日: 2026-05-07
Archive

アーカイブ

週次アーカイブ

15

世界モデル・動画モデルの包括的評価

今週のテーマは、世界モデル、動画生成モデル、マルチビュー生成モデルを表面的な視覚品質を超えて評価するベンチマーク研究に焦点を当てている。

2026-05-01 - 2026-05-07

強化学習におけるカリキュラムと多様なスキル学習

今週の強化学習テーマは、カリキュラム設計とモジュール型スキル表現を通じて、エージェントがより豊かな行動を学習することに焦点を当てている。

2026-05-01 - 2026-05-07

活性化ステアリングと表現幾何学

本テーマは、パラメータを変更せずに推論時に言語モデルを制御・適応させる手法としての活性化ステアリングを追跡する。

2026-05-01 - 2026-05-07

世界モデルとしての生成モデル

今週の論文群は、先進的な動画およびマルチモーダル生成システムを単なるコンテンツ生成器ではなく、新たな世界モデルとして位置づけている。

2026-04-24 - 2026-04-30

科学研究エージェントのベンチマーク評価

本テーマは、現実的かつ制御された条件下で、科学研究や複雑な情報探索を行うLLMベースエージェントをどのように評価するかに焦点を当てている。

2026-04-24 - 2026-04-30

拡散言語モデルとトークン順序制御

今週のテーマは、自己回帰型LLMの代替としての離散・マスク拡散言語モデルに焦点を当てており、特にデコード順序が能力と効率にどのように影響するかが重視されている。

2026-04-24 - 2026-04-30

モデル評価とベンチマーク

今週の評価研究は、視覚モデルの評価方法と実際の運用条件との間に根強いギャップがあることを浮き彫りにしている。

2026-04-17 - 2026-04-23

時間的動画推論の評価

本テーマは、動画における時間的構造のモデル理解をいかに評価・改善するかを扱う。

2026-04-17 - 2026-04-23

GUIエージェント評価

今週の研究は、GUI対応のVLM/LLMエージェントの構築から、プラットフォーム・能力レベル・障害モードを横断したより厳密な評価への移行を反映している。

2026-04-17 - 2026-04-23

統合画像復元ベンチマーク

今週は、画像復元の評価を単一劣化設定から拡張する複数の新しいコンペティションベンチマークが発表された。

2026-04-10 - 2026-04-16

LLM向け効率的MoE手法

今週の代表的論文は、Mixture-of-Experts(MoE)アーキテクチャとより賢い事前学習データ混合設計を通じて、大規模言語モデルをいかに効率的にスケールさせるかに取り組んでいる。

2026-04-10 - 2026-04-16

マルチメディア生成における時間的制御

今週の進展は、拡散モデルが画像から動画・音声へと拡張される中で、マルチメディア生成の時間的一貫性と制御性の向上に焦点を当てている。

2026-04-10 - 2026-04-16

ロバストな3D再構成の評価

今週のテーマは、現実的な悪条件下での3D再構成の評価に焦点を当てている。

2026-04-03 - 2026-04-09

Transformerによるイン・コンテキスト強化学習

今週は、重み更新なしに逐次的意思決定におけるイン・コンテキスト適応を可能にするTransformerベースの事前学習の研究がさらに進展した。

2026-04-03 - 2026-04-09

LLMエージェントの記憶と協調

今週の論文群は、LLMエージェントが複雑かつ長期的なタスクにおいてより信頼性を高めるために、知識の保存・抽出・共有・保護の方法を改善することに焦点を当てている。

2026-04-03 - 2026-04-09
このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。