FuguReport
最新の週次テーマと直近の日次レポートをまとめて確認できます。
2026-03-27 - 2026-04-02
最新の日次レポート
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
本論文は、Qwen3-VL-Instruct-8Bをベースに構築され、一般的なVQA、数学VQA、チャート理解、文書理解、空間推論、視覚的グラウンディングなど多様な視覚タスクに対して強化学習で訓練されたマルチモーダル推論モデルOpenVLThinkerV2を提案している。
Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces
本論文は、快手(Kuaishou)プラットフォームの匿名化されたログから構築されたユーザーシミュレーションベンチマーク「OmniBehavior」を紹介する。
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
KnowU-Benchは、GUI操作だけでなく、パーソナライゼーション、インタラクション、プロアクティブな意思決定を必要とする設定においてモバイルエージェントを評価するためのオンラインベンチマークである。
Small Vision-Language Models are Smart Compressors for Long Video Understanding
本論文は、大規模な視覚トークンストリームと限られたLLMコンテキストウィンドウ間の不一致に対処する、6Bパラメータのクエリ認識型長時間動画理解フレームワーク「Tempo」を提案している。
PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory
本論文は、明示的なリクエストを待つのではなく、ストリーミングされるインタラクションコンテキストからユーザーの潜在的ニーズを推論するように設計されたプロアクティブAIシステム「Pask」を提案している。
SemEval-2026 Task 3: Dimensional Aspect-Based Sentiment Analysis (DimABSA)
本論文は、アスペクトベース感情分析(ABSA)におけるカテゴリカルな極性ラベルを連続的なバレンス・覚醒度(VA)スコアに置き換える、SemEval-2026共有タスク「次元アスペクトベース感情分析(DimABSA)」を提示している。
MARS: Enabling Autoregressive Models Multi-Token Generation
本論文は、指示チューニング済みの自己回帰言語モデルに対し、標準的な左から右への自己回帰的振る舞いを維持しつつ、1回のフォワードパスで複数トークンを予測可能にする軽量ファインチューニング手法MARS(Mask AutoRegression)を提案する。
Fast Spatial Memory with Elastic Test-Time Training
本論文は、長コンテキスト3D/4D再構成のためのLarge Chunk Test-Time Training(LaCT)が、完全に可塑的な高速重み更新による破滅的忘却と過学習に悩まされ、通常は入力シーケンス全体にわたる単一の大きなチャンクに限定されることを特定している。
BiDexGrasp: Coordinated Bimanual Dexterous Grasps across Object Geometries and Sizes
BiDexGraspは、多様な形状およびサイズの物体に対する協調的な両手器用把持のための大規模データセットと学習ベースの生成フレームワークを提示している。
Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
Q-Zoomは、マルチモーダル大規模言語モデル(MLLM)向けのクエリ認識型適応知覚フレームワークであり、軽量な動的ゲーティングネットワークを通じてクエリをルーティングすることで、高解像度視覚処理のコストを削減する。
FunRec: Reconstructing Functional 3D Scenes from Egocentric Interaction Videos
FunRecは、単一のエゴセントリックRGB-Dインタラクション動画から室内シーンの機能的な3Dデジタルツインを再構築する、学習不要の最適化ベース手法である。
Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework
Paper Circleは、科学文献の発見と分析のためのオープンソースのマルチエージェントフレームワークであり、2つの相補的なパイプラインで構成されている。
Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition
Market-Benchは、競争的なサプライチェーン経済において、定量的な意思決定とマーケティング言語の両方を扱う必要がある大規模言語モデル(LLM)を評価するためのベンチマークである。
Action Images: End-to-End Policy Learning via Multiview Video Generation
本論文は、ロボットの方策学習をマルチビュー動画生成として定式化する統一的な世界・行動モデル「Action Images」を提案する。
Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation
本論文は、実行中に人間または高レベルプランナーから提供される疎な3D参照点を組み込んだ、ロボットマニピュレーションのための閉ループ模倣学習フレームワークReV(Referring-Aware Visuomotor Policy)を提案する。
アーカイブ
週次アーカイブ
9医療AIの評価と時間的マルチモダリティ
今週の代表的な論文は、医療AIの進歩がより強力なモデルだけでなく、明確な評価フレームワークとより豊かな臨床コンテキストに依存していることを強調している。
LLMマルチエージェントフレームワーク
今週の論文は、複雑な実世界タスクに向けたLLMベースのマルチエージェントシステムの組織化方法に焦点を当てている。
LLMの帰属と引用評価
本テーマは、LLMの出力を裏付け文書に帰属させ、生成された回答の透明性・検証可能性・信頼性を高める方法に焦点を当てている。
効率的マルチモーダル基盤モデル
今週の論文は、マルチモーダル基盤モデルの幅広い汎用性を犠牲にせず、いかに効率化するかに焦点を当てている。
非定型・ドメインシフト音声に対する音声モデル適応
今週のテーマは、ラベル付きドメイン内データが乏しい場合、ドメインシフトが生じる場合、または音声が典型的なパターンから逸脱する場合における音声モデルの適応と評価に関するものである。
AIの持続可能性と信頼性
今週の論文群は、AI導入を環境およびガバナンス上の課題として捉えている。
包括的なLLMエージェント評価
今週の評価研究は、狭いベンチマーク設定を超え、LLMおよびVLMベースのエージェントに対するより広範なテストへと進展した。
連合学習におけるプライバシー推論
今週のテーマは連合学習におけるプライバシー評価に焦点を当てている。
AIの持続可能性と信頼性
今週の論文は、AIインフラの環境影響を直接的な評価対象として扱っている。
日次アーカイブ
38OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
OpenWorldLibは、高度な世界モデルの標準化された推論フレームワークおよびコードベースであり、世界モデルの構成要素に関する広く受け入れられた定義が存在しないことを動機として開発された。
Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
本論文は、Gmail、Stripe、ファイルシステムなどのサービスとの連携機能およびローカルシステムへの完全なアクセス権を持つ、広く普及したパーソナルAIエージェント「OpenClaw」に対する初の実環境安全性評価を提示している。
FileGram: Grounding Agent Personalization in File-System Behavioral Traces
FileGramは、対話履歴のみではなく、行動トレース(アクションシーケンスとコンテンツデルタ)を用いてファイルシステムエージェントをパーソナライズするための統合フレームワークである。
Structured Causal Video Reasoning via Multi-Objective Alignment
本論文は、動画推論のための「構造優先」フレームワークを提案しており、モデルがまず構造化イベントファクト(Structured Event Facts)——顕著なイベントとその因果関係を時系列順にまとめたコンパクトな記述——を生成し、その制約の下で推論を行う。
Paper Espresso: From Paper Overload to Research Insight
Paper Espressoは、Hugging Face Daily Papersフィード(arXiv全体の約2〜3%)から収集されたコミュニティで注目されているarXiv論文を継続的に発見・要約・分析するオープンソースプラットフォームである。
Vintix II: Decision Pre-Trained Transformer is a Scalable In-Context Reinforcement Learner
本論文は、Decision Pre-Trained Transformer(DPT)フレームワークを、整流フローマッチング(rectified flow matching)で学習されたフローベースの行動ヘッドを統合することで、連続制御設定におけるクロスドメインのイン・コンテキスト強化学習に拡張するものである。
NTIRE 2026 3D Restoration and Reconstruction in Real-world Adverse Conditions: RealX3D Challenge Results
本論文は、NTIRE 2026 3D復元・再構成(3DRR)チャレンジの結果を報告するものであり、RealX3Dベンチマークを用いて実世界の悪条件下におけるロバストな3D再構成パイプラインを評価している。
Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization
本論文は、一階の確率的二層最適化(SBO)手法に対する体系的な安定性および汎化解析を提供する。
Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
Combeeは、高並列性の下で自己改善型言語モデルエージェントにおけるプロンプト学習をスケーリングするためのフレームワークである。
Align Your Structures: Generating Trajectories with Structure Pretraining for Molecular Dynamics
本論文は、分子動力学(MD)トラジェクトリ生成のための二段階フレームワークであるEGInterpolatorを提案している。
Relay-Assisted Activation-Integrated SIM for Wireless Physical Neural Networks
本論文は、活性化機能統合型積層知的メタサーフェス(AI-SIM)に基づくリレー支援無線物理ニューラルネットワーク(WPNN)アーキテクチャを提案する。
Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning
本論文は、視覚的インコンテキスト学習(VICL)におけるプロンプト検索を研究し、既存手法が視覚的類似性を過度に重視する一方でプロンプトのラベルを軽視していると主張している。
Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval
本論文は、テキストクエリが未トリミング動画の一部分のみを記述する「部分関連動画検索(PRVR)」に取り組んでおり、この課題では誤った局所的マッチングが検索精度を損なう要因となる。
Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation
本論文は、多言語Mixture-of-Experts(MoE)モデルにおけるエキスパートルーティングパターンを分析し、高資源言語と低資源言語がほぼ互いに素なエキスパート集合を活性化する「言語ルーティング分離(Language Routing Isolation)」と呼ばれる現象を特定している。
ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos
本論文は、動画中の改変された人間の活動を時間的に局在化するためのベンチマーク「ActivityForensics」を提案している。
SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization
本論文は、推論言語モデル(RLM)向けのファインチューニングパイプラインであるSecPIを提案しており、推論時に明示的なセキュリティプロンプトを必要とせず、安全なコード生成をデフォルトの動作とすることを目的としている。
CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning
CoME-VLは、対照学習で訓練されたSigLIP2エンコーダと自己教師あり学習のDINOv3エンコーダを統合し、意味理解と空間的グラウンディングの両方を向上させるモジュール型マルチエンコーダ視覚言語フレームワークである。
PolyReal: A Benchmark for Real-World Polymer Science Workflows
PolyRealは、孤立した科学的サブタスクではなく、実世界の高分子科学ワークフローにおいて大規模マルチモーダルモデル(MLLM)を評価するために設計されたマルチモーダルベンチマークである。
Do Audio-Visual Large Language Models Really See and Hear?
本論文は、音声視覚大規模言語モデル(AVLLM)に対する初の機械論的解釈可能性研究を提示し、キャプション生成時に音声および視覚表現がトランスフォーマーの各層でどのように進化・融合するかを分析している。
EvaNet: Towards More Efficient and Consistent Infrared and Visible Image Fusion Assessment
本論文は、赤外線・可視光画像融合(IVIF)における既存の評価指標が他の視覚タスクから適応なく借用されていることに起因する効率性と一貫性の問題に取り組んでいる。
Verbalizing LLMs' assumptions to explain and control sycophancy
本論文は、オープンエンド型および構造化プロンプティングを通じてLLMがユーザーについて推論する仮定(Verbalized Assumptions)を引き出すフレームワークを導入し、これらの仮定を社会的追従性(social sycophancy)と結びつけている。
NearID: Identity Representation Learning via Near-identity Distractors
本論文は、アイデンティティに焦点を当てたタスクで使用されるビジョンエンコーダにおける体系的な失敗モードを特定している。
A3R: Agentic Affordance Reasoning via Cross-Dimensional Evidence in 3D Gaussian Scenes
本論文は、3D Gaussian Splatting(3DGS)シーンにおけるアフォーダンス推論を扱い、テキストで指定されたアクションを支持する領域を特定することを目的としている。
Are VLMs Lost Between Sky and Space? LinkS$^2$Bench for UAV-Satellite Dynamic Cross-View Spatial Intelligence
本論文は、動的なUAV-衛星間クロスビュー空間知能に関するビジョン言語モデル(VLM)の評価を目的としたベンチマーク「LinkS2Bench」を紹介している。
Steerable Visual Representations
本論文は、凍結されたViTブロックに軽量なゲート付きクロスアテンション層を挿入することで、事前学習済みビジョントランスフォーマー(ViT)の表現を自然言語によって操縦可能(steerable)にする手法「SteerViT」を提案している。
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
CORALは、オープンエンドな発見タスクにおける自律的マルチエージェント進化のためのフレームワークであり、固定的な進化ヒューリスティクスを、何を取得・テスト・評価・保存するかを自ら判断する長時間稼働エージェントに置き換えるものである。
VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification
VideoZeroBenchは、長時間動画の質問応答を対象とした階層型ベンチマークであり、回答の正確性だけでなく、モデルが正しい時間的・空間的証拠を特定できるかどうかも評価する。
Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants
本論文は、デジタル環境においてアクティブなユーザーシミュレータとの対話を通じてプロアクティブアシスタントを構築・評価するためのフレームワークであるProactive Agent Research Environment(Pare)を紹介する。
Do Phone-Use Agents Respect Your Privacy?
本論文は、スマートフォン操作エージェントが良性のモバイルタスクを遂行する際に、ユーザーデータを適切に扱っているかどうかを調査している。
Diff3R: Feed-forward 3D Gaussian Splatting with Uncertainty-aware Differentiable Optimization
Diff3Rは、フィードフォワード型3Dガウシアンスプラッティング(3DGS)のためのフレームワークであり、ゼロショット予測のみを目的とするのではなく、テスト時の後続の最適化に明示的に適した初期化を生成するようモデルを学習する。
OrgAgent: Organize Your Multi-Agent System like a Company
本論文は、企業型の階層的マルチエージェントシステムであるOrgAgentを提案しており、協調プロセスをガバナンス層、実行層、コンプライアンス層に分離する。
Deconfounding Scores and Representation Learning for Causal Effect Estimation with Weak Overlap
本論文は、処置群と対照群の共変量分布間のオーバーラップが弱い状況下での因果処置効果推定に取り組んでおり、この設定では特に高次元において標準的な推定量が不安定になる。
PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training
PET-DINOは、テキストプロンプトベースのGrounding DINOを拡張し、オープンセット物体検出においてテキストプロンプトと視覚プロンプトの両方をサポートする手法である。
Square Superpixel Generation and Representation Learning via Granular Ball Computing
本論文は、粒状ボールコンピューティングに着想を得た正方形スーパーピクセル生成手法を提案しており、不規則なスーパーピクセルよりも現代の深層学習パイプラインとの互換性が高い、グリッド整列型のマルチスケール正方形領域を生成する。
DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
DIAL(Decoupling Intent and Action via Latent World Modeling)は、高レベルの意図形成と低レベルの運動実行を微分可能な潜在意図ボトルネックを介して分離するエンドツーエンドのビジョン・言語・行動(VLA)フレームワークである。
Cold-Starts in Generative Recommendation: A Reproducibility Study
本論文は、統一的なコールドスタートプロトコルの下で生成型推薦システムの体系的な再現性研究を行い、新規ユーザーおよび新規アイテムの両方の設定を対象としている。
Curvature-Guided LoRA: Steering in the pretrained NTK subspace
本論文は、パラメータ効率的ファインチューニング(PEFT)における予測アライメント問題を導入する。
Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses
本論文は、ダミークラスベースの敵対的防御手法(例:DUCAT)における体系的なロバスト性過大評価の問題を特定している。