週次レポート一覧

効率的推論LLM

2026-06-12 – 2026-06-18

本テーマは、推論能力の向上を純粋なスケーリング問題として扱うのではなく、推論指向LLMの訓練と推論の両面での効率化に焦点を当てている。

エゴセントリック・行動動画における時間的推論

2026-06-12 – 2026-06-18

今週のテーマは、特に行動認識やエゴセントリック（一人称視点）の設定において、動画モデルがより強力な時間的推論に向けてどのように評価・再設計されているかに焦点を当てている。

画像編集ベンチマーク

2026-06-12 – 2026-06-18

本テーマは、指示ベースの画像編集に対する新たなベンチマークおよび評価フレームワークに焦点を当てており、視覚生成技術の進歩と信頼性の高い編集評価との間のギャップが動機となっている。

LLM研究エージェントの評価

2026-06-05 – 2026-06-11

今週のテーマは、LLMベースの研究・問題解決エージェントを一回限りのタスク成功を超えて評価・改善することに焦点を当てている。

構造化ワールドモデル

2026-06-05 – 2026-06-11

今週の論文群は、ワールドモデリングをモノリシックなブラックボックス予測器から、多様な環境のダイナミクスをより的確に捉えるための構造化・モジュール型アーキテクチャへと前進させている。

制御可能でスケーラブルなモデルマージング

2026-06-05 – 2026-06-11

今週のテーマは、ファインチューニングされたエキスパートモデルの増加に伴い、モデルマージングをより制御可能かつスケーラブルでロバストにすることに焦点を当てている。

身体化ワールドモデルと評価

2026-05-29 – 2026-06-04

今週の研究は、マルチモーダルモデルの評価を静的な知覚タスクから、行動可能で物理的に根拠のあるワールドモデルを構築できるかどうかの検証へと移行させるものである。

AIガバナンスと安全性

2026-05-29 – 2026-06-04

今週のAI安全性研究は、AIの害についての広範な懸念から、構造化されたガバナンスおよび定量的リスクモデリングの枠組みへの移行を強調している。

LLMのエージェント型推論評価

2026-05-29 – 2026-06-04

本テーマは、静的なプロンプティングや汎用的な推論ヒューリスティクスが機能しなくなる状況——特に検索、ドメイン知識、多段階の意思決定ルールが相互作用する場面——におけるLLM推論の評価と構造化に焦点を当てている。

整合的視覚表現

2026-05-22 – 2026-05-28

今週の論文群は、生成モデリングと汎用的な視覚事前学習の双方において、表現の品質とクロススケール整合性が中心的なボトルネックであると位置づけている。

視覚言語ナビゲーションにおける空間推論と不確実性

2026-05-22 – 2026-05-28

今週のテーマは、空間推論・長期的意思決定・安全性がボトルネックとなるナビゲーションにおいて、視覚言語モデルおよび身体化モデルがどのように検証・再設計されているかに焦点を当てている。

LLM共同研究者の評価

2026-05-15 – 2026-05-21

今週のテーマは、LLMベースの研究エージェントが執筆支援を超えて研究計画・実験・査読・出版ワークフローへと進出する中で、それらをどのように評価しスキャフォールドすべきかに焦点を当てている。

身体性VLMのための構造的表現

2026-05-15 – 2026-05-21

今週のテーマは、視覚言語モデル（VLM）に身体性タスク向けの明示的な幾何学的・ナビゲーション構造を組み込むことに焦点を当てており、脆弱なプロンプティングやタスク固有のヘッドからの脱却を目指している。

構造化された効率的な拡散モデル編集

2026-05-15 – 2026-05-21

本テーマは、汎用的なテキストから画像への生成を超え、より構造化され、空間的に根拠づけられ、計算効率の高い画像編集・認識へと向かう拡散モデルに焦点を当てている。

統合的自己回帰画像生成・編集

2026-05-08 – 2026-05-14

今週は、画像生成・編集・理解を単一の自己回帰型またはハイブリッド自己回帰・拡散アーキテクチャ内で統合するモデルの進展が続いた。

LLMマルチエージェント協調

2026-05-08 – 2026-05-14

本テーマは、単一モデルインスタンスでは容易に対処できないタスクを処理するために、複数のLLMベースエージェントを協調させることに焦点を当てている。

生成的3D再構成と映像理解

2026-05-08 – 2026-05-14

今週のテーマは、限られた映像観測からより豊かなシーン構造と意味論を復元する手法に焦点を当てている。

世界モデル・動画モデルの包括的評価

2026-05-01 – 2026-05-07

今週のテーマは、世界モデル、動画生成モデル、マルチビュー生成モデルを表面的な視覚品質を超えて評価するベンチマーク研究に焦点を当てている。

強化学習におけるカリキュラムと多様なスキル学習

2026-05-01 – 2026-05-07

今週の強化学習テーマは、カリキュラム設計とモジュール型スキル表現を通じて、エージェントがより豊かな行動を学習することに焦点を当てている。

活性化ステアリングと表現幾何学

2026-05-01 – 2026-05-07

本テーマは、パラメータを変更せずに推論時に言語モデルを制御・適応させる手法としての活性化ステアリングを追跡する。

世界モデルとしての生成モデル

2026-04-24 – 2026-04-30

今週の論文群は、先進的な動画およびマルチモーダル生成システムを単なるコンテンツ生成器ではなく、新たな世界モデルとして位置づけている。

科学研究エージェントのベンチマーク評価

2026-04-24 – 2026-04-30

本テーマは、現実的かつ制御された条件下で、科学研究や複雑な情報探索を行うLLMベースエージェントをどのように評価するかに焦点を当てている。

拡散言語モデルとトークン順序制御

2026-04-24 – 2026-04-30

今週のテーマは、自己回帰型LLMの代替としての離散・マスク拡散言語モデルに焦点を当てており、特にデコード順序が能力と効率にどのように影響するかが重視されている。

モデル評価とベンチマーク

2026-04-17 – 2026-04-23

今週の評価研究は、視覚モデルの評価方法と実際の運用条件との間に根強いギャップがあることを浮き彫りにしている。

時間的動画推論の評価

2026-04-17 – 2026-04-23

本テーマは、動画における時間的構造のモデル理解をいかに評価・改善するかを扱う。

GUIエージェント評価

2026-04-17 – 2026-04-23

今週の研究は、GUI対応のVLM/LLMエージェントの構築から、プラットフォーム・能力レベル・障害モードを横断したより厳密な評価への移行を反映している。

統合画像復元ベンチマーク

2026-04-10 – 2026-04-16

今週は、画像復元の評価を単一劣化設定から拡張する複数の新しいコンペティションベンチマークが発表された。

LLM向け効率的MoE手法

2026-04-10 – 2026-04-16

今週の代表的論文は、Mixture-of-Experts（MoE）アーキテクチャとより賢い事前学習データ混合設計を通じて、大規模言語モデルをいかに効率的にスケールさせるかに取り組んでいる。

マルチメディア生成における時間的制御

2026-04-10 – 2026-04-16

今週の進展は、拡散モデルが画像から動画・音声へと拡張される中で、マルチメディア生成の時間的一貫性と制御性の向上に焦点を当てている。

ロバストな3D再構成の評価

2026-04-03 – 2026-04-09

今週のテーマは、現実的な悪条件下での3D再構成の評価に焦点を当てている。

Transformerによるイン・コンテキスト強化学習

2026-04-03 – 2026-04-09

今週は、重み更新なしに逐次的意思決定におけるイン・コンテキスト適応を可能にするTransformerベースの事前学習の研究がさらに進展した。

LLMエージェントの記憶と協調

2026-04-03 – 2026-04-09

今週の論文群は、LLMエージェントが複雑かつ長期的なタスクにおいてより信頼性を高めるために、知識の保存・抽出・共有・保護の方法を改善することに焦点を当てている。

医療AIの評価と時間的マルチモダリティ

2026-03-27 – 2026-04-02

今週の代表的な論文は、医療AIの進歩がより強力なモデルだけでなく、明確な評価フレームワークとより豊かな臨床コンテキストに依存していることを強調している。

LLMマルチエージェントフレームワーク

2026-03-27 – 2026-04-02

今週の論文は、複雑な実世界タスクに向けたLLMベースのマルチエージェントシステムの組織化方法に焦点を当てている。

LLMの帰属と引用評価

2026-03-27 – 2026-04-02

本テーマは、LLMの出力を裏付け文書に帰属させ、生成された回答の透明性・検証可能性・信頼性を高める方法に焦点を当てている。

効率的マルチモーダル基盤モデル

2026-03-19 – 2026-03-26

今週の論文は、マルチモーダル基盤モデルの幅広い汎用性を犠牲にせず、いかに効率化するかに焦点を当てている。

非定型・ドメインシフト音声に対する音声モデル適応

2026-03-19 – 2026-03-26

今週のテーマは、ラベル付きドメイン内データが乏しい場合、ドメインシフトが生じる場合、または音声が典型的なパターンから逸脱する場合における音声モデルの適応と評価に関するものである。

AIの持続可能性と信頼性

2026-03-19 – 2026-03-26

今週の論文群は、AI導入を環境およびガバナンス上の課題として捉えている。

包括的なLLMエージェント評価

2026-03-16 – 2026-03-22

今週の評価研究は、狭いベンチマーク設定を超え、LLMおよびVLMベースのエージェントに対するより広範なテストへと進展した。

連合学習におけるプライバシー推論

2026-03-16 – 2026-03-22

今週のテーマは連合学習におけるプライバシー評価に焦点を当てている。

AIの持続可能性と信頼性

2026-03-16 – 2026-03-22

今週の論文は、AIインフラの環境影響を直接的な評価対象として扱っている。

週次レポート一覧

効率的推論LLM

エゴセントリック・行動動画における時間的推論

画像編集ベンチマーク

LLM研究エージェントの評価

構造化ワールドモデル

制御可能でスケーラブルなモデルマージング

身体化ワールドモデルと評価

AIガバナンスと安全性

LLMのエージェント型推論評価

推薦システムへの強化学習の適用

整合的視覚表現

視覚言語ナビゲーションにおける空間推論と不確実性

LLM共同研究者の評価

身体性VLMのための構造的表現

構造化された効率的な拡散モデル編集

統合的自己回帰画像生成・編集

LLMマルチエージェント協調

生成的3D再構成と映像理解

世界モデル・動画モデルの包括的評価

強化学習におけるカリキュラムと多様なスキル学習

活性化ステアリングと表現幾何学

世界モデルとしての生成モデル

科学研究エージェントのベンチマーク評価

拡散言語モデルとトークン順序制御

モデル評価とベンチマーク

時間的動画推論の評価

GUIエージェント評価

統合画像復元ベンチマーク

LLM向け効率的MoE手法

マルチメディア生成における時間的制御

ロバストな3D再構成の評価

Transformerによるイン・コンテキスト強化学習

LLMエージェントの記憶と協調

医療AIの評価と時間的マルチモダリティ

LLMマルチエージェントフレームワーク

LLMの帰属と引用評価

効率的マルチモーダル基盤モデル

非定型・ドメインシフト音声に対する音声モデル適応

AIの持続可能性と信頼性

包括的なLLMエージェント評価

連合学習におけるプライバシー推論

AIの持続可能性と信頼性