効率的推論LLM
本テーマは、推論能力の向上を純粋なスケーリング問題として扱うのではなく、推論指向LLMの訓練と推論の両面での効率化に焦点を当てている。
公開済みの週次レポートを新しい順にまとめています。
本テーマは、推論能力の向上を純粋なスケーリング問題として扱うのではなく、推論指向LLMの訓練と推論の両面での効率化に焦点を当てている。
今週のテーマは、特に行動認識やエゴセントリック(一人称視点)の設定において、動画モデルがより強力な時間的推論に向けてどのように評価・再設計されているかに焦点を当てている。
本テーマは、指示ベースの画像編集に対する新たなベンチマークおよび評価フレームワークに焦点を当てており、視覚生成技術の進歩と信頼性の高い編集評価との間のギャップが動機となっている。
今週のテーマは、LLMベースの研究・問題解決エージェントを一回限りのタスク成功を超えて評価・改善することに焦点を当てている。
今週の論文群は、ワールドモデリングをモノリシックなブラックボックス予測器から、多様な環境のダイナミクスをより的確に捉えるための構造化・モジュール型アーキテクチャへと前進させている。
今週のテーマは、ファインチューニングされたエキスパートモデルの増加に伴い、モデルマージングをより制御可能かつスケーラブルでロバストにすることに焦点を当てている。
今週の研究は、マルチモーダルモデルの評価を静的な知覚タスクから、行動可能で物理的に根拠のあるワールドモデルを構築できるかどうかの検証へと移行させるものである。
今週のAI安全性研究は、AIの害についての広範な懸念から、構造化されたガバナンスおよび定量的リスクモデリングの枠組みへの移行を強調している。
本テーマは、静的なプロンプティングや汎用的な推論ヒューリスティクスが機能しなくなる状況——特に検索、ドメイン知識、多段階の意思決定ルールが相互作用する場面——におけるLLM推論の評価と構造化に焦点を当てている。
今週のテーマは、推薦を貪欲な次アイテム予測から長期的なユーザーエンゲージメントへと進化させるための強化学習の適用に焦点を当てている。
今週の論文群は、生成モデリングと汎用的な視覚事前学習の双方において、表現の品質とクロススケール整合性が中心的なボトルネックであると位置づけている。
今週のテーマは、空間推論・長期的意思決定・安全性がボトルネックとなるナビゲーションにおいて、視覚言語モデルおよび身体化モデルがどのように検証・再設計されているかに焦点を当てている。
今週のテーマは、LLMベースの研究エージェントが執筆支援を超えて研究計画・実験・査読・出版ワークフローへと進出する中で、それらをどのように評価しスキャフォールドすべきかに焦点を当てている。
今週のテーマは、視覚言語モデル(VLM)に身体性タスク向けの明示的な幾何学的・ナビゲーション構造を組み込むことに焦点を当てており、脆弱なプロンプティングやタスク固有のヘッドからの脱却を目指している。
本テーマは、汎用的なテキストから画像への生成を超え、より構造化され、空間的に根拠づけられ、計算効率の高い画像編集・認識へと向かう拡散モデルに焦点を当てている。
今週は、画像生成・編集・理解を単一の自己回帰型またはハイブリッド自己回帰・拡散アーキテクチャ内で統合するモデルの進展が続いた。
本テーマは、単一モデルインスタンスでは容易に対処できないタスクを処理するために、複数のLLMベースエージェントを協調させることに焦点を当てている。
今週のテーマは、限られた映像観測からより豊かなシーン構造と意味論を復元する手法に焦点を当てている。
今週のテーマは、世界モデル、動画生成モデル、マルチビュー生成モデルを表面的な視覚品質を超えて評価するベンチマーク研究に焦点を当てている。
今週の強化学習テーマは、カリキュラム設計とモジュール型スキル表現を通じて、エージェントがより豊かな行動を学習することに焦点を当てている。
本テーマは、パラメータを変更せずに推論時に言語モデルを制御・適応させる手法としての活性化ステアリングを追跡する。
今週の論文群は、先進的な動画およびマルチモーダル生成システムを単なるコンテンツ生成器ではなく、新たな世界モデルとして位置づけている。
本テーマは、現実的かつ制御された条件下で、科学研究や複雑な情報探索を行うLLMベースエージェントをどのように評価するかに焦点を当てている。
今週のテーマは、自己回帰型LLMの代替としての離散・マスク拡散言語モデルに焦点を当てており、特にデコード順序が能力と効率にどのように影響するかが重視されている。
今週の評価研究は、視覚モデルの評価方法と実際の運用条件との間に根強いギャップがあることを浮き彫りにしている。
本テーマは、動画における時間的構造のモデル理解をいかに評価・改善するかを扱う。
今週の研究は、GUI対応のVLM/LLMエージェントの構築から、プラットフォーム・能力レベル・障害モードを横断したより厳密な評価への移行を反映している。
今週は、画像復元の評価を単一劣化設定から拡張する複数の新しいコンペティションベンチマークが発表された。
今週の代表的論文は、Mixture-of-Experts(MoE)アーキテクチャとより賢い事前学習データ混合設計を通じて、大規模言語モデルをいかに効率的にスケールさせるかに取り組んでいる。
今週の進展は、拡散モデルが画像から動画・音声へと拡張される中で、マルチメディア生成の時間的一貫性と制御性の向上に焦点を当てている。
今週のテーマは、現実的な悪条件下での3D再構成の評価に焦点を当てている。
今週は、重み更新なしに逐次的意思決定におけるイン・コンテキスト適応を可能にするTransformerベースの事前学習の研究がさらに進展した。
今週の論文群は、LLMエージェントが複雑かつ長期的なタスクにおいてより信頼性を高めるために、知識の保存・抽出・共有・保護の方法を改善することに焦点を当てている。
今週の代表的な論文は、医療AIの進歩がより強力なモデルだけでなく、明確な評価フレームワークとより豊かな臨床コンテキストに依存していることを強調している。
今週の論文は、複雑な実世界タスクに向けたLLMベースのマルチエージェントシステムの組織化方法に焦点を当てている。
本テーマは、LLMの出力を裏付け文書に帰属させ、生成された回答の透明性・検証可能性・信頼性を高める方法に焦点を当てている。
今週の論文は、マルチモーダル基盤モデルの幅広い汎用性を犠牲にせず、いかに効率化するかに焦点を当てている。
今週のテーマは、ラベル付きドメイン内データが乏しい場合、ドメインシフトが生じる場合、または音声が典型的なパターンから逸脱する場合における音声モデルの適応と評価に関するものである。
今週の論文群は、AI導入を環境およびガバナンス上の課題として捉えている。
今週の評価研究は、狭いベンチマーク設定を超え、LLMおよびVLMベースのエージェントに対するより広範なテストへと進展した。
今週のテーマは連合学習におけるプライバシー評価に焦点を当てている。
今週の論文は、AIインフラの環境影響を直接的な評価対象として扱っている。