論文の概要: Emergent Compositional Communication for Latent World Properties
- arxiv url: http://arxiv.org/abs/2604.03266v1
- Date: Wed, 18 Mar 2026 20:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.572924
- Title: Emergent Compositional Communication for Latent World Properties
- Title(参考訳): 潜在世界特性のための創発的構成通信
- Authors: Tomek Kaszyński,
- Abstract要約: 本稿では,Gumbel-maxボトルネックと反復学習を通したエージェントが,潜伏特性の非絡み合いプロトコルを開発することを示す。
4剤で、80種のうち100%の種子は、ほぼ完全な組成に収束する。
制御は、帯域幅や時間範囲ではなく、マルチエージェント構造を確認し、この効果を駆動する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).
- Abstract(参考訳): 凍結映像の特徴から、多エージェント通信圧力は、見えない物理特性の離散的、構成的表現を抽出できるか?
我々は,Gumbel-Softmaxのボトルネックと反復学習を通したエージェントが,特性ラベルやメッセージ構造を使わずに,潜伏特性(弾性,摩擦,質量比)の位置不整合プロトコルを開発することを示す。
4剤で、80%の種子がほぼ完全な組成に収束する(PosDis=0.999、ホールドアウト98.3%)。
制御は、帯域幅や時間範囲ではなく、マルチエージェント構造を確認し、この効果を駆動する。
因果的介入は、外科的財産破壊(標的資産に約15%、他者には3%)を示す。
DINOv2は空間的に見えるランプ物理学(98.3%対95.1%)、V-JEPA2は力学のみの衝突物理学(87.4%対77.7%、d=2.74)である。
スケールマッチング (d=3.37) とフレームマッチング (d=6.53) は、このギャップを完全にビデオネイティブの事前トレーニングによるものである。
凍結されたプロトコルは、反実速度推論(r=0.780)を備えた行動条件プランニング(91.5%)をサポートする。
物理101号の実カメラ映像の検証では、見えない物体の質量比較精度が85.6%、静的な外観を超える時間的ダイナミクスが+11.2%、エージェントスケーリングによる構成性が90%の4エージェントで再現され、実際のビデオ(d=1.87, p=0.022)への因果的介入が確認されている。
関連論文リスト
- Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文 参考訳(メタデータ) (2026-04-04T17:30:23Z) - Edge-Efficient Two-Stream Multimodal Architecture for Non-Intrusive Bathroom Fall Detection [2.669350701173451]
濡れた浴室環境の滝は、高齢者が一人で生活する大きな安全リスクである。
近年の研究では、mWaveのみ、振動のみ、および既存のマルチモーダルスキームがプライバシー保護、非侵襲的な転倒検出をサポートすることが示されている。
本研究では,長距離移動パターンと床振動の処理を行うMotion-Mambaブランチを用いて,レーダ信号を符号化する2ストリームアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:54:21Z) - Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony [7.6658082440595186]
ばらつきボクセル環境における非対称な3次元追尾回避は,通信遅延,部分観測可能性,非ホロノミック操作制限下では困難である。
経路誘導型分散型追従足場上に構築し,通信自由協調性の向上を図る。
冗長なクロスエージェントチャネルを明示的に切断することで、複合的なエラーカスケードを抑えることができ、レイテンシーが発生しやすいデプロイメントにおけるロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2026-03-09T11:44:04Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - Beyond Motion Pattern: An Empirical Study of Physical Forces for Human Motion Understanding [14.61306970304895]
既存のほとんどの手法は、生体力学の基本となる関節作動力のような物理的な手がかりを見落としている。
確立された動作理解パイプラインに力を加えることで、歩行認識、行動認識、きめ細かいビデオキャプションの3つの主要なタスクへの影響を評価する。
論文 参考訳(メタデータ) (2025-12-23T15:43:48Z) - Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation [76.04880323498598]
自己回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを提案する。
VBenchと人間の研究ではSAM2VideoXが一貫した利益をもたらすことが示されている。
論文 参考訳(メタデータ) (2025-12-12T18:56:35Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。
OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。
当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文 参考訳(メタデータ) (2025-12-08T15:56:18Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - PACE: Data-Driven Virtual Agent Interaction in Dense and Cluttered
Environments [69.03289331433874]
PACEは,高密度で散らばった3Dシーン全体と対話し,移動するために,モーションキャプチャーされた仮想エージェントを改良する新しい手法である。
本手法では,環境中の障害物や物体に適応するために,仮想エージェントの動作シーケンスを必要に応じて変更する。
提案手法を先行動作生成技術と比較し,本手法の利点を知覚的研究と身体的妥当性の指標と比較した。
論文 参考訳(メタデータ) (2023-03-24T19:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。