Fugu-MT 論文翻訳(概要): Bridging the Visual-to-Physical Gap: Physically Aligned Representations for Fall Risk Analysis

論文の概要: Bridging the Visual-to-Physical Gap: Physically Aligned Representations for Fall Risk Analysis

arxiv url: http://arxiv.org/abs/2603.13410v1
Date: Thu, 12 Mar 2026 11:29:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.175667
Title: Bridging the Visual-to-Physical Gap: Physically Aligned Representations for Fall Risk Analysis
Title（参考訳）: 視覚と身体のギャップをブリッジする: 転倒リスク分析のための物理的にアライメントされた表現
Authors: Xianqi Zhang,
Abstract要約: PHARLは臨床出力ラベルを必要とせずに物理的に意味のある転倒表現を学習する。実験により、PHARLはリスク対応の表現品質を目視のみのベースラインで継続的に改善することが示された。
参考スコア（独自算出の注目度）: 3.1812226135012467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based fall analysis has advanced rapidly, but a key bottleneck remains: visually similarmotions can correspond to very different physical outcomes because small differences in contactmechanics and protective responses are hard to infer from appearance alone. Most existingapproaches handle this by supervised injury prediction, which depends on reliable injury labels.In practice, such labels are difficult to obtain: video evidence is often ambiguous (occlusion,viewpoint limits), and true injury events are rare and cannot be safely staged, leading to noisysupervision. We address this problem with PHARL (PHysics-aware Alignment RepresentationLearning), which learns physically meaningful fall representations without requiring clinicaloutcome labels. PHARL regularizes motion embeddings with two complementary constraints:(1) trajectory-level temporal consistency for stable representation learning, and (2) multi-classphysics alignment, where simulation-derived contact outcomes shape embedding geometry. Bypairing video windows with temporally aligned simulation descriptors, PHARL captures localimpact-relevant dynamics while keeping inference purely feed-forward. Experiments on fourpublic datasets show that PHARL consistently improves risk-aligned representation quality overvisual-only baselines while maintaining strong fall-detection performance. Notably, PHARL alsoexhibits zero-shot ordinality: an interpretable severity structure (Head > Trunk > Supported)emerges without explicit ordinal supervision.
Abstract（参考訳）: 視覚的に類似した動きは、接触力学と保護反応の小さな違いが外観だけでは推測できないため、非常に異なる物理的結果に対応することができる。既存のほとんどのアパッチは、信頼できるケガラベルに依存する教師付きケガ予測によってこれを処理しており、実際には、ビデオ証拠は曖昧(閉塞、視点制限)であり、真のケガイベントは稀であり、安全に実行できないため、ノイズのスーパービジョンに繋がる。臨床出力ラベルを必要とせずに身体的に意味のある転倒表現を学習するPHARL(PHysics-aware Alignment Representation Learning)を用いてこの問題に対処する。 PHARLは、(1)安定表現学習のための軌道レベルの時間的整合性、(2)シミュレーション由来の接触結果が埋め込み幾何学を形作るマルチクラスフィジカルアライメントの2つの相補的制約で運動埋め込みを規則化する。 PHARLは、時間的に整列したシミュレーション記述子でビデオウィンドウをペアリングすることで、推論を純粋にフィードフォワードに保ちながら、局所的インパクト関連ダイナミクスをキャプチャする。 4つの公開データセットの実験により、PHARLは強い降下検出性能を維持しつつ、リスク整合表現品質のオーバービジョンのみのベースラインを一貫して改善することが示された。特に、PHARLはゼロショット・オーディナリティを阻害する: 明確なオーディナリティの監督なしに解釈可能な重度構造(Head > Trunk > Supported)を創出する。

関連論文リスト

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚 textscINFACTは、4つのモードでモデルを評価する。 14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文参考訳（メタデータ） (2026-03-12T03:03:16Z)
Evaluating Few-Shot Pill Recognition Under Visual Domain Shift [0.0]
本研究は、デプロイ指向の観点から、数発の錠剤認識について検討する。 2段階のオブジェクト検出フレームワークが採用され、ベーストレーニングと数発の微調整が行われる。視覚的にリアルなマルチプルデータに基づいてトレーニングされたモデルは、ローショットシナリオにおいて、常により堅牢性を示す。
論文参考訳（メタデータ） (2026-03-11T14:40:55Z)
Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy [9.215451885169538]
糖尿病網膜症(DR: Diabetic Retinopathy)は、視力喪失を防ぐための時間的スクリーニングを必要とする。既存の文献は主に画像レベルの監督、弱教師付きローカライゼーション、クラスタリングに基づく表現学習に焦点を当てている。類似性に基づく。 Feature-space Ensemble (SAFE)は、弱い監視を統一する2段階のフレームワークである。対照的な学習、パッチワイドな埋め込み推論。
論文参考訳（メタデータ） (2026-03-04T12:35:55Z)
Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文参考訳（メタデータ） (2026-01-30T15:28:42Z)
Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。 LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文参考訳（メタデータ） (2026-01-28T05:50:52Z)
Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video [18.381850705061]
状況認識と空間認識の2つの相補的スキルを探索する総合的ベンチマークを導入する。我々は、暴力と良心的活動の区別、視点にまたがる攻撃的役割の結合、微粒な軌道アライメントの判断の3つの課題をテストする。結果は、タスク全体でパフォーマンスがわずかに上回っていることを示している。
論文参考訳（メタデータ） (2026-01-22T09:14:11Z)
DefVINS: Visual-Inertial Odometry for Deformable Scenes [14.028399155214068]
変形可能なシーンは、視覚-慣性オードメトリーの根底にある剛性仮定に反する。我々は,厳密なIMUアンコール状態と非剛性ワープを分離する視覚慣性オドメトリーフレームワークであるDefVINSを紹介する。
論文参考訳（メタデータ） (2026-01-02T14:40:33Z)
Nonparametric Identifiability of Causal Representations from Unknown Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文参考訳（メタデータ） (2023-06-01T10:51:58Z)
Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。 wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文参考訳（メタデータ） (2020-12-08T02:26:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。