InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.7] 拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。
我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。
InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:51:58 GMT)
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.4] MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:19:01 GMT)
Language Models May Verbatim Complete TextThey Were Not Explicitly Trained On [97.3] 我々は、$n$-gram ベースのメンバシップ定義を効果的にゲームできることを示す。
会員定義に対して$n$の1つの実行可能な選択を見つけることは困難であることを示す。
以上の結果から,n$-gramの会員シップが不十分であることが示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:57:04 GMT)
EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering [95.2] シーンテキストを含むエゴセントリックなQA支援のための,斬新で厳密に構築されたベンチマークであるEgoTextVQAを紹介する。
EgoTextVQAには1.5Kのエゴビュービデオと7Kのシーンテキスト対応の質問が含まれており、屋外運転や屋内ホームキーピング活動における実際のユーザニーズを反映している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:21:30 GMT)
In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI [93.3] 我々はシステムの安全性を高めるために3つの介入を要求します。
まず、標準化されたAI欠陥レポートと研究者へのエンゲージメントのルールを用いることを提案する。
第2に,GPAIシステムプロバイダが広視野欠陥開示プログラムを採用することを提案する。
第3に,欠陥報告の分布を調整するための改良されたインフラの開発を提唱する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:09:46 GMT)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.6] マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:18:17 GMT)
Cross-Modal Consistency Learning for Sign Language Recognition [92.4] 既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:36:55 GMT)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.9] 本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:52:43 GMT)
Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models [91.2] 本稿では,機械学習に因果的手法を取り入れて,信頼性の高いMLの主要な原則間のトレードオフをナビゲートすることを提唱する。
我々は、信頼できるMLと基礎モデルの両方において、複数の競合する目標のバランスをとるためには、因果的アプローチが不可欠であると主張する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:02:38 GMT)
CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization [90.2] 思考の連鎖(CoT)は、モデルの予測を導くのに役立つ自由テキストの説明を生成する。
自己一貫性(SC: Self-Consistency)は、複数の生成された説明に対する予測を疎外する。
我々は、$textbfC$hain-$textbfo$f-$textbfKe$ywords (CoKe)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:37:46 GMT)
UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4] UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:30:57 GMT)
Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs [86.2] MLLM(Multimodal Large Language Models)は、微粒な認識と複雑な推論を伴う課題に直面する。
MLLM構築における事前学習の一般的なアプローチは、高品質な画像キャプションの訓練による知覚の向上に焦点を当てている。
本稿では,次世代MLLMを構築するための自己学習フレームワークである自己改善認知(SIcog)を紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:50:50 GMT)
Dereflection Any Image with Diffusion Priors and Diversified Data [86.2] 本稿では、効率的なデータ準備パイプラインと、頑健な反射除去のための一般化可能なモデルを備えた包括的解を提案する。
まず、ターゲットシーンでランダムに回転する反射媒体によって生成された横反射除去(DRR)というデータセットを紹介する。
第2に、決定論的出力と高速推論のための1ステップ拡散を伴う拡散に基づくフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:48:14 GMT)
ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes [81.5] 3D Gaussian Splatting (3DGS) は、新しいビュー合成において大きな進歩を遂げてきたが、ガウスプリミティブのかなりの数によって制限されている。
近年の手法では、密度の高いガウスの記憶容量を圧縮することでこの問題に対処しているが、レンダリングの品質と効率の維持には失敗している。
本稿では,ガウスの原始体を表現するためにガウスのプロトタイプを学習するProtoGSを提案し,視覚的品質を犠牲にすることなくガウスの総量を大幅に削減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:55:14 GMT)
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.8] モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:58:49 GMT)
LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.1] 拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:52:39 GMT)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.5] 半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:12:06 GMT)
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [68.0] 本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:41:44 GMT)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.9] 我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:55 GMT)
Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.5] クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:20:14 GMT)
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO [66.1] 本稿では,拡散モデルの学習過程における嗜好データの役割について考察する。
本稿では,DPOの目的にマイノリティー・インスタンス・アウェア・メトリックを組み込んだ新しいアプローチであるAdaptive-DPOを提案する。
提案手法は,合成マイノリティデータと実世界の嗜好データの両方を効果的に扱うことを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:33:44 GMT)
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.5] 我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:45:21 GMT)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.1] オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:49:38 GMT)
LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal Large Language Models [62.0] Low-Rank Adaptation (LoRA)はマルチモーダル大規模言語モデル(MLLM)における専門知識の獲得に広く利用されている。
LoRAは、視覚的インストラクションチューニング中にかなり有害な冗長性を導入し、一般的な知識の忘れを悪化させ、下流のタスク性能を低下させる。
有害な冗長パラメータを排除し,一般知識と専門知識の調和を図るため,LoRASculptを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:31:09 GMT)
What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length [61.7] MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:00:49 GMT)
Generative Compositor for Few-Shot Visual Information Extraction [60.7] 生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:56:24 GMT)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.2] ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:59:29 GMT)
Measuring the Robustness of Audio Deepfake Detectors [59.1] この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:21:17 GMT)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.7] テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:56:34 GMT)
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.6] MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:27:49 GMT)
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images and A Benchmark [58.5] RAW-Adapterは、学習可能なISPモジュールを入力レベルのアダプタとして組み込んでRAW入力を調整する新しいフレームワークである。
RAW-Adapterは様々なコンピュータビジョンフレームワークに適用可能な一般的なフレームワークとして機能する。
RAW-Benchには17種類のRAWベースの共通汚職が組み込まれている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:37:42 GMT)
Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.4] 本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:42:51 GMT)
ChatBEV: A Visual Language Model that Understands BEV Maps [58.3] 我々は137k以上の質問を含む新しいBEV VQAベンチマークであるChatBEV-QAを紹介する。
このベンチマークは、BEVマップ用のスケーラブルで情報性の高いVQAデータを生成する、新しいデータ収集パイプラインを使用して構築されている。
本稿では,ChatBEVが地図理解とテキスト対応ナビゲーションを支援する言語駆動の交通シーン生成パイプラインを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:17:52 GMT)
Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.8] 本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。
ノイズモーメントを仮定することなく、幅広い種類の非線形性を保証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:44:04 GMT)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.7] オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:54:29 GMT)
Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising [56.6] そこで本研究では,テストタイムデータの拡散による非伝達障壁をジェイルブレイクするための新しい攻撃手法(JailNTL)を提案する。
JailNTLは、1%の認証サンプルを使用して、認証されていないドメインで最大55.7%の精度向上を達成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:47:33 GMT)
Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.4] 本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:36:49 GMT)
AVA: Attentive VLM Agent for Mastering StarCraft II [56.1] Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:14:36 GMT)
Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.1] フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
我々は、中程度のレベルの情報共有でも、環境固有のエラーを著しく軽減できることを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:06:28 GMT)
Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.8] 特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:02:14 GMT)
Training Neural Networks on RAW and HDR Images for Restoration Tasks [54.2] 線形色空間におけるRAWおよびHDR画像のタスクに対して、ニューラルネットワークをどのようにトレーニングするかを検討する。
その結果、ニューラルネットワークは色空間で表現されるHDRおよびRAW画像において、かなりよく訓練されていることが示唆された。
トレーニング戦略へのこの小さな変更は、2から9dBの間で、非常に大きなパフォーマンス向上をもたらします。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:23:16 GMT)
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.2] 本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:10:38 GMT)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.6] 本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:26:12 GMT)
Algorithmic causal structure emerging through compression [53.5] 因果関係,対称性,圧縮の関係について検討する。
我々は、学習と圧縮の既知の関係を因果モデルが識別できないような環境に構築し、一般化する。
我々はアルゴリズム因果関係を因果関係の代替的定義として定義する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:54:04 GMT)
Beyond Accuracy: What Matters in Designing Well-Behaved Models? [53.3] 視覚言語モデルでは,ImageNet-1k分類に高い公正性を示し,ドメイン変更に対して強い堅牢性を示す。
QUBAスコア(QUBA score)は、複数の品質の次元にまたがってモデルをランク付けする新しい指標である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:54:18 GMT)
Superpowering Open-Vocabulary Object Detectors for X-ray Vision [53.1] オープンボキャブラリオブジェクト検出(OvOD)は、X線スキャンで任意のアイテムを認識できるようにすることで、セキュリティスクリーニングに革命をもたらす。
RAXOは市販のRGB OvOD検出器を高強度X線検出に活用するフレームワークである。
RAXOはデュアルソース検索戦略を用いて高品質なX線クラス記述子を構築する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:54:16 GMT)
Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.9] 本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:42:26 GMT)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.1] 本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:44:15 GMT)
The Deployment of End-to-End Audio Language Models Should Take into Account the Principle of Least Privilege [50.7] エンドツーエンドの音声言語モデル(Audio LMs)は、別の書き起こしステップに頼るのではなく、音声を直接処理する。
このシフトは、イントネーションや複数の話者の存在などの詳細な情報を保存し、それ以外は転写で失われる。
また、話者アイデンティティーの手がかりや、他の機密性の高い発声特性の誤用など、新たな安全性リスクも導入されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:03:59 GMT)
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.6] テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:50:55 GMT)
RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in Videos [50.4] RigGSは3次元ガウス表現と骨格に基づく運動表現を利用して動的オブジェクトをモデル化する新しいパラダイムである。
提案手法は,オブジェクトに対する現実的な新しいアクションを容易に生成し,高品質なレンダリングを実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:27:07 GMT)
Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management [50.3] 本稿では,機能停止予測とグローバルに最適化された介入を統合するフレームワークPATOGを提案する。
提案手法は,空間的かつ時間的に整合性のある意思決定を保証し,予測精度と操作効率を両立させる。
合成および実世界のデータセットの実験では、停止予測一貫性とグリッドレジリエンスが大幅に改善された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:16:16 GMT)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.2] 我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:13:04 GMT)
Hi-ALPS -- An Experimental Robustness Quantification of Six LiDAR-based Object Detection Systems for Autonomous Driving [49.6] 3Dオブジェクト検出システム(OD)は、自動運転車の運転決定において重要な役割を果たす。
敵対的な例は、入力データの変化、すなわち偽造(falsify)、ODの予測において、小さな、時には洗練された摂動である。
異なる種類の摂動条件下で6つの最先端3D ODのロバスト性を定量化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:17:02 GMT)
Semi-Automated Design of Data-Intensive Architectures [49.2] 本稿では,データ集約型アーキテクチャの開発手法を紹介する。
i) 特定のアプリケーションシナリオに適したアーキテクチャを設計し、(ii) アプリケーションを実装するための具体的なシステムの適切なセットを選択することをアーキテクトに案内します。
私たちが採用している記述言語は、研究者や実践者が提案するデータ集約アーキテクチャの重要な側面を捉えることができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:01:11 GMT)
Autoencoded UMAP-Enhanced Clustering for Unsupervised Learning [49.2] 本稿では,低次元空間にデータを非線形に埋め込み,次に従来のクラスタリングアルゴリズムを用いて非教師なし学習を行う手法を提案する。
この埋め込みはデータのクラスタビリティを促進し、オートエンコーダニューラルネットワークのエンコーダとUMAPアルゴリズムの出力の2つのマッピングで構成されている。
MNISTデータに適用した場合、AUECはクラスタリング精度において最先端技術よりも大幅に優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:34:36 GMT)
TEMPO: Temporal Preference Optimization of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.9] TEMPOはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPOは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:00:29 GMT)
GeoT: Geometry-guided Instance-dependent Transition Matrix for Semi-supervised Tooth Point Cloud Segmentation [48.6] GeoTは、半教師付き歯科用セグメンテーションのための擬似ラベルのノイズを明示的にモデル化するために、インスタンス依存遷移行列(IDTM)を使用するフレームワークである。
具体的には, 数万点の歯科的点から生じるIDTMの広い解空間を扱うために, 歯の幾何学的先行性を導入する。
提案手法は,ラベル付きデータの20%しか持たない完全教師付き手法に匹敵する性能を達成し,セグメンテーションを容易にするためにラベル付きデータを完全に活用することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:43:57 GMT)
Invariant Causal Set Covering Machines [48.2] 決定木のようなルールベースのモデルは、解釈可能な性質のために実践者にアピールする。
しかし、そのようなモデルを生成する学習アルゴリズムは、しばしば刺激的な関連に弱いため、因果関係の洞察を抽出することが保証されていない。
Invariant Causal Set Covering Machines は、古典的集合被覆マシンアルゴリズムの拡張であり、二値ルールの結合/分離を可能とし、スプリアス関係を確実に回避する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:31:08 GMT)
PA-CFL: Privacy-Adaptive Clustered Federated Learning for Transformer-Based Sales Forecasting on Heterogeneous Retail Data [47.7] フェデレートラーニング(FL)により、小売店はプライバシを維持しながら需要予測のためのモデルパラメータを共有できる。
異種小売データの需要予測に適したプライバシ適応クラスタ型フェデレートラーニング(PA-CFL)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:13:19 GMT)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.6] ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。
本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:28:43 GMT)
On Privately Estimating a Single Parameter [47.5] 大規模パラメトリックモデルにおける個々のパラメータに対する微分プライベート推定器について検討する。
これらのプライベート証明書を活用することで、少なくともサンプルサイズにおいて、本質的には改善不可能なプライベート統計を解放する計算的かつ統計的に効率的なメカニズムを提供する。
我々は,米国コミュニティサーベイと米国国勢調査のシミュレーションデータと実世界のデータの両方において,新しい手順が成功するシナリオを強調し,今後の作業領域を特定するアルゴリズムの実用性について検討する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:57:12 GMT)
Capturing Individual Human Preferences with Reward Features [47.4] 個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。
このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。
提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:39:33 GMT)
Improving Model Factuality with Fine-grained Critique-based Evaluator [47.4] 我々は、請求レベルの事実性フィードバックをLMジェネレータに提供するファクトリティー評価器であるFenCEを訓練する。
本稿では、FenCEを活用してトレーニングデータを構築することにより、LMジェネレータの現実性を向上するフレームワークを提案する。
実験の結果,LLM-AggreFactでは評価器の精度が2.9%向上した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:57:02 GMT)
Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs [47.1] マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:26:30 GMT)
Exploring the Role of Women in Hugging Face Organizations [46.8] 両組織とも女性は非常に過小評価されており、流通を約束している。
ジェンダーの格差に対処することは、より公平で多様性があり、包括的なオープンソースエコシステムを作るために不可欠である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:06:52 GMT)
InfraFix: Technology-Agnostic Repair of Infrastructure as Code [46.8] InfraFixはIaCスクリプトを修復するための最初の技術に依存しないフレームワークである。
95.5%の成功率で254,755の修復シナリオで有効性を実証した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:24:54 GMT)
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model [46.8] 3D割当セグメンテーションは、人間の指示を3Dオブジェクトのタッチ可能な領域にリンクして、操作を具体化することを目的としている。
既存の取り組みは、通常、単目的、単順のパラダイムに固執する。
本稿では,複雑なユーザ意図から推論することで従来のパラダイムを拡張したSequential 3D Affordance Reasoningタスクを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:31:01 GMT)
Large Language Models and Causal Inference in Collaboration: A Survey [46.4] 因果推論は、自然言語処理(NLP)モデルの予測精度、公正性、堅牢性、説明可能性を高める可能性を示している。
生成型Large Language Models(LLM)の出現は、様々なNLPドメインに大きな影響を与えている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:57:45 GMT)
Learning Robust Reward Machines from Noisy Labels [46.2] PROB-IRMは、雑音のある実行トレースから強化学習(RL)エージェントのための堅牢な報酬機(RM)を学習するアプローチである。
ProB-IRMは雑音の痕跡からRMを学習し、それらを利用してRLエージェントを訓練し、そのタスクをうまく解決できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:07:55 GMT)
Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference [46.0] 認知コアとして機能するLVLM(Large Vision-Language Models)における視覚領域の存在について検討する。
LLMの25%を選択的に更新すると、わずかに均一に分散していれば、視覚性能の99%近くを維持できることがわかった。
本稿では,視覚領域外における非臨界層を除去し,性能損失を最小限に抑える,新しい視覚領域ベースプルーニングパラダイムを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:53:51 GMT)
Recovering Pulse Waves from Video Using Deep Unrolling and Deep Equilibrium Models [45.9] カメラによるバイタルサインのモニタリング、つまりイメージング光胸腺撮影(i)は、運転監視、情動コンピューティングなどに応用されている。
本稿では,逆問題における信号処理と深層学習を組み合わせた手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:11:21 GMT)
Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation [45.6] 既存のデータ拡張手法は、画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。
本稿では,既存の手法を改良した汎用型ビズモータポリシーのための効率的なトレーニングフレームワークを提案する。
我々は,DMControl Generalization Benchmark,強化されたロボットマニピュレーション・ディトラクション・ベンチマーク,長期ドローダ・オープンタスクの3つの領域で実験を行った。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:19:55 GMT)
ML-Based Bidding Price Prediction for Pay-As-Bid Ancillary Services Markets: A Use Case in the German Control Reserve Market [45.6] 本稿では,ドイツ支配予備市場を中心に,従量制サービス市場における入札価格の予測手法を提案する。
サポートベクトル回帰、決定木、k-Nearest Neighborsなど、さまざまな機械学習モデルを評価し、ベンチマークモデルと比較する。
分析の結果,提案手法はベースラインモデルと比較して27.43%から37.31%に改善することが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:21:43 GMT)
Number it: Temporal Grounding Videos like Flipping Manga [45.5] Number-Prompt (NumPro) は、Vid-LLMに時間的接地による視覚的理解をブリッジする手法である。
NumProは動画をフレーム画像のシーケンスとして扱い、VTGを直感的なプロセスに変換します。
実験により、NumProは計算コストを伴わずに最上位のVid-LLMのVTG性能を大幅に向上することが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:40:26 GMT)
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images [45.4] オープンプロンプト型オブジェクト検出フレームワークOpenRSDを提案する。
OpenRSDはマルチモーダルプロンプトをサポートし、マルチタスク検出ヘッドを統合して精度とリアルタイム要求のバランスをとる。
YOLO-Worldと比較すると、OpenRSDは平均精度が8.7%高く、推定速度は20.8 FPSである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:47:18 GMT)
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.1] Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:00:45 GMT)
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation [45.1] 連続的単純体におけるフローマッチングはDNA配列設計の有望な戦略として現れてきたが、タンパク質生成に必要な高い単純体次元へのスケールに苦慮している。
本稿では,Gumbel-Softmax 補間剤を時間依存性温度で合成し,Gumbel-Softmax Flow と Score Matching を導入した。
我々のフレームワークは、高品質で多様な生成を可能にし、高次元の単純化に効率的にスケールすることができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:43 GMT)
Practical Criteria for Entanglement and Nonlocality in Systems with Additive Observables [45.0] 一般の二部混合状態に対しては、絡み合いと/または(ベル)非局所性を証明するための十分かつ必要な数学的条件が依然として不明である。
我々は、多くの場合、絡みや非局所性を検出するための非常に単純で便利な基準を導出する。
LHCにおけるZZ崩壊に対するヒッグスの絡みや非局所性の検出の可能性を分析して,これらの結果について述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:48:04 GMT)
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models [45.0] 音声による映像表現は,大規模言語モデルによる映像コンテンツの解釈を可能にするための,有望なアプローチとして浮上している。
トークンプルーニングやトークンマージといった既存のトークン低減技術は、しばしば重要な空間的時間的位置埋め込みを阻害する。
極端に短いトークンの削減という新しいタスクを導入し、最小限のトークン数で広範囲なビデオシーケンスを表現することを目的としている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:46:31 GMT)
VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification [45.0] LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。
Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。
VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:43:37 GMT)
AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots [44.5] AlignBotはVLMを使った家庭用ロボットのタスクプランニングを最適化する新しいフレームワークである。
国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:40:24 GMT)
From Text to Talent: A Pipeline for Extracting Insights from Candidate Profiles [44.4] 本稿では,大規模言語モデルとグラフ類似度を利用した新たなパイプラインを提案する。
提案手法は, 候補プロファイルをマルチモーダルな埋め込みとして表現し, 求人要件と候補属性の微妙な関係を捕捉する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:18:44 GMT)
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [44.1] 本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:40:35 GMT)
Expressivity of Neural Networks with Random Weights and Learned Biases [44.0] 固定ランダム重み付きフィードフォワードニューラルネットワークは,任意の連続関数をコンパクトな集合上で近似することができることを示す。
我々の発見は神経科学に関係しており、シナプスの重みを変えることなく、またAIにも、動的に行動に関係のある変化が起こる可能性を実証している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:13:18 GMT)
Judge Anything: MLLM as a Judge Across Any Modality [43.5] 本稿では,タスクAnything と JudgeAnything という2つのベンチマークを導入し,MLLM の全体性能と判断能力を評価する。
TaskAnythingは15のあらゆるモダリティカテゴリでMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリをキュレートする。
judgeAnythingは、ペア比較とスコア評価の観点から、5段階(GPT-4oやGemini-2.0-Flashなど)の判定能力を評価する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:59:20 GMT)
Real-Time Diffusion Policies for Games: Enhancing Consistency Policies with Q-Ensembles [43.1] 本稿では、一貫性モデルとQアンサンブルを組み合わせたCPQE(Consistency Policy with Q-ensembles)を紹介し、政策学習の課題に対処する。
CPQEは60Hzまでの推論速度を実現しており、これは20Hzでしか動作しない最先端の拡散ポリシーよりも大幅に改善されている。
これらの結果から,CPQEはゲームやその他のリアルタイムアプリケーションに拡散ベースのポリシーを展開するための実用的なソリューションを提供することが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:45:59 GMT)
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.7] 本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:55:03 GMT)
DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech [42.7] DIDiffGesは、いくつかのサンプリングステップだけで、高品質で表現力のあるジェスチャーを音声から合成することができる。
提案手法は, 人間の類似性, 適切性, スタイルの正しさにおいて, 最先端のアプローチよりも優れる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:23:39 GMT)
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving [42.5] ビッグセブンパーソナリティとソクラティックガイダンス(MAPS)に基づくマルチエージェントフレームワークを提案する。
本稿では,各エージェントが問題解決プロセスの特定の段階に焦点を当てた,プログレッシブな4エージェント問題解決戦略を提案する。
第2号では、ソクラテス質問に触発された批判的エージェントを導入し、批判的思考を促し、自律学習を刺激する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:13:45 GMT)
From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment [42.0] 大規模言語モデル(LLM)は、伝統的にワンサイズフィットのアプローチによって整列されてきた。
本稿では,LLMのスケーラブルなパーソナライズのための包括的フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:33:21 GMT)
DiTEC-WDN: A Large-Scale Dataset of Water Distribution Network Scenarios under Diverse Hydraulic Conditions [41.9] このデータセットは、短期(24時間)または長期(1年)でシミュレートされた36,000のユニークなシナリオで構成されている。
DiTEC-WDNは、グラフレベル、ノードレベル、リンクレベルの回帰、時系列予測など、さまざまな機械学習タスクをサポートすることができる。
この貢献は、公的なライセンスの下でリリースされ、クリティカルウォーターセクターにおけるオープンな科学研究を奨励し、センシティブなデータを露出するリスクを排除し、研究比較とシナリオ分析のための大規模な配水ネットワークベンチマークの必要性を満たす。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:14:03 GMT)
Enhancing Steering Estimation with Semantic-Aware GNNs [41.9] ハイブリッドアーキテクチャは、時間的モデリングのための3Dニューラルネットワークモデルとリカレントニューラルネットワーク(RNN)を組み合わせる。
我々は4つのハイブリッド3Dモデルを評価し、いずれも2Dのみのベースラインを上回った。
我々は、KITTIデータセットに対するアプローチを検証し、2Dのみのモデルよりも71%改善した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:58:08 GMT)
Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance [41.7] ゼロショット画像認識タスクでは、人間は目に見えないカテゴリを分類する際、顕著な柔軟性を示す。
既存の視覚言語モデルは、しばしば準最適プロンプトエンジニアリングのため、現実世界のアプリケーションでは性能が劣る。
これらの問題に対処するために,概念誘導型人間ライクなベイズ推論フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:55:26 GMT)
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer [41.3] Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。
提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。
また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:52:05 GMT)
Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization [40.8] Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
マルチレベル最適化マスクオートエンコーダ(MLO-MAE)は,下流タスクからのエンドツーエンドフィードバックを利用して,事前トレーニング中に最適なマスキング戦略を学習する新しいフレームワークである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:12:25 GMT)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.2] 広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:42:27 GMT)
A Comparative Analysis of Image Descriptors for Histopathological Classification of Gastric Cancer [39.7] 胃がんは世界で5番目に多く、致死率も4番目に高く、5年生存率は約20%である。
本研究は, 組織像を健康・癌カテゴリに分類するために, 機械学習と深層学習技術を用いた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:46:22 GMT)
Early Fault-Tolerant Quantum Algorithms in Practice: Application to Ground-State Energy Estimation [39.2] 地中エネルギー推定問題に着目した早期フォールトトレラント量子アルゴリズムの実現可能性について検討する。
これらの手法をより大きなシステムサイズに拡張することは、大きなサポートのためのCDFの滑らかさ、真の基底状態との重なり合いに対する厳密な下限の欠如、高品質な初期状態を作成するのが困難である、という3つの大きな課題を浮き彫りにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:02:16 GMT)
NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms [39.0] NotaGenは、高品質なクラシック楽譜を制作する可能性を探究する象徴的な音楽生成モデルである。
ABC表記の1.6万曲に事前訓練され、その後「時代劇構成」のプロンプトで調整された約9Kの高音質のクラシック曲に微調整される。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:53:04 GMT)
SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion [38.9] 本稿では,SGFormer という衛星地上協調型 SSC フレームワークについて述べる。
衛星と地上のビューを並列に符号化し、それらを共通領域に統一するデュアルブランチアーキテクチャを提案する。
衛星と地上からのコントリビューションのバランスをとるための適応重み付け戦略を開発する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:37:08 GMT)
TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning [38.7] 大規模言語モデル(LLM)は、トレーニングデータを合成することができるが、現在のアプローチは、限られたシードデータ、モデルバイアス、生成プロセスに対する不十分な制御によって制約される。
Tree Synthは、データ空間全体を階層的な部分空間に分割する木誘導サブスペースベースのデータ合成フレームワークである。
我々の実験は、Tree Synthが人間によって設計されたデータセットと最先端のデータ合成ベースラインの両方を上回ることを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:43:23 GMT)
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [38.7] 本稿では,タスクユーティリティを維持しながら安全性を保った後調整フレームワークであるSafeMERGEを提案する。
Llama-2-7B-Chat および Qwen-2-7B-Instruct モデルに対して, SafeMERGE の評価を行った。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:44:09 GMT)
PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning [38.0] 2段階のパラダイムで学習した自己回帰拡散モデルであるPRIMALを提案する。
事前学習段階において、モデルは多数のサブ秒動作セグメントから運動力学を学習する。
適応段階では、制御ネットのような適応器を用いて、セマンティックアクション生成と空間的目標到達のためのモータ制御を微調整する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:27:57 GMT)
SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation [38.0] 動的3Dアセット生成のための多視点拡散モデルであるStable Video 4D 2.0(SV4D 2.0)を提案する。
前作のSV4Dと比較して、SV4D 2.0はディテールと大きな動きに対してより堅牢であり、現実世界の動画より一般化されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:39:27 GMT)
A New Statistical Model of Star Speckles for Learning to Detect and Characterize Exoplanets in Direct Imaging Observations [37.8] 本稿では,マルチスケールアプローチを用いてニュアンス変動を捉える新しい統計モデルを提案する。
これは解釈可能なエンドツーエンドの学習可能なフレームワークに統合され、同時に外惑星の検出とフラックス推定を行う。
提案手法は, 計算効率が高く, 各種データ品質に対して頑健であり, 大規模観測調査に適している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:07:55 GMT)
Exploring Few-Shot Object Detection on Blood Smear Images: A Case Study of Leukocytes and Schistocytes [37.4] 調査は、DE-ViTと呼ばれる新しいアプローチに焦点を当てている。
この手法はFew-Shotパラダイムで採用されており、トレーニングは限られた数の画像に依存している。
DE-ViTはCOCOデータセットとLVISデータセットで最先端のパフォーマンスを示しているが、どちらもRaabin-WBCデータセットでのパフォーマンスを上回っている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:46:49 GMT)
Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees [37.3] 本稿では,この制限に対処するための選好学習に基づく推論軌道最適化フレームワークを提案する。
まず,木のような専門的軌跡からステップワイズな選好データを構築する手法を提案する。
提案実験により, TP-LLaMAは, 推定木における誤差から洞察を得ることにより, ベースラインを著しく上回ることを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:12:07 GMT)
A Comprehensive Survey of Time Series Forecasting: Architectural Diversity and Open Challenges [37.2] 時系列予測は、さまざまな分野における意思決定の重要な情報を提供する重要なタスクである。
アック、CNN、RNN、GNNといったディープラーニングアーキテクチャが開発され、時系列予測問題に応用されている。
長期的な依存関係を扱うのに優れているトランスフォーマーモデルは、時系列予測のための重要なアーキテクチャコンポーネントとなっている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:49:26 GMT)
Catastrophic Failure of LLM Unlearning via Quantization [36.5] 未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:37:37 GMT)
Rethinking the Role of Spatial Mixing [36.2] 2D畳み込みは、表現の空間次元とチャネル次元の両方にわたる情報を同時に混合する。
本稿では,これらの混合操作の役割について,より深く理解するための第一歩を踏み出した。
ランダムな固定空間混合モデルでは, 逆方向の摂動に対して自然に頑健であることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:28:30 GMT)
A General Framework to Enhance Fine-tuning-based LLM Unlearning [36.2] Gated Representation UNlearning (GRUN) は、ターゲットデータと抑圧モジュールを区別するソフトゲート機能である。
実験により、GRUNは未学習と実用性を大幅に改善することが示された。
微調整に基づく手法では一般的であり、逐次的アンラーニングには効率的で有望である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:58:12 GMT)
Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation [36.1] ファンデーションモデルとコンベンショナルモデルのためのシナジスティックトレーニングフレームワーク(SynFoC)を紹介する。
我々は,スクラッチから訓練された従来のモデルが,基礎モデルの信頼性の高い誤予測を補正する能力を持っていることを観察する。
4つのパブリックなマルチドメインデータセットにまたがって,本手法の優位性を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:03:32 GMT)
Bridging Social Psychology and LLM Reasoning: Conflict-Aware Meta-Review Generation via Cognitive Alignment [35.8] 大規模言語モデル(LLM)は、原稿批評の自動化において有望であることを示す。
既存の方法は、異なる意見の中で矛盾する視点を扱うのに失敗する。
本稿では,LLMを適応的な科学的調停器に変換する2プロセスアーキテクチャであるCognitive Alignment Framework(CAF)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:36:18 GMT)
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering [35.6] 細かな質問生成と回答によるテキスト・ビデオ・アライメントの新たな評価手法であるETVAを提案する。
ETVA はSpearman の相関係数 58.47 を達成し,既存の31.0 の指標よりも人間の判断との相関性が高いことを示した。
また,テキストとビデオのアライメント評価に特化して設計されたベンチマークを構築し,10のカテゴリにまたがる2kの多様なプロンプトと12kのアトミックな質問を特徴付ける。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:52:50 GMT)
Are formal and functional linguistic mechanisms dissociated in language models? [35.5] 大きな言語モデル(LLM)は、流動的で文法的なテキストを生成するのに優れるが、機能的な言語的タスクには耐え難い。
最近の研究は、形式的および機能的な言語的タスクを成功させるために、LLMはそれぞれ異なるメカニズムを使うべきであることを示唆している。
形式的タスクと機能的タスクの回路間の重なりは実際にほとんどないが、形式的言語的タスク間の重なりもほとんどない。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:15:27 GMT)
AutArch: An AI-assisted workflow for object detection and automated recording in archaeological catalogues [35.3] 本稿では,遺産として利用可能な考古学的発見カタログからデータを収集するための新しいワークフローを紹介する。
このワークフローは、自動検索されたデータの検証と調整を行う画像処理、オブジェクト検出、インタラクティブな手段をサポートするカスタムソフトウェア(AutArch)に依存している。
我々は、人工知能(AI)を、物体の検出と分類のためのニューラルネットワークの観点でワークフローに統合する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:15:21 GMT)
A Predictive Services Architecture for Efficient Airspace Operations [35.2] 将来の空港容量と空域密度の正確な推定は、より良い空域管理に不可欠である。
データ管理とクエリ処理は、大量の高速航空交通データのために、依然として複雑である。
本稿では,大容量,非相関性,ノイズの多いストリーミングデータを取り込み,将来的な空域システム状態を予測するデータ処理および予測サービスアーキテクチャを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:57:38 GMT)
AttriBoT: A Bag of Tricks for Efficiently Approximating Leave-One-Out Context Attribution [35.2] 本稿では,文脈属性に対するLOO誤差の近似を効率的に計算する一連の新しい手法であるAttriBoTを紹介する。
AttriBoTは、以前のコンテキスト属性メソッドよりもターゲットモデルのLOOエラーに忠実でありながら、>300倍のスピードアップを提供することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:47:53 GMT)
Solving Drone Routing Problems with Quantum Computing: A Hybrid Approach Combining Quantum Annealing and Gate-Based Paradigms [34.5] 提案手法はQuantum for Drone Routing(Q4DR)と呼ばれ、この分野でもっとも顕著な2つのパラダイムを統合している。
Q4DRの有効性は、複雑さが増大する3つのユースケースを通して示される。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:35:28 GMT)
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance [34.3] Action-Reaction Flow Matchingは、直接アクションから反応へのマッピングを確立する新しいフレームワークである。
提案手法では,速度場ではなく人体の動きを直接出力するx1-prediction法と,サンプリング中の身体の侵入を効果的に防止するトレーニング不要で勾配に基づく物理的誘導機構を導入する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:41:24 GMT)
GiVE: Guiding Visual Encoder to Perceive Overlooked Information [34.3] そこで我々は,視線から視線を知覚するGiVE(Guiving Visual to Perceive Overlooked Information)アプローチを提案する。
GiVEは、Attention-Guided Adapter (AG-Adapter)モジュールとオブジェクト中心のビジュアルセマンティック学習モジュールで視覚表現を強化する。
コントリビューションには、動的視覚的焦点調整、オブジェクト検索を強化する新しい損失関数、MOInst(Multi-Object Instruction)データセットが含まれる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:36:09 GMT)
Zero-Shot Styled Text Image Generation, but Make It Autoregressive [34.1] スタイル付き手書きテキスト生成(HTG)は近年,コンピュータビジョンや文書分析コミュニティから注目を集めている。
Emuruと呼ばれるテキスト画像生成のための新しいフレームワークを提案する。
提案手法は,自動回帰変換器と組み合わせた強力なテキスト画像表現モデル(変分オートエンコーダ)を利用する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:56:20 GMT)
STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving [33.6] セルフプレイ・セオレム・プロバー(STP)は、予想と証明という2つの役割を担っている。
STPは同時に、予想と証明という2つの役割を担っている。
私たちはLeanとIsabelleの2つの形式的検証ツールで評価します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:27:55 GMT)
SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement [33.6] 効果的なデジタル介入を設計するために、実験者はオフラインデータを用いて複数の目的をバランスさせる決定ポリシーを学ぶという課題に直面している。
信頼できるレコメンデーションを提供するためには、実験者は目標とガードレールの結果の望ましい変化を満たすポリシーを識別するだけでなく、これらのポリシーが引き起こす変化に関する確率的保証を提供する必要がある。
本稿では,これらの課題に対処するために,アルゴリズム安定性の概念を活用する新しいアプローチであるSNPL(Safe Noisy Policy Learning)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:38:14 GMT)
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.6] 我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:10 GMT)
IMDPrompter: Adapting SAM to Image Manipulation Detection by Cross-View Automated Prompt Learning [33.2] Segment Anything Model (SAM) は例外的な一般化とゼロショット機能を示した。
我々はSAMに基づくIMDPrompterと呼ばれるクロスビュープロンプト学習パラダイムを開発した。
IMDPrompterは手動によるガイダンスに依存しなくなり、自動検出とローカライゼーションが可能になった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:02:45 GMT)
Position: Interactive Generative Video as Next-Generation Game Engine [32.7] 生成ゲームエンジン(GGE)の基礎として,対話型生成ビデオ(IGV)を提案する。
IGVのユニークな強みは、無制限の高品質なコンテンツ合成、物理を意識した世界モデリング、ユーザ制御の対話性、長期記憶能力、因果推論である。
私たちの研究は、AI時代のゲーム開発の新しいコースをグラフ化し、AIによる生成システムがゲームの作成と経験を根本的に変える未来を描いています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:22 GMT)
MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering [32.6] 多言語医療質問応答のための多言語知識グラフに基づく検索ランク付け(MKG-Rank)を提案する。
本フレームワークは、LLM推論に英語中心の総合的医療知識グラフを低コストで統合する。
中国語、日本語、韓国語、スワヒリ語にまたがる多言語医療QAベンチマークの大規模な評価は、MKG-RankがゼロショットLLMを一貫して上回っていることを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:59:12 GMT)
Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition [31.5] 本稿では、プライバシ保護人間行動認識(HAR)のための、ニューラルネットワーク(SNN)とイベントベースのカメラとの有望な相互作用について検討する。
時間セグメントベースSNN(textitTS-SNN)と3D畳み込みSNN(textit3D-SNN)の2つの新しいフレームワークを紹介した。
イベントベースHARにおけるさらなる研究を促進するため、高解像度のCeleX-Vイベントカメラを用いて収集したデータセット、textitFallingDetection-CeleXを作成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:31:16 GMT)
EasyRobust: A Comprehensive and Easy-to-use Toolkit for Robust and Generalized Vision [31.4] 敵攻撃とデータ分散シフトは、マシン性能を低下させる2つの主要なシナリオとして知られてきた。
我々は,堅牢な視覚モデルのトレーニング,評価,分析を行うための総合的で使いやすいツールキットであるEasyRobustを開発した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:43:42 GMT)
Matrix3D: Large Photogrammetry Model All-in-One [31.0] Matrix3Dは、いくつかのフォトグラム化サブタスクを実行する統一モデルである。
これには、ポーズ推定、深さ予測、ビュー合成が含まれる。
マルチラウンドインタラクションによるきめ細かい制御を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:10:32 GMT)
HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views [30.8] 大規模3次元位置認識のための新規で汎用的な階層型OctoreeベースのTransformerであるHOTFormerLocを提案する。
粒度にまたがる空間的特徴と意味的特徴をキャプチャするオクツリーに基づくマルチスケールアテンション機構を提案する。
CS-Wild-Placesは、密林で捉えた空中および地上のライダースキャンの点雲データを含む、新しい3次元オープンソースデータセットである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:00:11 GMT)
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization [30.7] ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。
MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。
提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:19:55 GMT)
Semi-Implicit Functional Gradient Flow for Efficient Sampling [30.3] 本稿では,ガウス雑音を近似系とする摂動粒子を用いた関数勾配ParVI法を提案する。
ニューラルネットワークと一致するスコアをデノナイズすることで推定できる機能的勾配流は,強い理論的収束保証を示す。
さらに,サンプリング中の適切な雑音の大きさを自動的に選択する適応バージョンを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:56:31 GMT)
TopoDiffusionNet: A Topology-aware Diffusion Model [30.1] 拡散モデルは視覚的に印象的な画像を作成するのに優れるが、しばしば特定の位相を持つ画像を生成するのに苦労する。
TopoDiffusionNet (TDN) は、所望のトポロジーを維持するために拡散モデルを強制する新しいアプローチである。
4つのデータセットに対する実験により、トポロジ的精度が大幅に向上した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:53:45 GMT)
Optimal Neural Compressors for the Rate-Distortion-Perception Tradeoff [29.7] ニューラル圧縮における最近の取り組みは、速度歪みと知覚のトレードオフに焦点を当てている。
本稿では, 複雑度が低く, 高パッキング効率の恩恵を受けるニューラル圧縮機を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:18:52 GMT)
When Domain Generalization meets Generalized Category Discovery: An Adaptive Task-Arithmetic Driven Approach [29.7] 汎用クラスディスカバリ(GCD)クラスタベースとターゲットドメインの新規クラスは、ベースクラスのみを持つソースドメインからの監視を使用する。
本稿では,GCD(DG-GCD)における領域一般化のパラダイムを紹介する。
我々のソリューションであるDG2CD-Netは、GCDのためのドメインに依存しない差別的な埋め込み空間を構築することを目的としている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:15:36 GMT)
Passive Inference Attacks on Split Learning via Adversarial Regularization [29.6] スプリットラーニング(SL)は、従来のフェデレートラーニングに代わる実用的で効率的な代替手段として登場した。
SDAR は SL に対する攻撃フレームワークである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:27:01 GMT)
Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images [29.5] 深層学習モデルでは、画像品質の低下、運動アーティファクト、複雑な腫瘍形態などの問題に対処することが期待されている。
我々は,605例のPET-CT画像21,930対からなる,PCLT20Kと呼ばれる大規模PET-CT肺腫瘍セグメンテーションデータセットを紹介した。
PET-CT画像における肺腫瘍のセグメンテーションのためのMamba(CIPA)を用いたクロスモーダル対話型知覚ネットワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:04:11 GMT)
Online Selective Conformal Prediction: Errors and Solutions [29.4] 我々は,既存のキャリブレーション選択戦略を評価し,関連するクレームの基本的な誤りをいくつか指摘する。
これらの戦略によるオンライン選択的共形推論は、選択条件のカバレッジとFCR制御の両方を保証することを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:37:28 GMT)
FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding [28.9] 本稿では,意味場面理解における連続学習へのコントラスト・アテンション・アプローチによるフェアネス・ラーニングを提案する。
まず、破滅的な忘れと公平さの問題に対処するために、新しいフェアネス・コントラスト・クラスタリング・ロスを導入する。
そこで本研究では,バックグラウンドシフト問題と未知のクラスを効果的にモデル化する,注目に基づく視覚文法手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:35:08 GMT)
Casual Inference via Style Bias Deconfounding for Domain Generalization [28.9] 本稿では, 因果推論に基づく新しいフレームワークであるStyle Deconfounding Causal Learningを紹介する。
提案手法は、ドメイン一般化問題に適した構造因果モデル(SCM)の構築から始まり、スタイルの影響を考慮に入れたバックドア調整戦略を適用する。
この基礎の上に構築したSGEM(style-guided Expert Module)は,トレーニング中のスタイル分布を適応的にクラスタリングし,グローバルなコンバウンディングスタイルをキャプチャする。
バックドア因果学習モジュール(BDCL)は特徴抽出中に因果介入を行い、グローバルな共起スタイルをサンプル予測に適切に統合し、スタイルバイアスを効果的に低減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:52:31 GMT)
Advanced Deep Learning Methods for Protein Structure Prediction and Design [28.6] タンパク質構造予測と設計に応用した高度な深層学習手法を包括的に検討する。
テキストは、構造生成、評価指標、多重シーケンスアライメント処理、ネットワークアーキテクチャを含む重要なコンポーネントを分析する。
予測精度を向上し、深層学習技術と実験的検証を統合するための戦略を徹底的に検討した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:54:59 GMT)
Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores [28.4] テキストの繰り返しを計測し抽出するためのPythonパッケージをリリースする。
ユーザがテキストの繰り返しをインタラクティブに探索するための、多様性に基づくプラットフォームを構築します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:47:28 GMT)
When Debate Fails: Bias Reinforcement in Large Language Models [28.4] 大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:51:30 GMT)
CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement [28.4] Condition-Aware Sentence Embeddings (CASE) は、条件下で文の埋め込みを作成するための効率的で正確な方法である。
ケースは、既存の標準ベンチマークデータセット上で条件付きセマンティックテキスト類似性(C-STS)メソッドよりも大幅に優れています。
本稿では,LLMをベースとした埋め込みの次元性を低減するだけでなく,性能を著しく向上する,教師付き次元性低減手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:27:12 GMT)
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models [28.4] textbftextscFastCuRLは2つの主要な手順で構成されている。
textbftextscFastCuRL-1.5B-Previewは5つのデータセットすべてでDeepScaleR-1.5B-Previewを上回っている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:35:31 GMT)
Passive Heart Rate Monitoring During Smartphone Use in Everyday Life [28.3] 安静時心拍数(RHR)は、心臓血管の健康と死亡にとって重要なバイオマーカーである。
本稿では,日常的スマートフォン使用時の受動心拍数(HR)およびRHR測定のためのディープラーニングシステムであるPHRMについて述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:09:40 GMT)
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.2] 大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。
本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。
本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:09:16 GMT)
Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition [28.2] BHaRNetは、典型的なボディエキスパートモデルをハンドエキスパートモデルで拡張する新しいフレームワークである。
我々のモデルは、協調的な専門化を促進するアンサンブル損失で、両方のストリームを共同で訓練する。
MMNetに触発されて、RGB情報を活用することで、マルチモーダルタスクへのアプローチの適用性を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:54:33 GMT)
RustEvo^2: An Evolving Benchmark for API Evolution in LLM-based Rust Code Generation [28.2] RustEvoは、大きな言語モデルがRust APIに適応する能力を評価するためのフレームワークである。
実際の課題を反映したプログラミングタスクに588のAPI変更を合成することで、データセット生成を自動化する。
最先端 (SOTA) LLM 実験では, 性能が著しく変化した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:33:59 GMT)
Bias Testing and Mitigation in LLM-based Code Generation [28.0] 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
広範に研究されている5つのLLMのコードにおけるバイアスに関する実証的研究を行った。
現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:36:33 GMT)
Rankformer: A Graph Transformer for Recommendation based on Ranking Objective [28.0] ランキングにインスパイアされたレコメンデーションモデルであるRanformerを提案する。
アーキテクチャはランク付け対象の勾配にインスパイアされ、ユニークな(グラフ)トランスフォーマーアーキテクチャを具現化している。
大規模な実験結果から、Ranformerは最先端の手法よりも優れていることが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:53:06 GMT)
Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification [27.8] 動的視覚言語コンテキストスペーシフィケーションフレームワークDynamic-LLaVAを提案する。
これは、プリフィルステージにおける視覚コンテキストの冗長性を動的に減少させる。
これはデコード中に生成された言語コンテキストのメモリと計算オーバーヘッドを減少させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:30:33 GMT)
Safe and Reliable Diffusion Models via Subspace Projection [27.7] 本稿では,T2I拡散モデルからターゲット概念を徹底的に除去するための,新規かつ効率的なアプローチであるSAFERを提案する。
この方法はまず、ターゲット概念cに関連付けられた概念固有の部分空間$S_c$を識別する。
次に、プロンプト埋め込みを$S_c$のサブスペースに投影し、生成されたイメージから概念を効果的に消去する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:09:25 GMT)
AnimatePainter: A Self-Supervised Rendering Framework for Reconstructing Painting Process [27.7] 任意の画像から描画プロセスを生成するための自己教師型フレームワークを提案する。
提案手法では, 基準画像からストロークを段階的に除去し, 人為的な生成シーケンスをシミュレートすることで, 描画過程を逆転させる。
我々は、人間の描画を「精細化」および「層化」プロセスとしてモデル化し、深層融合層を導入し、映像生成モデルによる人間の描画行動の学習と再現を可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:39:04 GMT)
SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments [27.5] 大規模言語モデル(LLM)は、様々なロボットタスクに対して強力な文脈推論能力を示している。
SPINEは、自然言語で提供される不完全なミッション仕様を持つミッションのためのオンラインプランナーである。
意味論的推論と探索の複数のステップを必要とするミッションを用いてシミュレーションおよび実世界の設定においてSPINEを評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:34:48 GMT)
From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech [26.7] 本研究の目的は、サイレント・トーキング・フェイス・ビデオから高品質な音声を生成することである。
本稿では,サイレントビデオと多面音声のモダリティギャップを埋める新しい音声合成システムを提案する。
提案手法は,実発話に匹敵する例外的な生成品質を実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:02:38 GMT)
Specifying What You Know or Not for Multi-Label Class-Incremental Learning [26.6] MLCIL(Multi-label class-incremental learning)の主な課題は、モデルが既知の知識と未知の知識を明確に区別できないことである。
この曖昧さは、モデルが歴史的知識を保持し、現在のクラスをマスターし、将来の学習に備える能力を妨げます。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:26:32 GMT)
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models [26.5] ビジョンランゲージモデルは、テキストと画像の共有機能空間を学習し、異なるモードの入力の比較を可能にする。
画像領域における構成性について検討し、合成特性の分析は視覚データのノイズと空間性によって挑戦される。
本稿では,GDE(Geodesically Decomposable Embeddings)と呼ばれるフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:46:53 GMT)
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models [26.1] UniConは、大規模な拡散モデルのためのトレーニングアダプタの制御と効率を向上させるために設計された新しいアーキテクチャである。
拡散モデルと制御アダプタの双方向相互作用に依存する既存の方法とは異なり、UniConは拡散ネットワークからアダプタへの一方向フローを実装している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:25:37 GMT)
URLOST: Unsupervised Representation Learning without Stationarity or Topology [26.0] 定常性やトポロジの事前知識のない高次元データから学習する新しいフレームワークを提案する。
このモデルでは,学習可能な自己組織化層,スペクトルクラスタリング,マスク付きオートエンコーダを組み合わせる。
本研究は,生体視覚データ,一次視覚野からの神経記録,遺伝子発現を含む3種類のデータモダリティに対して有効性を評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:54 GMT)
Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting [26.0] ストリーミング方式でフリー視点ビデオを構築することは、オフラインのトレーニング方法と比較して、迅速な応答性の利点を提供する。
現在のストリーミングアプローチでは、フレーム単位の再構築時間(10s+)の高さとエラーの蓄積という課題に直面し、より広範なアプリケーションを制限する。
我々はこれらの問題に対処するために,高速で一般化可能なストリーミングフレームワークであるInstant Gaussian Stream (IGS)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:46:22 GMT)
Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization [25.8] 視覚的ローカライゼーションは、ポーズ画像のデータベースに対して、クエリ画像のカメラのポーズを決定することを目的としている。
カメラのポーズを直接回帰するディープニューラルネットワークは、高速な推論能力のために人気を集めている。
Reloc3rは、シンプルだが効果的な視覚的ローカライゼーションフレームワークである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:18:18 GMT)
Primal Methods for Variational Inequality Problems with Functional Constraints [25.3] 本稿では,関数的制約付き変分不等式問題に対処する手法として,制約付き勾配法(Constrained Gradient Method, CGM)を提案する。
提案アルゴリズムは, 単調・強単調両方の演算子問合せにおいて, プロジェクションに基づく手法の複雑さに適合する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:54:32 GMT)
HunyuanProver: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving [25.2] Hunyuan Proverは、LEAN4で証明された対話型自動定理のためにHunyuan 7Bから微調整された言語モデルである。
これは、現在のSOTA結果である65.9%と比較して、ミニF2Fテストで68.4%のパスを達成している。
私たちは30kの合成インスタンスのデータセットをオープンソースとして公開します。各インスタンスには、自然言語における元の質問、自動形式化による変換されたステートメント、HunyuanProverによる証明が含まれています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:00:37 GMT)
Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.9] 経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。
ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:28:22 GMT)
A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection [24.6] 無監督産業画像異常検出技術は、異常サンプルの不足を効果的に克服する。
このアーティカルは、3つのモード設定でUIADタスクの包括的なレビューを提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:51:16 GMT)
Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.0] Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。
既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。
人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:08:14 GMT)
MODL: Multilearner Online Deep Learning [23.9] ハイブリッド・マルチ・ラーナー・アプローチによる代替パラダイムを導入する。
バックプロパゲーションに頼らずに動作可能な高速なオンラインロジスティック回帰学習器を開発した。
本手法は,標準的なオンライン学習データセット上での最先端のパフォーマンスを実現することを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:21:40 GMT)
High Efficiency Wiener Filter-based Point Cloud Quality Enhancement for MPEG G-PCC [23.9] 点雲は、シーンやオブジェクトの幾何学や属性を多数の点で直接記録する。
静的クラウドと動的クラウドの両方に対するジオメトリベースのポイントクラウド圧縮(G-PCC)標準。
G-PCCのエンコーダおよびデコーダパイプラインに統合可能な高効率Wienerフィルタを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:24:58 GMT)
Is there anything left? Measuring semantic residuals of objects removed from 3D Gaussian Splatting [23.8] 本稿では,この逆問題,すなわち,探索された要素が取り除かれた後,どのくらい残っているかという問題に対処する。
本稿では,除去操作が原因となるオブジェクト残余を除去するかどうかを定量的に評価する。
最先端のシーン表現の実験は、提案した指標がユーザスタディと有意義で一致していることを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:07:38 GMT)
Zero-Shot Reinforcement Learning via Function Encoders [23.6] 本稿では,学習された非線形基底関数の重み付け結合として関数を表現する表現学習アルゴリズムである関数エンコーダを紹介する。
関数エンコーダを使用して報酬関数や遷移関数を表現することにより、エージェントは、現在のタスクが以前見られたタスクとどのように関連しているかに関する情報を得る。
基本RLアルゴリズムを関数タスク表現で拡張することにより、3つのRLフィールドにおける最先端のデータ効率、安定性、および訓練安定性を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:37:37 GMT)
Reverse Probing: Evaluating Knowledge Transfer via Finetuned Task Embeddings for Coreference Resolution [23.4] 複雑なソースタスクから凍結表現を探索する代わりに、複数の単純なソースタスクから1つのターゲットタスクへの埋め込みの有効性について検討する。
この結果,タスクの埋め込みは,意味的類似性タスクが最も有益であることが示され,コア参照の解決に大いに有用であることが判明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:51:02 GMT)
Karyotype AI for Precision Oncology [23.3] 血液がんの原因となる染色体異常を正確に検出できる機械学習手法を提案する。
パイプラインは一連の微調整されたVision Transformer上に構築されている。
臨床的に有意な del(5q) と t(9;22) 異常に対して, 94% AUC の高精度リコールスコアが得られた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:34:17 GMT)
PUGS: Zero-shot Physical Understanding with Gaussian Splatting [23.3] 現在のロボットシステムは、オブジェクトのカテゴリやポーズをよく理解することができる。
しかし、質量、摩擦、硬さといった物理的性質を理解することは、野生では難しいままです。
ガウススプラッティング表現を用いて3次元オブジェクトを再構成し、ゼロショット方式で様々な物理特性を予測できる新しい手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:50:12 GMT)
Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation [23.3] 単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的としている。
そこで本研究では,モデル実行時間を推定するためのサンプリング-then-simulation法を提案する。
3つのアプリケーションと混在アプリケーションの実験は、SamuLLMが1.0-2.4$times$ end-to-endのスピードアップを達成できることを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:56:35 GMT)
Large Language Models Can Verbatim Reproduce Long Malicious Sequences [23.1] 機械学習モデルに対するバックドア攻撃は、広く研究されている。
本稿では,大規模言語モデルにおけるバックドア攻撃の概念を再検討する。
ターゲット入力のトリガによって、$leq100$のハードコードキーを含む任意の応答を再生できることが判明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:24:49 GMT)
ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail [22.9] 入力を3Dスキャンとする表現型3DキャプションモデルであるExCap3Dを提案する。
スキャンで検出された各オブジェクトに対して、ExCap3Dはオブジェクトの一部の詳細な集合的記述を生成する。
実験の結果, ExCap3D が生成する細部キャプションのオブジェクトレベルと部分レベルは, 最先端の手法が生成するキャプションよりも高品質であることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:00:12 GMT)
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation [22.7] 本研究では、リズム認識機能表現を強化するためにゲーティング機構を活用する新しいフレームワークであるDancebaを提案する。
位相に基づくリズム抽出(PRE)により、音楽相データからリズム情報を正確に抽出する。
TGCA(Temporal-Gated Causal Attention)は、グローバルリズミカルな特徴に焦点を当てる。
上肢と下肢の運動を別々にモデル化する並列マンバ運動モデリング(PMMM)アーキテクチャ。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:42:50 GMT)
Salient Object Detection in Traffic Scene through the TSOD10K Dataset [22.6] Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。
本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:21:24 GMT)
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Models [22.4] 拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。
拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。
本研究では,予測分布と属性スコアとの直接比較を行うために拡散属性スコア(textitDAS)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:57:29 GMT)
Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.8] 病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:40:37 GMT)
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.7] 本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。
VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。
フルジェネレーションよりも25~40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:13:02 GMT)
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows [21.7] OmniFlowは、テキスト・ツー・イメージ、テキスト・ツー・オーディオ、オーディオ・ツー・イメージ・シンセサイザーなど、あらゆる世代のタスク用に設計された新しい生成モデルである。
テキスト・ツー・イメージやテキスト・ツー・オーディオ合成など、さまざまなタスクにおいて、これまでの任意のモデルよりも優れています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:14:34 GMT)
DITTO: Offline Imitation Learning with World Models [21.4] DITTOは、これらの3つの問題すべてに対処するオフラインの模倣学習アルゴリズムである。
標準的な強化学習アルゴリズムを用いて,この多段階潜時分岐を最適化する。
我々の結果は、世界モデルの創造的利用が、シンプルで堅牢で、高度にパフォーマンスの高い政策学習フレームワークにどのように結びつくかを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:00:05 GMT)
QITE: Assembly-Level, Cross-Platform Testing of Quantum Computing Platforms [21.4] 量子コンピューティングプラットフォームは、量子固有のバグの影響を受けやすい。
QITEは量子コンピューティングプラットフォームのための最初のクロスプラットフォームテストフレームワークである。
広く使われている4つの量子コンピューティングプラットフォーム上でQITEを評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:17:51 GMT)
Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.2] 言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:08:11 GMT)
Blended Conditional Gradients: the unconditioning of conditional gradients [21.2] ポリトープP上の滑らかな凸関数を最小化するための混合条件勾配法を提案する。
強凸関数に対する線形収束と実用的な性能を実現する。
このアルゴリズムは遅延性があり、線形プログラミングサブプロブレムの安価な不正確な解を利用する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:03:00 GMT)
Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1 [21.1] 人文科学と社会科学の研究において、LLM(Large Language Models)は大規模テキストデータを解析し、推論することができる。
本稿では, 大規模言語モデルであるDeepSeek-R1を, 低リソース言語翻訳, 教育質問応答, 高等教育における生徒の書き方の改善, 論理的推論, 教育計測と心理測定, 公衆衛生政策分析, 美術教育の7つの側面から分析する。
DeepSeek-R1は人文科学や社会科学でよく働き、ほとんどの質問に正しく論理的に答え、適切な分析プロセスと説明を与える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:34:40 GMT)
MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering [21.1] マルチモーダル時系列データセットは、クロスモーダル推論と複雑な質問応答の評価において不足している。
時系列およびテキスト理解における大規模言語モデル(LLM)を評価するベンチマークであるMTBench(Multimodal Time Series Benchmark)を紹介する。
MTbench 上での最先端 LLM の評価を行い,ニュース物語と時間パターンの複雑な関係をモデル化する上での有効性を分析した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:04:53 GMT)
DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery [20.9] DroneSplatは、既存のドローン画像からの堅牢な3D再構成のために設計された新しいフレームワークだ。
本手法は,局所的な領域分割と統計的アプローチを組み合わせることでマスキング閾値を適応的に調整する。
包括的評価のために,動的シーンと静的シーンの両方を含むドローンによる3D再構成データセットを提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:21:43 GMT)
A Language Anchor-Guided Method for Robust Noisy Domain Generalization [20.8] アンカーアライメントとアダプティブウェイトリング(A3W)について紹介する。
A3Wは、自然言語処理(NLP)アンカーでガイドされたサンプル再重み付けを使用して、より代表的な特徴を抽出する。
最先端の領域一般化法より一貫して優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:28 GMT)
Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators [20.8] 大規模言語モデル (LLM) は、ライセンス試験を用いて一般的な医学的知識として評価されている。
本研究は,35個の臨床電卓を対象に,1009個の質問応答ペアを用いたモデルについて検討した。
2人のアノテータは名目上、平均解答精度79.5%のLLMよりも優れていた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:13:39 GMT)
Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens [20.7] 自動回帰予測により3次元GUタスクをシームレスに統合する統合フレームワークUni-3DARを紹介する。
Uni-3DARの中核となるのは、オクツリーを用いて3次元空間を圧縮する新しい階層的トークン化である。
これらの戦略を組み合わせることで、Uni-3DARは単一の自動回帰フレームワーク内で多様な3D GUタスクを統一することに成功した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:32:47 GMT)
Debugging and Runtime Analysis of Neural Networks with VLMs (A Case Study) [20.4] 視覚モデルにおける故障局所化のための意味的ヒートマップの有用性を示す。
本稿では,実行時の欠陥を検出しフィルタする軽量なランタイム解析を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:12:57 GMT)
T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [20.2] ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:59:59 GMT)
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.2] 本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。
UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。
以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:53:32 GMT)
LoGoFair: Post-Processing for Local and Global Fairness in Federated Learning [20.1] 本稿では,FLコンテキストにおける局所性とグローバルフェアネス,すなわちLoGoFairを実現するための新しい後処理フレームワークを提案する。
3つの実世界のデータセットの実験結果は、提案したLoGoFairフレームワークの有効性をさらに示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:33:09 GMT)
MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.0] PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。
既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。
大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:01:23 GMT)
TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models [19.6] 視覚言語モデル(VLM)は印象的な推論能力を示しているが、ジェイルブレイク攻撃には弱いままである。
textbfTextual textbfAnchoring for textbfImmunizing textbfJailbreak textbfImages (textbfTAIJI)
textbfTextual textbfAnchoring for textbfImmunizing textbfという新しいブラックボックス防御フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:46:59 GMT)
LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details [19.4] 本稿では,写真リアリスティックな音声ヘッドビデオの合成に有効なポストプロセッシング手法を提案する。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:17:16 GMT)
ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.4] 大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:53:47 GMT)
A Statistical Theory of Contrastive Learning via Approximate Sufficient Statistics [19.2] 我々はデータ拡張に基づくコントラスト学習を解析するための新しい理論フレームワークを開発した。
我々は,SimCLRなどのコントラスト損失を最小化すれば,ほぼ十分エンコーダが得られることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:07:18 GMT)
Temporal Action Detection Model Compression by Progressive Block Drop [19.1] 時間的アクション検出(TAD)は、未トリミングビデオ中のアクションインスタンスを識別し、ローカライズすることを目的としている。
より大きな特徴抽出器とデータセットによって駆動されるモデル性能の最近の改善は、計算要求の増大につながった。
層幅を維持しながらモデル深さを低減するプログレッシブ・ブロック・ドロップ法を提案する。
提案手法は2つのTADベンチマークで計算オーバーヘッドを25%削減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:26:55 GMT)
A Study into Investigating Temporal Robustness of LLMs [19.1] 大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。
我々は, 時間情報処理能力に基づいて, LLMが質問応答の頑健さを正確に測定することを目的としている。
これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:56:17 GMT)
SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code [19.0] この研究は、追加のトレーニングデータを必要としないプライバシ計算コードを生成するルールベースのフレームワークであるSPDZCoderを提案する。
SPDZCoderは、PythonとMP-SPDZのセマンティック表現の違いを表現するために、高品質なエキスパート知識の収集に厳格な手順を採用している。
大規模な実験によると、SPDZCoderは、pass@1とpass@2のベースラインを大幅に超え、優れたパフォーマンスを実現している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:52:57 GMT)
FATE: Full-head Gaussian Avatar with Textural Editing from Monocular Video [18.5] FATEは、単一のモノクロビデオから編集可能なフルヘッドアバターを再構築する新しい方法である。
離散ガウス表現を連続写像に変換するためのニューラルベーキング手法が導入された。
FATEは、定性評価と定量的評価の両方において、以前のアプローチより優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:08:03 GMT)
Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.1] 我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。
本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:12:30 GMT)
Enabling Versatile Controls for Video Diffusion Models [18.1] VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:48:00 GMT)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.9] 両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。
既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。
本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:04:01 GMT)
Neuromorphic Attitude Estimation and Control [17.9] 本研究では、スパイキングニューラルネットワーク(SNN)を用いた最初のニューロモルフィック制御システムを提案する。
そこで本手法を低レベル姿勢推定・制御に応用し,SNNを小さなクラジフリー上に配置する。
我々の研究は、高エネルギー効率で低遅延のニューロモルフィックオートパイロットの基礎となる、ニューロモルフィック・エンド・ツー・エンド制御の実現可能性を示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:57:38 GMT)
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning [17.6] 我々は金融セクター向けに特別に設計された大規模言語モデルであるFin-R1を紹介する。
Fin-R1は2段階アーキテクチャを使用して構築され、DeepSeek-R1に基づいて蒸留および処理された金銭的推論データセットを活用する。
これはDeepSeek-R1に近いパフォーマンスを示し、パラメータサイズは70億で、さまざまな金銭的推論タスクにまたがっている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:57:58 GMT)
Distilling Monocular Foundation Model for Fine-grained Depth Completion [17.6] 本研究では,深度調整のための2段階の知識蒸留フレームワークを提案する。
第1段階では、自然画像から多様なトレーニングデータを生成し、幾何学的知識を蒸留して深度補正を行う。
第2段階では、実世界のデータセットを微調整する際に、スケールとシフト不変の損失を用いて実世界のスケールを学習する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:34:01 GMT)
ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation [17.4] 我々は,ゼロショット4次元人間とシーンの相互作用合成を可能にする新しいアプローチであるZeroHSIを提案する。
私たちの重要な洞察は、最先端のビデオ生成モデルから人間とシーンのインタラクションを抽出することです。
ZeroHSIは静的シーンと環境の両方でリアルな人間の動きを動的オブジェクトで合成することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:17:28 GMT)
MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation [17.4] 長期にわたる高密度な行動予測は、行動の予測と、その持続期間を未来まで数分間待つ必要があるため、困難である。
本稿では, 効果的長期時間モデリングを実現するため, MANTA (MAmba for ANTicipation) ネットワークを提案する。
当社のアプローチでは,Breakfast,50Salads,Ambly101という3つのデータセットに対して,最先端の結果を実現しています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:04:07 GMT)
Friend or Foe? Navigating and Re-configuring "Snipers' Alley" [17.4] 我々は、信頼できる俳優が、彼らが予防しようとする不正確さと害をいかに生み出すかを示す。
私たちはこれを「狙撃兵の路地」として概念化します
路地を再構成する戦略について論じる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:56:25 GMT)
ATOM: Attention Mixer for Efficient Dataset Distillation [17.4] 本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:37:27 GMT)
Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview [17.1] 収縮理論 (contraction theory) は、非自明(時間変化)非線形系の微分力学を研究するための解析ツールである。
これは、比較補題と共に用いられる指数的安定性の優れた性質を利用する。
これにより、ニューラルネットワークベースの制御と推定スキームに対して、待望の安全性と安定性が保証される。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:00:27 GMT)
DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation [16.9] 本研究では,未来の状態を共同で予測し,歴史的軌跡に基づく動的変動に適応して行動学習を促進する新しい枠組みを提案する。
DyWAは実世界の実験で平均68%の成功率を達成した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:29:52 GMT)
Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation [16.9] 本稿では,ユーザクエリが情報要求の表現に欠ける側面と,LLMを用いてサブ最適ユーザプロンプトを書き換える可能性について検討する。
本研究は, ユーザの本来の意図を保ちながら, 会話システムからより優れた応答を導き出すことができることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:01:02 GMT)
Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.8] VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:15:37 GMT)
PMANet: Malicious URL detection via post-trained language model guided multi-level feature attention network [16.7] PMANetは,事前学習型言語モデル誘導型マルチレベル特徴注意ネットワークである。
PMANetは、マスク付き言語モデリング、ノイズの多い言語モデリング、ドメイン識別という、3つの自己組織化された目標を持つポストトレーニングプロセスを採用している。
小規模データ、クラス不均衡、敵攻撃を含む様々なシナリオの実験は、PMANetが最先端モデルよりも優れていることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:26:20 GMT)
Self-supervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [16.7] 自己監督型単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は,自己教師付き単眼深度推定のための独特の認知学習プロセスを備えた生成的拡散モデルを用いる。
我々は,KITTIとMake3Dデータセットの実験を行った。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:23:31 GMT)
Towards Carbon Footprint-Aware Recommender Systems for Greener Item Recommendation [16.6] オンラインショッピングはレコメンダシステム(RecSys)アルゴリズムによって促進されているが、より持続可能な選択を促進する上で後者の役割と可能性はほとんど研究されていない。
主な原因の1つは、アイテムに二酸化炭素排出量の排出量を含むデータセットが欠如していることによる可能性がある。
項目の炭素フットプリントを考慮に入れた単純な再ランクのアプローチは、精度と緑度の間のトレードオフをより良くすることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:58:47 GMT)
CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5] 本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:05:22 GMT)
City2Scene: Improving Acoustic Scene Classification with City Features [16.2] City2Sceneは、都市の特徴を活用して音響シーンの分類を改善する新しいフレームワークである。
都市固有の知識を蒸留することにより、City2Sceneは様々な最先端のASCバックボーンモデルの精度を効果的に向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:24:48 GMT)
Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.1] 本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:20:39 GMT)
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow [16.1] MLLM(Multi-modal Large Language Models)は、様々な分野において大きな注目を集めている。
視覚入力の詳細な認識が欠如しており、定量的画像解析を行う能力が制限されている。
MedAgent-Proは,信頼性,説明性,正確な診断を実現するために設計されたエビデンスベースの推論エージェントシステムである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:04:18 GMT)
Classifier-guided CLIP Distillation for Unsupervised Multi-label Classification [16.0] 包括的画像理解には多ラベル分類が不可欠である。
CLIPの習熟度にもかかわらず、ビュー依存の予測と固有のバイアスに悩まされ、その効果が制限される。
本稿では,対象オブジェクト近傍の複数のビューを活用することで,これらの問題に対処する新しい手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:12:14 GMT)
Seg2Box: 3D Object Detection by Point-Wise Semantics Supervision [16.0] LiDARに基づく3Dオブジェクト検出とセマンティックセグメンテーションは、3Dシーン理解において重要なタスクである。
従来の検出と方法は、バウンディングボックスラベルとセマンティックマスクラベルを通じてモデルを監督する。
本稿では,意味ラベルのみを用いた3次元物体検出を監督することにより,冗長性を解消することを目的とする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:39:32 GMT)
Bayesian generative models can flag performance loss, bias, and out-of-distribution image content [15.8] 生成モデルは、異常検出、特徴抽出、データの可視化、画像生成などの医療画像タスクに人気がある。
ディープラーニングモデルによってパラメータ化されているため、分散シフトに敏感であり、アウト・オブ・ディストリビューションデータに適用しても信頼できないことが多い。
我々は,インク,定規,パッチなどの分布外画像コンテンツを検出する画素ワイド不確実性を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:45:28 GMT)
LitLLMs, LLMs for Literature Review: Are we there yet? [15.8] 本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:56:58 GMT)
LitLLM: A Toolkit for Scientific Literature Review [15.8] 本稿では,RAG(Retrieval Augmented Generation)の原理に基づくツールキットを提案する。
本システムはまず,関連論文を検索するWeb検索を開始する。
第2に、ユーザが提供する抽象化に基づいて、検索した論文を再ランクする。
第3に、再ランクされた結果と要約に基づいて、関連する作業部を生成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:49:10 GMT)
When Tom Eats Kimchi: Evaluating Cultural Bias of Multimodal Large Language Models in Cultural Mixture Contexts [15.8] 異文化間バイアスベンチマークであるMixCuBeを導入し、5カ国と4民族の要素について検討する。
以上の結果から,MLLMは高資源培養において高い精度と低感度を達成できることが判明した。
GPT-4oは、全体として最高のパフォーマンスモデルであり、低リソース文化における原文化と摂動文化の精度の最大58%の違いを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:50:05 GMT)
Sample- and Parameter-Efficient Auto-Regressive Image Models [15.5] 我々は,新しい自己回帰目標を事前学習した視覚モデルであるXTRAを紹介する。
XTRAはBlock Causal Maskを採用しており、それぞれのBlockは標準的な因果マスクに頼るのではなく、k$times$kトークンを表す。
XTRAはブロック単位でピクセル値を再構築することにより、より大きな画像領域上の高レベルの構造パターンをキャプチャする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:23:43 GMT)
Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval [15.4] ZS-CIRタスクの鍵となる課題は、対象の画像を正確に検索するために、操作テキストに従って参照画像を変更することである。
そこで我々はPrediCIRという新しい予測型マッピングネットワークを提案する。
本モデルでは、6つのZS-CIRタスクに対して強い一般化能力を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:49:50 GMT)
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making [15.4] 実環境で動作するAIエージェントには、身体的意思決定が基本である。
本研究では,マルチモーダルな人間中心意思決定タスクにおいて,オープンソースのビジュアル言語モデル(VLM)を評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:25:23 GMT)
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation [15.4] 本稿では,3Dオブジェクトの生成,編集,拡張を行う効率的なフレームワークであるKiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介する。
具体的には,多視点画像とその対応する正規写像からなるタイル付き表現である'3D Bundle Image'を生成するために拡散モデルを微調整する。
この簡単な方法は、3次元生成問題を2次元画像生成タスクに効果的に変換し、事前訓練された拡散モデルにおける知識の利用を最大化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:11:13 GMT)
PVChat: Personalized Video Chat with One-Shot Learning [15.3] PVChatは単発の学習フレームワークで、被験者ごとに単一のビデオから回答できる。
提案手法は、合成強化ビデオQAデータセット上で、Mixture-of-Heads(MoH)拡張ViLLMを最適化する。
医療シナリオ,テレビシリーズ,アニメ,実世界の映像を対象とした多様なデータセットを用いてPVChatを評価した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:50:06 GMT)
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage [15.3] 本稿では,LLMの安全対策を効果的に回避できる新しいジェイルブレイクパラダイムであるSimple Assistive Task (SATA)を提案する。
SATAは、マスク付き言語モデルタスクや位置タスクによる要素検索のような単純な補助タスクを使用して、マスク付きキーワードのセマンティクスを符号化する。
実験の結果、SATAは最先端の性能を達成し、ベースラインを大きなマージンで上回ることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:00:44 GMT)
LLMs Love Python: A Study of LLMs' Bias for Programming Languages and Libraries [15.1] 大規模言語モデル(LLM)は、コード生成においてますます大きな役割を果たす。
この研究は、コードを生成する際に使われるプログラミング言語やライブラリに対するLLMの嗜好について、初めて詳細に調査する。
その結果,LLMは言語に依存しない問題を解く上で,Pythonを強く好んでいることが明らかとなった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:29:35 GMT)
Spectral State Space Model for Rotation-Invariant Visual Representation Learning [15.1] 状態空間モデル (SSM) は視覚変換器 (ViT) の代替として登場した。
SSMは概念的に関連があるが、隣接していないパッチ間の関係を識別することができない。
現在の視覚ベースのSSMは回転のような変換に非常に敏感である。
画像内のグローバル構造を効果的にキャプチャする新しいアプローチであるSpectral VMambaを紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:45:43 GMT)
Feature-Based Dual Visual Feature Extraction Model for Compound Multimodal Emotion Recognition [15.1] 本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
視覚変換器(ViT)とResidual Network(ResNet)の特徴を融合したマルチモーダル感情認識手法を提案する。
その結果、複雑な視覚的・音声的手がかりを持つシナリオでは、ViTとResNetの特徴を融合させるモデルの方が優れた性能を示すことがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:03:44 GMT)
HSM: Hierarchical Scene Motifs for Multi-Scale Indoor Scene Generation [15.1] HSMは屋内シーン生成のための階層的な枠組みであり、空間スケールにわたって密集した物体配置を持つ。
実験の結果,HSMは部屋のタイプや空間構成にまたがるユーザ入力によりリアルでより適合したシーンを生成することで,既存の手法よりも優れることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:36:57 GMT)
Launching Insights: A Pilot Study on Leveraging Real-World Observational Data from the Mayo Clinic Platform to Advance Clinical Research [15.0] マヨクリニックプラットフォーム(MCP)は、臨床研究とAI開発をサポートするスケーラブルなエコシステムを提供することによって、課題に対処するために設立された。
我々は,MPPのデータ基盤と分析能力を活用する4つの研究プロジェクトを実施し,実世界のエビデンス生成とAIによる臨床洞察を促進する可能性を実証した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:06:21 GMT)
TamedPUMA: safe and stable imitation learning with geometric fabrics [14.9] イミテーション学習(IL)は、目標収束を伴うロボットに安定したタスク空間の動きを教えるための直感的で効果的な方法を提供する。
本研究では,この課題を,幾何学的ファブリックと呼ばれる動き生成の最近の発展にともなうILアルゴリズムであるTyodPUMAを用いて解決する。
その結果、衝突回避や関節リミットといった幾何学的制約をシームレスにブレンドできる安定した模倣学習戦略が得られた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:13:17 GMT)
Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography [14.7] Photoplethysmography systemは、顔とランドマークの検出、時系列抽出、パルス信号/パルスレート推定の3つのモジュールで構成されている。
TURNIPと呼ばれるパルス信号推定モジュールは、基礎となるパルス信号波形を忠実に再構築することを可能にする。
我々のアルゴリズムは、特殊なセンサーや皮膚との接触を必要とせず、信頼性の高い心拍数推定を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:52:33 GMT)
Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation [14.6] 我々は,Mambaアーキテクチャにおいて,パラメータ効率細調整(PEFT)のための2つの重要な洞察駆動戦略を導入する。
我々は,Mambaアーキテクチャに特化した新しいPEFT手法を提案する:プロジェクタターゲット対角中心線形変換(ProDiaL)
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:08:19 GMT)
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image [14.5] 本研究では,動きのぼかしを動き推定のためのリッチキューとして活用する新しいフレームワークを提案する。
提案手法は, 単一動画像から直接, 濃密な運動流場と単眼深度マップを推定することにより機能する。
本手法は,高速でアグレッシブなカメラの動きを強く捉えるIMUライクな計測法である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:58:56 GMT)
DataDAM: Efficient Dataset Distillation with Attention Matching [14.4] 研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:43:19 GMT)
Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment [14.3] V-Droidは、Large Language Modelsをバリデーションとして使用するモバイルタスク自動化エージェントである。
V-Droidは、いくつかの公開モバイルタスク自動化ベンチマークにまたがって、最先端のタスク成功率を設定する。
V-Droidは1ステップあたり0.7秒という驚くほど低レイテンシを実現している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:19:57 GMT)
Mirror Descent and Novel Exponentiated Gradient Algorithms Using Trace-Form Entropies and Deformed Logarithms [14.3] 本稿では,ミラー・ディフレッシュ・アップデート (MD) とそれに関連する新しい一般化指数勾配 (GEG) アルゴリズムの提案と検討を行う。
提案アルゴリズムはエントロピーMDの拡張と乗算更新の一般化とみなすことができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:07:53 GMT)
Nonparametric Factor Analysis and Beyond [14.2] 非無視設定における潜伏変数を識別するための一般的なフレームワークを提案する。
生成モデルは,非無視ノイズの存在下においても,ある部分多様体不確定性まで同定可能であることを示す。
また、対応する推定手法を開発し、様々な合成および実世界の設定で検証した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:45:03 GMT)
Vision-Language Gradient Descent-driven All-in-One Deep Unfolding Networks [14.2] Vision-Language-Guided Unfolding Network (VLU-Net)は、複数の分解タイプを同時に扱うための統合DUNフレームワークである。
VLU-Netは、最初のオールインワンのDUNフレームワークであり、SOTSデハージングデータセットで3.74dB、Rain100Lデラリニングデータセットで1.70dB、現在のリードワンとオールインワンのエンドツーエンドメソッドで3.74dBを上回ります。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:02:48 GMT)
Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment [14.1] Babelはマルチモーダルセンシング用に特別に設計された拡張可能なモーダルアライメントモデルである。
バベルは個々のモダリティセンシングの性能(平均精度12%)を向上するだけでなく、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合させる。
ケーススタディでは、クロスモダリティ検索(つまり、センシングイメージング)や、理解を感知するためのブリッジングLDMなど、Babelによって強化された新たなアプリケーションシナリオも強調されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:51:22 GMT)
Downstream Analysis of Foundational Medical Vision Models for Disease Progression [13.9] 本研究は、単純な線形プローブを用いて、疾患進行を予測するための医療視覚基盤モデルの能力を評価する。
セグメンテーションモデルの中間層特性は構造情報をキャプチャし,登録モデルの層は時間とともに変化の知識を符号化することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:27:49 GMT)
Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [13.8] Edu-Valuesは7つのコア値を含む最初の中国の教育価値評価ベンチマークである。
Edu-Valuesには、専門哲学、教師の専門的倫理、教育法と規則、文化リテラシー、教育知識と技能、基礎的能力、主題的知識が含まれる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:17:53 GMT)
Preferential Multi-Objective Bayesian Optimization for Drug Discovery [13.7] CheapVSは、ペアワイズ比較による薬物特性間のトレードオフに関する好みを提供する。
EGFRとRDD2をターゲットにした100Kの化学候補のライブラリでは、CheapVSは限られた計算予算内での薬物の同定において最先端のスクリーニング方法より優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:27:06 GMT)
GoDe: Gaussians on Demand for Progressive Level of Detail and Scalable Compression [13.6] 本稿では,ガウスを複数の階層構造に整理する,新しいモデルに依存しない手法を提案する。
この手法は最近の3DGSの圧縮手法と組み合わせて、単一のモデルで複数の圧縮比を瞬時にスケールすることができる。
典型的なデータセットやベンチマークに対するアプローチを検証し、スケーラビリティと適応性の観点から、低歪みと実質的な利得を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:36:30 GMT)
Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models [13.6] 大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示すが、新しいタスクを学ぶ際に破滅的な忘れに直面している。
本稿では,LoRA 構造上の部分空間正規化手法である Controlled LoRA (CLoRA) を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:34:15 GMT)
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications [13.3] 我々は、法律、財務、政府文書のためのドメイン固有のBPEトークンーザを紹介する。
我々のkl3m-004-128k-cased tokenizerはGPT-4oやLlama3よりも9-17%少ないトークンをドメイン固有の文書に使用しています。
専門用語では、私たちのケースドトークンライザはさらに効率的で、法律用語のトークンを最大83%、金融用語のトークンを最大39%削減しています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:51:43 GMT)
When Lighting Deceives: Exposing Vision-Language Models' Illumination Vulnerability Through Illumination Transformation Attack [13.2] VLM(Vision-Language Models)は様々なタスクにおいて顕著な成功を収めてきたが、現実の照明に対する頑健さは明らかにされていない。
textbfIllumination textbfTransformation textbfAttack (textbfITA)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:37:44 GMT)
Splat-LOAM: Gaussian Splatting LiDAR Odometry and Mapping [13.1] 我々は、新しいLiDARオドメトリーとマッピングパイプラインを開発するために、ガウススプラッティング法の最近の進歩の上に構築する。
提案手法は現在の登録性能と一致し,最小限のGPU要求でタスクをマッピングするためのSOTA結果が得られた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:00:30 GMT)
ATHENA: An In-vehicle CAN Intrusion Detection Framework Based on Physical Characteristics of Vehicle Systems [13.0] ATHENAは、車載クラウド統合アーキテクチャを採用した最初のIVN侵入検出フレームワークである。
クラウドでは、AtheNAは、深層データマイニング技術と組み合わせたマルチディストリビューション混合モデルのクラスタリング手法を使用して、IVN CANメッセージの生のPayload Rule Bankを生成する。
車両端末では、LSTMコンポーネントを使用して、長期時系列依存性を表すタイムルールバンクを生成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:49:08 GMT)
FMDConv: Fast Multi-Attention Dynamic Convolution via Speed-Accuracy Trade-off [12.9] 本稿では,FMDConv(Fast Multi-Attention Dynamic Convolution)を提案する。
CIFAR-10、CIFAR-100、ImageNetの実験では、FMDConvはResNet-18では最大49.8%、ResNet-50では42.2%の計算コストを削減している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:23:32 GMT)
Modifying Large Language Model Post-Training for Diverse Creative Writing [12.9] 創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:21:45 GMT)
KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.5] エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
メモリ拡張型エンボディAIエージェントは,複合タスクおよび複合タスクにおいて,成功率を1.3倍,2.3倍に向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:58:00 GMT)
Large Language Model Compression via the Nested Activation-Aware Decomposition [12.4] 我々は,大規模言語モデル(LLM)の低ランク分解に着目した,新しい訓練後圧縮パラダイムを導入する。
低ランク分解の精度を高めるために,LLMのためのネスト型アクティベーション・アウェア・フレームワーク(NSVD)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:39:16 GMT)
On-Device Federated Continual Learning on RISC-V-based Ultra-Low-Power SoC for Intelligent Nano-Drone Swarms [12.3] 顔認識タスクを行う複数のナノドローンに適した,正規化に基づくオンデバイスフェデレーション連続学習アルゴリズムを提案する。
分類精度を24%向上させ, 局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地的局地
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:53:57 GMT)
Deep End-to-End Posterior ENergy (DEEPEN) for image recovery [12.2] 現在のエンド・ツー・エンド(E2E)とプラグ・アンド・プレイ(MAP)画像アルゴリズムは、最大後部推定(MAP)を近似するが、後部分布からのサンプリングは提供できない。
対照的に、拡散モデルがE2E方式で訓練されることは困難である。
本稿では,MAP推定とサンプリングを可能にするDeep End-to-End Posergy EN(DEE)フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:50:54 GMT)
Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion [12.2] トランスフォーマーベースのマルチモーダルモデルは、産業規模のレコメンデーション、検索、広告システムで広く使われている。
AL効率とVLMAEを用いた視覚言語モデリングを実現するため,kNNを用いたLatent Space Broadening (LSB)を提案する。
このシステムはプロダクションシステムにデプロイされ、大きなビジネス上の利益をもたらしました。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:55:05 GMT)
Principal Eigenvalue Regularization for Improved Worst-Class Certified Robustness of Smoothed Classifiers [12.1] 我々はスムーズな分類器の最悪のクラスエラーに対するPAC-Bayesian境界を開発する。
そこで本研究では,スムーズな乱雑行列の最大固有値を最適化し,最低級精度を向上する正規化手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:18:18 GMT)
WAIT: Feature Warping for Animation to Illustration video Translation using GANs [12.0] ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:48:35 GMT)
Offload Rethinking by Cloud Assistance for Efficient Environmental Sound Recognition on LPWANs [11.9] 生物研究や都市規模センシングシステムにおける超低消費電力環境モニタリングの重要手法として,学習型環境音声認識が登場している。
オンデバイス音声認識における最近の取り組みは,資源制約による精度の低下に悩まされているが,クラウドオフロード戦略は通信コストの増大によって妨げられている。
低消費電力広帯域ネットワーク(LPWAN)上で動作している電池レスデバイス上での,資源効率の高いクラウド支援環境音声認識システムORCAを紹介する。
以上の結果から,ORCAは省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エネ・省エ
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:01:05 GMT)
GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [11.9] 本稿では,音声操作のための大規模部分中心データセットを提案する。
写真リアリスティックな素材のランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションが特徴である。
一般化可能なオブジェクト操作のための,優れた,堅牢な性能を実現する,新しいモジュラーフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:52:16 GMT)
FAIT: Fault-Aware Fine-Tuning for Better Code Generation [11.9] 本研究では、命令調整された大規模言語モデルのコード生成を強化するために、FAIT(Fault-Aware Fine-Tuning)を提案する。
本手法は,パス@1の相対的改善率を6.9%向上させる。
改良された6.7B LLMは、GPT-3.5-Turboなどのクローズドソースモデルより優れている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:23:26 GMT)
HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis [11.8] パラメータ効率のよい適応型生成手法であるHyperLoRAを導入し,適応型プラグインネットワークを用いてLoRA重みを生成する。
我々は、高光写実性、忠実性、編集性を備えたゼロショットパーソナライズされたポートレート生成を実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:44:27 GMT)
A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening [11.8] リモートセンシングの深層学習法は 急速に進歩しています
多くの既存手法は特徴の不均一性と冗長性を完全に活用するのに苦労している。
これらの課題に対処するために、一般適応二重レベル重み付け機構(ADWM)を導入する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:55:38 GMT)
Towards LLM Guardrails via Sparse Representation Steering [11.7] 大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:50:25 GMT)
Intelligent Resource Allocation Optimization for Cloud Computing via Machine Learning [11.7] 本稿では,需要予測および強化学習(DQN)に深層学習(LSTM)を活用する知的資源割当アルゴリズムを提案する。
提案システムは,資源利用率を32.5%向上し,平均応答時間を43.3%削減し,運用コストを26.6%削減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:06:43 GMT)
Design of an Expression Recognition Solution Based on the Global Channel-Spatial Attention Mechanism and Proportional Criterion Fusion [11.5] 本稿では,第8回ABAWコンペティションで採用する手法を紹介する。
残差ハイブリッド畳み込みニューラルネットワークとマルチブランチ畳み込みニューラルネットワークに基づいて,画像列と音声列の特徴抽出モデルを設計する。
第8回ABAWコンペティションの表情認識タスクでは,オフィシャル・バリデーション・セットの3位にランクインした。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:31:13 GMT)
Restoring Forgotten Knowledge in Non-Exemplar Class Incremental Learning through Test-Time Semantic Evolution [11.5] NECIL(Non-exemplar Class Incremental Learning)では、古いクラスがアクセスできないため、忘れることが発生する。
テスト時セマンティックドリフト補償フレームワークであるRoSEを提案する。
CIFAR-100, TinyImageNet, ImageNet100データセット上のRoSEを, コールドスタートとウォームスタートの両方の設定で評価した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:02:35 GMT)
TVDiag: A Task-oriented and View-invariant Failure Diagnosis Framework with Multimodal Data [11.4] マイクロサービスベースのシステムは、複雑なインタラクションとスケールの拡大によって、信頼性上の問題に悩まされることが多い。
単一モードのデータを使用する従来の障害診断方法は、制限された情報のため、すべての障害シナリオをほとんどカバーできない。
我々は,マルチモーダルな障害診断フレームワークである textitTVDiag を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:01:55 GMT)
Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models [11.1] 生成モデルを用いて聴覚知識を動的に生成する新しい手法であるImagine to Hearを提案する。
本フレームワークは、与えられたプロンプトから複数の音声関連テキストスパンを検出し、対応する聴覚知識を生成する。
実験の結果,外部データベースに頼らずにAuditoryBenchの最先端性能を実現することができた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:56:22 GMT)
Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras [11.1] イベントカメラは、シーンの外観に関する情報を得るために動きに依存している。
本稿では,光フロー(動き)と画像強度(出現)を1つのネットワークで共同で推定する,教師なし学習フレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:04:13 GMT)
Learning Part Knowledge to Facilitate Category Understanding for Fine-Grained Generalized Category Discovery [11.0] Generalized Category Discovery (GCD)は、目に見えないカテゴリと新しいカテゴリの両方を含むラベルのないデータを分類することを目的としている。
本稿では,細粒度GCDに対処するための部分知識の導入を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:37:51 GMT)
Uncertainty modeling for fine-tuned implicit functions [10.9] 入射関数は、スパースビューから詳細な物体形状を再構成するコンピュータビジョンにおいて重要な役割を担っている。
暗黙関数における不確実性推定手法であるDropsemblesを導入する。
その結果,Dropsemblesは深層アンサンブルの精度とキャリブレーションレベルを達成するが,計算コストは著しく低いことがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:06:41 GMT)
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.8] VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:51:14 GMT)
Selective Aggregation for Low-Rank Adaptation in Federated Learning [10.7] FedSA-LoRA(Federated Share-A Low-Rank Adaptation)では,2つの低ランクトレーニング可能な行列をA$とB$で使用して,重み更新をモデル化する。
FedSA-rsLoRA 法をこれらの LoRA 変種に拡張し,その結果 FedSA-rsLoRA 法と FedSA-VeRA 法が得られた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:33:21 GMT)
Invariant Federated Learning for Edge Intelligence: Mitigating Heterogeneity and Asynchrony via Exit Strategy and Invariant Penalty [10.5] 本稿では,資源制約付きエッジインテリジェンスのための不変なフェデレーション学習システムを提案する。
異常なクライアントの出口は、ほとんどのクライアントに対するモデルの影響を保証できます。
FedIPGは通信負担を増大させることなく、アウトオフ分布予測損失を低減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:03:44 GMT)
MM-UNet: Meta Mamba UNet for Medical Image Segmentation [10.5] 状態空間モデル(SSM)は、最近長周期モデリングにおいて顕著な性能を示した。
SSMは平坦化に伴う不連続性により, 医用画像の3次元空間構造に苦しむ。
本稿では,U字型エンコーダデコーダアーキテクチャであるMeta Mamba UNet(MM-UNet)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:15:03 GMT)
Optimized Minimal 3D Gaussian Splatting [10.3] 3D Gaussian Splatting (3DGS) はリアルタイム・ハイパフォーマンスレンダリングの強力な表現として登場した。
多数の明示的なガウスプリミティブによる3Dシーンの表現は、大きなストレージとメモリオーバーヘッドを課す。
プリミティブ間の連続性と不規則性の両方を効率的にキャプチャする,コンパクトで正確な属性表現を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:41:45 GMT)
MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers [10.3] この研究は、科学論文からのクロスソース情報を用いた推論のためのビジョンランゲージモデルの能力を評価するために設計されたベンチマークであるMMCRを提示する。
18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:02:20 GMT)
3D Student Splatting and Scooping [10.1] 3D Gaussian Splatting (3DGS)は、新しいビュー合成のための新しいフレームワークを提供し、ニューラルレンダリングと関連するアプリケーションに関する新しい研究の波をスパイクさせた。
フレキシブルな学生のt分布からなる新しい混合モデルを提案する。
より良い表現力を提供する場合、SSSは学習に新たな課題をもたらす。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:26:08 GMT)
Sparse Additive Contextual Bandits: A Nonparametric Approach for Online Decision-making with High-dimensional Covariates [10.0] 我々は,カーネルヒルベルト空間を再現する際の余剰加法的報酬モデルに基づく文脈的帯域幅アルゴリズムを開発した。
ランダム領域に適用した2倍のペナル化手法の統計的特性を確立し,バンディットフィードバックに基づく新たな解析手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:33:28 GMT)
The CASTLE 2024 Dataset: Advancing the Art of Multimodal Understanding [10.0] エゴセントリックビデオは近年、様々な地域で使われているため、関心が高まっている。
本稿では,egoおよびexo中心のビデオを含むマルチモーダルコレクションであるCASTLE 2024データセットを提案する。
データセット全体では、毎秒50フレームで記録された600時間以上のUHDビデオが含まれている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:01:07 GMT)
Predicting Potential Customer Support Needs and Optimizing Search Ranking in a Two-Sided Marketplace [10.0] ゲストとホストのマッチング毎にCSサポートの必要性を予測するモデルを構築した。
このモデルスコアは、Airbnbの検索ランキングアルゴリズムに多くの要素の1つとして組み込まれている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:30:30 GMT)
TransURL: Improving malicious URL detection with multi-layer Transformer encoding and multi-scale pyramid features [9.9] 本稿では,悪意のあるURL検出のための新しい手法であるTransURLを提案する。
この方法は、3つの特徴モジュールで文字認識変換器を協調訓練することで実現される。
実験の結果, 従来の方法と比較して有意な改善が認められた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:48:59 GMT)
Schur's Positive-Definite Network: Deep Learning in the SPD cone with structure [9.8] 本研究では,SPD出力を保証する新しい学習モジュールであるSpadNetを紹介する。
特に、SPDとスパース行列を共同で学習するという課題を解決する。
本研究では,これらのアプリケーションに対するSpadNetレイヤの汎用性と妥当性について述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:31:47 GMT)
Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication [9.8] Speak Easeは、ユーザの表現性をサポートするための拡張的で代替的なコミュニケーションシステムである。
システムは、テキスト、音声、文脈の手がかりを含むマルチモーダル入力を、大きな言語モデルと統合する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:50:05 GMT)
Multi-Span Optical Power Spectrum Evolution Modeling using ML-based Multi-Decoder Attention Framework [9.8] コンポーネント固有デコーダを用いたMLベースのアテンションフレームワークを実装し、マルチスパンネットワークにおける光パワースペクトル予測を改善する。
各コンポーネントの詳細なトレーニングの必要性を減らすことで、フレームワークは最小限のデータ収集でマルチスパントポロジにスケールできる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:54:36 GMT)
Bugdar: AI-Augmented Secure Code Review for GitHub Pull Requests [9.6] Bugdarは、GitHubのプルリクエストにシームレスに統合されたAI拡張コードレビューシステムである。
ほぼリアルタイムで、コンテキスト対応の脆弱性分析を提供する。
Bugdarはプルリクエスト毎の平均56.4秒、あるいは毎秒30行のコードを処理する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:52:03 GMT)
Conversion of photon temporal shape using single gradient metasurface [9.6] 本研究では, 単一準曲面上での多重光子波束干渉により, 単一光子時間形状を変換可能であることを提案する。
提案機構は、量子ネットワークにおける時間的形状ミスマッチ問題を解決するためのコンパクトな方法を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:35:03 GMT)
NFTs as a Data-Rich Test Bed: Conspicuous Consumption and its Determinants [9.6] 消費は、消費者がその社会的意味に基づいて、富、味、および/または地域との結びつきの兆候として、商品から価値を導き出すときに起こる。
本稿では,従来認識されていた消費の2つの要素を組み込んだモデルを提案する。
バンドワゴン効果は、より多くの消費者が参加するにつれてNFTコレクションの価値を高め、一方、スノブ効果は、あるコレクション内でより稀なNFTを消費者に求めることを促す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:09:43 GMT)
Write Your Own CodeChecker: An Automated Test-Driven Checker Development Approach with LLMs [9.6] AutoCheckerは、ルール記述とテストスイートのみに基づいてコードチェッカーを自動記述できる革新的なアプローチである。
テスト結果は、AutoCheckerが平均テストパスレート82.28%で、すべての評価指標で他よりも大幅に優れていたことを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:40:38 GMT)
Understanding Social Support Needs in Questions: A Hybrid Approach Integrating Semi-Supervised Learning and LLM-based Data Augmentation [9.5] 社会支援のためのハイブリッド・アプローチ HA-SOS (Hybrid Approach for SOcial Support needs Classification) を新たに開発する。
HA-SOSは、回答強化半教師付き学習アプローチ、信頼性と多様性を考慮したサンプル選択機構を備えた大規模言語モデル(LLM)を活用したテキストデータ拡張技術、質問におけるソーシャルサポートのニーズを自動的にラベル付けするための統一的なトレーニングプロセスを統合する。
実際に、私たちのHA-SOSフレームワークは、オンラインのQ&Aプラットフォームマネージャと回答者に対して、ユーザのソーシャルサポートのニーズをよりよく理解し、タイムリーでパーソナライズされた回答と介入を提供することを可能にします。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:25:16 GMT)
Semi-Supervised End-To-End Contrastive Learning For Time Series Classification [9.5] 時系列分類は、金融、医療、センサーデータ分析など、さまざまな分野において重要な課題である。
SLOTS(Semi-supervised Learning fOr Time clasSification)と呼ばれるエンドツーエンドモデルを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:06:40 GMT)
BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation [9.5] 本稿では,BEAC(Belief Exploration-Action Cloning)と呼ばれる新しい模倣学習フレームワークを提案する。
提案手法は, ユーザの認知負荷を低減しつつ, タスク性能, より高いモード, 行動予測精度を達成した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:26:14 GMT)
A Tale of Two Classes: Adapting Supervised Contrastive Learning to Binary Imbalanced Datasets [9.4] 教師付きコントラスト学習(SupCon)は、バランスの取れたデータセットの分類において、標準的なクロスエントロピー損失の強力な代替手段であることが証明されている。
SupConのパフォーマンスはクラス不均衡の増加に伴って低下する。
本稿では,二元不均衡データセットに適した2つの教師付きコントラスト学習戦略を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:34:51 GMT)
Partner in Crime: Boosting Targeted Poisoning Attacks against Federated Learning [9.4] フェデレートラーニング(FL)は、ソースクラスからターゲットクラスに特に誤分類を引き起こすことを目的とした、標的となる中毒攻撃に対する脆弱性を公開する。
本稿では,BOTPA (Boost Targeted Poisoning Attacks to FL) の一般向け事前訓練ステージアプローチを提案する。
データ中毒攻撃では、BoTPAは15.3%から36.9%の攻撃成功率(RI-ASR)で中央値の上昇を達成できる。
モデル中毒の文脈では、BoTPAは13.3%から94.7%までのRI-ASRをKrumとMulti-Krumの存在下で達成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:21:32 GMT)
Exploring a Principled Framework for Deep Subspace Clustering [9.3] 深部空間クラスタリング(PRO-DSC)のための原理的fRamewOrkを提案する。
PRO-DSCは構造化表現と自己表現係数を統一的に学習するように設計されている。
我々は、ある条件下での学習された最適表現が部分空間の和集合上にあることを証明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:38:37 GMT)
Statistical exploration of the Manifold Hypothesis [9.2] マニフォールド仮説は、名目上高次元データは、高次元空間に埋め込まれた低次元多様体の近くに実際に集中していると主張している。
データのリッチかつ複雑な多様体構造が、汎用的かつ驚くほど単純な統計モデルから生まれることを示す。
我々は、高次元データの幾何学を発見し、解釈する手順を導出し、データ生成機構に関する仮説を探求する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:30:13 GMT)
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.2] 本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:37:43 GMT)
LLMSeR: Enhancing Sequential Recommendation via LLM-based Data Augmentation [9.2] SRS(Sequential Recommender Systems)がオンラインプラットフォームの基礎となり、ユーザの過去のインタラクションデータを活用して、次の潜在的なエンゲージメントを予測する。
現在の手法では、協調的な信号の欠如や幻覚現象の出現など、障害に遭遇している。
LLMSeRは,Large Language Models (LLMs) を用いて擬似プライオリティアイテムを生成する,革新的なフレームワークである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:53:37 GMT)
Targetless 6DoF Calibration of LiDAR and 2D Scanning Radar Based on Cylindrical Occupancy [8.9] LiRaCoは、LiDARとレーダーセンサーの外部6DoFキャリブレーションのためのターゲットレスキャリブレーションアプローチである。
LiRaCoは、LiDAR点雲とRadarスキャンの間の空間占有一貫性を共通円筒表現で活用する。
外部キャリブレーションパラメータを含むコスト関数は、3次元格子とLiDAR点の空間的重なりに基づいて定式化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:09:04 GMT)
A New Segment Routing method with Swap Node Selection Strategy Based on Deep Reinforcement Learning for Software Defined Network [8.8] 本稿では,経路分割戦略と経路分割戦略を同時に構成できる最適化モデルを確立する。
また,深部強化学習(DRL-SR)に基づくインテリジェントセグメントルーティングアルゴリズムを設計し,提案モデルの解法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:24:09 GMT)
FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs [8.8] 大規模言語モデル(LLM)は、しばしば幻覚的コンテンツを生成する。
FactSelfCheckは,ファクトレベルのきめ細かな検出が可能なブラックボックスサンプリング方式である。
我々のアプローチは、三重項の形で事実からなる知識グラフとしてテキストを表現している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:32:24 GMT)
Efficient and Expressive Public Key Authenticated Encryption with Keyword Search in Multi-user Scenarios [8.8] キーワード検索による公開鍵認証暗号化(PAEKS)は、医療システムなどの公開ネットワークシステムにおけるセキュアで検索可能なデータ共有の大幅な進歩を示す。
キーワード検索(PEKS)による公開鍵暗号において重要な問題であるキーワード推測攻撃(KGA)のリスクを効果的に軽減することができる。
しかし、多数のユーザを持つシナリオでは、強制されたポイントツーポイントアクセス制御は、複数の受信者の公開キーを使用して同じキーワードを暗号化してインデックスを作成する必要がある。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:51:43 GMT)
Neural Representation for Wireless Radiation Field Reconstruction: A 3D Gaussian Splatting Approach [8.6] 本稿では,無線放射場(WRF)再構成に基づくチャネルモデリングのための新しいフレームワークであるWRF-GSを提案する。
本稿では、電磁波物理をニューラルネットワーク設計に統合する拡張フレームワークであるWRF-GS+を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:12:04 GMT)
Does a Rising Tide Lift All Boats? Bias Mitigation for AI-based CMR Segmentation [8.6] オーバーサンプリング、重要リウィーディング、グループDRO、レースバイアスを軽減するためにこれらのテクニックの組み合わせを使用します。
オーバーサンプリングにより偏見を緩和し,黒色被写体の性能を著しく向上させることができた。
グループDROは黒被写体のパフォーマンスも向上するが、黒被写体のパフォーマンスは低下する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:17:43 GMT)
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models [8.6] ツール学習は、大きな言語モデル(LLM)の使用シナリオをさらに広げることができる。
本稿では,新しいツール学習手法であるChain-of-Toolsを提案する。
CoT推論でツール呼び出しを終了するために、フリーズLDMの強力なセマンティック表現機能をフル活用する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:26:12 GMT)
SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum [8.4] SOUS VIDEは、エンドツーエンドの視覚ドローンナビゲーションのためのシミュレータ、トレーニングアプローチ、およびポリシーアーキテクチャである。
本ポリシーでは,オンボード認識と計算のみを用いて,実世界のロバストな性能を持つゼロショット・シム・トゥ・リアルトランスファーを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:22:28 GMT)
Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning [8.3] 少ないショット認識は、下流タスクに関連する各概念のラベル付き例でのみ、分類モデルをトレーニングすることを目的としている。
事前学習型視覚言語モデル(VLM)を利用してFSRの解法を開発する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:56:08 GMT)
Bypassing orthogonalization in the quantum DPP sampler [8.3] 我々は、Kerenidisらの形式にインスパイアされた単純な回路が、2022年に我々がアプリケーションで遭遇したことのないタイプのDPPをサンプリングしたことを示す。
第2のコントリビューションは振幅増幅を用いて、回路深さの価格で受け入れ確率を$a$から$1-a$に上げることである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:46:34 GMT)
Strength Estimation and Human-Like Strength Adjustment in Games [8.1] 本稿では, 強度推定器 (SE) とモンテカルロ木探索法 (SE-based Monte Carlo tree search) を含む新しい強度システムを提案する。
強度推定器は、人間の直接の相互作用を伴わないゲームから、強度スコアを算出し、ランクを予測する。
SE-MCTSはモンテカルロ木探索の強度スコアを利用して演奏強度とスタイルを調整する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:57:03 GMT)
Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.0] 本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:48:31 GMT)
You Only Look Once at Anytime (AnytimeYOLO): Analysis and Optimization of Early-Exits for Object-Detection [8.0] 我々は、任意のオブジェクト検出を可能にするYOLOアーキテクチャの亜種であるAnytimeYOLOを紹介する。
私たちのAnytimeYOLOネットワークは、割り込み可能な推論を可能にする。すなわち、安全クリティカルなリアルタイムアプリケーションに望ましい特性である任意の時点の予測を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:16:38 GMT)
PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition [8.0] CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供する
パラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。
効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:45:50 GMT)
Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting [8.0] 空間的関係幻覚は大きな視覚言語モデル(LVLM)において永続的な課題を引き起こす
本研究では,空間的関係の幻覚を減らすための制約対応プロンプトフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:39:57 GMT)
Data-driven Camera and Lidar Simulation Models for Autonomous Driving: A Review from Generative Models to Volume Renderers [7.9] 本稿では,現在の最先端データ駆動カメラとLidarシミュレーションモデルとその評価手法について述べる。
生成モデルとボリュームの新たな視点から、モデルのスペクトルを探索する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:13:38 GMT)
Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script [7.6] 対立するテキストは、NLPの複数のサブフィールドにおいて重要な役割を果たす。
本稿では,HTL-GATについて紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:32:39 GMT)
R2LDM: An Efficient 4D Radar Super-Resolution Framework Leveraging Diffusion Model [7.6] R2LDMは高密度かつ高精度な4次元レーダーポイント雲を生成する革新的な手法である。
レンジ画像や鳥の目視(BEV)画像を利用する代わりに、ボクセル特徴を用いてLiDARと4Dレーダポイントの雲を表現します。
R2LDMは、ペアの生レーダーデータからLiDARのような点雲を効果的に生成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:30:33 GMT)
Generative Modeling of Class Probability for Multi-Modal Representation Learning [7.6] マルチモーダル理解は、モデルが異なるモーダルから入力を共同で解釈できるようにすることによって、人工知能において重要な役割を担っている。
マルチモーダル表現学習にクラス確率分布を利用する新しいクラスアンカーアライメント手法を提案する。
本手法は,クラスアンカーを各モードのクラス確率分布の生成と調整のプロンプトとして符号化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:17:44 GMT)
CausalRivers -- Scaling up benchmarking of causal discovery for real-world time-series [7.6] CausalRiversは、これまでで最大の時系列データ用因果発見キットだ。
2019年から2023年までの期間は15分間である。
エルベ川周辺で発生した洪水について,分布変化が顕著なイベントとして追加データを提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:02:35 GMT)
On the Robustness of Language Models for Tabular Question Answering [7.5] 大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
我々は,ウィキペディアベースのtextbfWTQ,財務報告ベースの textbfTAT-QA,科学クレームベースの textbfSCITAB,TQA データセット上での LLM の堅牢性を評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:31:06 GMT)
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness [7.4] 大規模言語モデル(LLM)は、HDL生成のための有望なツールとして登場した。
LLMベースのコード生成のための既存のベンチマークは、ハードウェアリソースの使用状況を見越しながら、機能的正確性に重点を置いている。
我々は、資源最適化と非効率なLLM生成HDLコードの区別のために設計された最初のリソース中心のベンチマークであるResBenchを紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:27:05 GMT)
Can AI expose tax loopholes? Towards a new generation of legal policy assistants [7.2] 我々は,税の抜け穴と税回避の問題に対処する新しいプロトタイプシステムを導入する。
私たちのハイブリッドソリューションは、自然言語インターフェースと、計画に適したドメイン固有の言語を統合します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:40:06 GMT)
Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility [7.2] 大規模言語モデルが人間に類似した言語を処理するかどうかを検討する。
いくつかのLCMは、生産と解釈の間に人間のような対称性を定量的に、質的に反映していることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:25:42 GMT)
Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans? [7.0] 我々はバスク語とスペイン語で2,040の抽象的な要約に関する人間の判断を収集する。
各要約において、アノテータはコヒーレンス、一貫性、流布性、妥当性、および5W1Hという5点類似度尺度の5つの基準を評価した。
我々はBASSEとコードを公開し、22,525のニュース記事とサブヘッドを含む最初の大規模バスク要約データセットを公開します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:52:20 GMT)
Label Unbalance in High-frequency Trading [7.0] 金融取引において、リターン予測は取引システムの成功の基盤の1つである。
本稿では,包括的ラベル不均衡調整手法を用いた厳密なエンドツーエンドディープラーニングフレームワークを採用する。
われわれは将来の中国市場での高頻度リターンの予測に成功している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:10:17 GMT)
OptionZero: Planning with Learned Options [6.9] 複雑な環境下での強化学習において,選択肢のあるプランニングが有効であることが示されている。
MuZero にインスパイアされた我々は OptionZero という新しいアプローチを提案する。
OptionZeroはオプションネットワークをMuZeroに統合し、セルフプレイゲームを通じてオプションの自律的な発見を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:30:42 GMT)
Structure Is Not Enough: Leveraging Behavior for Neural Network Weight Reconstruction [6.9] NN重みを利用する1つのアプローチは、コントラストと再構成損失を用いたオートエンコーダ(AE)の訓練である。
AEは、元のモデルと比べて性能が低下したNNモデルを再構築し、モデルの重量発生に関して使用性を制限した。
構造的信号と振舞い信号の相乗効果が強く, 下流の全てのタスクにおいて性能が向上することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:39:04 GMT)
End-to-end Adaptive Dynamic Subsampling and Reconstruction for Cardiac MRI [6.9] 本稿では,MRIフレームワークにおける適応動的サンプリングと再構成(E2E-ADS-Recon)について紹介する。
提案フレームワークは、動的MRIアプリケーションにおけるケース固有サブサンプリング最適化の重要性を強調し、再構成品質を向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:26:49 GMT)
Deep End-to-end Adaptive k-Space Sampling, Reconstruction, and Registration for Dynamic MRI [6.9] 適応型動的k空間サンプリング,再構成,登録を統合したエンドツーエンドのディープラーニングフレームワークを提案する。
提案するフレームワークは、これらのコンポーネントのプラグアンドプレイ統合を可能にする、特定の再構築および登録モジュールとは独立している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:54:33 GMT)
A Learnability Analysis on Neuro-Symbolic Learning [6.9] 本研究では,NeSyタスクの学習性について,制約満足度の問題から特徴付けることができることを示す。
学習可能なタスクに対しては、仮説空間のクラスタリング特性を利用して誤差境界を確立する。
本結果は,学習可能性を決定するための原則的アプローチを提供し,新しいアルゴリズムの設計に関する洞察を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:16:11 GMT)
Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection [6.8] アルゴリズムは、$ell_p$-normの目的を持つハードマージンSVMに収束することを示す。
具体的には、これらのアルゴリズムは、$ell_p$-normの目的を持つ一般化されたハードマージンSVMに収束することを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:15:52 GMT)
CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.8] 大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:32:32 GMT)
Joint Self-Supervised Video Alignment and Action Segmentation [6.7] 我々は,統合された最適なトランスポートフレームワークに基づく,自己監督型ビデオアライメントとアクションセグメンテーションを同時に行うための新しいアプローチを提案する。
まず, 自己監督型ビデオアライメントの実現に向けて, 構造的事前条件で, 融合したGromov-Wasserstein最適輸送定式化を開発する。
我々は、共同で監督されたビデオアライメントとアクションセグメンテーションのための統合された最適なトランスポートフレームワークを提案することによって、アプローチを拡張した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:02:00 GMT)
A Stateless and Secure Delivery versus Payment across two Blockchains [6.7] 決済チェーンオペレータは、秘密鍵でメッセージの復号を可能にするステートレス復号サービスをホストする。
Payment Contract"は、関数 transferAndDecrypt(uint id, address from, address to, string keyEncryptedSuccess, string keyEncryptedFail)を実装する支払いチェーンにデプロイされる。
それぞれのキーは関連するトランザクション、例えば買い手による配送の請求、または売り手によるロックされた資産の回収をトリガーすることができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:51:50 GMT)
Aquatic-GS: A Hybrid 3D Representation for Underwater Scenes [6.5] 本研究では,水中の物体と水媒体の両方を効果的に表現するハイブリッド3D表現手法であるAquatic-GSを提案する。
具体的には、暗黙的に水パラメータをモデル化するニューラルウォーターフィールド(NWF)を構築し、最新の3Dガウススプラッティング(3DGS)を拡張してオブジェクトを明示的にモデル化する。
両方のコンポーネントは、複雑な水中シーンを表現するために、物理学に基づく水中画像形成モデルを介して統合される。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:26:27 GMT)
Prompt and circumstance: A word-by-word LLM prompting approach to interlinear glossing for low-resource languages [6.5] SIGMORPHON 2023共有タスクから7つの言語に適用した,検索に基づくLLM探索手法の有効性について検討した。
我々のシステムは、形態素レベルスコアカテゴリーの全ての言語に対するBERTベースの共有タスクベースラインを破る。
Tsez のケーススタディでは,LLM に言語命令の自動生成と追従を依頼し,難解な文法的特徴の誤りを低減させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:24:06 GMT)
Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability [6.4] そこで本研究では,浮動小数点演算順序を学習し,誤分類に繋がる新しい学習可能な変分法(LP)を提案する。
このLPアプローチは、数万回同じ実験を実行する必要をなくし、計算的に効率的に最悪のケースを見積もる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:19:45 GMT)
Safe Gradient Flow for Bilevel Optimization [6.4] 階層的な意思決定において、バイレベル最適化は重要なフレームワークである。
本稿では,二段階最適化問題に対する制御理論的アプローチを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:49:45 GMT)
Region Masking to Accelerate Video Processing on Neuromorphic Hardware [6.3] スパイキングニューラルネットワーク(SNN)は、イベントベースの処理を使用してエネルギー消費を減らすことを約束しているため、特に関心を集めている。
本稿では,SNNの入力における関心領域を識別する領域マスキング戦略を提案する。
提案手法は,入力時のマスキング領域がネットワーク全体のスパイク活性を著しく低減するだけでなく,スループットやレイテンシも大幅に向上することを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:07:53 GMT)
SoMA: Singular Value Decomposed Minor Components Adaptation for Domain Generalizable Representation Learning [6.3] ドメインの一般化は、1つまたは複数のソースドメインを使用してモデルを適応し、目に見えないターゲットドメインで堅牢なパフォーマンスを保証することを目的としています。
既存のPEFT手法は、事前訓練されたモデルの一般化可能なコンポーネントと学習タスク固有の特徴のバランスをとるのに苦労する。
Singular Value De Minor Components Adaptation (SoMA) を導入する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:03:59 GMT)
Echo-E$^3$Net: Efficient Endo-Epi Spatio-Temporal Network for Ejection Fraction Estimation [6.2] 左室放出率(LVEF)は、心不全の診断や臨床的決定の導出に広く用いられている心機能を評価するための重要な指標である。
最近のディープラーニングの進歩は自動化を強化しているが、既存のモデルの多くは計算的に要求されている。
LVEF推定に適した効率的な内耳時間ネットワークであるEcho-E$3$Netを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:24:44 GMT)
Knowledge Transfer based Evolutionary Deep Neural Network for Intelligent Fault Diagnosis [6.2] 本稿では,ラベル付きデータサンプルの可用性を制限したDNNアーキテクチャを最適とする進化的Net2Net変換(EvoN2N)を提案する。
提案フレームワークは,時間を要する探索処理を伴わずに,インテリジェントな故障診断のための最良のモデルを得ることができる。
得られた最良のモデルは、ほとんどの操作条件に対して、優れた診断性能と分類精度をほぼ100%まで示すことができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:54:41 GMT)
Data-Driven Optimization of EV Charging Station Placement Using Causal Discovery [6.1] 本研究では,Palo Alto と Boulder の充電データを分析し,駅特性と利用率の関係を明らかにする。
このデータに構造学習アルゴリズムを適用することで、充電需要は、アメニティへの近さ、EV登録密度、高軌道への隣接性の3つの要因によって決定されることが明らかになった。
我々は、これらの洞察を実行可能な配置レコメンデーションに変換する最適化フレームワークを開発する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:15:02 GMT)
"The Diagram is like Guardrails": Structuring GenAI-assisted Hypotheses Exploration with an Interactive Shared Representation [6.0] 本稿では,AIによる情報ヒントと視覚化を付加した順序付きノードリンクツリーインタフェースの設計について検討する。
ノードリンク図は仮説探索のための"ガードレール"として機能し、構造化を容易にし、包括的概要を提供し、効率的なバックトラックを可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:01:37 GMT)
Radar-Guided Polynomial Fitting for Metric Depth Estimation [6.0] PolyRadはレーダー誘導深度推定法であり、非変圧深度予測に適合性を導入する。
PolyRadは、nu-of-Delftデータセットの最先端のパフォーマンスを達成し、既存のメソッドを30.3%、RMSE37.2%で上回っている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:29:42 GMT)
Cross-Species Data Integration for Enhanced Layer Segmentation in Kidney Pathology [6.0] レイヤセグメンテーションのための高品質なディープラーニングモデルのトレーニングは、大量の注釈付きデータの可用性に依存している。
患者の医療データのプライバシーと臨床症例が少ないため、臨床資料からの病理的データセットは比較的困難で高価である。
マウス腎臓データのような種間データでは、人間の腎臓と高い構造を持ち、特徴的に類似しているため、モデルの性能を高める可能性がある。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:57:26 GMT)
Knowledge Graph Embeddings: A Comprehensive Survey on Capturing Relation Properties [5.7] 知識グラフ埋め込み(KGE)技術は、記号的知識グラフを数値表現に変換する上で重要な役割を果たしている。
本稿では、一対一、一対多、多対一、多対多といった関係に固有の複素写像特性について述べる。
我々は、KGEにマルチモーダル情報を統合すること、規則付き関係パターンモデリングを強化すること、動的KGE設定における関係特性を捉えるモデルを開発することなど、革新的なアイデアを探求する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:50:43 GMT)
Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.6] HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:25:59 GMT)
Harnessing Nonidealities in Analog In-Memory Computing Circuits: A Physical Modeling Approach for Neuromorphic Systems [5.6] インメモリコンピューティング(IMC)は、従来のディープラーニングアクセラレータに固有のフォン・ノイマンのボトルネックに対処することで、有望なソリューションを提供する。
本稿では、一般微分方程式(ODE)に基づく物理ニューラルネットワーク(PNN)として定式化されたIMCの物理モデルを直接訓練する新しい手法を提案する。
大規模ネットワークのトレーニングを可能にするため,DSTDと呼ばれる手法を提案し,ODEベースのPNNの計算コストを最大20倍、メモリ100倍に削減する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:08:11 GMT)
Vul-LMGNNs: Fusing language models and online-distilled graph neural networks for code vulnerability detection [5.5] 提案するVul-LMGNNは,学習済みのコードLMをグラフニューラルネットワーク(GNN)に統合し,意味情報と構造情報の層間伝播を可能にする。
Vul-LMGNNは、コードプロパティグラフ(CPG)を活用して、構文、制御フロー、データ依存性を統合し、ゲート付きGNNを使って構造抽出を行う。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:29:30 GMT)
On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation [5.5] 本稿では,Large Language Models (LLM) が,スマートホームアシスタントのためのスロットとインテントの検出と自然言語応答生成という2つのタスクを遂行できるかどうかを検討する。
LLMを微調整してアクションコールとテキスト応答の両方を生成します。
実験により、16ビットおよび8ビットの量子化変種はスロットとインテントの検出において高い精度を保ち、生成したテキストの強いセマンティックコヒーレンスを維持することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:23:56 GMT)
Benign Overfitting with Quantum Kernels [5.5] 量子カーネルは、量子状態間の内部積を測定することで、データポイント間の類似性を定量化する。
本稿では,量子カーネル構築のための新しい手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:30:42 GMT)
Glivenko-Cantelli for $f$-divergence [5.5] 有名なグリヴェンコ・カンテッリの定理を拡張し、統計学の基本定理と呼ばれることもある。
鍵となる障害は、$sigma$-algebraという$pi$-systemを形成するが$sigma$-subalgebraではないサブコレクションに$f$-divergenceを定義することである。
レイの$pi$-systemにおける$f$-divergenceというこの概念が、標準$f$-divergenceのほとんどすべての既知の性質を保存することを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:58:10 GMT)
Sample-Efficient Bayesian Transfer Learning for Online Machine Parameter Optimization [5.5] 本研究では,ベイズ最適化アルゴリズムを用いて,システム自体のマシンパラメータを最適化する手法を提案する。
既存のマシンデータを活用することで、最小限のイテレーションで最適点を特定するために、転送学習アプローチを使用する。
実世界における金属板の切削用レーザ機へのアプローチを検証した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:32:21 GMT)
Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP [5.3] 我々は最先端のアサーション検出モデルを開発する。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:18:47 GMT)
Towards Balancing Preference and Performance through Adaptive Personalized Explainability [5.3] シミュレーション自動車(AV)ドメインに設定した2つのユーザスタディを提示する。
本研究では,(1)xAIの個体群レベルの嗜好と(2)ロボットの説明を提供するためのパーソナライズ戦略について検討する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:31:25 GMT)
D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection [5.3] 現在のDeepfake検出方法は、異なるドメインにわたるアーティファクト情報を徹底的に探索することができない。
空間領域からアーティファクト手がかりの局所的な位置情報を捕捉する新しい双方向アテンションモジュールを提案する。
これにより、大域的かつ微妙な偽情報を含む、きめ細かい特徴の高周波情報を得ることができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:31:33 GMT)
GAA-TSO: Geometry-Aware Assisted Depth Completion for Transparent and Specular Objects [5.2] 本稿では,透明かつ特異な物体に対する幾何学的支援深度補完法を提案する。
具体的には、入力深度を点雲にバックプロジェクションし、3Dブランチを構築し、階層的なシーンレベルの3D構造特徴を抽出する。
提案手法は,下流ロボットグルーピングタスクの性能を著しく向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:46:38 GMT)
Replay4NCL: An Efficient Memory Replay-based Methodology for Neuromorphic Continual Learning in Embedded AI Systems [5.2] ニューロモルフィック連続学習(NCL)は、AIシステムが動的に変化する環境に適応できるようにする。
現在、最先端技術は古い知識を維持するためにメモリ再生方式を採用している。
組込みAIシステムにおけるNCLを実現するための,新しい効率的なメモリ再生方式であるReplay4NCLを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:33:22 GMT)
Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection [5.2] 協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:24:07 GMT)
On Quantum Perceptron Learning via Quantum Search [5.2] D$次元超平面の正規分布からサンプリングされる確率は、$Theta(gamma)$の代わりに$Omega(gammaD)$と完全に分類できることが示される。
量子探索アルゴリズムを用いて、知覚論的学習の全体的な複雑さを高める方法を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:57:30 GMT)
Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation [5.0] 大規模言語モデル拡張(FedCCTR-LM)を用いたFedCCTR予測について述べる。
まずプライバシ保護強化ネットワーク(PrivNet)では,ユーザとアイテムの表現を充実させるために,大規模な言語モデルを採用している。
第2に、IDST-CL(Independent Domain-Specific Transformer with Contrastive Learning)モジュールは、ドメイン固有の、共有されたユーザの好みを乱す。
第3に、Adaptive Local Differential Privacy(AdaLDP)メカニズムは、ノイズ注入を動的に校正し、厳密なプライバシー保証と予測精度の最適なバランスを実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:22:42 GMT)
Interpretable Machine Learning for Oral Lesion Diagnosis through Prototypical Instances Identification [4.8] 医療における意思決定プロセスは非常に複雑で困難である。
現在の方法論は、専門家によって容易に解釈できない複雑なモデルに依存している。
このことは、臨床的意思決定において有意義な支援を提供できる解釈可能なモデルを開発する必要性を浮き彫りにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:25:32 GMT)
Can Zero-Shot Commercial APIs Deliver Regulatory-Grade Clinical Text DeIdentification? [4.8] 医療NLPは、保護された健康情報(PHI)の検出において96%のF1スコアを達成している。
固定コストのローカルデプロイメントモデルは、クラウドベースのサービスの要求毎の手数料のエスカレートを回避する。
0ショットの商用APIは、規制グレードの臨床診断に必要とされる正確性、適応性、コスト効率を満たさない。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:05:04 GMT)
Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction [4.7] 特に,フィールドが強い数値的あるいは文脈的依存関係を持つ場合,共同抽出によって精度が向上することを示す。
この結果から,複数フィールドプロンプトは,類似の表面形状や関連する数値から生じる混乱を緩和できる可能性が示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:54:42 GMT)
Spatiotemporal Learning with Context-aware Video Tubelets for Ultrasound Video Analysis [4.6] 本稿では,チューブレットに基づくオブジェクト検出とビデオ分類のための軽量なフレームワークを提案する。
グローバルな文脈の喪失に対処するため、分類器への入力として、チューブレットの位置、サイズ、信頼性を埋め込む。
提案手法は効率が良く, チューブレットのパラメータは0.4Mである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:39:42 GMT)
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields [4.6] マスクを用いた最近の3次元顔編集法は、NeRF(Neural Radiance Fields)を利用して高品質な編集画像を生成する。
我々は,マスクレイアウトの固定化によるユーザ制御の制限を克服する,NeRFベースの顔編集技術であるFFaceNeRFを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:24:58 GMT)
ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration [4.6] 我々はコラボレーティブSfM(ColabSfM)を分散SfM再構成の共有として定義する。
現在の登録方法は、既存のデータセットでトレーニングされた場合、SfMポイントクラウドを登録できない。
合成カメラ軌道からの部分的再構成を利用したSfM登録データセット生成パイプラインを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:21:48 GMT)
Dual-type dual-element atom arrays for quantum information processing [4.6] 本稿では,デュアル型2要素原子配列に基づく新しい量子処理アーキテクチャを提案する。
我々は、個々の量子ビットの再構成可能で高速な制御を可能にするアンサンブル支援量子演算を実証する。
本方式では,それぞれ99.5%と99.9%の忠実度を持つ単一ビットとマルチキュービットの個別処理をサポートする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:00:35 GMT)
HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks [4.5] 既存のビデオ層分解モデルは、各ビデオに対して独立に訓練された暗黙の神経表現(INR)に依存している。
本稿では,新しいビデオの学習を高速化するために,一般的なビデオ分解モデルを学習するためのメタラーニング戦略を提案する。
我々の戦略は、シングルビデオオーバーフィッティングの問題を緩和し、重要なことは、新しい、目に見えないビデオに対するビデオ分解の収束を短縮する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:24:47 GMT)
MetaSel: A Test Selection Approach for Fine-tuned DNN Models [4.5] ディープニューラルネットワーク(DNN)は、データ分散シフトによるデプロイメントの課題に直面している。
ファインチューニングは、より小さなラベル付きセットを必要とする新しいコンテキストに事前訓練されたモデルを適用する。
本稿では、ラベルなし入力からテストを選択する新しいアプローチであるMetaSelを紹介する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:31:47 GMT)
SuperPC: A Single Diffusion Model for Point Cloud Completion, Upsampling, Denoising, and Colorization [4.5] 4つの処理タスクを同時に処理できる最初の統一拡散モデルであるSuperPCを紹介する。
提案手法では,新しい空間混合拡散戦略によって強化された3レベル拡散フレームワークを用いる。
以上の結果から,SuperPCは4つのタスクのすべてにおいて,最先端の特殊モデルよりも優れていたことが分かる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:23:42 GMT)
OpenCity3D: What do Vision-Language Models know about Urban Environments? [4.5] 視覚言語モデル(VLM)は3次元シーン理解に非常に有望であるが、主に屋内空間や自律運転に応用されている。
本研究は,多視点空中画像からの3次元再構成を活用することで,都市環境への利用を拡大する。
本稿では, 人口密度推定, 建築年齢分類, 不動産価格予測, 犯罪率評価, 騒音汚染評価などの高レベル課題に対処するOpenCity3Dを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:11:21 GMT)
Unified continuous-time q-learning for mean-field game and mean-field control problems [4.4] 個体群分布が直接観測できない場合, 平均フィールドジャンプ拡散モデルにおける連続時間q-ラーニングについて検討する。
我々は,平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して,一貫したQ-ラーニングアルゴリズムを考案した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:10:30 GMT)
TRACE: Time SeRies PArameter EffiCient FinE-tuning [4.4] TRACE: Time Series Efficient Fine-tuning と呼ばれる時系列基礎モデルの効率的な微調整法を提案する。
長期予測タスクでは、調整された微調整がパフォーマンスを大幅に向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:55:43 GMT)
Fast online node labeling with graph subsampling [4.3] ノード予測のようなグラフベースの手法は、グラフのサイズに関係なく計算効率を目標としている。
本稿では,意図的にメッセージがランダムにドロップされるエンフォリンサブサンプリングAPPR法について考察する。
グラフスペーサーと行列線型代数のツールを用いて、グラフのスペクトル特性に近似境界を与える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:13:16 GMT)
Entangling cavity-magnon polaritons by interacting with phonons [4.3] 2つの強く結合したマイクロ波キャビティとマグノンモードによって形成される2つのキャビティ-マグノン偏光子(CMP)の絡み合わせ方法を示す。
絡み合ったCMPは、マグノンモードが多数のスピンを含むため、マクロ量子状態であり、周波数に絡み合ったマイクロ波光子の放出につながる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:24:23 GMT)
HAPI: A Model for Learning Robot Facial Expressions from Human Preferences [4.3] 本稿では,この相違に対処するために,人間のフィードバックを活用する新しい学習 to ランクフレームワークを提案する。
提案手法は,アンガー,幸福,サプライズをベースラインや専門家が設計した手法よりもはるかに現実的で社会的に共鳴する表現を生成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:04:01 GMT)
PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction [4.2] 本稿では,文書フォーマットの異なる23種類のレイアウト領域の認識において,高い精度と効率を実現するPP-Docを提案する。
この研究は、文書レイアウト解析の最先端技術に加えて、高品質なトレーニングデータを構築するための堅牢なソリューションも提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:47 GMT)
Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study [4.2] 本稿では,モバイルGUIエージェントにおける推論可能な視覚言語モデル(VLM)の有効性に関する実証的研究を行った。
我々は、Gemini 2.0 FlashとClaude 3.7 Sonnetの2つの商用モデルを評価する。
Claude 3.7 Sonnet推論モデルは、AndroidWorldで最先端のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:52:43 GMT)
Deep Model Merging: The Sister of Neural Network Interpretability -- A Survey [4.0] モデルマージと損失ランドスケープ解析の実証研究から,ニューラルネットワークのトレーニングと内部表現の出現を規定する現象までを,損失ランドスケープ幾何学のレンズを通して調査する。
本研究では,これらの分野の文献から得られた経験的観察を,モデム凸性,決定性,指向性,接続性の4つの主要な特徴について記述した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:29:56 GMT)
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting [4.0] 各種信号によって駆動される高忠実で軽量な3DGSベースのフルボディ音声アバターであるTaoAvatarについて述べる。
TaoAvatarは、Apple Vision Proのような高精細ステレオデバイス上で90FPSを維持しながら、様々なデバイスでリアルタイムに実行しながら、最先端のレンダリング品質を実現していることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:40:37 GMT)
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions [4.0] 現実のアプリケーションにディープニューラルネットワークをデプロイする上で、敵の堅牢性は重要な課題である。
本稿では,初期安定化フェーズと階層化された逆トレーニングフェーズを統合した新しいトレーニングフレームワークTAETを提案する。
提案手法は既存の先進防衛を超越し,メモリと計算効率の両面で大幅な改善を実現している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:56:29 GMT)
Designing Robust Quantum Neural Networks via Optimized Circuit Metrics [4.0] 我々は、従来の畳み込みニューラルネットワーク(CNN)と比較して、四畳み込みニューラルネットワーク(QuNN)の堅牢性について検討する。
以上の結果から,QuNNはMNISTデータセットでは最大60%,Fashion-MNISTデータセットでは40%,CNNでは最大40%の堅牢性を示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:59:30 GMT)
Large Language Models (LLMs) for Source Code Analysis: applications, models and datasets [3.9] 大規模言語モデル(LLM)やトランスフォーマーベースのアーキテクチャは、ますますソースコード解析に利用されている。
本稿では,3つの重要な側面に焦点をあて,異なるコード解析タスクにおけるLLMの役割について考察する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:29:50 GMT)
Monte Carlo Simulation of Operator Dynamics and Entanglement in Dual-Unitary Circuits [3.9] 二重単位回路における演算子ダイナミクスと絡み合い成長について検討する。
我々の研究は、長期演算子の進化と絡み合いを研究するためのスケーラブルな計算フレームワークを提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:07:55 GMT)
Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation [3.8] 本稿では,合成画像データセット生成におけるニューロ・シンボリック条件付けの有用性について検討する。
シーングラフの形で構造化された記号表現が,関係制約を明示的に符号化することで,合成データ品質を向上させることができるかどうかを検討する。
その結果、Neuro-Symbolic条件付けは標準リコール基準で最大2.59%、データセット拡張時にNo Graph Constraint Recall基準で+2.83%の大幅な改善をもたらすことが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:26:16 GMT)
Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8] 本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。
エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。
提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:23:02 GMT)
Enhancing Subsequent Video Retrieval via Vision-Language Models (VLMs) [3.8] 視覚言語モデル(VLM)は表現学習に優れているが、適応的で時間に敏感なビデオ検索に苦慮している。
本稿では,ベクトル類似性探索とグラフに基づくデータ構造を組み合わせた新しいフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:11:14 GMT)
Automating Adjudication of Cardiovascular Events Using Large Language Models [3.7] 本稿では,Large Language Models (LLMs) を用いた臨床試験において,心血管イベントの適応を自動化する新しい枠組みを提案する。
心血管系イベント特異的臨床試験データを用いて、このフレームワークは、イベント抽出のためのF1スコアが0.82であり、適応のための精度が0.68である。
このアプローチは、臨床試験において、高品質で一貫した、監査可能な結果を維持しながら、適応時間とコストを大幅に削減する大きな可能性を示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:25:53 GMT)
Super-exponential behaviors of out-of-time ordered correlators and Loschmidt echo in a non-Hermitian interacting system [3.7] 非エルミート相互作用系における時間外順序相関器とLoschmidtエコーについて検討した。
両者とも時間とともに超指数的成長を示し、超指数的揺らぎと不安定性の出現を示す。
基礎となるメカニズムは、超指数的に速いエネルギー拡散と量子状態のノルムに根ざしている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:13:12 GMT)
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models [3.6] テキスト・ツー・イメージ(T2I)生成モデルは、高品質でリアルで自然な画像を生成するのに顕著な熟練性を示している。
オープンソースの拡散に基づく新しいT2IモデルFLUXが導入された。
本稿では,T2I-CompBenchベンチマークを用いて,新たに導入されたモデルに対して構成生成能力を評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:45:28 GMT)
An Attack on $p$-adic Lattice Public-key Cryptosystems and Signature Schemes [3.4] 本稿では,局所フィールドにおけるLVPアルゴリズムの改良について述べる。
このアルゴリズムを用いて上記のスキームを攻撃し、任意のメッセージをフォージし、暗号文を復号化できるようにします。
これらのスキームは壊れているが、この研究は、$p$-adic 格子が暗号プリミティブの構築に適さないという意味ではない。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:34:50 GMT)
Uncertainty-Driven Modeling of Microporosity and Permeability in Clastic Reservoirs Using Random Forest [3.4] 本研究の目的は,複雑な貯水池特性を予測するための費用効率のよい機械学習モデルを開発することである。
このモデルは、マイクロポーシティ(93%)と透過性(88%)の予測において高い精度を達成した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:05:04 GMT)
On the Computational Hardness of Quantum One-Wayness [3.3] Pseudorandom状態は、$n$bitsを$log n + 1$ qubitsに圧縮する。
一方向のステートジェネレータは、古典的に$rmPP$oracleにアクセスできる量子アルゴリズムによって破壊することができる。
我々の結果の興味深い意味は、すべての$t(n) = o(n/log n)$に対して、$t(n)$-copy 1-way状態生成器が無条件に存在することである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:52:25 GMT)
Fast Quantum Amplitude Encoding of Typical Classical Data [3.3] 単位古典ベクトルの$N$エントリを符号化する量子振幅符号化方式の改良版を提案する。
平均ランタイムが一様ランダムな入力に対して$mathcalO(sqrtNlog N)$であることを証明する。
本稿では,レーダ衛星画像などの実世界のデータにも,この実行時挙動が有効であるという数値的証拠を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:57:47 GMT)
United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space [3.2] 本稿では,Gated Recursive Joint Cross Attention (GRJCA)について,最も関連性の高い特徴を適応的に選択可能なゲーティング機構を用いて紹介する。
提案手法は, 補間関係の弱さに対処する柔軟性を付加することにより, RJCAモデルの性能を向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:51:33 GMT)
ModalTune: Fine-Tuning Slide-Level Foundation Models with Multi-Modal Information for Multi-task Learning in Digital Pathology [3.2] 本稿では,デジタル病理予測タスクのためのファインチューニングフレームワークであるModalTuneを提案する。
ModalTuneはSLFM重みを変更することなく新しいモダリティを統合する。
ModalTuneは2つのアウト・オブ・ディストリビューション(OOD)データセットに非常に一般化可能であることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:50:09 GMT)
Thermalization in Trapped Bosonic Systems With Disorder [3.1] 障害のある開線形鎖に閉じ込められたボソニック原子系における実験的にアクセス可能な状態について検討した。
我々は、ある許容範囲内で、カオス領域のほとんどの状態が熱化することを発見した。
しかし、エネルギー固有状態基底における参加比の低い状態は、熱平衡値からの偏差が大きい。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:24:53 GMT)
3D Neural Operator-Based Flow Surrogates around 3D geometries: Signed Distance Functions and Derivative Constraints [3.1] 高忠実度3次元流れシミュレーションの計算コストは依然として大きな課題である。
我々は、符号付き距離関数(SDF)を介して幾何学情報を組み込んだ変種であるDeepONet(DeepONet)とGeometric-DeepONet(Geometric-DeepONet)を評価する。
その結果,Geometric-DeepONetは標準のDeepONetに比べて境界層精度を最大32%向上することがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:40:48 GMT)
Enhanced quantum sensing in time-modulated non-Hermitian systems [3.1] 本稿では, 時間変調型NHシステムにおいて, 量子センシングの高度化を実現するための2つの理論スキームを提案する。
固有値に基づく量子センサは、従来のヘルミタンセンサに比べて9.21倍改善されている。
固有状態に基づく量子センサでは、拡張は従来のヘルミタンセンサーの最大50倍に達する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:25:43 GMT)
Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0] 大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:56:15 GMT)
On the Importance of Error Mitigation for Quantum Computation [3.0] 量子誤差緩和(Quantum error mitigation, EM)は、量子アルゴリズムにおけるノイズやデコヒーレンスの影響を除去または軽減するためのハイブリッド量子古典法の一種である。
最近の研究結果から、EMだけで指数量子優位性(QA)は実現できないことが示されている。
EMはQAを達成する上で重要な役割を果たすことが期待されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:47:43 GMT)
High Accuracy Pulmonary Vessel Segmentation for Contrast and Non-contrast CT Images and Its Clinical Evaluation [2.9] コントラスト画像と非コントラスト画像の両方から肺血管自動分割のための3次元画像分割アルゴリズムを提案する。
本研究では,複数のベンダや国から427セットの高精度CTデータを使用した。
肺血管セグメンテーションの精度と完全性は良好である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:54:42 GMT)
Multimodal Large Language Models for Image, Text, and Speech Data Augmentation: A Survey [2.9] 研究は、従来の機械学習(ML)とディープラーニング(DL)アプローチから、大規模言語モデル(LLM)の活用へと移行した。
マルチモダリティ、データの強化、一般化の強化、深層畳み込みニューラルネットワークのトレーニングにおけるオーバーフィッティング。
この調査は将来の研究の基盤として機能し、ディープラーニングアプリケーションのためのデータセットの品質と多様性を向上させるためにマルチモーダル LLM の使用を洗練・拡張することを目的としている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:17:47 GMT)
Center-guided Classifier for Semantic Segmentation of Remote Sensing Images [2.8] CenterSegはリモートセンシング画像のセマンティックセグメンテーションのための新しい分類器である。
複数のプロトタイプ、グラスマン多様体の直接監督、解釈可能性戦略の問題を解決する。
優れたパフォーマンスに加えて、CenterSegにはシンプルさ、軽量さ、互換性、解釈可能性という利点がある。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:21:37 GMT)
What's Producible May Not Be Reachable: Measuring the Steerability of Generative Models [2.8] ステアビリティとは、生成モデルがユーザの目標を満たす出力を生成する能力である。
本稿では,再現性から独立してステアビリティを評価する数学的枠組みを提案する。
本稿では,強化学習手法を用いて,このベンチマークで2倍以上の改善を達成できる画像モデルの代替ステアリング機構を構築する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:51:56 GMT)
Do regularization methods for shortcut mitigation work as intended? [2.8] ショートカットの緩和は、一般化を改善する上で重要な課題である。
モデル一般化可能性を高めることでこの問題に対処する正規化手法が提案されている。
これらの手法は時として過度に規則化され、必然的に因果的特徴と突発的特徴を抑圧する可能性があることを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:24:43 GMT)
Practical considerations for variable screening in the super learner [2.6] 超学習者アンサンブルは望ましい理論的性質を持ち、多くの応用で成功している。
次元削減は、他の予測アルゴリズムに適合する前に、ラッソを含む可変スクリーニングアルゴリズム(スクリーン)をアンサンブル内で行うことで達成できる。
提案手法は, 種々の候補検定値を用いて, 検定値の低い検定結果から, 検定値の低い検定値から, 検定値の低い検定値から, 検定値の低い検定値から, 検定値の低い検定値の検定値を得るものである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:53:12 GMT)
Parallel splitting method for large-scale quadratic programs [2.5] SPLITは、大規模二次プログラムを小さなサブプロブレムに分解し、並列に解決するフレームワークである。
SPLITは、高品質なソリューションを提供しながら、計算時間を大幅に削減できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:45:47 GMT)
Fast Convex Optimization with Quantum Gradient Methods [2.5] 雑音評価オラクルを用いた量子(サブ)次次推定に基づく量子アルゴリズムについて検討する。
古典的勾配勾配の1次クエリ複雑度は,雑音評価オラクルのみを用いて一致した。
我々は、これらのアルゴリズムをユークリッド以外の設定で動作させるように一般化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:58:12 GMT)
CABLD: Contrast-Agnostic Brain Landmark Detection with Consistency-Based Regularization [2.4] CABLDは、ラベルなしスキャンにおける3次元脳ランドマーク検出のための、新しい自己教師型ディープラーニングフレームワークである。
提案手法はMRIによる脳のランドマーク検出を複雑に行うことで実証する。
我々のフレームワークは、解剖学的ランドマーク検出のための堅牢で正確なソリューションを提供し、広範囲の注釈付きデータセットの必要性を減らす。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:21:44 GMT)
An Attentive Representative Sample Selection Strategy Combined with Balanced Batch Training for Skin Lesion Segmentation [2.2] 多くの研究は、トレーニングセットをランダムに選択し、最適でないモデルのパフォーマンスをもたらす可能性がある。
コントラスト学習とクラスタリングを用いて、アノテーションのための代表的で多様なサンプルを抽出する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:42:22 GMT)
Autonomous Radiotherapy Treatment Planning Using DOLA: A Privacy-Preserving, LLM-Based Optimization Agent [2.2] Dose Optimization Language Agent (DOLA) は、放射線治療計画の最適化を目的とした、LLMベースの自律型大規模言語モデルである。
DOLAはLLaMa3.1 LLMを商業的な治療計画システムと直接統合している。
完全に安全なインフラで 稼働しています
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:01:19 GMT)
Hierarchy-Boosted Funnel Learning for Identifying Semiconductors with Ultralow Lattice Thermal Conductivity [2.2] 超低格子熱伝導率半導体(Kappa_mathrmL$)の同定に成功している階層型ファンネル学習(HiBoFL)フレームワークを提案する。
数十万のプールから教師なし学習を対象とする数百の教材をトレーニングすることにより、超低値のKappa_mathrmL$の効率的かつ解釈可能な教師付き予測を実現する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:13:53 GMT)
Sparse PCA With Multiple Components [2.1] スパース主成分分析(SPCA)は、高次元データセットの分散を解釈可能な方法で説明する特徴の組み合わせを得る技術である。
既存のPCA手法の多くは、複数のスパースPCを求めるときの最適性だけでなく、結果の最適性も保証していない。
本稿では,実世界のデータセットに対して,0%-15%の精度で解を得るための厳密な手法と丸め機構を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:52:20 GMT)
Extending Behavior Trees for Robotic Missions with Quality Requirements [2.1] 本稿では,ロボットのミッションで明確に表現される品質と品質要件を持つ行動木の拡張を提案する。
本手法は,ロボットミッションの行動モデルに品質を取り入れる手法である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:32:25 GMT)
Understanding the Changing Landscape of Automotive Software Vulnerabilities: Insights from a Seven-Year Analysis [2.1] 本稿では,2018年から2024年9月までの自動車の脆弱性について検討する。
1,663件の自動車ソフトウェアの脆弱性が調査期間に報告された。
私たちの研究は、自動車ソフトウェアの弱点と抜け穴を理解し、その脆弱性が導入されたソフトウェア開発ライフサイクルのフェーズを特定する方法を舗装するプラットフォームを提供します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:04:39 GMT)
Stability and List-Replicability for Agnostic Learners [2.1] 無限のリトルストーン次元を持つクラスは、過大な誤差に依存する安定性パラメータを許容しても、安定してPACを学習できないことを証明している。
また、人口減少の少ない分布に非依存的な設定を限定しても、有限仮説クラスのみがグローバルに安定に学習可能であることも証明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:27:28 GMT)
A Flexible Fairness Framework with Surrogate Loss Reweighting for Addressing Sociodemographic Disparities [2.1] 本稿では,新たなアルゴリズムフレームワークである $boldsymbolalpha$boldbeta$ Fair Machine Learning (symbolalphasymbolbetabeta$ FML)を提案する。
我々のフレームワークでは、新しいサロゲート損失最小化を採用し、損失再重み付けと組み合わせることで、調整可能な属性による正確なトレードオフを可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:10:14 GMT)
Learning Multi-Level Features with Matryoshka Sparse Autoencoders [2.0] SAEは、SAE辞書の新たな変種である。
Gemma-2-2BとTinyStoriesでMatryoshka SAEsをトレーニングします。
スパース探索および目標概念消去タスクにおいて優れた性能を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:43:28 GMT)
Survival Analysis with Machine Learning for Predicting Li-ion Battery Remaining Useful Life [2.0] 本稿では,リチウムイオン電池のRULを予測するために,ディープラーニングモデルと組み合わせた生存分析に基づくフレームワークを提案する。
これらのモデルは、生の時系列バッテリーデータを、電圧、電流、内部抵抗などの重要な劣化指標を含む生存データに変換する。
我々のモデルは10倍のクロスバリデーションを用いてテストされ、一般化可能性を確保し、オーバーフィッティングを最小限に抑える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:53:22 GMT)
Surgical Text-to-Image Generation [2.0] We adapt text-to-image generative model for the surgery domain using the CholecT50 dataset。
我々は,3重項に基づくテキストプロンプトから,フォトリアリスティックかつ活動対応の手術画像を生成する手術画像nを開発した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:57:02 GMT)
Distributed Quantum Approximate Optimization Algorithm on a Quantum-Centric Supercomputing Architecture [2.0] 量子近似最適化アルゴリズム(QAOA)は、ゲートベースの量子コンピューティングシステムに量子スピードアップを提供することで、最適化問題を解くことを約束している。
しかしQAOAは、大量の量子ビットと深部回路の複雑さのため、高次元問題に対する課題に直面している。
本稿では,分散QAOA(DQAOA)を,より少ないキュービットと浅い回路を必要とするタスクに分割する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:40:01 GMT)
Mono2D: A Trainable Monogenic Layer for Robust Knee Cartilage Segmentation on Out-of-Distribution 2D Ultrasound Data [2.0] マルチスケール,コントラスト,強度不変の局所位相特徴を抽出するモノジェニック層であるMono2Dを提案する。
Mono2Dはセグメンテーションネットワークの第1層の前に統合されており、そのパラメータはネットワークのパラメータと共同で訓練されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:07:07 GMT)
NdLinear Is All You Need for Representation Learning [1.9] NdLinearは、余分なオーバーヘッドなしに多次元構造を保存する新しい線形変換である。
本稿では,畳み込み,再帰,変圧器ベースネットワークにおける表現力とパラメータ効率の大幅な向上を示す。
Ndlinear氏は、より表現力のある、コンテキスト対応の大規模モデルを可能にする、アーキテクチャの中心的な優先順位を再考する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:52:44 GMT)
A Thorough Assessment of the Non-IID Data Impact in Federated Learning [1.9] 分散機械学習(FL)は、分散クライアントの情報間のコラボレーティブ機械学習(ML)トレーニングを可能にし、データのプライバシを保証する。
FLの分散特性は、非独立で同一に分散された(非IID)データを扱う。
その重要性にもかかわらず、あらゆる種類のデータ不均一性(すなわち非IIDness)に体系的に対処する実験的研究はほとんど残っていない。
非IID効果の評価と定量化を徹底的な実証分析によって行うことで,このギャップを埋めることを目指している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:53:36 GMT)
FPA Beamforming for Alignment-Tolerant FSO QKD Links [1.9] 満日中に63mの屋外リンクでQBERの9.1%で1.2kb/sの安全キーを達成した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:56:38 GMT)
TeMP-TraG: Edge-based Temporal Message Passing in Transaction Graphs [1.8] トランザクショングラフは、マネーロンダリングや詐欺といった金融犯罪のパターンを明らかにすることができる。
本稿では,時間的ダイナミクスをメッセージパッシングに組み込んだ新しいグラフニューラルネットワーク機構TeMP-TraGを提案する。
我々は、TeMP-TraGが4つの最先端グラフニューラルネットワークを平均6.19%改善できることを実証した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:10:27 GMT)
Criteria for unbiased estimation: applications to noise-agnostic sensing and learnability of quantum channel [1.8] まず、複数のパラメータが量子状態に符号化される量子状態推定について検討する。
偏りのない推定に必要かつ十分な2つの条件を導出する。
そこでは、未知の量子チャネルを特徴付けるパラメータを推定することを目的とする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:59:48 GMT)
Towards Understanding the Benefits of Neural Network Parameterizations in Geophysical Inversions: A Study With Neural Fields [1.7] 本研究では、ニューラルネットワークを用いて、その座標における対応する物理特性値に座標をマッピングする。
テスト時間学習法では、トレーニングデータセットを用いてネットワークをトレーニングする必要がある従来のアプローチと比較して、ウェイトをインバージョン中に学習する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:32:52 GMT)
Early-MFC: Enhanced Flow Correlation Attacks on Tor via Multi-view Triplet Networks with Early Network Traffic [1.7] 我々は,マルチビュー三重項ネットワークに基づく早期ネットワークトラフィックを用いたフロー相関攻撃(Early-MFC)を提案する。
提案手法は,トランスポート層におけるペイロードとパケット間遅延からマルチビュートラフィック特徴を抽出する。
その後、マルチビューフロー情報を統合し、抽出した機能を共有埋め込みに変換する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:36:51 GMT)
End-to-End Deep Learning for Real-Time Neuroimaging-Based Assessment of Bimanual Motor Skills [1.7] 本研究では,fNIRS信号を直接処理する新しいエンドツーエンドディープラーニングフレームワークを提案する。
平均分類精度は93.9%(SD 4.4)、一般化精度は92.6%(SD 1.9)である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:56:54 GMT)
HEAPO -- An Open Dataset for Heat Pump Optimization with Smart Electricity Meter Data and On-Site Inspection Protocols [1.6] ヒートポンプは住宅の暖房を脱炭酸するのに不可欠であるが、運用コストや電力需要に影響を及ぼすかなりの電気エネルギーを消費する。
スイスのチューリッヒのカントンで,ヒートポンプとスマート電気計を備えた1,408世帯の電力消費のオープンソースデータセットを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:58:01 GMT)
Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints [1.6] 中間点予測学習のためのアクター批判的手法を提案する。
提案手法は,提案手法がいくつかの計画課題において既存手法よりも優れていることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:44:42 GMT)
CoBRA: A Universal Strategyproof Confirmation Protocol for Quorum-based Proof-of-Stake Blockchains [1.6] 本稿では, 正当性, ビザンチン性, 有理性バリデータからなるハイブリッド脅威モデルの下で, 量子ベースステートマシンレプリケーション(SMR)プロトコルの形式的解析を行う。
従来の量子ベースのプロトコルの分析では,(1)部分同期ネットワークでは,有意な参加者が1/3ドル以上である場合,(2)有意な参加者が2/3ドル以上ある場合,Byzantine Validatorが2/3ドル以上である場合,SMRは不可能である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:39:29 GMT)
GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation [1.6] 本研究では,Large Language Models (LLM) におけるエネルギーを考慮したコード生成フレームワークを提案する。
我々は、正確性、レイテンシ、エネルギー消費のトレードオフのバランスをとることを学ぶ強化学習エージェント(RL)を訓練する。
その結果,コード生成作業における平均23~50パーセントのエネルギー消費を,精度に悪影響を及ぼすことなく削減できることが示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:07:55 GMT)
Data to Decisions: A Computational Framework to Identify skill requirements from Advertorial Data [1.6] 提案手法は,統計解析,データマイニング,自然言語処理といった手法を用いている。
分析結果は、CS&IT産業におけるスキルニーズの現状に関する有用な洞察を提供するだけでなく、求職希望者、研修機関、高等教育・専門訓練機関に実践的な意味を与える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:49:31 GMT)
Fairness-Driven LLM-based Causal Discovery with Active Learning and Dynamic Scoring [1.5] 因果発見(英: Causal discovery, CD)は、様々な分野において観測される現象の根底にある因果関係を明らかにすることで、多くの科学分野において重要な役割を担っている。
CDアルゴリズムの大幅な進歩にもかかわらず、その応用は大規模データの高い計算要求と複雑さのために困難に直面している。
本稿では,CDにLarge Language Models(LLM)を活用するフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:58:26 GMT)
Infinite-fold Quantum Advantage in Classical Correlation Sensing [1.5] 検出器あたりの平均受信エネルギーがゼロになると、誤差指数の比は無限大となり、無限倍の量子優位性を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:36:51 GMT)
Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions [1.5] 逆気象条件は、自律走行車の普及に重大な課題をもたらす。
本稿では,悪天候に着目した初のオープンソース総合コラボレーション知覚データセットであるAdver-Cityを紹介する。
24万フレーム、890万アノテーション、および6つの異なる気象条件にまたがる110のシナリオを含んでいる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:59:38 GMT)
PRIOT: Pruning-Based Integer-Only Transfer Learning for Embedded Systems [1.5] 我々は、重みを更新するのではなく、選択したエッジを刈り取ることにより、ネットワークを最適化するPRIOTという新しいトレーニング手法を提案する。
Raspberry Pi PicoにPRIOTとPRIOT-Sを実装し,その精度と計算コストを評価する。
PRIOT-Sはメモリフットプリントを最小限の精度で削減するのに対し,PRIOT-Sは既存の手法に比べて8.08~33.75ポイントの精度向上を図っている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:07:57 GMT)
Solving Capacitated Vehicle Routing Problem with Quantum Alternating Operator Ansatz and Column Generation [1.5] 本研究では,キャパシタン化車両ルーティング問題(CVRP)の解くためのハイブリッド量子古典的アプローチを提案する。
カラム生成(CG)法と量子交換演算子Ansatz(QAOAnsatz)を結合する。
小型CVRPインスタンスの実験結果から,QAOAnsatzはQAOAアプローチよりも高速に最適経路に収束することが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:09:48 GMT)
Toward a method for LLM-enabled Indoor Navigation [1.4] 屋内地図画像から自然にコンテキストを意識したナビゲーション命令を生成するためのLarge Language Model(LLM)の可能性を探る。
以上の結果から,パーソナライズされた屋内ナビゲーションを支援するLLMが,平均52%,最大62%の正答率を持つ可能性が示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:17:59 GMT)
Objection Overruled! Lay People can Distinguish Large Language Models from Lawyers, but still Favour Advice from an LLM [1.4] 大規模言語モデル(LLM)は、すべてのドメインに浸透しているようで、法的文脈は例外ではない。
本研究は,故人の行動意欲と LLM と弁護士による法的助言を区別する能力について検討した3つの実験の結果である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:17:05 GMT)
OmniLearn: A Framework for Distributed Deep Learning over Heterogeneous Clusters [1.4] 異種資源の影響を軽減するため,OmniLearnという適応型バッチスケーリングフレームワークを開発した。
当社のアプローチは、異種サーバ間のバランスをとるための比例的なコントローラにインスパイアされ、さまざまなリソースの可用性の下で動作します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:26:24 GMT)
End-to-end QKD network with non-localized trust [1.4] エンド・ツー・エンドのセキュリティサービスへの道のりにある石の1つは、このプロトコルを使用することで取り除かれる可能性がある。
提案提案では, ツインフィールドQKDと古典的ポストプロセッシングと通信を併用し, Alice と Bob が秘密鍵を共有できるようにする。
AliceとBobの中間ノードの連立関係は、新しいスキームを破るために必要であり、セキュリティの観点から信頼性の高いノードアプローチを著しく上回っている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:46:29 GMT)
Deep Learning for Human Locomotion Analysis in Lower-Limb Exoskeletons: A Comparative Study [1.4] 本稿では,8つのディープニューラルネットワークのバックボーンによる高レベル移動パラメータの予測実験を行った。
LSTMは高い地形分類精度(0.94 +- 0.04)と正確な傾斜斜面(1.95 +- 0.58deg)、CNN-LSTMは階段の高さ(15.65 +- 7.40 mm)を達成した。
システムは2ミリ秒の推論時間で動作し、リアルタイムアプリケーションをサポートする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:12:44 GMT)
A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees [1.3] 本稿では,リアクティブプランナであるVLM(Vision-Language Models)とBT(Behavior Trees)を組み合わせて,リアルタイムの障害処理を実現する,統合された障害復旧フレームワークを提案する。
当社のアプローチには、実行前の潜在的な障害をチェックする事前実行検証と、実行中の障害を検出し修正するリアクティブ障害処理が含まれている。
我々は、ペグ挿入、オブジェクトソート、引き手の配置といったタスクにおいて、ABB YuMiロボットを用いた実世界の実験を通して、我々のフレームワークを評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:10:48 GMT)
SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes [1.3] 本稿では,都市型テクスチャメッシュの大規模データセットであるSUM Partsを紹介した。
データセットは、顔とテクスチャベースのアノテーションをサポートする独自のアノテーションツールを使用して作成されました。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:58:31 GMT)
Instant Adversarial Purification with Adversarial Consistency Distillation [1.3] One Step Control Purification (OSCP) は、単一の神経機能評価において頑健な敵の浄化を実現する新しい防御フレームワークである。
ImageNetの実験結果はOSCPの優れた性能を示し、74.19%の防衛成功率を達成し、純度は0.1秒に過ぎなかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:58:47 GMT)
Physics-Informed Deep B-Spline Networks for Dynamical Systems [1.3] 本稿では、ニューラルネットワークを用いてB-スプライン制御点を学習し、様々なシステムとICBCパラメータを持つPDEの解を近似するハイブリッドフレームワークを提案する。
提案したB-スプラインネットワークが、穏やかな条件下で異なるCBCを持つPDEの解の集合に対する普遍近似として機能することを理論的に保証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:15:40 GMT)
Dynamics of atom-field interaction inside a nonlinear Kerr-like medium filled optical cavity [1.3] 光学キャビティ内の2モード場と相互作用する2つの2レベル原子のダイナミクスについて検討する。
時間依存シュリンガー方程式の正確な解析解を導出する。
線形エントロピーを用いた原子-原子の絡み合いの定量化を行う。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:45:51 GMT)
Learning to Solve Related Linear Systems [1.3] パラメータ空間上の新しい確率線形解法を提案する。
我々は,解いた線形系からの情報を回帰的に利用し,効率的な後続平均値と共分散値を与える。
我々はこれを事前条件付き共役勾配法における共役回帰モデルとして用いることを提唱する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:05:45 GMT)
Metaheuristics is All You Need [1.3] 本稿では,様々な分野の応用を含む基本的BATアルゴリズムとその変種について概説する。
特定の応用として、BATアルゴリズムを生体統計学的推定問題に適用し、既存のアルゴリズムに対して明らかな優位性を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:58:28 GMT)
HAL 9000: a Risk Manager for ITSs [1.2] HAL 9000はITS(Intrusion Tolerant Systems)リスクマネージャであり、潜在的侵入に対する構成リスクを評価する。
私たちのゴールは、分類されていない最近発見された脆弱性の悪用に関連するリスクを減らすことです。
提案手法は,National Vulnerability Databaseの評価プロセスを99%の精度で効果的に学習し,再現できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:25:32 GMT)
AI and personalized learning: bridging the gap with modern educational goals [1.2] テクノロジベースのパーソナライズドラーニング(PL)ソリューションは、学習性能の向上に顕著な効果を示した。
本分析は,近代教育の目的とPLの技術的アプローチとのギャップを示唆している。
本稿では,人工知能と教師が共用する学習手法を融合したハイブリッドモデルを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:03:09 GMT)
Examining Two Hop Reasoning Through Information Content Scaling [1.1] 2つの質問と回答のデータセットをそのサイズで学習するトランスフォーマーの能力について検討する。
キャパシティスケーリングと一般化はどちらも、潜伏する2つのホップQAは、トランスフォーマーがそれぞれの事実を2回学ぶ必要があるという仮説を支持している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:49:12 GMT)
Automated Market Makers in Cryptoeconomic Systems: A Taxonomy and Archetypes [1.1] この作業は、開発者がAMM(Automatic Marketmaker)を設計するのを助けるために、ソフトウェアエンジニアリングと経済的な視点を橋渡しする
本稿では,AMM設計を体系的に比較するためのAMM分類法を開発し,トークン発行および交換の鍵となる要件を満たす3つのAMMアーチタイプを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:23:58 GMT)
RadioActive: 3D Radiological Interactive Segmentation Benchmark [1.1] METAs Segment Anythingにインスパイアされた最近のインタラクティブセグメンテーションモデルは、大きな進歩を遂げたが、3Dでは限界に直面している。
RadioActiveベンチマークは、厳密で再現可能な評価フレームワークを提供することによって、これらの課題に対処する。
SAM2は、特殊な医療用2Dモデルや3Dモデルよりも優れており、3Dボリュームのプロンプトを生成するために、わずか数回のインタラクションしか必要としない。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:47:12 GMT)
Learning Noise-Robust Stable Koopman Operator for Control with Hankel DMD [1.1] 非線形力学系のクープマン演算子に対するノイズロスト学習フレームワークを提案する。
システム力学が既知のとき, システム力学によって生成される可観測性は, ハンケル行列を通して利用することができる。
離散的なPolyflowと構造的類似性を保ちながら、ニューラルネットワークで近似する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:01:14 GMT)
R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception [1.1] R-LiViTは、LiDAR、RGB、サーマルイメージングを道路面から組み合わせた最初のデータセットである。
1万フレームのLiDARフレームと2400フレームの時間的および空間的に整列されたRGBと熱画像が含まれており、150以上の交通シナリオにまたがっている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:17:28 GMT)
Communities in the Kuramoto Model: Dynamics and Detection via Path Signatures [1.0] この問題を解決するために,連続経路の幾何学的および時間的特性を符号化する数学的枠組みを提案する。
パスシグネチャは、動的データの再パラメータ化不変な特徴を提供する。
本研究では,観測時系列から構造的コミュニティを正確に復元する,署名に基づく新しいコミュニティ検出アルゴリズムを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:41:48 GMT)
Enhanced Smart Contract Reputability Analysis using Multimodal Data Fusion on Ethereum [1.0] 本稿では,静的コード機能とトランザクションデータを統合するマルチモーダルデータ融合フレームワークを提案する。
我々のフレームワークは、最初は静的コード解析に重点を置いており、クラス不均衡に対処するために、GAN拡張オペコード埋め込みを活用している。
スマートコントラクトの振舞いの全体像を提供することにより、我々のアプローチは、信頼性を評価し、不正行為を特定し、異常パターンを予測するモデルの能力を高める。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:45:17 GMT)
Digital-analog quantum computing of fermion-boson models in superconducting circuits [1.0] 本稿では,ハバード・ホルシュタインモデルをシミュレートするディジタルアナログ量子アルゴリズムを提案する。
共振器によって接続され、電子-電子(e-e)と電子-フォノン(e-p)の相互作用をエミュレートする。
DAQCアルゴリズムの回路深さの低減, デジタルステップとアナログブロックのシーケンス, 純粋にディジタルアプローチよりも優れることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:44:41 GMT)
A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition [0.9] 本稿では,BNの構造とパラメータ学習に関する最も関連性の高いツールとソフトウェアについて概説する。
すべてのソフトウェアパッケージとその主な特徴を要約した、広範囲にわたる使い易い概要表を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:36:11 GMT)
Geometry adaptive waveformer for cardio-vascular modeling [0.9] 心血管系における血流動態を予測するための幾何適応型波形変換器モデルを提案する。
フレームワークは、ジオメトリエンコーダ、ジオメトリデコーダ、ウェーブフォーマの3つのコンポーネントで構成されている。
各種心血管データに対するアプローチの有効性について検討した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:35:52 GMT)
Breaking the Symmetries of Indistinguishable Objects [0.9] 制約プログラミングの問題をモデル化する際、区別できないオブジェクトがしばしば発生する。
区別不能なオブジェクトから生じる対称性を破る方法を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:56:52 GMT)
Depth-Aided Color Image Inpainting in Quaternion Domain [0.9] 深度支援低ランク四元数行列補完(D-LRQMC)と呼ばれる四元数領域における深度支援カラー画像の塗装法を提案する。
従来の塗装技術では、3つの虚構部分をカラーチャネルとして使用することにより、色像を四元行列として表現するが、実際の部分はゼロに設定され、情報を持たない。
本手法では, 色と深さの相関を利用して, インペイントの結果を改善することを目的として, 四元数表現の実際の部分として深度情報を取り入れた。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:18:41 GMT)
Knowledge Graph Reasoning Based on Attention GCN [0.8] 本稿では,GCN(Graph Convolution Neural Network)と注意機構を組み合わせた知識グラフ推論手法を提案する。
このアプローチでは、アテンションメカニズムを使用してエンティティとその隣接ノードの関係を調べ、各エンティティの詳細な特徴ベクトルの開発を支援する。
本研究は,検索エンジン,質問応答システム,レコメンデーションシステム,データ統合タスクなど,さまざまなアプリケーションに対して重要な方法論的サポートを提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:35:21 GMT)
Weakly Supervised Segmentation of Hyper-Reflective Foci with Compact Convolutional Transformers and SAM2 [0.7] 本稿では,従来の注意に基づくMIL(Multiple Instance Learning)アプローチの空間分解能を高める新しいフレームワークを提案する。
我々は,MILをCCT(Compact Convolutional Transformer)に置き換えることによって,セグメント化精度が大幅に向上することが実証された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:41:23 GMT)
Should we pre-train a decoder in contrastive learning for dense prediction tasks? [0.7] 本稿では,エンコーダのみの自己教師付き学習(SSL)を,効率的なエンコーダ・デコーダフレームワークに変換するためのフレームワークに依存しない適応手法を提案する。
まず、デコーダとその対照的な損失に対応するために、既存のアーキテクチャを更新する。
次に、重み付きエンコーダデコーダと非競合目的との対照的な損失を導入し、共同エンコーダデコーダアーキテクチャの事前学習を容易にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:19:13 GMT)
Time-optimal neural feedback control of nilpotent systems as a binary classification problem [0.7] 時間最適フィードバック制御則の計算方法
システムはサンプル化され、時間最適のディープニューラルネットワークを構築するためのデータセットを生成する。
テストは、近似制御法則の精度、堅牢性、およびリアルタイム制御能力を評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:36:20 GMT)
elaTCSF: A Temporal Contrast Sensitivity Function for Flicker Detection and Modeling Variable Refresh Rate Flicker [0.7] 従来の手法では、主に高コントラスト(フルオン、フルオフ)のフリックに適合するCFF(Critical Flicker Frequency)に頼っていることが多い。
我々は、輝度、偏心、面積の影響を取り入れた新しい空間確率和モデルを導入する。
ElaTCSFは、VRヘッドセットの低パースペンスによるフレッカの予測や、フレッカフリーなVRR操作範囲の特定、照明設計におけるフレッカの感度の決定にどのように使用できるかを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:23:10 GMT)
Enhancing Product Search Interfaces with Sketch-Guided Diffusion and Language Agents [0.7] Sketch-Search Agentは、マルチモーダル言語エージェントとフリーハンドスケッチを拡散モデルの制御信号として統合することにより、画像検索エクスペリエンスを変革する新しいフレームワークである。
既存の方法とは異なり、Sketch-Search Agentには最小限のセットアップが必要で、追加のトレーニングはなく、スケッチベースの画像検索と自然言語インタラクションが優れている。
このインタラクティブデザインにより、ユーザーはスケッチを作成し、カスタマイズされた製品提案を受け取り、ユーザー中心の画像検索における拡散モデルの可能性を示すことができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:44:15 GMT)
Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning [0.7] 本稿では,空間制約付き2D+1パッキング問題に対する深部強化学習(DRL)に基づく新しい手法を提案する。
OpenAI Gymフレームワークを用いたシミュレータは、高さ制約のある2つの基板上の矩形部品の充填を効率的にシミュレートするために開発された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:06:16 GMT)
Integrated Subset Selection and Bandwidth Estimation Algorithm for Geographically Weighted Regression [0.7] 本研究では,地理的重み付き回帰における可変部分集合帯域幅推定を統合的に選択するための数学的アルゴリズムを提案する。
提案アルゴリズムは,安定な空間変化パターンを持つ競合的説明力を提供し,最適な部分集合を選択し,追加制約を考慮できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:57:59 GMT)
Full Microscopic Simulations Uncover Persistent Quantum Effects in Primary Photosynthesis [0.7] 我々は、Fenna-Matthews-Olson光合成複合体の非摂動的、正確な顕微鏡モデルシミュレーションを報告した。
我々は、光合成における量子効果の実験的証拠を特定するために、非線形光学スペクトルの完全な顕微鏡シミュレーションが不可欠であることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:29:59 GMT)
Calibration Strategies for Robust Causal Estimation: Theoretical and Empirical Insights on Propensity Score Based Estimators [0.7] 推定と校正のためのデータの分割は、確率スコアに基づく推定器の性能に重大な影響を及ぼす。
提案手法は,確率スコア推定のためのキャリブレーション手法の最近の進歩を延長し,挑戦的な設定における確率スコアの堅牢性を向上させる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:41:10 GMT)
Analysis and Fully Memristor-based Reservoir Computing for Temporal Data Classification [0.6] Reservoir Computing (RC) は、特に信号処理に有効なニューロモルフィックなフレームワークを提供する。
RCハードウェアのキーコンポーネントは動的貯留状態を生成する能力である。
本研究は, 新たな時間的課題の管理において, メムリスタをベースとしたRCシステムの適応性を照らすものである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:52:25 GMT)
Quantum States Imaging of Magnetic Field Contours based on Autler-Townes Effect in Yb Atoms [0.6] この量子イメージング磁気センサは、目で見るか、標準のカメラで撮影できる一定の磁場の輪郭である「ダークストライプ」を露呈する。
閉4レベルゼーマンシフトV系の実験データと理論モデルとの良好な一致を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:47:10 GMT)
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects [0.6] オープンボキャブラリオブジェクト検出(OVD)に関する最近の研究は、インプリンシプル・アンバウンドド・ボキャブラリによって定義されたオブジェクトの検出を可能にする。
OVDは「オラクル」によって提供される正確なプロンプトに依存しており、シーンの知覚を駆動するといった重要な応用においての使用を制限する。
我々は,未確認物体を特定し,段階的に学習することで,OVDモデルをオープンワールド環境で動作させるフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:09:27 GMT)
Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings [0.6] 本稿では, GPT-4を, 21種類の評価評価の読み手として, 異なるプロンプト設定で検討する。
その結果, GPT-4はヒトのアノテータに近づいたり, わずかに良く機能する効果的なリーダ・アノテータであることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:35:49 GMT)
Observation of the acoustic Purcell effect with a color-center and a nanomechanical resonator [0.6] ダイヤモンド中の色中心スピン量子ビットの周囲にナノメカニカル共振器を構築する。
スピン量子ビットを12GHzのアコースティックモードで共振させると10倍高速スピン緩和が観測される。
私たちの研究は、固体の量子欠陥に対する新しい制御体制を確立します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:20:09 GMT)
3D variational autoencoder for fingerprinting microstructure volume elements [0.6] 微細構造ボリューム要素(VE)を符号化するための3次元変分オートエンコーダ(VAE)を提案する。
配向空間の結晶対称性は、前処理ステップとして結晶の基本領域にマッピングすることで説明される。
次に、VAEは、ランダムなテクスチャを持つ均質な多結晶構造を持つVEのトレーニングセットを符号化するために使用される。
このモデルは, トレーニング分布外のテクスチャ, 粒径, アスペクト比の微構造によく応用できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:17:10 GMT)
Symbolic Audio Classification via Modal Decision Tree Learning [0.6] 本研究では,年齢と性別の認識,感情分類,呼吸器疾患の診断などの音声タスクについて検討する。
私たちはそれらを、象徴的なテクニック、すなわち(モダル)決定木学習でアプローチします。
このようなタスクは、非常に高い精度と低い複雑さで単純なルールを抽出できる同じシンボリックパイプラインを使って解決できることを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:27:16 GMT)
Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Multi-Culture Sign Language Recognition [0.5] 手話に基づく手話認識は、難聴者と非難聴者の間の重要なコミュニケーションブリッジとして機能する。
既存のSLRシステムは、その文化的SLに対して良好に機能するが、多文化手話言語(McSL)と競合する可能性がある
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:57:18 GMT)
Long-term excitation energy transfer predicted by a modified convolutional neural networks in the FMO complexes [0.5] 本稿では,Fenna-Matthews-Olson錯体における100ピコ秒(ps)励起エネルギー伝達(EET)を予測するために,新しい冗長時間関数を組み込んだ効率的なCNN手法を提案する。
本手法は最適化を単純化し,学習効率を向上し,量子散逸ダイナミクスの予測におけるアプローチの精度,堅牢性,効率性を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:40:39 GMT)
Markerless Tracking-Based Registration for Medical Image Motion Correction [0.4] 本研究は, ビデオフルオロスコープにおける患者動作の干渉による摂食動態の分離に焦点を当てた。
光フロー法は、フリッカリングや不安定性などの人工物によって失敗し、異なる運動群を区別する信頼性が低い。
本稿では,摂食動態を保ちながら破壊運動を効果的に除去する新しい動き補正パイプラインを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:47:46 GMT)
Towards Generating Automatic Anaphora Annotations [0.4] 様々なNLPタスクでうまく機能する訓練モデルは大量のデータを必要とする。
そこで本研究では,手動によるゴールドアノテートデータ作成の禁止コストに対処するため,中核アノテーションを用いたデータセットの自動作成方法について検討する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:00:05 GMT)
Development of High-Quality $α$-Ta Film at Room Temperature via Seed Layer Engineering [0.4] シリコン基板上における高品質超伝導薄膜の成長は量子コンピューティングに不可欠である。
$alpha$-Ta薄膜の成長は高温/低温成長、極薄シード層、厚膜によって達成できる。
本研究は, 結晶性シード層を用いて, $alpha$-Ta薄膜を最適化し, 膜質の向上を実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:43:14 GMT)
An analog of topological entanglement entropy for mixed states [0.4] クラウス作用素がオンサイトユニタリの積に比例する場合、co(QCMI) はデコヒーレンスの増加とともに増加しないことを示す。
オンサイトビット/位相フリップ雑音でデコヒーレントされた2dトーリック符号に対して、co(QCMI)が誤差回復しきい値以下でゼロであることを示す。
この例では、co(QCMI) が最近導入された純状態の TEE と等しいことを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:08:04 GMT)
Variance Control via Weight Rescaling in LLM Pre-training [0.4] 本稿では,Layer Index RescalingスキームとTVR(Target Variance Rescaling)分散制御戦略を紹介する。
1BパラメータLLaMAモデルによる実験により、これらの手法による分散管理により、下流タスク性能が大幅に向上することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:23:08 GMT)
Improving Quantization with Post-Training Model Expansion [0.4] ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。
本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:56:59 GMT)
Employing Continuous Integration inspired workflows for benchmarking of scientific software -- a use case on numerical cut cell quadrature [0.3] 本稿では、確立された継続的インテグレーションツールとプラクティスを利用して、ベンチマークの実行とレポートの自動化を実現する、実証済みのアプローチを提案する。
我々のユースケースは、任意の領域上の数値積分(四分法)であり、2Dまたは3Dで暗黙的にあるいはパラメトリックに定義された曲線や曲面によって境界づけられる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:42:24 GMT)
Efficient Intent-Based Filtering for Multi-Party Conversations Using Knowledge Distillation from LLMs [0.3] 大規模言語モデル(LLM)は、対話型AIにおいて顕著な能力を示した。
これらのモデルはリソース集約型であり、かなりのメモリと計算能力を必要とする。
そこで本稿では,LLM処理における関心の会話スニペットを,対象の下流アプリケーションに合わせてフィルタする,コスト効率のよいソリューションを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:34:37 GMT)
DermDiff: Generative Diffusion Model for Mitigating Racial Biases in Dermatology Diagnosis [0.3] 皮膚疾患診断のための既存のAIモデルは、しばしば限定的でバイアスのあるデータセットで開発され、テストされる。
本稿では皮膚疾患診断のための多彩で代表的な皮膚画像データを生成する新しい生成モデルDermDiffを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:45:39 GMT)
A Deep Learning Framework for Visual Attention Prediction and Analysis of News Interfaces [0.3] ニュースメディアがニュースインターフェースに注目する競争は、人口統計学的に認識されたサリエンシ予測モデルの必要性を強調している。
本稿では,DeepGaze IIEを用いてSaRa(Saliency Ranking)モデルを強化するディープラーニングフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:20:29 GMT)
Benchmarking quantum chaos from geometric complexity [0.2] 非ガウス量子力学系と相互作用する幾何学的複雑性を研究する新しい方法を考える。
いくつかの制限の中で、幾何学的複雑性は確かに量子カオスのよい指標である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:10:23 GMT)
SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia [0.1] この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点を当てている。
大規模言語モデル(LLM)の文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:55:10 GMT)
MerGen: Micro-electrode recording synthesis using a generative data-driven approach [0.1] 本稿では,デ・ノボ電気生理学的記録をシミュレートできるMerGenと呼ばれる生成ニューラルネットワークを提案する。
生成した信号は,現場の専門家による実際の信号と知覚的に区別できないことを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:54:29 GMT)
Explaining Human Activity Recognition with SHAP: Validating Insights with Perturbation and Quantitative Measures [0.1] 本稿では SHapley Additive exPlanations を用いてグラフ畳み込みネットワーク(GCN)の意思決定プロセスを説明する。
我々は、脳性麻痺(CP)分類のための2つの実世界のデータセットと、広く使われているNTU RGB+D 60行動認識データセットについて、SHAPを用いて説明する。
どちらのデータセットでも、SHAPによって重要視されるボディキーポイントが、正確性、特異性、感度の指標に最も大きな影響を与えることが示されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:47:18 GMT)
UAV Resilience Against Stealthy Attacks [0.1] ランタイム監視とseL4ベースのソフトウェアアイソレーションを備えたUAVソフトウェアスタックを実行するアーキテクチャを提案する。
我々のアーキテクチャは、旧来のUAVに適合し、人気のあるMAVLinkプロトコルを保証し、広く採用できるようにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:48:11 GMT)
Follow-up Question Generation For Enhanced Patient-Provider Conversations [0.1] FollowupQは非同期医療会話を強化するための新しいフレームワークである。
FollowupQは、患者メッセージとEHRデータを処理し、パーソナライズされたフォローアップ質問を生成する。
必要なプロバイダのフォローアップ通信を34%削減する。
また、実データと合成データのパフォーマンスも17%向上し、5%向上した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:40:53 GMT)
Analyzing Performance Bottlenecks in Zero-Knowledge Proof Based Rollups on Ethereum [0.1] 本稿では,ZKP ベースのロールアップの性能を考察し,Hardhat 開発環境を用いて構築したソリューションに着目した。
詳細な分析を通じて、ZKPシステム内の重要なボトルネックを特定し、検討し、最適化の潜在的な領域について考察する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:45:51 GMT)
An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection [0.1] そこで本研究では,非技術ユーザを対象にした自然言語テキスト記述の改善手法を提案する。
複数の公開可能なオープン語彙オブジェクト検出モデルで性能を示すことで,フィードバック機構がもたらす改善を定量化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:34:04 GMT)
HiFi-Stream: Streaming Speech Enhancement with Generative Adversarial Networks [0.1] 最近公開されたHiFi++モデルの最適化版であるHiFi-Streamを紹介する。
実験によると、HiFiStreamはそのサイズと計算の複雑さにもかかわらず、オリジナルのモデルの品質の大部分を節約している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:44:12 GMT)
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID [0.0] 本稿では,熱赤外ビデオにおけるマルチUAV追跡への簡単なアプローチを提案する。
本稿では, YOLOv12 と BoT-SORT 上に構築されたトラッキングフレームワークについて述べる。
コントラスト強化や時間情報融合を使わずに強力な結果が得られる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:40:18 GMT)
Zero Trust Architecture: A Systematic Literature Review [0.0] ZTAは「信頼せず、常に検証する」という原則で運営している。
本研究は10年間のZTA研究におけるPRISMAフレームワークを応用した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:52:22 GMT)
Would you mind being watched by machines? Privacy concerns in data mining [0.0] マシンによるアクセスは、解析は人間や理解する機械によって行われる必要があるため、さらなる情報へのアクセスを保証できないと論じられている。
現在のデータマイニングはプライバシーの権利に違反しており、人々による個人情報へのアクセスに関する標準的な法的制約を課すべきである、と結論付けている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:01:42 GMT)
Unitary operator bases as universal averaging sets [0.0] 我々は、量子状態上のより一般的な操作に対して、有限平均化をカバーするようなユニタリ設計のアイデアを一般化する。
すなわち、任意の簡約リー群上の量子状態平均化のための有限平均化集合を、その群のコンパクト成分上で平均化が均一に実行されるという条件で構成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:19:16 GMT)
Two-Photon Resonance Fluorescence in a Three-Level Ladder-Type Atom [0.0] 我々は、コヒーレントフィールドによって駆動される3レベルラダー型原子を考える。
2光子共鳴によって駆動されると、原子は最高エネルギー状態に励起される。
このスペクトルは、原子の服装状態間の遷移に対応する7つの異なる周波数を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:01:00 GMT)
Tunable non-Markovian dynamics in a collision model: an application to coherent transport [0.0] 非マルコビアン性の異なる環境に結合したシステムの情報力学について検討する。
システム-環境結合確率と非マルコフ性度がプロセスにどのように影響するかを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:59:52 GMT)
Topological order in symmetric blockade structures [0.0] 単純な遮断電位を介して相互作用する2レベル系の2次元および3次元構造について検討する。
本研究は,2体相互作用のみを有するシステムにおいて,局所対称性を顕微鏡レベルで実装することに基づく。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:20:09 GMT)
Theoretical Limits of Protocols for Distinguishing Different Unravelings [0.0] 提案手法を適用すれば, 解答依存量の計算は, 解答処理を施す前にのみ行うことができることを示す。
解答に依存しない量は数学レベルでは確かに異なるが、解答を実行する測定手順がすでに与えられた時点でのみ計算可能であることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:27:24 GMT)
The study of double kicked top: a classical and quantum perspective [0.0] 本稿では、標準的な量子キックトップ(QKT)モデルの拡張であるダブルキックトップ(DKT)モデルについて検討する。
我々は、最も大きなリャプノフ指数(LLE)とコルモゴロフ-シナイエントロピー(KSE)を計算して得られる固定点、その安定性、検証結果について議論する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:05:02 GMT)
Text2Model: Generating dynamic chemical reactor models using large language models (LLMs) [0.0] ユーザ入力としてのテキスト記述から,Modelicaのコード形式で動的化学反応器モデルを生成する。
Llama 3.1 8B 異なる反応器のシナリオに対して合成生成された Modelica 符号の指示を微調整する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:09:34 GMT)
Tensor Cross Interpolation of Purities in Quantum Many-Body Systems [0.0] 量子多体系において、自由度数のヒルベルト空間の指数的スケーリングは完全な状態特徴づけを与える。
近年, 量子波動関数の振幅をエンタングルメント関数として符号化することで, サブリージョンの純度をコンパクトに保存する方法が提案されている。
本研究では, 絡み合い特性が, 自由度数において, サンプル量だけを用いて効率的に定義できることを実証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:33:00 GMT)
Temporal-Spatial Attention Network (TSAN) for DoS Attack Detection in Network Traffic [0.0] 本稿では、ネットワークトラフィックにおけるDoS攻撃を検出するための、新しい時間空間注意ネットワーク(TSAN)アーキテクチャを提案する。
ネットワークトラフィックの時間的特徴と空間的特徴を両立させることで,従来の手法が見逃すような複雑なトラフィックパターンや異常を捉える。
NSL-KDDデータセットの実験結果は、TSANが最先端モデルより優れていることを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:40:15 GMT)
Survey of City-Wide Homelessness Detection Through Environmental Sensing [0.0] アメリカにおけるホームレスの危機は、複雑な社会、経済、公衆衛生の課題を提起している。
従来のアセスメント手法は、その動的で分散した性質を捉えるのに苦労しており、スケーラブルでデータ駆動型検出の必要性を強調している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 02:55:51 GMT)
Suppression of coherent errors during entangling operations in NV centers in diamond [0.0] ダイヤモンド中の窒素空孔(NV)中心におけるエンタングリング操作について検討した。
我々は,最先端のCNOTゲートスキームにおいて,両方のエラー源を完全に抑制できる同期効果に基づくプロトコルを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:50:57 GMT)
Stochastic inflation and entropy bound in de Sitter spacetime [0.0] 因果接続領域内のエントロピーは、その表面積によって境界づけられる。
インフレにおけるハッブルサイズの領域の絡み合いエントロピーの挙動を反映した,インフラトン場の確率分布のシャノンエントロピーを解析した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:41:04 GMT)
Spontaneous symmetry emergence in a Hermitian system of coupled oscillators without symmetry [0.0] 系状態がハミルトニアン系に固有の対称性を得られることを示す。
対称性の出現は系力学の変化として現れ、対称性に欠けるエルミート系の相転移と解釈できる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:15:20 GMT)
Simulation of Quantum Entanglement and Quantum Teleportation for Advanced Networks [0.0] 本稿では,Barrett-Kokプロトコルを用いた2つの量子メモリ間の絡み合い生成のシミュレーションに焦点を当てた。
伝送状態の忠実度に及ぼす誤り操作やその他の要因の影響を解析した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 06:23:10 GMT)
Separation capacity of linear reservoirs with random connectivity matrix [0.0] ランダムな線形貯水池の容量を定量化し、異なる入力時系列を分離可能な貯水池状態にマッピングする。
I.d.の場合、貯水池マトリックスの成分が1/sqrtN$の正確な係数でスケールされたときに、大きな貯水池との最適分離が一貫して達成されることを確かめる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:21:08 GMT)
Semi-supervised Cervical Segmentation on Ultrasound by A Dual Framework for Neural Networks [0.0] 本研究では,デュアルニューラルネットワークを統合した新しい半教師付き学習(SSL)フレームワークを提案する。
機能学習能力を高めるために,一対の深層表現を用いた自己教師型コントラスト学習戦略が導入された。
本フレームワークは頚椎分割作業における競争性能を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:16:44 GMT)
Rude Humans and Vengeful Robots: Examining Human Perceptions of Robot Retaliatory Intentions in Professional Settings [0.0] 本稿では,共同作業環境において参加者を没入させるために,ユニークな一対一視点ビデオを用いた2×3オンライン実験の結果を報告する。
結果は,人間の行動に拘わらず,ロボットが社会的期待に応えて行動することが期待されている一方で,人間の無礼な面において,ロボットが大きな人間であると認識されるメリットがあることを明らかにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:12:40 GMT)
Revisiting End To End Sparse Autoencoder Training -- A Short Finetune is All You Need [0.0] 重要な評価基準は、モデルアクティベーションをSAE再構成に置き換える際のクロスエントロピー損失の増加である。
最近の研究は、KL発散とMSE("end-to-end" SAE)を併用したSAEのトレーニングを導入している。
そこで本稿では,KL+MSEの微調整を最終25Mのトレーニングトークンにのみ適用し,これと同等な改善を実現するための簡単なステップを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:15:49 GMT)
Recoil-induced errors and their correction in photon-mediated entanglement between atom qubits [0.0] 任意の光学モードに結合した自然放出に対する原子運動の影響について検討する。
我々は、フォトニックウェーブパケットの各瞬間に関連付けられた「キック演算子」という形で、コヒーレントな物理画像に到達する。
この補正手法は、原子の熱運動に伴うオーバーヘッドを除去し、長距離量子ネットワークリンクの絡み合いを著しく増大させる可能性がある。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:13:10 GMT)
Quantum mechanics based on real numbers: A consistent description [0.0] 複合量子系に関する物理的動機付けされた仮定は、実数に基づいて量子力学を構築することができることを示す。
実数値量子力学はファルシフィケートできないので、複素数の使用は利便性の問題である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:56:30 GMT)
Quantum geometric tensors from sub-bundle geometry [0.0] ベクトルバンドルの微分幾何学的枠組みを用いて、パラメータ依存量子状態の特性を解析する。
部分バンドル幾何学はリーマン幾何学の部分多様体と類似していることを示し、ガウス・コダッツィ=マイナルディ方程式の一般化によって記述される。
このことは、さらなる曲率寄与を含む量子幾何テンソルの新たな定義につながる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:08:06 GMT)
Quantifying Trapped Magnetic Vortex Losses in Niobium Resonators at mK Temperatures [0.0] ニオブ中のトラップされた磁気渦は超伝導デバイスにマイクロ波損失をもたらすことがある。
ミリケルビン温度まで低下するニオブ系量子デバイスにおいて,磁気渦による損失を初めて定量化する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:56:20 GMT)
Privacy Ethics Alignment in AI: A Stakeholder-Centric Based Framework for Ethical AI [0.0] 本研究は、デジタル市民(年齢16-19)、両親/教育者、AI専門家の3つの主要なステークホルダーグループにわたる、プライバシー上の懸念の進化について調査する。
若者は自主性とデジタルの自由を強調し、保護者と教育者は規制監督とAIリテラシープログラムを提唱する。
このデータは、AIリテラシーと透明性のギャップをさらに強調し、ステークホルダー主導のプライバシーフレームワークの必要性を強調している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:54:33 GMT)
Privacy Enhanced QKD Networks: Zero Trust Relay Architecture based on Homomorphic Encryption [0.0] 量子鍵分布(QKD)は、非条件で安全な対称鍵交換を可能にする。
従来のソリューションは信頼できるリレーノードに依存しており、ワンタイムパッド(OTP)暗号化を使用して鍵を中間的に再暗号化する。
完全同相暗号(FHE)を適用したゼロトラストリレーの設計法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:20:06 GMT)
Principal Component Analysis When n < p: Challenges and Solutions [0.0] 主成分分析は高次元データの複雑さを軽減するための重要な手法である。
標準主成分分析は高次元シナリオにおける次元還元手法として不十分に機能する。
本稿では,ペア差分共分散推定と呼ばれる新しい推定法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:33:52 GMT)
Powerful Primitives in the Bounded Quantum Storage Model [0.0] 有界量子ストレージモデルは、量子メモリのみに制限された計算上の敵に対するセキュリティを実現することを目的としている。
我々は、以下の強力なプリミティブに対して、このモデルで情報理論の安全な構成を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:12:07 GMT)
Physics-Informed Neural Network Surrogate Models for River Stage Prediction [0.0] PINNは、単一河川での訓練において、HEC-RAS数値解をうまく近似することができる。
モデルの性能を精度と計算速度の観点から評価する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:48:22 GMT)
Persistent oscillation of a Cooper-pair condensate of topological defects in a nonintegrable quantum Ising chain [0.0] 非可積分量子イジング鎖における持続振動を同定する。
'zigzag' では、イジングチェーンの欠陥はクーパー対を形成することができる。
キンクのクーパー対凝縮のこの振動は、量子コヒーレンス(英語版)の表れである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:52:18 GMT)
Optimizing Cycle Life Prediction of Lithium-ion Batteries via a Physics-Informed Model [0.0] 商業用リチウムイオン電池のサイクル寿命を正確に測定することは、性能と技術開発に不可欠である。
本稿では, 物理式と自己保持モデルを組み合わせて, 商業用リチウムリン酸リチウムグラファイトセルのライフサイクル寿命を早期サイクルデータで予測するハイブリッド手法を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:46:26 GMT)
Opportunities and Challenges of Frontier Data Governance With Synthetic Data [0.0] 合成データがもたらす3つの重要なガバナンスと説明責任の課題を特定します。
相関学習, バイアス緩和, 値強化に対する合成データの適用性について検討した。
これらは合成データのリスクに対処するだけでなく、将来のフロンティアの統治にとって重要なレバーとして機能する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 00:30:17 GMT)
Operational equivalence and causal structure [0.0] 量子力学のオントロジモデルが、運用上等価な測定のクラスからどの測定を選択するかに依存していることを示します。
最初の3つの例(古典理論、EPR-Bellシナリオ、Poposcu-Rochlichボックス)を取ります。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:43:41 GMT)
Nonperturbative decay of bipartite discrete time crystals [0.0] 我々は、周期的に駆動される量子イジングモデルにおいて、乱れのない装飾された格子上での予熱時間-結晶秩序について研究する。
有限エンタングルメントスケーリングにより, 熱力学限界において, 系が指数的に長寿命なサブハーモニック応答を持つことを示す。
その結果、現在のデジタル量子プロセッサやアナログ量子シミュレータで実現可能な様々な時間結晶が明らかになった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:28:49 GMT)
Nonadiabatic master equation for a linearly driven harmonic oscillator [0.0] 線形駆動型量子高調波発振器に対するマルコフのマスター方程式を導出する。
本研究では,高速運転の過程におけるアディバティック・マスター方程式からの逸脱について検討する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:07:44 GMT)
Network reconstruction via the minimum description length principle [0.0] 階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:18:30 GMT)
Multi-Neuron Representations of Hierarchical Concepts in Spiking Neural Networks [0.0] 階層的概念が階層型ニューラルネットワークの3つのタイプでどのように表現できるかを説明する。
目的は、概念に関する部分的な情報が提示されたときや、ネットワーク内のいくつかのニューロンが失敗したときの認識を支援することである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:26:11 GMT)
Model-free front-to-end training of a large high performance laser neural network [0.0] オフザシェルフコンポーネントを用いた完全自律並列光ニューラルネットワーク(ONN)を実演する。
我々のONNは高効率で、ネットワークサイズと推定帯域幅の両方で、GHzレンジに向けてスケーラブルです。
我々は,ハードウェアリソースの制限下であっても,ONNが高精度かつ収束効率を実現できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:43:02 GMT)
Mode hitching in traveling-wave optical parametric amplification [0.0] 本研究は,信号とアイドラービームの古典的横方向ダイナミクスに着目した。
固定された分離を維持しながら、ビームが共伝播する傾向を示し、これはヒッチングと呼ばれる現象である。
その結果,マルチ空間モード励起光の量子イメージングへの応用が示唆された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:13:16 GMT)
Meme Similarity and Emotion Detection using Multimodal Analysis [0.0] 本研究は,メメオの視覚的要素とテキスト的要素の両方を分析し,多モーダルな方法論的アプローチを採用する。
我々は、類似のミームペアを特定するために、低レベル視覚特徴と高レベル意味特徴を抽出する。
結果は、怒りと喜びがミームにおける支配的な感情であり、動機的なミームはより強い感情的反応をもたらすことを示している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:07:16 GMT)
Making Truncated Wigner for dissipative spins 'plain easy' [0.0] 我々は、散逸した量子多体システムのためのTWA(Truncated Wigner approximation)のユーザフレンドリーなフレームワークを提唱した。
私たちのアプローチは計算に手頃な価格で、簡単な実装が特徴です。
我々は、TWAが、消費者コンピュータ上で駆動散逸多体ダイナミクスを高速かつ効率的に探索するための主要なツールになり得ると論じる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:00:00 GMT)
MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.0] 本稿では、3つのキーコンポーネントを統合したMSCA-Netという新しいネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:42:31 GMT)
Leveraging V2X for Collaborative HD Maps Construction Using Scene Graph Generation [0.0] HDマップは自動運転車のナビゲーションにおいて重要な役割を担い、精度と安全性を向上させるために搭載された知覚センサーを補完する。
従来のHDマップ生成は、コストがかかりリアルタイムのインフラ変更をキャプチャできない専用のマッピング車両に依存している。
本稿では,V2X通信とScene Graph Generationを利用する新しいフレームワークであるHDMapLaneNetについて述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:34:23 GMT)
Lanczos-Pascal approach to correlation functions in chaotic quantum systems [0.0] 単純性を実現するランツォス係数の構造は、演算子成長仮説と一致している。
本稿ではLanczos係数から力学への近似を明示的に構築する手法を提案する。
熱力学限界の系には考慮が当てはまるが、我々は我々の近似を、大だが有限の量子系に対する最先端の数値と比較する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:05:03 GMT)
Jitter in photon-number-resolved detection by superconducting nanowires [0.0] 超伝導ナノワイヤ単光子検出器(SNSPD)における多光子吸収の物理解析
我々のモデルは、数桁にわたる商業SNSPDの到着時刻ヒストグラムの優れた記述を提供する。
本研究は,光子数分解型検出器の設計や低ジッタの応用に重要な意味を持つ。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:50:47 GMT)
Inteligencia Artificial para la conservación y uso sostenible de la biodiversidad, una visión desde Colombia (Artificial Intelligence for conservation and sustainable use of biodiversity, a view from Colombia) [0.0] 本論文は,コロンビアとネオトロピックに焦点をあてた視点から,この研究領域の範囲を分析することを目的としている。
本稿では,画像や記録からの自動種識別,種モデリング,シリコバイオプロスペクションなどの用途について紹介する。
また、現地の文脈におけるAIの責任と倫理的採用を促進する政策の開発に関する対話の場を開こうとしている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 01:10:08 GMT)
How well behaved is finite dimensional Diffusion Maps? [0.0] 有限次元およびほぼ等距離拡散写像(DM)の後に有効である一連の性質を導出する。
DM埋め込み後の部分多様体上の推定接空間と真の接空間との誤差を定量化する。
これらの結果は,実践的応用におけるDMの性能と信頼性を理解するための確固たる理論的基盤を提供する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:28:31 GMT)
GreenIQ: A Deep Search Platform for Comprehensive Carbon Market Analysis and Automated Report Generation [0.0] GreenIQは、炭素市場のインテリジェンスに革命をもたらすために設計された、AIによるディープ検索プラットフォームである。
システムは構造化情報と非構造化情報のシームレスな統合とAIによる引用検証を実現する。
新たなAIペルソナベースの評価フレームワークは、その優れた断定的分析能力を強調している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:33:33 GMT)
Graph Masked Language Models [0.0] 言語モデル (LM) とグラフニューラルネットワーク (GNN) はそれぞれの分野で大きな可能性を示している。
EmphGraph Masked Language Models (GMLM) は、GNNの構造学習と事前訓練された言語モデルの文脈パワーを組み合わせた、新しい二重ブランチアーキテクチャである。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:42:49 GMT)
Governance of Ledger-Anchored Decentralized Identifiers [0.0] 分散ID(Decentralized Identifier)は、エンティティにユニークな自己発行の識別子の制御を証明する権限を与える。
本稿では、DIDの管理の意味を考察し、複数のエンティティによってDIDを制御できる様々な形態について論じる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:41:12 GMT)
Generative adversarial framework to calibrate excursion set models for the 3D morphology of all-solid-state battery cathodes [0.0] 本稿では,低パラメトリック幾何モデルを用いて,機能性材料の仮想3次元形態を生成する手法を提案する。
これらのデジタルツインは、仮想材料テストのためにデプロイできる様々な形態をシミュレートするために、体系的なパラメータのバリエーションを可能にする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:18:15 GMT)
Fundamental limits on determination of photon number statistics from measurements with multiplexed on/off detectors [0.0] 線形プログラムを解くことにより,光子数確率の上限値と上限値が決定可能であることを示す。
熱状態,コヒーレント状態,圧縮状態,および非古典的な単光子減圧真空状態を含む各種入力状態に関する数値計算結果について述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:50:21 GMT)
Exploring the Efficacy of Partial Denoising Using Bit Plane Slicing for Enhanced Fracture Identification: A Comparative Study of Deep Learning-Based Approaches and Handcrafted Feature Extraction Techniques [0.0] ビット平面スライシングは、ノイズ干渉を低減し、情報的特徴を抽出することにより、医療画像を強化する。
本研究は, フラクチャー解析改善のための解を提供するための部分的 denoising 技術について検討する。
この研究の結果は、効率的な前処理の開発に関する貴重な洞察を与えてくれる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:39:21 GMT)
Evolving the Computational Notebook: A Two-Dimensional Canvas for Enhanced Human-AI Interaction [0.0] Computational Canvasは、ノートブックを進化させ、データ分析とAI支援開発を強化する新しい2次元インタフェースである。
我々は、自由に配置可能なコードセル、別々の環境、出力管理の改善など、重要な機能を紹介します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:29:05 GMT)
Einstein's Cat -- A Thought Experiment Against Anti-Relativist Claims [0.0] 反相対論者の中には、時間拡張は光時計に適用されると考える者もいる。
時間拡張は、光時計と全く同じ方法で機械時計に適用されなければならないと我々は主張する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:53:39 GMT)
EVSOAR: Security Orchestration, Automation and Response via EV Charging Stations [0.0] 自動車のサイバーセキュリティは、自動車産業のイノベーションが引き起こす重要な懸念として浮上している。
これらの課題に対処するための現在の取り組みは、車両の限られた計算資源によって制限されている。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:48:29 GMT)
Dual-Mode Calorimetric Superconducting Nanowire Single Photon Detectors [0.0] 従来のガイガーモードでは、センサーは臨界温度Tcよりかなり低い温度で作動する。
温度測定モードでは、検出器はTCの直下温度で動作し、15から250光子エネルギー相当の範囲でカロリー測定感度を表示する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 03:03:34 GMT)
Different Paths, Same Destination: Designing New Physics-Inspired Dynamical Systems with Engineered Stability to Minimize the Ising Hamiltonian [0.0] OIMと同様に、Ising Hamiltonian を最小化するが、動的特性が著しく異なる新しい力学系である Dynamical Ising Machine (DIM) を導入する。
本研究は,異なる性質を持つ複数の力学系を用いて同一のCOPを解くことにより,ロバストな解を生成するとともに,入力グラフに敏感でない効果的な手法が実現できることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:24:22 GMT)
Developing Critical Thinking in Second Language Learners: Exploring Generative AI like ChatGPT as a Tool for Argumentative Essay Writing [0.0] 本研究は,Paul-Elder critical Thinking ModelとTanの論証的記述フレームワークを用いて,構造化された方法論を作成する。
モデルとChatGPTの機能を統合し、L2学習者をChatGPTを利用して批判的思考能力を高める。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:22:58 GMT)
Deterministic AI Agent Personality Expression through Standard Psychological Diagnostics [0.0] 確立された心理学的枠組みを用いて、AIモデルは決定論的かつ一貫した個性を表現することができることを示す。
GPT-4oやo1のようなより高度なモデルは、特定の個性を表現する上で最も正確であることを示している。
これらの発見は、多様で一貫した個性を持つAIエージェントを作成する基盤を確立する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:12:05 GMT)
Determining the N-representability of a reduced density matrix via unitary evolution and stochastic sampling [0.0] この研究は、N-表現性条件を効果的に置き換えるためのハイブリッド量子確率アルゴリズムを導入する。
結果として得られるアルゴリズムは、基礎となるハミルトニアンとは独立であり、与えられた p-体行列が N-表現可能であるかどうかを決定するのに使うことができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:52:22 GMT)
Dense Passage Retrieval in Conversational Search [0.0] 本稿では,2つのエンコーダを用いて,リアルタイムに効率的にインデックス化およびクラスタ化が可能なコンテキスト埋め込みを生成する,高密度検索と呼ばれる新しい手法を提案する。
GPT2QR+DPRと呼ばれるエンドツーエンドの会話検索システムを提案する。
本研究は,会話検索におけるニューラルベース検索手法の研究の進展に寄与し,会話検索システムにおける検索精度向上における高密度検索の可能性を強調した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:39:31 GMT)
Deep Learning model integrity checking mechanism using watermarking technique [0.0] モデル透かし技術を用いてMLモデルの整合性を監視するモデル整合性検査機構を提案する。
提案手法は,計算コストの低い新しいデータに対して,モデルをさらに訓練した場合でも,MLモデルの完全性を監視することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 19:03:13 GMT)
Decentralization: A Qualitative Survey of Node Operators [0.0] ブロックチェーンノードオペレータから‘分散化’と‘分散化劇場’の定義を求めます。
ほとんどのオペレータは、技術的な軸とガバナンス軸に広く存在するものとして、分散化を考えている。
私たちの重要な発見は、分散化だけでは台帳の不変性やシステム的堅牢性に影響を与えないということです。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:51:38 GMT)
Data-driven measures of high-frequency trading [0.0] 高周波取引(HFT)は株式取引量のほぼ半分を占める。
我々は流動性を供給・要求する戦略を分離するHFT活動のデータ駆動型尺度を開発した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:31:44 GMT)
DLEN: Dual Branch of Transformer for Low-Light Image Enhancement in Dual Domains [0.0] 低照度画像強調(LLE)は、低照度条件下で撮影された画像の視覚的品質を改善することを目的としている。
これらの問題は、物体検出、顔認識、自律運転などのコンピュータビジョンタスクのパフォーマンスを妨げる。
本稿では,2つの異なる注意機構を組み込んだ新しいアーキテクチャであるDual Light Enhance Network(DLEN)を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:49:32 GMT)
DINO-LG: A Task-Specific DINO Model for Coronary Calcium Scoring [0.0] 冠動脈疾患(CAD)は世界中で死亡率の高い疾患の一つである。
UNETアーキテクチャをベースとした従来の方法では、冠動脈カルシウム(CAC)を含む注記CTスキャンの不足など、課題に直面している。
本研究では,DINOの自己教師型学習(SSL)技術を取り入れることで,これらの制約に対処する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:06:08 GMT)
Curriculum RL meets Monte Carlo Planning: Optimization of a Real World Container Management Problem [0.0] 我々は, 廃棄物処理施設における安全かつ効率的なコンテナ管理を確保するため, 推論時衝突モデルによる強化学習を強化した。
実験結果から,本手法は衝突回避,安全限界違反の低減,スループットの維持,コンテナ対PU比の効率向上に有効であることがわかった。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:43:11 GMT)
Cosmic muon flux attenuation methods for superconducting qubit experiments [0.0] 超伝導量子ビットを含む実験と互換性のある宇宙ムーンフラックスを減衰させる2つの実用的な緩和法を提案し,実証する。
特別に構築された宇宙ムーン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ムーンフラックスの大きな減衰を達成できる。
地上実験室では2つのゲルマニウムウェハを用い,それぞれに粒子センサを装着し,天空に対するチップの配向が基板上に堆積したエネルギー量と種類にどのように影響するかを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 10:27:51 GMT)
ConvoGen: Enhancing Conversational AI with Synthetic Data: A Multi-Agent Approach [0.0] マルチエージェントシステムを用いて合成会話データを生成するための革新的なフレームワークであるConvoGenを提案する。
生成されたデータには、対話型AIモデルのトレーニングや評価など、多数のアプリケーションがある。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:14:12 GMT)
Controlled Floquet Dynamics and Topological Bound States in Continuum via Colored Quantum Random Walks [0.0] 正方形格子上の2次元色付き量子ランダムウォーク(cQRW)におけるフロケ状態の出現と制御を実証する。
我々は3つの異なるトポロジカルバンドを同定し、Floquet状態の自然形成の基礎となる重要なメカニズムとして色誘起バンドの混合を明らかにした。
我々は,cQRWをTBICやFloquet状態の調査・活用の強力なプラットフォームとして位置づけ,量子情報や通信技術への応用の可能性を示した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 16:04:16 GMT)
Controllable Single Photon Scattering via Coupling of Driven $Λ$ System with Topological Waveguide [0.0] 我々は、トポロジカル導波路におけるコヒーレント単一光子散乱過程と、駆動された$Lambda$システムについて検討した。
3つの異なる部分格子サイトに対する散乱形式を用いた透過率解析式を導出する。
本研究は,量子スイッチ,センサ,通信デバイスなどの量子技術への応用により,システムの堅牢性とチューニング性を高める方法である。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:22:44 GMT)
Continuous spontaneous localization as the white-noise limit of spontaneous unitarity violation [0.0] 色付きノイズ駆動崩壊理論は、自発的対称性の破れの平衡記述をユニタリティの自発的な破れに拡張する。
この限界は、空間的局所化エネルギー固有状態に基づいて崩壊する連続自発局所化(CSL)モデルのサブクラスと一致することを示す。
さらに、SUVモデルについて、マルコフ極限におけるボルンの規則統計の出現は、ゆらぎ-散逸関係によってもたらされることを示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:21:49 GMT)
Constrained multi-fidelity Bayesian optimization with automatic stop condition [0.0] 制約付きコスト対応多要素BO(CMFBO)フレームワークを開発した。
我々のゴールは、安価な低忠実度源を有効性を確保しつつ利用することで、全体のサンプリングコストを最小化することである。
また,BOの収束評価に伴う長期的課題に対処する系統的な停止基準を導入する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 22:41:37 GMT)
CoRLD: Contrastive Representation Learning Of Deformable Shapes In Images [0.0] 変形空間における変形可能な形状のコントラスト表現学習(CoRLD)を提案する。
実脳MRI(Real Brain MRI)やCT(Computed Tomography)スキャンから得られた副腎形状など,さまざまなデータセットを用いてCoRLDを検証する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:06:23 GMT)
CleanStack: A New Dual-Stack for Defending Against Stack-Based Memory Corruption Attacks [0.0] CleanStackは効率的で、互換性が高く、包括的なスタック保護システムである。
CleanStackは、他の安全なスタックオブジェクトからの外部入力に影響されたスタックオブジェクトを分離する。
攻撃者がスタックレイアウトを予測できないようにすることで、非制御データアタックを緩和する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 08:55:17 GMT)
Chameleon: Mixed-Modal Early-Fusion Foundation Models [0.0] 任意の任意の順序で画像やテキストを理解・生成できる早期融合トークンベースの混合モードモデル群を提示する。
モデルは、視覚的質問応答、画像キャプション、テキスト生成、画像生成、長期混合モーダル生成など、包括的なタスクに基づいて評価される。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 05:54:00 GMT)
Birds of a Feather Undermine Equity: A Strategy to Align Intent and Outcome in Team-Based Learning in Higher Education [0.0] 学生がチームベースの学習タスクのために独自のチームを作るとき、彼らは意図せずに同様の社会経済的背景を持つ仲間とクラスタリングする。
本研究は,学生の社会経済的背景と自己認識的準備を定量的に反映し,チーム形成を促進するためのシンプルな戦略を提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:45:25 GMT)
Autonomous AI imitators increase diversity in homogeneous information ecosystems [0.0] 大規模言語モデル(LLM)の最近のブレークスルーは、人間が生成したコンテンツを模倣できる自律型AIエージェントを促進している。
本稿では,ニュースにおけるAIによる模倣を検証するための大規模シミュレーションフレームワークを提案する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:35:52 GMT)
Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks [0.0] 本研究は,財務・会計研究における大規模言語モデル(LLM)出力の整合性と精度の総合評価を初めて行った。
3つのOpenAIモデルを使用して、さまざまな財務資料やデータから340万以上のアウトプットを生成します。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 09:43:37 GMT)
Architecture of Information [0.0] フォーマルニューロンと多層人工ニューラルネットワーク(ANN)のエネルギー景観構築へのアプローチを探る。
フォーマルニューロンとANNモデルにおける情報的および熱力学的エントロピーの研究は、情報的エントロピーのエネルギー的性質に関する結論をもたらす。
本研究は, システムの内部エネルギーと外部エネルギーの相互作用プロセスの観点から, 情報の形式的定義を定式化できるようにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 14:48:41 GMT)
Application of linear regression method to the deep reinforcement learning in continuous action cases [0.0] LeineらによりLast Squares Deep Q Network (LS-DQN)法が提案された。
本稿では,この制限に対応するために,Double Least Squares Deep Deterministic Policy Gradient (DLS-DDPG)法を提案する。
MuJoCo環境での数値実験により、少なくともいくつかのタスクにおいてLR更新により性能が向上したことが示された。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:40:42 GMT)
Analytically exact solution of the Schrodinger equation for neutral helium in the ground state [0.0] 本報告では, 基底状態中の中性ヘリウムあるいはヘリウム様原子に対するシュロディンガー方程式の解析解とその対応する波動関数について述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 21:49:50 GMT)
An Integrated Approach to Robotic Object Grasping and Manipulation [0.0] 本研究は、棚から特定のアイテムを効率的に選択することにより、シミュレーションされた順序を自律的に達成できる革新的なロボットシステムを開発する。
提案するロボットシステムの際立った特徴は、棚のそれぞれの箱内の不確実な物体の位置の挑戦をナビゲートする能力である。
このシステムは、そのアプローチを自律的に適応するよう設計されており、望まれるアイテムを効率的に見つけ、取り出すための戦略を採用している。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:00:22 GMT)
An Accelerated Bregman Algorithm for ReLU-based Symmetric Matrix Decomposition [0.0] 本稿では,正則線形単位(ReLU)アクティベーション関数を用いて,非負およびスパース行列の低ランク構造を活用することに焦点を当てる。
本稿では,ReLUに基づく非線形対称行列分解(ReLU-NSMD)モデルを提案し,その解に対して高速化された交互部分ブレグマン(AAPB)法を導入し,アルゴリズムの収束結果を示す。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 04:32:53 GMT)
Affective Polarization Amongst Swedish Politicians [0.0] 本研究では,2021年から2023年までのスウェーデンの政治家のTwitter上での感情分極について検討した。
グループ内が党レベルで定義されると、否定的な党派が圧倒的に支配的になる。
否定的な党派は、オンラインの可視性にとって戦略的選択であることを証明し、3.18以上のお気に入りと1.69以上のリツイートを惹きつける。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 11:50:08 GMT)
Adiabatic Fine-Tuning of Neural Quantum States Enables Detection of Phase Transitions in Weight Space [0.0] 我々は,位相図上でNQSを訓練し,異なるモデル間で強く相関する重み表現をもたらすアディバティック微調整を導入する。
この重み空間の相関により、トレーニングされたネットワーク重みだけを解析することによって量子系の相転移を検出することができる。
この結果は,物理相転移とニューラルネットワークパラメータの幾何の関連性を確立し,物理における機械学習モデルの解釈可能性の新しい方向性を開拓する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:42:11 GMT)
Absence of barren plateaus and scaling of gradients in the energy optimization of isometric tensor network states [0.0] 広いハミルトンと有限範囲の相互作用を持つ量子多体系のエネルギー問題を考える。
行列積状態,木テンソルネットワーク,およびマルチスケールエンタングル化再正規化アンサッツに対する変分最適化問題は,バレンプラトーを含まないことを証明した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:46:34 GMT)
A quantum wire approach to weighted combinatorial graph optimisation problems [0.0] 我々は、中性原子アーキテクチャと互換性のあるレイアウトに最適化問題を埋め込むために、量子ワイヤと呼ばれるRydbergブロックされた原子の連鎖に基づく効率的なスキームを提案する。
我々の研究は、既存のツールキットを拡張して、大規模な最適化問題を解決するために中性原子配列の潜在的使用の可能性を探る。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 13:00:51 GMT)
A physics-informed transformer neural operator for learning generalized solutions of initial boundary value problems [0.0] 物理インフォームドトランスニューラル演算子を開発し,初期条件と境界条件を効率よく一般化する。
PINTOモデルは、トレーニングコロケーションポイントに含まれない時間ステップにおける対流とバーガースの方程式を正確に解くことができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 07:14:56 GMT)
A method for determining the Zeeman splitting of a spin qubit via Rabi-driven tunneling [0.0] 量子ドット中の電子スピン量子ビットのスピンアップとスピンダウン状態の間の共鳴駆動は、チューニングされた鉛への漏れによるドットの占有を減少させることを示す。
ドットの占有度を計測する近傍の電荷センサは、駆動周波数を網羅する際、狭い共鳴状態を検出することができる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:50:37 GMT)
A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas [0.0] 我々は、"interior function"と呼ばれる形状記述子を導入する。
この概念を用いて, コングロメレーションなどの腫瘍における壊死の幾何学的特徴を定量化する新しい指標である, サブコンプレックスラクナリティを定義する。
Glioblastomas (GB) のMRI研究におけるこの枠組みの応用について述べる。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 17:32:01 GMT)
A Quantum Information Perspective on Many-Body Dispersive Forces [0.0] 絡み合いモノガミーが、ペアポテンシャルに対する多体補正が魅力的、反発的、あるいはゼロであるかどうかをいかに決定するかを示す。
これらの結果はトリマーや拡張格子で示され、分散が他の凝集力と共存するより一般的な化学環境に適用される。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 18:54:24 GMT)
A Greedy Quantum Route-Generation Algorithm [0.0] 本稿では,量子コンピュータから得られた全てのサンプルからの情報を用いて,経路を生成するグリーディアルゴリズムを提案する。
有向非巡回グラフ (DAG) としての定式化における量子ビットの関係に気付き, 実現可能な解を適応的に構築するアルゴリズムを設計した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 23:34:22 GMT)
A Digital Machine Learning Algorithm Simulating Spiking Neural Network CoLaNET [0.0] CoLaNET (Collumnar Layered Network) SNNアーキテクチャが発明された。
このアーキテクチャの特徴は、異なるクラスに対応するプロトタイプネットワーク構造の組み合わせである。
これを容易にするために,CoLaNETの挙動を精度よく近似する連続数値(非スパイキング)機械学習アルゴリズムを開発した。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 12:55:24 GMT)
A Closed Form for Moment-Based Entanglement Tests Associated to the PPT Criterion [0.0] 絡み合いテストを定義する不等式に対して閉形式を提供する。
部分変換によって誘導される重み付きグラフ上のグラフ理論条件の等価な集合を生成する。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 20:17:22 GMT)
$\mathrm{SU}(3)$ Fermi-Hubbard gas with three-body losses: symmetries and dark states [0.0] 現場での3体損失を受けたフェルミ・ハバードガスについて検討した。
モデルは8つの独立した強い対称性を示し、気体の完全な枯渇を防ぐ。
半標準ヤングテーブルロー状態の基底を利用することで、定常状態の豊富な現象論の存在を明らかにする。
論文参考訳(メタデータ) (Fri, 21 Mar 2025 15:23:57 GMT)