EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.4] EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:51:04 GMT)
Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective [100.5] 分類器なし誘導と分類器なし誘導の両方が,微分拡散軌道を決定境界から遠ざけることによって条件付き生成を実現することがわかった。
本研究では,フローマッチングをベースとした汎用的な後処理ステップを提案し,事前学習した復調拡散モデルに対する学習分布と実データ分布とのギャップを小さくする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:59 GMT)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.8] ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:29:17 GMT)
Uni-Sign: Toward Unified Sign Language Understanding at Scale [90.8] 本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。
Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:51:29 GMT)
CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.6] CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:42:01 GMT)
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.8] 既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:48:35 GMT)
AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3] AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。
AgiBot Worldは高品質で多様なデータ配信を保証する。
GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:59:16 GMT)
Image Quality Assessment: From Human to Machine Preference [88.0] 本稿では,マシンビジョンにおける画像品質評価について述べる。
ダウンストリームタスクやテストモデル,評価指標など,マシンの主観的な選好を定義した。
また,225万の微粒なアノテーションと30kの参照/歪んだイメージペアインスタンスを含むMPD(Machine Preference Database)を構築した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:58:38 GMT)
ASIDE: Architectural Separation of Instructions and Data in Language Models [87.2] アーキテクチャ上の変更であるASIDEを提案し、モデルが個別の埋め込みを用いて命令とデータを明確に分離できるようにする。
提案手法の有効性を,(1)モデル能力の損失のない命令データ分離スコアを高度に向上させるとともに,(2)専用の安全訓練を必要とせずに,インジェクションベンチマークの競争結果を示すことによって示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:17:17 GMT)
CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.4] ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:35:06 GMT)
Unifying 2D and 3D Vision-Language Understanding [85.8] 2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:56:22 GMT)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.0] 大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:40:34 GMT)
Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed [83.8] AdaGradやAdamのような適応的なステップサイズを持つ手法は、現代のディープラーニングモデルのトレーニングに不可欠である。
AdaGrad/Adam はノイズが重く、高い確率収束性を有することを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:26:57 GMT)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.5] 複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:39:00 GMT)
Towards Understanding Graphical Perception in Large Multimodal Models [80.4] 我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:13:39 GMT)
Reliable Representation Learning for Incomplete Multi-View Missing Multi-Label Classification [78.2] 本稿ではRANKと呼ばれる不完全なマルチビュー欠落型マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
私たちのモデルは、完全なマルチビューマルチラベルデータを扱うだけでなく、欠落したインスタンスやラベルを持つデータセットでも処理できます。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:20:24 GMT)
DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image [77.8] 本研究では,DreamInsertを提案する。
物体の軌道を考慮に入れることで、DreamInsertは見えない物体の動きを予測し、背景映像と調和して融合させ、望まれる映像をシームレスに生成することができる。
さらに重要なのは、DreamInsertはシンプルで効果的で、エンドツーエンドのトレーニングや、よく設計された画像とビデオのデータペアに微調整を加えることなく、ゼロショット挿入を実現していることだ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:20:54 GMT)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.4] 自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:01 GMT)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.4] 既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:03:37 GMT)
Large-scale Pre-training for Grounded Video Caption Generation [74.2] 本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。
本稿では,個々のフレームにまたがるバウンディングボックスで接地したキャプションを,時間的に密度が高く一貫したバウンディングボックスアノテーションに集約する大規模自動アノテーションを提案する。
iGroundと呼ばれる新しいデータセットを導入し、手動で注釈付けされたキャプションと、密集した時間的接地されたバウンディングボックスを備えた3500本のビデオを紹介した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:21:07 GMT)
Content and Salient Semantics Collaboration for Cloth-Changing Person Re-Identification [74.1] 衣服を交換する人物の再識別は、重複しないカメラで同じ人物の衣服の変化を認識することを目的としている。
衣服の外観からの干渉を効果的に軽減し、堅牢なアイデンティティ関連コンテンツと有能なセマンティックス・セマンティックス・マイニング・リファインメント(SMR)を抽出する統合されたセマンティックス・マイニング・アンド・リファインメント(SMR)モジュールを提案する。
提案手法は,3種類の布質変化ベンチマーク上での最先端性能を実現し,先進的な競合相手に対する優位性を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:35:21 GMT)
AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.8] AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:30:59 GMT)
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [68.5] 汎用的なゼロショットゴール指向ナビゲーションのための一般的なフレームワークを提案する。
本稿では,オブジェクトカテゴリ,インスタンスイメージ,テキスト記述など,異なる目標を統一する一様グラフ表現を提案する。
我々のUniGoalは、3つの研究されたナビゲーションタスクに対して1つのモデルで最先端のゼロショット性能を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:48 GMT)
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.3] Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:59 GMT)
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.6] バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
3つのよく研究されたコンピュータビジョンタスクにおける画素・アズ・トークンの有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:12:25 GMT)
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [65.5] 分散エージェントは,世界のエゴセントリックな視点のみを前提として協力しなくてはならない,多エージェント連携の具体化の問題について検討する。
複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。
提案手法を2-4エージェントを用いた3つの挑戦的ベンチマークで評価した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:56:47 GMT)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.9] ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:45:02 GMT)
Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction [64.5] 本稿では,大陸規模のマルチタスクLSTMモデルにおいて,信頼性の総合評価を行う。
本研究は,流域特性に関連するモデル性能格差の系統的パターンを明らかにする。
この作業は、水資源管理のための信頼できるデータ駆動手法を前進させるためのタイムリーな呼びかけとして役立ちます。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:50:50 GMT)
Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology [64.5] 敵対的攻撃は、医療のような重要な分野におけるビジョンモデルに重大な課題をもたらす。
既存の自己監督型逆行訓練手法は、病理像の階層構造を見落としている。
本稿では,これらの特性を活かした階層型自己監督適応訓練(HSAT)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:47 GMT)
Nash Equilibrium Constrained Auto-bidding With Bi-level Reinforcement Learning [64.2] 本稿では,プラットフォームの観点から,自動入札問題の新たな定式化を提案する。
これは、$epsilon$-NE制約の下ですべての広告主の社会的福祉を最大化することを目的としている。
NCB問題は、その制約された二段階構造と、典型的には多くの広告主が関与しているため、重大な課題を提起している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:25:36 GMT)
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [64.0] 本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。
分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。
9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:37:54 GMT)
Long Context Tuning for Video Generation [63.1] Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:40:07 GMT)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.6] ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:43:24 GMT)
DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.2] DataEnvGymは、データ生成エージェントのための教師環境のテストベッドである。
エージェントとデータ生成エンジンを含むシーケンシャルな意思決定タスクとして、データ生成をフレーム化する。
学生は、生成されたデータに基づいて反復的に訓練され、評価され、各イテレーション後にエージェントにフィードバックが報告される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:30:48 GMT)
StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error [60.8] 本稿では,StepMathAgentと呼ばれる,エラーのツリーに基づく新しい数学的プロセス評価エージェントを提案する。
StepMathAgentには、論理ステップセグメンテーション、ステップスコア、スコアアグリゲーション、エラーツリー生成の4つの内部コア操作と、4つの外部拡張モジュールが含まれている。
StepMathBenchの実験では、提案したStepMathAgentは最先端の手法よりも優れており、様々なシナリオに適用可能であることが示されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:02:53 GMT)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.5] MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:59:20 GMT)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.4] 本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:00:31 GMT)
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.1] そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:49:56 GMT)
Information Density Principle for MLLM Benchmarks [59.9] 本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。
1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。
実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:58:41 GMT)
Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing [59.5] 自動知識概念アノテーションと質問表現学習のためのフレームワークであるKCQRLを提案する。
実世界の2つの学習データセット上で、15KTアルゴリズムにまたがるKCQRLの有効性を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:09:14 GMT)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.2] 本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:18:36 GMT)
Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.0] 分散エージェントは、経験的システムの非絶対的実行から平均フィールドゲームにおいて平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
ポリシー情報の交換は,ネットワーク化されたエージェントが,機能近似設定において,独立エージェントと集中エージェントの両方より優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:32:53 GMT)
Networked Communication for Decentralised Agents in Mean-Field Games [59.0] 平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:14:01 GMT)
Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers [58.9] Cosh-DiTは、ハイブリッド拡散変換器を備えた音声合成方式である。
我々は音声拡散変換器を導入し、音声リズムに同期した表現的ジェスチャーダイナミクスを合成する。
生成した音声駆動動作に条件付きリアルな映像合成を行うために,視覚拡散変換器を設計する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:36:05 GMT)
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models [58.8] 動的シーンにおいて,時間に依存しない,あるいは時間に敏感なオープン語彙クエリを効率的に処理するために,4D言語フィールドを学習する4D LangSplatを提案する。
4D LangSplatは視覚機能から言語フィールドをバイパスし、オブジェクトワイドビデオキャプションから生成されたテキストから直接学習する。
以上の結果から、4D LangSplatは時間に敏感かつ時間に依存しないオープン語彙クエリに対して,正確かつ効率的な結果が得られることが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:58:22 GMT)
Transformers without Normalization [58.8] トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:06 GMT)
Avatar Concept Slider: Controllable Editing of Concepts in 3D Human Avatars [58.6] Avatar Concept Slider (ACS) は、人間のアバターにおけるセマンティックな概念の正確な編集を可能にする3Dアバター編集法である。
その結果,ACSはアバターの品質や識別属性を損なうことなく,制御可能な3Dアバター編集を可能にした。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:45:36 GMT)
Enhancing Vision-Language Pre-training with Rich Supervisions [58.3] 本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:22:41 GMT)
Bayesian Circular Regression with von Mises Quasi-Processes [57.9] 本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:50:20 GMT)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.6] LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:10:24 GMT)
DaWin: Training-free Dynamic Weight Interpolation for Robust Adaptation [57.1] 本研究では,各未ラベルテストサンプルに対する個々のモデルのエントロピーを利用するトレーニングフリーな動的重み付け手法であるDaWinを提案する。
このような係数を学習するために、通常追加のトレーニングに依存する以前の作業とは異なり、我々のアプローチはトレーニングを必要としない。
その結果、DaWinは計算オーバーヘッドを最小限に抑えながら、考慮された設定で大幅なパフォーマンス向上を達成した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:36:23 GMT)
Causal Representation Learning from Multimodal Biomedical Observations [57.0] バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:56:49 GMT)
GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling [56.9] GroomLightは,マルチビュー画像からヘア外観を再現する新しい手法である。
両コンポーネントを最適化し,高忠実度リライト,ビュー合成,マテリアル編集を可能にするハイブリッド逆レンダリングパイプラインを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:43:12 GMT)
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation [56.3] 本稿では,最適輸送代入を計算する際に,コスト行列に条件付き重み付け項を追加する条件付き最適輸送C2OTを提案する。
実験では、この単純な修正は8gaussian-to-moons、CIFAR-10、ImageNet-32x32、ImageNet-256x256の離散的条件と連続的条件の両方で動作することを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:56 GMT)
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs [55.2] ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:05:11 GMT)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.1] 既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:18:17 GMT)
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.6] 単一大規模言語モデルに自動回帰および拡散ポリシーをシームレスに統合する統合フレームワークであるHybridVLAを紹介する。
このレシピにより、これらの2種類の行動予測は互いに強化するだけでなく、異なるタスクにまたがる様々なパフォーマンスを示す。
実験では、HybridVLAは様々なシミュレーションや実世界のタスクにまたがって、最先端のVLA手法よりも優れている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:52 GMT)
DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting [52.5] 3D-GSのための制御可能な深度法であるDoF-Gaussianを導入する。
我々は、DoF効果を制御するための幾何光学原理に基づくレンズベースイメージングモデルを開発した。
私たちのフレームワークはカスタマイズ可能で、様々なインタラクティブアプリケーションをサポートしています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:26:01 GMT)
Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method [52.0] われわれはLiveBeautyについて紹介する。LiveBeautyは、大規模な顔の魅力予測データセットである。
ライブストリーミングプラットフォームから直接1万枚の顔画像が収集される。
ライブストリーミングにおける顔の魅力を測定するために,マルチモーダルFAP法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:34:18 GMT)
Piece it Together: Part-Based Concepting with IP-Priors [52.0] ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:46:10 GMT)
Deep Learning Approaches for Anti-Money Laundering on Mobile Transactions: Review, Framework, and Directions [51.4] マネーロンダリング(英: Money laundering)は、不正資金の起源を隠蔽する金融犯罪である。
モバイル決済プラットフォームとスマートIoTデバイスの普及は、マネーロンダリング対策をかなり複雑にしている。
本稿では,AMLにおけるディープラーニングソリューションとその利用に関する課題について,包括的レビューを行う。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:19:44 GMT)
Multi-Domain Biometric Recognition using Body Embeddings [51.4] 身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:38:18 GMT)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.2] 手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:21:36 GMT)
HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition [51.2] HecVLは、一般的な手術モデルを構築するための新しい階層型ビデオ言語事前学習手法である。
異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。
外科的位相認識のための同じHecVLモデルが、異なる外科手術と医療センター間で転送可能であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:27:41 GMT)
Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.1] KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:30:13 GMT)
Uncertainty-aware Long-tailed Weights Model the Utility of Pseudo-labels for Semi-supervised Learning [50.9] 本研究では,不確かさを意識したアンサンブル構造(UES)を提案する。
UESは軽量でアーキテクチャに依存しないため、分類や回帰を含む様々なコンピュータビジョンタスクに容易に拡張できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:21:04 GMT)
Compute Optimal Scaling of Skills: Knowledge vs Reasoning [50.8] 計算-最適スケーリングの振る舞いがスキルに依存しているかどうかを問う。
特に,知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討する。
本研究は,検証セットを用いた標準的な計算-最適スケーリングとの関連性について分析した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:21:22 GMT)
MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.6] 本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:36:12 GMT)
Generalized Factor Neural Network Model for High-dimensional Regression [50.6] 複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:10:17 GMT)
SimPLR: A Simple and Plain Transformer for Efficient Object Detection and Segmentation [49.7] マルチスケールインダクティブバイアスをアテンション機構にシフトさせることで, プレーン検出器SimPLRが動作可能であることを示す。
我々はSimPLRとスケールアウェアスを併用した実験を通して、単純なアーキテクチャでありながら、マルチスケールビジョントランスフォーマーの代替品と競合することを発見した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:24:58 GMT)
JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data [49.2] 本稿では,ジッタリング強化,ドメイン認識バックボーン,メモリに基づくセクタライズAlignMentのためのJiSAMというプラグイン・アンド・プレイ手法を提案する。
有名なADデータセットであるNuScenesで実施された広範な実験において、SOTA 3Dオブジェクト検出器を用いて、JiSAMはシミュレーションデータと2.5%の実データにラベルを付けるだけで、実データで訓練されたモデルに匹敵する性能が得られることを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:54:11 GMT)
Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA [49.1] アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。
本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:08:18 GMT)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.5] マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:09:17 GMT)
EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing [48.1] 本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。
実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:26:45 GMT)
Memory-Efficient 3D High-Resolution Medical Image Synthesis Using CRF-Guided GANs [47.9] 本稿では、条件付きランダムフィールド(CRF)を用いて依存関係をモデル化する、エンドツーエンドの新しいGANアーキテクチャを提案する。
私たちのアーキテクチャは、メモリ使用量が少なく、複雑さも少ないが、最先端のアーキテクチャよりも優れています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:31:15 GMT)
Source-primed Multi-turn Conversation Helps Large Language Models Translate Documents [47.3] 文書レベルの機械翻訳を扱うための簡単な手法を,複数ターン対話方式で過去の文脈を活用して検討する。
この方法では、余分なトレーニングなしにコヒーレントな翻訳を保証し、前のターンのKVキャッシュを完全に再利用することができる。
このマルチターン方式は,文書全体を一回転で翻訳し,各セグメントを独立して翻訳する方式よりも優れていることを実証的に示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:57:50 GMT)
A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection [47.2] 本稿では,HD-OVDという階層型セマンティック蒸留フレームワークを提案する。
私たちのHD-OVDは、CLIPのインスタンス、クラス、イメージレベルから一般化可能な認識能力を継承します。
私たちは、OV-COCOデータセット上の新しいAPを、ResNet50のバックボーンで46.4%に引き上げました。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:27:18 GMT)
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.2] 長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:14:31 GMT)
VideoMerge: Towards Training-free Long Video Generation [46.1] 長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:47:59 GMT)
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.1] 暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:37:13 GMT)
MVGSR: Multi-View Consistency Gaussian Splatting for Robust Surface Reconstruction [46.1] 3D Gaussian Splatting (3DGS)は高品質なレンダリング機能、超高速トレーニング、推論速度で注目されている。
我々はロバスト表面再構成(textbfMVGSR)の領域に対するマルチビュー一貫性ガウススティングを提案する。
MVGSRは、最先端の表面再構成アルゴリズムと比較して、競合する幾何学的精度とレンダリング忠実度を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:09:06 GMT)
dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis [45.9] 本稿では,dFLMoE という分散化フェデレーション学習フレームワークを提案する。
私たちのフレームワークでは、クライアントはお互いに軽量なヘッドモデルを直接交換します。
我々は,複数の医療課題に関する枠組みを検証し,その手法が明らかに最先端の手法より優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:35:47 GMT)
Using Causal Inference to Explore Government Policy Impact on Computer Usage [45.4] 新型コロナウイルス(COVID-19)のロックダウンポリシーが日々のコンピュータ利用にどのように影響するかを検討する。
コンピュータ利用の強度(ワット)と時間(時間)の増加とホームポリシーによる作業の実施との間にある因果関係を同定する。
我々は、新型コロナウイルスのロックダウンポリシーの減少の間にコンピュータの使用行動が、新型コロナウイルスのロックダウンポリシーの増加の間よりもはるかに予測しにくいと結論付けた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:59:46 GMT)
Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes [45.1] 動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:28:00 GMT)
Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation [45.1] 我々は,LLMが出力不要な自己評価を行うことを可能にするために,潜在空間におけるChain-of-Embedding (CoE)を提案する。
CoEは、LLMの潜在的思考経路として扱うことができる、推論時間中に生成される全ての進行的な隠れ状態から構成される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:16:12 GMT)
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [44.9] InftyThinkは、モノリシック推論を中間的な要約を伴う反復的なプロセスに変換するパラダイムである。
本手法では, 計算コストを抑えながら, 推理深度を推定できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:00:47 GMT)
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness [44.8] Equivariant Tightness Fitting for Clothed Humans(ETCH)は、布の表面マッピングを推定する新しいパイプラインである。
CAPEと4D-Dressの実験では、ETCHは最先端の手法よりも大幅に優れていた。
我々の等変タイトネス設計は、一発(またはアウト・オブ・ディストリビューション)設定で方向誤差を67.2%(89.8%)減らすことができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:14 GMT)
A Superconducting Qubit-Resonator Quantum Processor with Effective All-to-All Connectivity [44.7] このアーキテクチャは、高い接続性から恩恵を受けるアルゴリズムのテストベッドとして使用できる。
中心共振器は計算要素として利用できることを示す。
GHZ(Greenberger-Horne-Zeilinger)状態は6つの量子ビットすべてに対して真に複数の量子ビットが絡み合った状態であり、読み出しエラーを緩和するフィリティは0.86$である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:36:18 GMT)
ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark [44.6] ECBenchは、大規模視覚言語モデル(LVLM)の具体的認知能力を体系的に評価するために設計されたベンチマークである。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
我々は、プロプライエタリ、オープンソース、タスク固有のLVLMの広範な評価を行う。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:45:55 GMT)
MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction [44.6] MuDGはマルチモーダル拡散モデルとガウススプラッティング(GS)を統合した革新的なフレームワークである。
我々は,MDGが再現性および光現実性合成品質の両方において,既存の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:48:41 GMT)
V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction [44.4] 車間通信(V2X)技術は、単一車両システムにおける可観測性を制限するための有望なパラダイムを提供する。
以前の研究は主に、異なる場所の情報を融合するが、時間的・時間的手がかりを無視する単一フレーム協調認識に焦点を当てていた。
本稿では,1段階,複数段階の通信戦略(送信時)に着目し,その統合を3つの融合戦略で検討する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:42:25 GMT)
Reasoning to Attend: Try to Understand How <SEG> Token Works [44.3] 我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。
本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:04:12 GMT)
Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.0] 自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:39:09 GMT)
Hyper3D: Efficient 3D Representation via Hybrid Triplane and Octree Feature for Enhanced 3D Shape Variational Auto-Encoders [43.6] 3Dコンテンツ生成パイプラインは、しばしば変分オートエンコーダ(VAE)を利用して、形状をコンパクトな潜在表現にエンコードする。
我々は,ハイブリッド3次元平面とオクツリーを融合した効率的な3次元表現により,VAE再構成を向上するHyper3Dを紹介する。
実験の結果,Hyper3Dは3次元形状を高忠実度で細部まで再現することで従来の表現よりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:26:43 GMT)
AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI [43.5] AhaRobotは、低コストで完全にオープンソースなデュアルアーム移動操作ロボットシステムである。
ハンドルを使って両腕とペダルをコントロールし、全身の動きを制御します。
RoboPilotは、実施シナリオにおけるリモートデータ収集用に設計されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:34:43 GMT)
DynPoint: Dynamic Neural Point For View Synthesis [43.3] 我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:01:56 GMT)
Attacking Multimodal OS Agents with Malicious Image Patches [43.1] オペレーティングシステム(OS)エージェントの最近の進歩により、視覚言語モデルがOSのグラフィカルユーザインタフェースと直接対話できるようになる。
これらのマルチモーダルOSエージェントは、アプリケーションプログラミングインタフェース(API)を介して単一のプロンプトに応答して、自律的にコンピュータベースのタスクを実行する
スクリーンショットに写っていると、OSエージェントが特定のAPIを悪用して有害なアクションを起こさせるように、敵対的に妨害された悪意ある画像パッチ(MIP)を新たに導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:59:12 GMT)
Extractors: QLDPC Architectures for Efficient Pauli-Based Computation [43.0] 本稿では,任意のQLDPCメモリをPauliベースの計算に適した計算ブロックに拡張できる新しいプリミティブを提案する。
特に、メモリ上でサポートされている任意の論理パウリ演算子は、1つの論理サイクルでフォールトトレラントに測定できる。
我々のアーキテクチャは並列論理的測定により普遍的な量子回路を実装できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:07:40 GMT)
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search [42.6] 複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
約900Kの質問応答ペアからなるデータセットを構築し、40%は視覚的QAペアで、残りはテキストQAペアです。
MMMU-Pro-std(40.7%)、MathVerse(42.6%)、DynaMath(55.7%)の10Bパラメータクラスにおける最先端性能を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:32:48 GMT)
Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks [42.2] PDCL-Attackと呼ばれる新しいトランスファー攻撃法を提案する。
テキストのセマンティック表現力を利用して効果的なプロンプト駆動型特徴ガイダンスを定式化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:16:16 GMT)
Exploring near-optimal energy systems with stakeholders: a novel approach for participatory modelling [41.9] エネルギーモデリングにおける参加研究は、利害関係者を包括的に関与する機会を提供する。
我々は、ステークホルダーを全体的な方法で組み込むことができる、最適に近いモデリング結果に基づく方法論とフレームワークを提案する。
本稿では,Longyearbyenの北極圏開拓のための方法論を紹介し,参加者がコスト最適から一貫した距離を逸脱する方法について説明する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:47:45 GMT)
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems [41.7] 我々は、LMM(Large Multi-modal Models)を徹底的に評価するマルチモーダル科学評価ベンチマークであるSciVerseを紹介する。
我々は,LMMの3つの重要な側面として,科学的知識理解,マルチモーダルコンテンツ解釈,CoT(Chain-of-Thought)推論について検討することを目的とする。
SciVerse上での異なるLMMの広範な評価は、その科学的習熟度における限界を明らかにし、今後の発展に対する新たな洞察を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:32 GMT)
Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels [40.6] エージェント間で補完的な観察を共有するマルチエージェント協調データセットは、このボトルネックを突破する可能性を秘めている。
外部からのラベルを使わずに、DOtAと呼ばれるマルチエージェントLiDARスキャンからオブジェクトを検出する新しい教師なし手法を提案する。
DOtAはエージェント間の補完的な観察を使用して、プリミティブラベルのマルチスケールエンコーディングを行い、高品質で低品質なラベルをデコードする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:41:04 GMT)
LongProLIP: A Probabilistic Vision-Language Model with Long Context Text [40.4] 本稿では,より長いテキスト,例えば256個のテキストトークンを受理するProLIPの微調整戦略を提案する。
Urban-1kとDataComp評価スイートの実験結果から,提案したLongProLIPレシピは長いコンテキストの理解を向上できることが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:05:04 GMT)
Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models [39.8] ロングチェーン・オブ・ソート(Long CoT)特性は推論能力を高め、複雑な問題の解決を可能にする。
まず、Long CoTとShort CoTを区別し、現在の推論パラダイムを分類する新しい分類法を導入する。
次に,Long CoTの出現やオーバー思考,テストタイムスケーリングなど,これらの特徴について考察する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:34:15 GMT)
New Trends for Modern Machine Translation with Large Reasoning Models [39.7] 大規模推論モデル(LRM)の最近の進歩は,機械翻訳(MT)の新たな可能性を開いた。
このポジションペーパーは、LRMが従来のニューラルMTとLLMベースのMTパラダイムを実質的に変換したと主張している。
我々は、LRMの翻訳システムはテキストコンバータだけでなく、テキストを超えて意味を推論できる多言語認知エージェントであると考えている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:27:53 GMT)
DataMan: Data Manager for Pre-training Large Language Models [39.7] 既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:42:07 GMT)
From Understanding to Excelling: Template-Free Algorithm Design through Structural-Functional Co-Evolution [39.4] 大規模言語モデル(LLM)はアルゴリズム生成と最適化の自動化を大幅に加速した。
LLMに基づくエンドツーエンドのアルゴリズム生成と最適化フレームワークを提案する。
我々のアプローチは、LLMの深い意味理解を利用して、自然言語の要求や人間による論文をコードソリューションに変換する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:26:18 GMT)
FedPCA: Noise-Robust Fair Federated Learning via Performance-Capacity Analysis [39.4] FedPCAは損失分散ペア上のガウス混合モデルを介して、誤ラベルされたクライアントを特定する。
クライアントの重みを調整し、信頼性のあるデータを選択的に利用することで、グローバルアグリゲーションとローカルトレーニングに公正性と堅牢性戦略を適用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:18:18 GMT)
CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM [39.1] マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。
先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:11:16 GMT)
NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms [39.0] NotaGenは、高品質なクラシック楽譜を制作する可能性を探究する象徴的な音楽生成モデルである。
ABC表記の1.6万曲に事前訓練され、その後「時代劇構成」のプロンプトで調整された約9Kの高音質のクラシック曲に微調整される。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:50:00 GMT)
Singular Value Fine-tuning for Few-Shot Class-Incremental Learning [38.8] CIL(Class-Incremental Learning)は,従来学習していたクラスを,新たなクラスを取り入れたまま忘れてしまうことを防ぐことを目的としている。
FSCIL(SVFCL)のための特異値ファインタニングを提案する。
SVFCLは基礎モデルの重みに特異値分解を適用し、各タスクの特異値を微調整しながら特異ベクトルを固定し、それらをマージする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:57:28 GMT)
SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.5] ゼロショット学習(ZSL)のための意味的文脈付き視覚パッチ(SVIP)を導入する。
本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:59:51 GMT)
Retrieval-Augmented Generation with Hierarchical Knowledge [38.5] グラフベースのRetrieval-Augmented Generation (RAG)法は,大規模言語モデル(LLM)の性能を大幅に向上させた。
既存のRAG法は、人間の認知において自然に生ずる階層的知識を適切に利用していない。
我々は階層的知識を利用してRAGシステムの意味的理解と構造的捕捉能力を高める新しいRAG手法、HiRAGを導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:22:31 GMT)
Towards Fast, Memory-based and Data-Efficient Vision-Language Policy [38.1] インターネット規模の視覚言語データに基づいて事前訓練された視覚言語モデル(VLM)は、その知識をロボット学習に伝達する可能性を実証している。
しかし,既存のパラダイムでは,(1)大規模モデルパラメータによる高価な推論コスト,(2)ミスマッチしたデータモダリティによる頻繁なドメインシフト,(3)過去の経験や将来の経験を扱うための限られた能力,という3つの重要な課題に直面している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:58:40 GMT)
Individual assembly of two-species Rydberg molecules using optical tweezers [37.7] 我々は、光学的ツイーザを用いた個々のRb$*$Csリドベルグ分子の形成とキャラクタリゼーションを実証することにより、リドベルク分子を研究するための新しいアプローチを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:05:51 GMT)
MaterialMVP: Illumination-Invariant Material Generation via Multi-view PBR Diffusion [37.6] 物理ベースのレンダリング(PBR)は現代のコンピュータグラフィックスの基盤となり、3Dシーンにおける現実的な物質表現と照明相互作用を可能にしている。
本稿では3次元メッシュと画像プロンプトからPBRテクスチャを生成するための新しいエンド・ツー・エンドモデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:57:30 GMT)
MarS: a Financial Market Simulation Engine Powered by Generative Foundation Model [37.4] 金融市場では、生成モデルは様々な行動の参加者の複雑な市場効果をシミュレートすることができる。
金融市場シミュレーションのための秩序レベル生成基盤モデルである大規模市場モデル(LMM)を提案する。
LMMを利用した金融市場シミュレーションエンジン(MarS)は、現実的でインタラクティブで制御可能な注文生成のためのドメイン固有のニーズに対処する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:26:41 GMT)
Deciphering Functions of Neurons in Vision-Language Models [37.3] 本研究の目的は、視覚言語モデル(VLM)の内部を探索し、個々のニューロンの機能を理解することである。
入力された視覚トークンやテキストトークンに関してニューロンの活性化を観察し、いくつかの興味深い知見を明らかにした。
我々は、GPT-4oのアシスタントを用いて、ニューロンの説明を自動化するフレームワークを構築した。
視覚ニューロンに対しては,視覚ニューロンに対する説明の信頼性を評価するためのアクティベーションシミュレータを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:13:38 GMT)
Charting and Navigating Hugging Face's Model Atlas [37.2] 我々はHugging Faceの文書化された部分を表す予備アトラスをグラフ化した。
モデルランドスケープと進化の素晴らしい視覚化を提供する。
文書化されていない領域をチャート化する方法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:53 GMT)
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.3] MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:07:58 GMT)
Subnet-Aware Dynamic Supernet Training for Neural Architecture Search [34.1] Nショットアーキテクチャサーチ(NAS)は、与えられた検索空間のすべての候補を含むスーパーネットを利用する。
スーパーネットトレーニングは低複雑さ(不公平)に偏っている
本稿では,これらの問題に対処するための動的スーパーネットトレーニング手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:07:04 GMT)
Are Convex Optimization Curves Convex? [33.8] 意外なことに、答えはステップサイズの選択次第です。
意外なことに、答えはステップサイズの選択次第です。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:56:18 GMT)
MouseGPT: A Large-scale Vision-Language Model for Mouse Behavior Analysis [33.3] 視覚的手がかりを自然言語と統合してマウスの行動解析に革命をもたらす視覚言語モデル(VLM)であるマウスGPTを紹介する。
我々の全体分析フレームワークは、詳細な行動プロファイリング、クラスタリング、新しい行動発見を可能にし、労働を必要とせずに深い洞察を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:55:13 GMT)
Towards Efficient Large Scale Spatial-Temporal Time Series Forecasting via Improved Inverted Transformers [33.2] EiFormerは、計算複雑性を線形スケールに削減しつつ、iTransformerの適応能力を維持できる改良された逆変換器アーキテクチャである。
我々の重要な革新は、モデル表現性を犠牲にすることなく冗長な計算を除去するための注意機構の再構築である。
本手法は,大規模な時系列処理が不可欠である産業アプリケーションにおいて,トランスフォーマーによる予測の実践的展開を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:14:08 GMT)
Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback [33.1] 生成軌道モデルのための人間のフィードバック駆動微調整フレームワークであるTrajHFを紹介する。
TrajHFは、従来の模倣学習を超えたマルチモーダル軌道生成を洗練する。
NavSimベンチマークで93.95のPDMSを達成し、他の手法をはるかに上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:56:17 GMT)
Thinking Machines: A Survey of LLM based Reasoning Strategies [33.1] LLM(Large Language Models)の推論は、これらのモデルがアクションやレスポンスを検討、再評価できるようにすることによって、このギャップを埋めることを目的としている。
推論は複雑な問題解決に必要な能力であり、人工知能(AI)への信頼を確立するために必要なステップである。
これによってAIは、医療、銀行、法律、防衛、セキュリティなど、機密性の高い分野への展開に適したものになります。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:03:41 GMT)
ATRNet-STAR: A Large Dataset and Benchmark Towards Remote Sensing Object Recognition in the Wild [33.0] 本稿では,ATRNet-STARと呼ばれる大規模で新しいデータセットについて紹介する。
データセットのスケールと多様性が大幅に向上し、190,000以上の注釈付きサンプルが含まれており、これは前身の有名なMSTARの10倍である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:51:12 GMT)
Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game [32.8] 本稿では,言語エージェントがコンテキスト内相互作用を通じて学習できることを提案する。
マルチエージェントKahneman & Tversky's Optimization (MaKTO) を開発した。
MaKTOは様々なモデルの平均勝利率を61%達成している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:55:17 GMT)
Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration [32.8] 本稿では,言語モデルを用いたRLの新しい計算フレームワークを提案する。
データ効率には必要ありませんが、フレームワーク内の任意のアルゴリズムのランタイムのバウンダリは低くなっています。
SpannerSamplingというアルゴリズムを導入し,事前学習したモデルが十分なカバレッジを享受するたびに,最適なデータ効率と計算効率を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:15:55 GMT)
Direct estimation of arbitrary observables of an oscillator [32.7] 観測可能(OREO)推定のための最適化ルーチンを提案する。
OREOは、任意の振動子オブザーバの期待値をトランモン状態にマッピングし、効率的な単発計測を行う。
我々は, 位相空間とその高次モーメントを効率的に測定する手段として, ボソニックcQEDシステムでOREOを実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:58:21 GMT)
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation [32.5] テキスト・画像生成のための拡散変換器(DiT)について検討する。
PixArt や MMDiT などの DiT ベースのアーキテクチャを評価し,標準的な DiT アーキテクチャと比較する。
監督と報酬の微調整により、DiT-AirはGenEvalとT2I CompBenchで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:57:25 GMT)
V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM [32.4] 低ランク適応(LoRA)は、外部知識を大規模言語モデル(LMM)に統合する有望な方法を提供する
既存のLoRAモデルは計算コストが大きすぎるため、非常にレイテンシが高い。
多様なビジョンタスクの強化とLoRA LMMによるビジョンアプリケーション強化を目的としたエンドツーエンドソリューションを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:38:15 GMT)
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation [32.2] textbfDiffSenseiは動的マルチ文字制御でマンガを生成するために特別に設計されたフレームワークである。
DiffSenseiは、拡散ベースのイメージジェネレータと、テキスト互換のIDアダプタとして機能するマルチモーダル大言語モデル(MLLM)を統合している。
提案手法では,文字特徴をシームレスに組み込むためにマスク付きクロスアテンションを用いることで,直接ピクセル転送を行うことなく正確なレイアウト制御が可能となる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:23:03 GMT)
StableFusion: Continual Video Retrieval via Frame Adaptation [31.9] 連続テキスト・ビデオ検索(CTVR)の最初のベンチマークを紹介する。
分析の結果,既存のTVR手法は,新しいタスクに適応する際に,可塑性を維持するのに苦労していることがわかった。
これらの課題に対処するために,2つの主要コンポーネントからなる新しいCTVRフレームワークであるStableFusionを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:10:56 GMT)
DeepThalamus: A novel deep learning method for automatic segmentation of brain thalamic nuclei from multimodal ultra-high resolution MRI [31.9] 超高分解能(0.125mm3)での視床核分割のための多モード体積深部ニューラルネットワークの設計と実装を行った。
超高分解能T1,T2,White Matter nulled (WMn) 画像を用いて半自動分割視床核のデータベースを構築した。
ディープラーニングに基づく新しい戦略は、自動セグメンテーションを得るために設計され、その堅牢性とアクカリティを改善するために訓練された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:33:17 GMT)
LUMOS: Language-Conditioned Imitation Learning with World Models [31.8] ロボット工学のための言語条件付きマルチタスク模倣学習フレームワークであるLUMOSを紹介する。
LUMOSは、学習の世界モデルの潜在領域における多くの長い水平ロールアウトを実践することで、スキルを学ぶ。
我々は,オフライン世界モデルにおいて,実世界のロボットに対して,言語条件の連続的ビズモータ制御を初めて学習する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:48:24 GMT)
NumScout: Unveiling Numerical Defects in Smart Contracts using LLM-Pruning Symbolic Execution [31.7] 我々は,1,199件の監査報告の分析から,新しい5種類の数値欠陥を同定した。
この5つの欠陥を検出するために設計されたシンボリックな実行ベースツールであるNumScoutを提案する。
我々は6,617の現実世界契約でNumScoutを実行し、手動でラベル付けされた結果に基づいてその性能を評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:46:53 GMT)
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation [31.6] DINOv2フレームワーク上に構築された任意のセンサ基盤モデルであるPanopticonを提案する。
光学および合成開口レーダーセンサーの波長とモードを符号化することで、パノプティコンは任意のチャネルの組み合わせを効果的に処理できる。
パノプティコンは、既存の衛星プラットフォームと将来の衛星プラットフォームの両方への即時一般化を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:54:53 GMT)
Refinement Module based on Parse Graph of Feature Map for Human Pose Estimation [31.6] 人体のParseグラフは、人間のPose Estimationをより良く完成させるのに役立つ。
機能マップのParse Graph(RMPG)に基づいたRefinement Moduleを設計し、トップダウン分解とボトムアップの組み合わせの2段階を含む。
我々のネットワークは、複数の主流の人間のポーズデータセットにおいて優れた結果を得る。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:41:37 GMT)
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability [31.5] 本研究では,多種多様なロボット,すなわち空間物理到達可能性マップ(S-Pマップ)間での物理的な到達可能性の統一表現を提案する。
PhysVLMは、この到達可能性情報を視覚的推論に統合する視覚言語モデルである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:19:12 GMT)
InstructPipe: Generating Visual Blocks Pipelines with Human Instructions and LLMs [31.3] InstructPipeは、テキスト命令で機械学習(ML)パイプラインをプロトタイピングするAIアシスタントである。
2つの大きな言語モデル(LLM)モジュールとコードインタプリタをフレームワークの一部としてコントリビュートしています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:47:05 GMT)
FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.1] FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:20:58 GMT)
Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy [31.0] Graph Collaboration MARL (LGC-MARL)は、Large Language Models (LLM)とMulti-Agent Reinforcement Learning (MARL)を効率的に組み合わせたフレームワークである。
LGC-MARLは複雑なタスクを実行可能なサブタスクに分解し、グラフベースの調整によって複数のエージェント間の効率的な協調を実現する。
AI2-THORシミュレーションプラットフォームの実験結果から,LGC-MARLの性能とスケーラビリティが向上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:02:49 GMT)
Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.9] KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:47:52 GMT)
Experimental factoring integers using fixed-point-QAOA with a trapped-ion quantum processor [30.9] 我々は、Schnorrアプローチと量子近似最適化アルゴリズム(QAOA)の修正版を用いて、捕捉されたイオン量子プロセッサによる整数の分解を実験的に実証した。
6量子ビットを用いた1591=37times43$と10量子ビットの746579521times7817$と35183361263263=4 194191times8388593$のシミュレーション結果について実験を行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:40:07 GMT)
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation [30.7] 道路側協調認識のための最初のシミュレーションフレームワークRoCo-Simを提案する。
RoCo-Simは多様なマルチビュー一貫した路面データを生成することができる。
コードと事前訓練されたモデルはまもなくリリースされる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:33:42 GMT)
MoEdit: On Learning Quantity Perception for Multi-object Image Editing [30.6] MoEditは補助フリーのマルチオブジェクト画像編集フレームワークである。
本稿では、各オブジェクト属性の区別と分離性を保証するFeComモジュールについて述べる。
また,Quantity Attention (QTTN)モジュールも提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:13:54 GMT)
Do We Always Need the Simplicity Bias? Looking for Optimal Inductive Biases in the Wild [30.5] 「単純さバイアス」は成功の鍵と広く考えられている。
本稿では,メタ学習型新しいアクティベーション機能と,特定のタスクに適した帰納バイアスを実現する手法を提案する。
活性化関数はこれらの帰納バイアスを制御することができるが、将来の調整されたアーキテクチャはさらなる利点をもたらす可能性がある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:28:40 GMT)
What is the Alignment Objective of GRPO? [30.4] 本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。
選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。
二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:48:34 GMT)
SMIRK: 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.3] SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:56:37 GMT)
Structured Preconditioners in Adaptive Optimization: A Unified Analysis [30.2] 本稿では,構造化プレコンディショナーを用いた適応最適化アルゴリズムの多種多様なクラスに対する新しい統一解析法を提案する。
我々の分析は、対角 AdaGrad, full-matrix AdaGrad, AdaGrad-Norm など、いくつかの重要な事前条件付きアルゴリズムにマッチングレートを提供する。
片側シャンプーはAdaGradよりも比較的安価であり、理論上も実験上も優れていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:51:59 GMT)
Accelerating Flood Warnings by 10 Hours: The Power of River Network Topology in AI-enhanced Flood Forecasting [30.1] グラフニューラルネットワーク(GNN)は、高ノード抵抗距離から過度に流れ込む木のような構造により、河川ネットワークのトポロジーを弱めている。
本研究では、トポロジカルな接続を密度化し、抵抗距離を減らすために、到達可能性に基づくグラフ変換を導入する。
極度の洪水予測では、変換GNNはEA-LSTMよりも優れており、EA-LSTMの14時間予測と同等の24時間水位精度を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:58:05 GMT)
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes [29.8] V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。
複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。
V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:55 GMT)
The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.7] 大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。
この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。
提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:18:05 GMT)
Feasible Policy Iteration for Safe Reinforcement Learning [29.7] 現実世界の制御問題に強化学習(RL)アルゴリズムを適用する場合、安全性が最優先事項である。
安全なRLのための基本的な動的プログラミングアルゴリズムであるFPI(Fasible Policy iteration)を提案する。
実験により,FPIは低次元タスクに対する厳密な制約違反を達成できることが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:53:02 GMT)
Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set [28.6] 本研究では,大規模言語モデル (LLM) が言語やフレームワークにまたがって一般化する談話知識を捉えているかどうかを検討する。
テストベッドとして多言語対話関係分類を用いて, 様々なサイズと多言語機能を持つ23個のLLMの包括的集合について検討した。
以上の結果から,LLM,特に多言語学習コーパスでは,言語やフレームワーク間での会話情報を一般化することが可能であることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:20:25 GMT)
Investigating and Improving Counter-Stereotypical Action Relation in Text-to-Image Diffusion Models [28.5] テキストと画像の拡散モデルは、反ステレオタイプなアクション関係を生成するのに一貫して失敗する。
この制限は、本質的なモデル制約よりも分布バイアスに由来する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:38:02 GMT)
RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [28.5] RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。
RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。
シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:09:18 GMT)
Beyond Tree Models: A Hybrid Model of KAN and gMLP for Large-Scale Financial Tabular Data [28.3] TKGMLPは、浅いコルモゴロフ・アーノルドネットワークとGated Multilayer Perceptronを組み合わせた表型データのためのハイブリッドネットワークである。
我々は、TKGMLPを現実の信用スコアデータセットで検証し、最先端の結果を達成し、現在のベンチマークより優れています。
本稿では,財務データセットにおける数値的特徴の優位性に対処するために,数値的データのための新しい特徴符号化手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:39:35 GMT)
D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.2] 大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:16:43 GMT)
WonderVerse: Extendable 3D Scene Generation with Video Generative Models [28.0] 拡張可能な3Dシーンを生成するフレームワークであるWonderVerseを紹介する。
WonderVerseは、ビデオ生成基盤モデルに埋め込まれた強力な世界レベルの事前情報を活用する。
様々な3D再構成手法と互換性があり、効率的かつ高品質な生成を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:29:28 GMT)
The Federation Strikes Back: A Survey of Federated Learning Privacy Attacks, Defenses, Applications, and Policy Landscape [27.9] フェデレートラーニング(FL)における異なるプライバシ攻撃と防御手法の文献レビューを行う。
これらの攻撃の現在の制限を特定し、ann FLクライアントのプライバシが壊れる可能性のある設定を強調します。
FLは、参加者のプライバシーを維持しつつ、正確なモデルを生成するという大きな目標に向かっている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:38:58 GMT)
G-Boost: Boosting Private SLMs with General LLMs [27.7] ほとんどのLarge Language Models (LLMs)開発者は、自身のデータに基づいてSLM(Small Language Models)を微調整できる。
本稿では,一般のLSMに対して,プライベートSLMの性能向上を支援することを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:47:03 GMT)
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks [27.6] フェデレートラーニング(FL)は、生データを共有せずに、将来的なプライバシー保護協調モデルトレーニングパラダイムとして登場した。
プライベート情報は、共有勾配情報を通じて漏洩し、グラディエント・インバージョン・アタック(GIA)によって攻撃される。
我々は,既存の手法を,テキスト最適化に基づくGIA(OP-GIA),テキスト生成に基づくGIA(GEN-GIA),テキスト分析に基づくGIA(ANA-GIA)の3つのタイプに分類する。
この結果から,OP-GIAは不満足な性能にもかかわらず,最も実用的な攻撃条件であることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:08:44 GMT)
Exploring Mutual Empowerment Between Wireless Networks and RL-based LLMs: A Survey [27.4] 強化学習(RL)に基づく大規模言語モデル(LLM)が注目されている。
無線ネットワークは、RLベースのLLMの強化を必要とする。
無線ネットワークは、RLベースのLLMの効率的なトレーニング、デプロイメント、分散推論のための重要な基盤を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:59:11 GMT)
Distilling Diversity and Control in Diffusion Models [27.4] 蒸留拡散モデルには限界があり、サンプルの多様性は基本モデルと比べて減少する。
この多様性の喪失にもかかわらず、蒸留されたモデルは基本モデルの基本的な概念表現を維持していることを示す。
多様性蒸留は, 基本モデルを, 効率の良い蒸留モデルに移行する前に, 第一臨界段階のみに戦略的に活用するハイブリッド推論手法である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:56 GMT)
Dual-domain Modulation Network for Lightweight Image Super-Resolution [27.0] 軽量画像超解像(SR)は、低解像度画像から限られた計算コストで高解像度画像を再構成することを目的としている。
既存の周波数ベースSR法では、全体構造と高周波部品の再構築のバランスが取れない。
本稿では、ウェーブレット情報とフーリエ情報の両方を導入し、我々のモデルが高周波特徴と全体のSR構造再構成の両方を考慮できるようにする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:59:46 GMT)
PyGDA: A Python Library for Graph Domain Adaptation [26.9] PyGDAは、グラフドメイン適応に適したオープンソースのPythonライブラリである。
20以上の広く使われているグラフドメイン適応手法と異なるタイプのグラフデータセットをカバーしている。
大規模なグラフを処理するため、PyGDAはサンプリングやミニバッチ処理などの機能をサポートする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:52:23 GMT)
Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters [26.9] em Hadarはリソース利用を促進する最適化フレームワークに基づくタスクレベルのスケジューラである。
em HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:13:20 GMT)
Probability-Flow ODE in Infinite-Dimensional Function Spaces [26.8] 無限次元函数空間における確率フローODE(PF-ODE)のアナログを初めて導いた。
我々は,PDEへの適用を含む機能生成タスクにおいて,サンプル品質を維持しつつ,機能評価の回数を削減する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:01:00 GMT)
Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.8] 現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:41:47 GMT)
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.8] 視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:56:05 GMT)
Enhancing Chain of Thought Prompting in Large Language Models via Reasoning Patterns [26.6] Chain of Thought (CoT) は言語モデルに論理的推論を奨励する。
我々は,CoTの促進効果を高めるために推論パターンを活用することを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:03:57 GMT)
Improving Pre-trained Self-Supervised Embeddings Through Effective Entropy Maximization [25.9] 自己教師型学習のための効果的なエントロピー基準(E2MC)を考案した。
すでにトレーニングされているSSLモデルのトレーニングをほんの一握りのエポックで継続することで、一貫性があり、場合によっては、ダウンストリームのパフォーマンスが大幅に改善されることを実証しています。
また、代替基準による事前トレーニングが顕著な改善につながらず、場合によっては性能を低下させることも示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:12:09 GMT)
Hidden in the Noise: Two-Stage Robust Watermarking for Images [25.7] 拡散モデルの初期雑音に基づく画像の歪みのない透かし手法を提案する。
透かしを検出するには、画像のために再構成された初期ノイズと、以前に使用した初期ノイズとを比較する必要がある。
本稿では,効率的な検出を行うための2段階の透かしフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:33:15 GMT)
Forget Vectors at Play: Universal Input Perturbations Driving Machine Unlearning in Image Classification [25.7] マシン・アンラーニング(MU)は、既に訓練されたモデルから不要な特定のデータの影響を消そうとする。
本研究では,新しい入力ベースの観点からMU問題にアプローチする。
我々は,能動的入力に基づく非学習戦略の存在を実演する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:25:27 GMT)
Diabetica: Adapting Large Language Model to Enhance Multiple Medical Tasks in Diabetes Care and Management [25.6] 大規模言語モデル(LLM)は、様々な医療シナリオにおいて有望であるが、様々な糖尿病タスクにおけるそれらの有効性は証明されていない。
本研究は糖尿病特異的LLMの訓練と評価のための枠組みを導入した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:20:17 GMT)
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.4] ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:23:27 GMT)
Collaborative Speculative Inference for Efficient LLM Inference Serving [25.1] CoSineは並列検証から逐次投機復号を分離する新しい投機推論システムである。
同等のリソースコストで、CoSineは23.2%のレイテンシ削減と32.5%のスループット向上を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:03:38 GMT)
AdvPaint: Protecting Images from Inpainting Manipulation via Adversarial Attention Disruption [25.1] 悪意のある敵は、特定の地域を有名人と置き換えるなど、塗装作業の拡散モデルを利用する。
本稿では,敵の影響力を効果的に破壊する敵の摂動を生成する新しいフレームワークであるADVPAINTを提案する。
実験の結果,ADVPAINTの摂動は敵の着色課題を妨害し,既存手法より優れていることが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:05:40 GMT)
Statistical Deficiency for Task Inclusion Estimation [24.8] タスクは機械学習の中心であり、現在のモデルの能力を評価する最も自然なオブジェクトである。
本研究では,2つのタスク間のbfインクルージョンを統計的に欠如の観点から計算する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:41:29 GMT)
Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation [24.7] 本稿では、拡散モデルを利用して、被写体固有の画像生成におけるARモデルの能力を向上するProxy-Tuningを紹介する。
微調整ARモデルは、被写体忠実度と即効性の両方において、拡散モデルスーパーバイザを一貫して上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:32:57 GMT)
SOLA-GCL: Subgraph-Oriented Learnable Augmentation Method for Graph Contrastive Learning [24.6] グラフコントラスト学習のための新たなサブグラフ指向学習能力向上手法SOLA-GCLを提案する。
SOLA-GCLは、グラフをその固有の性質に基づいて複数の密連結な部分グラフに分割する。
グラフビュー生成器は、各サブグラフに対する拡張戦略を最適化し、グラフコントラスト学習のための調整されたビューを生成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:52:39 GMT)
Policy Teaching via Data Poisoning in Learning from Human Preferences [24.6] 人間の嗜好から学習する際のデータ中毒攻撃について検討する。
我々は、嗜好データを合成することで、ターゲットポリシーを$pidagger$で教え/強化する問題について研究する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:11:54 GMT)
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 [24.6] トランスファーベースの大規模視覚言語モデル(LVLM)に対する標的攻撃は、しばしばブラックボックスの商用LVLMに対して失敗する。
本研究では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を向上する手法を提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:55 GMT)
On a Neural Implementation of Brenier's Polar Factorization [24.5] 1991年、ブレニエは正方行列の極分解を任意のベクトル場 $F:mathbbRdright mathbbRdarrow に PSD $times$ Unitary として分解する定理を証明した。
本稿では,偏波分解定理の実践的実装を提案し,機械学習における可能性を探る。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:06:27 GMT)
MetricGrids: Arbitrary Nonlinear Approximation with Elementary Metric Grids based Implicit Neural Representation [24.4] MetricGridsは、様々な距離空間の基本的なメートル法格子と複素非線形信号の近似を組み合わせた、新しいグリッドベースのニューラルネットワーク表現である。
2次元と3次元の両方の再構成実験の結果,提案手法の適合性およびレンダリング精度が向上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:18:12 GMT)
Representation Learning, Large-Scale 3D Molecular Pretraining, Molecular Property [23.9] 分子事前学習表現(MPR)は、薬物発見や材料設計などの応用において、限られた教師付きデータの課題に対処するための強力なアプローチとして登場した。
分子に分散した3次元空間全体を包含する原理的枠組みを提案する。
このフレームワークは,(1)グリッドベースの空間離散化,(2)グリッドサンプリング/マージ,(3)効率的な3次元位置符号化という3つの重要なコンポーネントを備えた,新しいTransformerベースのアーキテクチャであるSpaceFormerによって実装されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:55:01 GMT)
Autoregressive Image Generation with Randomized Parallel Decoding [23.7] ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:19:51 GMT)
Unlock the Power of Unlabeled Data in Language Driving Model [23.6] 我々は,従来の最先端手法よりも優れたシーン質問応答を駆動する強力な言語駆動モデル(LDM)を構築した。
LDMはラベル付きデータに制限のある44.85%のパフォーマンスを達成し、ラベル付きデータを使用すると54.27%まで増加し、完全なデータセットでトレーニングされたモデルはDriveLMベンチマークで60.68%に達した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:36:36 GMT)
Swing-by Dynamics in Concept Learning and Compositional Generalization [23.4] 本稿では,モデルが学習し,構造的に整理されたセントロイドとガウス混合体上でのアイデンティティマッピングを学習するSIMタスクを提案する。
我々は、このSIMタスクでトレーニングされたニューラルネットワークの学習力学を数学的に解析し、その単純さにもかかわらず、SIMの学習力学が重要な経験的観察を捉え、説明するのに役立っていることを示す。
私たちの理論はまた、トレーニングの初期段階におけるテスト損失の非単調学習ダイナミクスの新しいメカニズムを見つけるなど、いくつかの新しい洞察を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:54:33 GMT)
Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising [23.1] 本稿では,Pmpt-SID(Prompt-SID)について紹介する。
構造的エンコーディングを通じてオリジナルスケールの画像情報をキャプチャし、このプロンプトをデノイザに統合する。
本稿では, 合成, 実世界, 蛍光画像の総合的な実験を行い, Prompt-SIDの顕著な有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:49:20 GMT)
VMBench: A Benchmark for Perception-Aligned Video Motion Generation [22.9] 包括的なビデオモーションベンチマークであるVMBenchを紹介する。
VMBenchは知覚対応のモーションメトリクスを持ち、最も多様なモーションを特徴としている。
人間の知覚的アライメントの観点から動画における動きの質が評価されたのはこれが初めてである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:54:42 GMT)
Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection [22.9] LiDARをベースとした3Dオブジェクト検出は,LiDAR点の特異性に起因する重要な課題を呈している。
本研究では,物体の動きによる空間的不整合を緩和する新たな融合モジュールを提案する。
また,ポイントワイドなセマンティックラベルを注入することで,疎LiDARデータを充実させるセマンティックインジェクション法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:30:20 GMT)
Uncertainty-Aware Robust Learning on Noisy Graphs [22.8] 本稿では,分散的ロバストな最適化に着想を得た,不確実性を考慮したグラフ学習フレームワークを提案する。
グラフニューラルネットワークベースのエンコーダを用いて、ノードの特徴を埋め込んで、最適なノード埋め込みを見つけます。
このような不確実性を考慮した学習プロセスは、ノード表現の改善と、より堅牢なグラフ予測モデルをもたらす。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:30:06 GMT)
Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures [22.8] 生成的モデリングの一般的なアプローチは、モデルフィッティングを2つのブロックに分割することである。
サンプリングとマッピングを行うこの代替ルートについて検討する。
任意の測度 $mathbbRd$ に対して $rho=nabla u,sharp,e-u$ というユニークなポテンシャル $u$rho が存在するという結果である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:28:44 GMT)
$(\varepsilon, δ)$ Considered Harmful: Best Practices for Reporting Differential Privacy Guarantees [22.7] 機械学習(ML)アルゴリズムの差分プライバシー(DP)保証のレベルを報告するための現在のプラクティスは、保証の不完全で、潜在的に誤解を招く可能性がある。
我々は、GDPが不正確である場合に、完全なプライバシプロファイルを二次オプションとして、MLにおけるDP保証を伝達する主要な手段として、ガウス微分プライバシー(GDP)を使用することを論じる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:06:30 GMT)
Toward an Evaluation Science for Generative AI Systems [22.7] 生成型AIシステムの評価科学の成熟を提唱する。
特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:09:08 GMT)
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.7] GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:16:01 GMT)
Improving Diffusion-based Inverse Algorithms under Few-Step Constraint via Learnable Linear Extrapolation [22.7] 拡散モデルは複雑なデータのモデリングにおいて顕著な性能を示した。
拡散に基づく逆アルゴリズムの本質的に反復的な性質において、性能劣化は少ないステップで起こる。
本稿では,任意の拡散に基づく逆アルゴリズムの性能を普遍的に向上する軽量な手法であるLearable Linear Extrapolation (LLE)法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:00:27 GMT)
OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding [22.5] OmniSTVGは,ビデオからのテキストクエリで言及された対象を空間的,時間的にすべてローカライズすることを目的とした,新しいSTVGタスクである。
我々は,OmniSTVGの探索を容易にするために,OmniSTVG専用の大規模ベンチマークであるBOSTVGを紹介する。
BOSTVGは10,018本のビデオと10.2Mのフレームで構成され、多様なシナリオから287のクラスを幅広く選択している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:02:30 GMT)
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data [22.3] 時系列分析は、医療、金融、交通、エネルギーなど幅広い分野において重要である。
現在の時系列モデルは、時系列とテキストコンテンツの両方を含む推論を行う能力に制限がある。
Chat-TSは時系列トークンをLLMの語彙に統合し、両方のモダリティに対する推論能力を高める。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:05:11 GMT)
Take Off the Training Wheels Progressive In-Context Learning for Effective Alignment [22.2] 本稿では,アライメントタスクにおけるトークン表現に対するデモの効果について検討する。
2段階からなる効率的なプログレッシブ・イン・コンテクストアライメント(PICA)手法を提案する。
我々の研究は、ICLのアライメントへの応用を強調し、複雑な世代に対するICLのより深い理解を求める。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:01:02 GMT)
BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language Models [22.1] BeamLLMは、大規模言語モデル(LLM)を利用した視覚支援ミリ波(mmWave)ビーム予測フレームワークである
現実的な車内構造(V2I)のシナリオに基づいて,提案手法は61.01%のTop-1精度と97.39%のTop-3精度を標準予測タスクで達成する。
数ショットの予測シナリオでは、パフォーマンス劣化はタイムサンプル1から10までの12.56%(トップ-1)と5.55%(トップ-3)に制限され、優れた予測能力を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:55:59 GMT)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.0] RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:31:52 GMT)
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [22.0] フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。
本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。
我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:21 GMT)
FourierSR: A Fourier Token-based Plugin for Efficient Image Super-Resolution [21.9] 画像超解像(SR)は、高解像度画像に低解像度画像を復元することを目的としており、SR効率を改善することが大きな課題である。
SRの一般的な単位、例えば畳み込みやウィンドウベースのトランスフォーマーは、受容場が限られている。
本稿では、FourierSRと呼ばれるFourierトークンベースのプラグインを提案し、SRを均一に改善する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:50:55 GMT)
HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.7] HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:12:07 GMT)
One-Shot Federated Unsupervised Domain Adaptation with Scaled Entropy Attention and Multi-Source Smoothed Pseudo Labeling [21.6] Federated Learning(FL)は、プライバシ保護による協調学習のための有望なアプローチである。
本稿では,これらの制約に対処する一発のフェデレーション・アントラクテッド・ドメイン適応(FUDA)手法を提案する。
具体的には,モデルアグリゲーションのためのSEA(Scaled Entropy Attention)と,ターゲット領域適応のためのMSPL(Multi-Source Pseudo Labeling)を紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:59:51 GMT)
CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings [21.5] CADSpottingは、座標や色などの属性で高密度にサンプリングされた点を通してプリミティブを表現する。
重み付き投票と非最大抑圧(NMS)を組み合わせたスライディングウィンドウ集約(SWA)手法を提案する。
FloorPlanCADとLS-CADデータセットの実験は、CADSpottingが既存の手法よりも大幅に優れていることを示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:41:50 GMT)
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM [21.5] 既存の大言語モデル(LLM)を音声の離散化と事前学習により音声モダリティに拡張する。
結果として得られるオープンソースモデルであるSPIREは、翻訳関連タスクにおけるTOWERの本来のパフォーマンスを維持しながら、英語の音声入力を書き起こし、翻訳することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:57:32 GMT)
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies [21.4] 高品質な多言語単言語コーパスと並列コーパスのコレクションであるHPLT v2を提案する。
データのモノリンガル部分は193言語をカバーする8Tトークンを含み、並列データは51言語をカバーする380万の文ペアを含む。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:24:09 GMT)
Can't Slow me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge Devices [21.4] 最近、オブジェクト検出器のリアルタイム処理機能をターゲットに、新しいタイプの遅延攻撃が報告されている。
我々は,この攻撃に対して,暗黙の敵の訓練を通じて防御する試みを行っている。
実験は、リアルタイム処理能力を13ドルFPSから43ドルFPSに復元する防御効果を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:31:19 GMT)
PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm [21.1] Video Virtual Try-onは、ビデオ内の対象人物に参照服をシームレスに転送することを目的としている。
既存の手法は通常、試着領域を定義するために塗装マスクに依存している。
そこで我々は,PEMF-VTO(Point-Enhanced Mask-Free Video Virtual Try-On)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:22:12 GMT)
An Information-Theoretic Regularizer for Lossy Neural Image Compression [20.9] ロスシー画像圧縮ネットワークは、特定の歪み制約に固執しながら、画像の潜伏エントロピーを最小限にすることを目的としている。
本稿では、負条件源エントロピーをトレーニング対象に組み込むことにより、ニューラル画像圧縮タスクの新たな構造正規化手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:18:03 GMT)
DTA: Dual Temporal-channel-wise Attention for Spiking Neural Networks [20.9] スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりもエネルギー効率の良い代替手段を提供する
本稿では,同一・同一の注意戦略と非同一の注意戦略を両立させる新しいDTA機構を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:09:48 GMT)
DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation [20.8] DynaCodeは、大規模言語モデル(LLM)のための動的で複雑さを意識したベンチマークである。
複雑性を意識したメトリクスを使用して、LLMを体系的に評価し、コードの複雑さとコールグラフ構造の両方を取り入れる。
最新の12のLCMでは、静的コード生成ベンチマークであるMBPP+と比較して平均パフォーマンスが16.8%から45.7%低下している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:18:56 GMT)
Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification [20.7] そこで本研究では,MLLMが何千ものアノテータの記述スタイルを模倣できるように,Human Annotator Modeling (HAM)アプローチを提案する。
Hamは、類似したスタイルのテキスト記述を同じクラスタにグループ化し、素早い学習を適用して、異なるアノテータの記述スタイルを模倣することを可能にする。
HamはReIDモデルの一般化能力を大幅に改善する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:08:27 GMT)
Towards Synthesized and Editable Motion In-Betweening Through Part-Wise Phase Representation [20.7] スタイル付きモーションはコンピュータのアニメーションやゲームには不可欠だ。
身体部分レベルでの動作スタイルをモデル化する新しいフレームワークを提案する。
我々のアプローチはよりニュアンスで表現力のあるアニメーションを可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:18:41 GMT)
Learnable Prompt as Pseudo-Imputation: Rethinking the Necessity of Traditional EHR Data Imputation in Downstream Clinical Prediction [20.7] EHR分析を支援するための新しいトレーニングプロトコルとして,PAI(Learningable Prompt as Pseudo-Imputation)を提案する。
PAIはもはやインプットデータを導入しないが、ダウンストリームモデルの暗黙の選好を欠落値にモデル化するための学習可能なプロンプトを構築する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:17:29 GMT)
FlowTok: Flowing Seamlessly Across Text and Image Tokens [20.6] FlowTokは、コンパクトな1Dトークン表現に画像をエンコードすることで、テキストとイメージをシームレスに流れるフレームワークである。
256の解像度で遅延空間のサイズを3.3倍に減らし、複雑な条件付け機構やノイズスケジューリングを必要としない。
コンパクトな1Dトークンを中心にした合理化アーキテクチャにより、FlowTokはメモリ効率が高く、トレーニングリソースが大幅に少なくなり、より高速なサンプリング速度を実現し、最先端のモデルに匹敵するパフォーマンスを提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:06:13 GMT)
MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment [20.5] マルチソース音声画像生成のためのMACS法を提案する。
これは、画像生成の前にリッチオーディオコンポーネントをキャプチャするために、マルチソースオーディオを明示的に分離する最初の作品である。
提案したMACSは,全タスクにおける21評価指標のうち17項目において,現在の最先端手法よりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:56:25 GMT)
Dissecting the Impact of Model Misspecification in Data-driven Optimization [20.4] データ駆動最適化は、推定コストの決定を最適化することで、機械学習モデルを意思決定に変換することを目的としている。
より最近のアプローチでは、推定誤差の代わりに決定誤差を最小限に抑える推定最適化統合を採用している。
我々は、基礎となるモデルが誤って特定されたときに、トップ2の後悔の言葉に「統合アプローチが普遍的な二重利益をもたらす」ことを示します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:29:53 GMT)
Long-Video Audio Synthesis with Multi-Agent Collaboration [20.3] LVAS-Agentは、協調的な役割の専門化を通じてプロのダビングをエミュレートする新しいフレームワークである。
提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。
LVAS-Benchは、さまざまなシナリオにまたがる207のプロ向け長編ビデオによる最初のベンチマークである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:58:23 GMT)
PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models [20.3] PiSA-Engineは、3次元空間意味論に富んだ命令ポイント言語データセットを生成するためのフレームワークである。
PiSA-Benchは6つの重要な側面を網羅した総合的な3Dベンチマークである。
ゼロショット3Dオブジェクトキャプションと生成分類におけるPointLLM-PiSAの最先端性能を示す実験結果が得られた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:37:26 GMT)
6D Object Pose Tracking in Internet Videos for Robotic Manipulation [20.2] 本研究では,入力画像中の物体の6次元ポーズを,物体自体の事前の知識を使わずに推定する手法を開発した。
インターネットビデオからスムーズな6次元物体軌跡を抽出し,検出された物体をビデオフレーム間で注意深く追跡する。
既存のRGB 6Dのポーズ推定手法よりも大幅に改善されていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:33:34 GMT)
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.2] 本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。
UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。
以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:52:27 GMT)
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer [20.1] スタイル転送は、参照画像からターゲット画像の内容へのスタイル転送を伴う。
LoRA(Low-Rank Adaptation)手法の最近の進歩は、単一の画像のスタイルを効果的に捉えることに有望であることを示している。
これらのアプローチは、コンテンツの不整合、スタイルのミスアライメント、コンテンツリークといった重要な課題に直面している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:55:58 GMT)
HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks [20.1] 本稿では, コンバータをベースとしたハイパーネットワークアーキテクチャHyperDASを提案する。
Llama3-8Bでの実験では、HyperDASはRAVELベンチマークで最先端のパフォーマンスを達成し、隠蔽状態における概念の密接化を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:25:38 GMT)
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis [19.8] 画像のみを用いて高品質なマルチモーダルデータを合成するための新しい手法Oasisを提案する。
Oasisは、MLLMにイメージのみをプロンプトすることで、従来のメソッドを分解する。
本手法はデータ品質を確保するための微妙な品質制御手法を特徴とする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:15:32 GMT)
TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models [19.6] 視覚言語モデル(VLM)は印象的な推論能力を示しているが、ジェイルブレイク攻撃には弱いままである。
textbfTextual textbfAnchoring for textbfImmunizing textbfJailbreak textbfImages (textbfTAIJI)
textbfTextual textbfAnchoring for textbfImmunizing textbfという新しいブラックボックス防御フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:39:31 GMT)
Semantic Latent Motion for Portrait Video Generation [19.6] Semantic Latent Motion (SeMo) はコンパクトで表現力のある動きの表現である。
SeMoは、抽象、推論、生成という3段階の効果的なフレームワークに従っている。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:43:21 GMT)
Learning to Inference Adaptively for Multimodal Large Language Models [19.5] AdaLLaVA(アダプティブ・推論・フレームワーク)を導入し,MLLM内での演算の再構成を学習する。
以上の結果から,AdaLLaVAは入力レイテンシの予算に効果的に準拠し,実行時の精度やレイテンシのトレードオフが変化することがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:39:38 GMT)
HiCMamba: Enhancing Hi-C Resolution and Identifying 3D Genome Structures with State Space Modeling [19.3] Hi-C技術はゲノム全体の相互作用周波数を測定し、核内の3Dゲノム構造を研究する強力なツールを提供する。
状態空間モデルを用いたHi-Cコンタクトマップの解像度を向上させるための,新しい深層学習方式HiCMambaを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:04:02 GMT)
Making Every Frame Matter: Continuous Activity Recognition in Streaming Video via Adaptive Video Context Modeling [19.2] ビデオのアクティビティ認識は、ロボットやAIの具体化においてますます重要になっている。
適応型ビデオコンテキストモデリングにより,これらの問題を克服するための新しいシステムCARSを導入する。
当社のCARSは、一般的なエッジデバイス上で30FPS以上の速度で動作し、すべてのベースラインを1.2%から79.7%の精度で上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:19:21 GMT)
Understanding and Supporting Peer Review Using AI-reframed Positive Summary [18.7] 本研究は,筆記作業のピアレビューに自動生成された肯定的な要約を付加することの影響について検討した。
さもなくば過酷なフィードバックにAIを再構成した肯定的な要約を加えると、著者の批判的受け入れが増大することがわかった。
我々は、ピアフィードバックにおけるAIの利用の意味について論じ、それが批判的受容にどのように影響するかに注目し、研究コミュニティを支援する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:22:12 GMT)
DGNet: A Neural Network Framework Induced by Discontinuous Galerkin Methods [18.6] 本稿では,不連続なガレルキン誘発ニューラルネット(DGNet)のための一般的なフレームワークを提案する。
このアプローチでは、試行空間は計算領域上で定義されたニューラルネットワーク空間から成り、テスト関数空間は断片的に構成される。
定常問題や時間依存問題を含む,DGNetの精度と訓練効率の面から,DGNetの利点を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:00:13 GMT)
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents [18.6] LVAgentは,MLLMエージェントの長時間映像理解におけるマルチラウンド動的協調を実現するフレームワークである。
提案手法は,選択,知覚,行動,反射の4つの重要なステップから構成される。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:35:09 GMT)
From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision [18.6] 単一点監視のための革新的プログレッシブアクティブラーニング(PAL)フレームワークを構築した。
簡単なサンプルを自動選択することに焦点を当てたモデル事前開始概念を提案する。
PALフレームワークを搭載した既存のSIRST検出ネットワークは、複数の公開データセットに対して、最先端(SOTA)の結果を得たことを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:04:37 GMT)
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features [18.5] CLIPのようなマルチモーダルエンコーダは、ゼロショット画像分類やクロスモーダル検索といったタスクに優れている。
そこで本研究では,2つのユニモーダルエンコーダを用いて,制限データを用いたマルチモーダルエンコーダを複製する正準類似性解析(CSA)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:40:49 GMT)
Channel-wise Noise Scheduled Diffusion for Inverse Rendering in Indoor Scenes [18.4] 逆レンダリングは本質的に不適切であり、単一の正確な解を予測することは困難である。
本稿では,単一のRGB画像を幾何学,材料,照明に分解する拡散ベースの逆レンダリングフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:04:35 GMT)
Preference Alignment for Diffusion Model via Explicit Denoised Distribution Estimation [18.3] 嗜好ラベルは典型的には、軌跡を識別する端末でのみ利用可能である。
そこで本研究では,中間ステップと端末の復号化分布を明示的に接続する復号化分布推定法を提案する。
我々の手法は定量的にも質的にも優れた性能を達成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:36:28 GMT)
GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection [18.2] We propose a robust fusion framework called Graph BEV to integrate LiDAR and camera BEV features。
我々のフレームワークは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:23:17 GMT)
A Sentence-Level Approach to Understanding Software Vulnerability Fixes [18.1] 本研究では,自然言語(NL)脆弱性アーティファクトの脆弱性に対する3種類のセマンティクス(トリガー,クラッシュ現象,修正動作)のうちの少なくとも1つを記述する一対の文を,対応するコード文に関連付ける新しいトレーサビリティモデルを提案する。
我々のエンドツーエンドアプローチは、VulnExtractとVulnTraceの2つの重要なステップで実装されています。
VulnTraceは、関連する一対のNL文を対応する一対のコードステートメントにマッピングするために、68.2%以上のTop5精度を達成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:44:23 GMT)
EFC++: Elastic Feature Consolidation with Prototype Re-balancing for Cold Start Exemplar-free Incremental Learning [17.8] 高品質なバックボーンを学習する最初のタスクでは、不十分なデータが利用可能である、難しいコールドスタートシナリオについて検討する。
これは、高い塑性を必要とするため、EFCILにとって特に困難である。
本稿では,従来の課題に強く関連する方向のドリフトを規則化し,特徴表現を統一する効果的な手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:01:19 GMT)
Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.6] 視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリに対するモデルの一般化を強化するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:05:35 GMT)
GaussHDR: High Dynamic Range Gaussian Splatting via Learning Unified 3D and 2D Local Tone Mapping [17.4] 本稿では,3次元スプラッティングによる3次元局所トーンマッピングと2次元局所トーンマッピングを一体化するガウスについて述べる。
次に,3次元および2次元局所トーンマッピングのLDR結果の組み合わせを損失レベルで提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:07:43 GMT)
When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.3] 大規模言語モデル(LLM)とテキスト埋め込みを組み合わせる方法が近年,学術的注目のホットスポットとなっている。
本研究では,LLMとテキストの相互作用を3つの主題にまとめる。
我々は、様々な研究および応用分野からの貢献を、新しく、体系的に概説する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:11:43 GMT)
CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing [17.1] 我々は、CoSTA*がコストと品質の両面で最先端の画像編集モデルやエージェントより優れているという、新しいマルチターン画像編集のベンチマークを構築した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:55:45 GMT)
Large Language Models for Multi-Facility Location Mechanism Design [16.9] 深層学習モデルは、マルチファシリティロケーションのための戦略防御メカニズムの代替として提案されている。
LLMMechと呼ばれる新しいアプローチを導入し、大きな言語モデルを進化のフレームワークに組み込むことにより、これらの制限に対処する。
実験の結果, LLM生成機構は, 既存の手作りベースラインやディープラーニングモデルよりも優れていることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:54:22 GMT)
HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.9] 本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。
フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:21:46 GMT)
Better, Not Just More: Data-Centric Machine Learning for Earth Observation [16.7] モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:09:55 GMT)
AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2 [16.7] DINOv2をワンショットおよび数ショットの異常検出に適用し、産業応用に焦点をあてる。
提案するビジョンのみのアプローチであるAnomalyDinoは、よく確立されたパッチレベルの深い近接パラダイムに従っている。
このアプローチは既存のテクニックに匹敵するだけでなく、多くの設定でそれらを上回ります。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:32:39 GMT)
Verifiable, Efficient and Confidentiality-Preserving Graph Search with Transparency [16.6] PeGraphは、プライバシーの漏洩に対処するため、ソーシャルグラフ上で暗号化された検索を実現する最新のスキームだ。
透明な検索機能を提供しておらず、高価な計算と結果パターンのリークに悩まされている。
最初の2つの制限に対処するためにSecGraphを提案し、新しいシステムアーキテクチャを採用した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:53:53 GMT)
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving [16.6] GoalFlowは高品質なマルチモーダル軌道を生成するためのエンドツーエンドの自動運転手法である。
生成過程を制約し、高品質でマルチモーダルな軌道を生成する。
GoalFlowは最先端のパフォーマンスを実現し、自律運転のための堅牢なマルチモーダル軌道を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:40:27 GMT)
SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.6] 手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:23:13 GMT)
Hybrid Agents for Image Restoration [16.5] 本稿では,複数再生モードを統合画像復元モデルに組み込むことを目的としたHybridAgentを提案する。
高速復元エージェントは,ユーザプロンプトを理解するためのコンテキスト内学習を通じて,軽量な大規模言語モデル(LLM)に基づいて設計されている。
我々は,従来のエージェントベース作業では重要ではなかったハイブリッドエージェントに対して,混合歪み除去モードを導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:28:33 GMT)
Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM [16.5] 本稿では、選択状態空間モデル(SSM)に基づく新しい効率的な軌道予測フレームワークであるTrajectory Mambaを紹介する。
注意機構の変更による予測精度の潜在的な低減に対処するため,共同ポリリン符号化戦略を提案する。
本モデルでは,Argoverse 1 と Argoverse 2 の両方のデータセットにおける推定速度とパラメータ効率の両面から,最先端の結果が得られる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:31:12 GMT)
Robust Decentralized Learning with Local Updates and Gradient Tracking [16.5] 分散学習をクライアントやノードのネットワークとみなす。
本稿では,局所的な更新と勾配追跡という2つの重要なデータを利用する分散化ミニマックス最適化手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:37:34 GMT)
Why Does Your CoT Prompt (Not) Work? Theoretical Analysis of Prompt Space Complexity, its Interaction with Answer Space During CoT Reasoning with LLMs: A Recurrent Perspective [15.9] CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の限界に対する実用的な解決策として登場した。
本稿では,2つの重要な空間,すなわちプロンプト空間と応答空間の間の複雑性と相互作用について,厳密な理論的解析を行う。
我々は、時として人間の監督が、プロンプト空間を効率的にナビゲートするために重要であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:11:10 GMT)
MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference [15.9] MEDAはマルチモーダル長文推論のための動的層ワイドKVキャッシュ割り当て手法である。
MEDAは最大72%のKVキャッシュメモリと2.82倍のデコード速度を実現している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:04:08 GMT)
MoFlow: One-Step Flow Matching for Human Trajectory Forecasting via Implicit Maximum Likelihood Estimation based Distillation [15.8] そこで本研究では,シーン内のすべてのエージェントに対するKショットの将来の軌跡を予測するために,MoFlowと呼ばれる新しい動き予測条件付きフローマッチングモデルを提案する。
暗黙的最大推定(IMLE)を利用して,教師モデルからのサンプルのみを必要とする流れモデルの新しい蒸留法を提案する。
SportVU NBAゲーム、ETH-UCY、SDDといった実世界のデータセットの実験は、我々の教師フローモデルとIMLE蒸留された学生モデルの両方が最先端のパフォーマンスを達成することを実証している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:53:05 GMT)
On the Identifiability of Causal Abstractions [15.8] 因果表現学習は機械学習モデルの堅牢性と一般化性を高める。
本研究では,観測可能空間内のデータ対を用いて潜在因果モデルを特定するCRL手法のファミリーに着目した。
そこで我々は,一組の介入を前提として,因果モデルを特定することができる程度を計算できる理論的枠組みを導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:34:05 GMT)
Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL [15.8] 大規模言語モデル(LLM)は、モデルスケールが増大するにつれて、自然言語理解において重要な能力を示している。
LLMは、テキスト・ツー・リサーチにユニークな機会、改善、ソリューションをもたらすことができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:45:35 GMT)
OuroMamba: A Data-Free Quantization Framework for Vision Mamba Models [15.8] We present OuroMamba, first data-free post-training Quantization (DFQ) method for vision Mamba-based model (VMMs)。
WeoMamba-Gen to generate semantically rich and meaningful synthesis data; 2) OuroMamba-Quant to use mixed-precision Quantization with light dynamic outlier detection during inference。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:58:55 GMT)
Adaptive Split Learning over Energy-Constrained Wireless Edge Networks [15.6] 分割学習(SL)は人工知能(AI)モデルをトレーニングするための有望なアプローチであり、デバイスがサーバと協力してAIモデルを分散的にトレーニングする。
本稿では,端末の分割点を動的に選択し,無線エッジネットワークにおけるサーバの計算資源を割り当てるアダプティブスプリットラーニング(ASL)方式を設計する。
ASL方式は,既存のSL方式と比較して,平均訓練遅延とエネルギー消費をそれぞれ53.7%,22.1%削減できることを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:27:47 GMT)
TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors [15.5] 我々は、MGT検出器に対する回避攻撃を評価するための最初の総合的なベンチマークであるTH-Benchを紹介する。
TH-Benchは、有効性、テキスト品質、計算オーバーヘッドの3つの重要な側面にわたる攻撃を評価する。
以上の結果から,3次元に1回の攻撃が及ばないことが判明した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:37:18 GMT)
DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [15.5] DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:39:49 GMT)
The in-context inductive biases of vision-language models differ across modalities [15.5] 一般化は、刺激が提示されるモダリティと、刺激がテキストで記述される方法によってどのように変化するかを調べる。
モデルは通常、色よりも形状に応じて一般化する傾向を示す。
これらの結果は、視覚言語モデルがコンテキスト内の異なるタイプの入力をどのように表現するかを明らかにするのに役立つ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:35:13 GMT)
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval [15.4] NeighborRetrはハブの学習のバランスを保ち、様々な種類の隣人の関係を適応的に調整する新しい手法である。
我々は、NeighborRetrが複数のクロスモーダル検索ベンチマークで最先端の結果を得ることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:33:55 GMT)
Towards Class-wise Robustness Analysis [15.4] 弱い堅牢なクラスを爆発させることは、攻撃者が画像認識モデルを騙す潜在的な方法である。
本研究では、対角的に訓練された頑健な分類モデルにおけるクラス間バイアスについて検討する。
特定の対象クラスとしてのクラス偽陽性の数は、攻撃に対する脆弱性に大きな影響を及ぼすことがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:19:33 GMT)
Type Information-Assisted Self-Supervised Knowledge Graph Denoising [15.3] 既存のノイズ検出のアプローチは、外部事実、論理規則の制約、構造的な埋め込みに依存している。
本稿では,ノイズ検出のためのエンティティと関係型情報の整合性を活用することを提案する。
我々は、型依存的推論に関して多数派から逸脱する三重項として型不整合雑音を定式化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:12:27 GMT)
Category Prompt Mamba Network for Nuclei Segmentation and Classification [15.3] 以前の核分割と分類モデルでは、トレーニングのために大きな画像を小さなパッチに分割する必要がある。
Mambaは、線形時間複雑性とメモリ消費の低い大規模イメージをモデル化する能力に注目を集めている。
本稿では,各カテゴリの特徴を上位から下位への信頼度に応じて独立にランク付け・走査する,カテゴリ確率ソートに基づく新しいスキャン戦略を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:43:03 GMT)
AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction [15.2] 本稿では,汎用適応型マルチモーダル・マルチビュー融合フレームワークAdaptiveFusionを提案する。
本手法は最先端の核融合法と比較して精度が高い。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:24:50 GMT)
Learning Visual Proxy for Compositional Zero-Shot Learning [15.2] 視覚分布の学習を容易にする新しいアプローチである視覚プロキシラーニングを紹介する。
本稿では,原文画像空間と細粒度視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング戦略を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:04:32 GMT)
Spectral State Space Model for Rotation-Invariant Visual Representation Learning [15.1] 状態空間モデル (SSM) は視覚変換器 (ViT) の代替として登場した。
SSMは概念的に関連があるが、隣接していないパッチ間の関係を識別することができない。
現在の視覚ベースのSSMは回転のような変換に非常に敏感である。
画像内のグローバル構造を効果的にキャプチャする新しいアプローチであるSpectral VMambaを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:10:35 GMT)
Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models [15.1] 本研究では,五大言語モデルとともに2つのDeepSeekモデルの数学的推論性能を体系的に評価する。
DeepSeek-R1は3つのデータセットのうち2つで常に最高精度を達成し、強力な数学的推論能力を示した。
応答時間に関して、Gemini 2.0 Flashは、リアルタイムアプリケーションにとって重要な要素である他のモデルよりも高速な処理速度を示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:23:45 GMT)
Efficient Federated Fine-Tuning of Large Language Models with Layer Dropout [15.0] ファインチューニングは、訓練済みのLLMが一般的な言語理解からタスク固有の専門知識へと進化できるようにする上で重要な役割を担っている。
この研究は、新しいトランスフォーマードロップアウト方式を採用した革新的フェデレーションPEFTフレームワークであるDropPEFTを提案する。
DropPEFTはモデル収束の1.3-6.3倍の高速化とメモリフットプリントの40%-67%の削減を実現可能であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:59:16 GMT)
Rapid analysis of point-contact Andreev reflection spectra via machine learning with adaptive data augmentation [14.9] 点接触アンドリーフ反射法(PCAR)測定は順序パラメータを識別するための強力なツールである。
本研究では,様々な超伝導体のPCARスペクトルを高速かつ自動解析するモデルを作成するために,畳み込みニューラルネットワーク(CNN)アルゴリズムを用いる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:45:38 GMT)
KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception [14.8] 本研究では,グローバルな品質評価を効果的に行うための枠組みを提案する。
我々のフレームワークは視覚的満足度を抽出し、Fusion-Window Attention(FWA)とLocal Perception Constraint(LPC)を用いて注意を割り当てる。
局所的知覚を評価するために,地域アノテーションを用いたローカル知覚視覚品質(LPVQ)データセットを構築した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:16:58 GMT)
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.8] 本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化する。
実験の結果、TPOは4つのデータセット上の5つの公開大言語モデルにおいて、DPOを一貫して上回ることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:40:44 GMT)
ES-Parkour: Advanced Robot Parkour with Bio-inspired Event Camera and Spiking Neural Network [14.8] スパイキングニューラルネットワーク(SNN)とイベントカメラを導入し、挑戦的な4つのパーキングタスクを実行する。
我々の研究はロボット強化学習を推進し、需要のある環境における新しい可能性を開く。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:50:19 GMT)
Prompt Inversion Attack against Collaborative Inference of Large Language Models [14.8] 本稿では、悪意のある参加者が、前の参加者が送信したアクティベーションを通じて入力プロンプトを回復しようとする、プロンプト・インバージョン・アタック(PIA)の概念を紹介する。
Llama-65Bモデルを用いてSkytraxデータセットの88.4%のトークン精度を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:55:55 GMT)
What Would Trojans Do? Exploiting Partial-Information Vulnerabilities in Autonomous Vehicle Sensing [14.8] Tier 1のメーカーはすでに、センサー出力を密かに変更できるTrojansの導入攻撃の脆弱性を暴露している。
サイバーレベルでの検知に対する攻撃の可能性と安全性を解析する。
確率的データ非対称性モニタとスケーラブルな3次元LiDARと単分子検出のトラック・ツー・トラック融合を組み込んだセキュリティ対応センサ融合を導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:57:41 GMT)
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling [14.7] RewardSDSは、報酬モデルからのアライメントスコアに基づいてノイズサンプルを重み付けし、重み付けされたSDS損失を生成する。
この損失は、整列した高逆出力をもたらすノイズサンプルから勾配を優先する。
テキスト・ツー・イメージ,2D編集,テキスト・ツー・3D生成タスクにおいて,RewardSDSとRewardVSDを評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:28:22 GMT)
I Can Tell Your Secrets: Inferring Privacy Attributes from Mini-app Interaction History in Super-apps [14.6] 本稿では,ミニアプリインタラクション履歴(Mini-H)と操作履歴(Op-H)という,スーパーアプリにおける新たなプライバシリークソースを明らかにする。
Mini-Hは、ユーザによってアクセスされる、頻度やカテゴリなどのミニアプリの歴史を指す。Ops-Hは、ボタンクリック、バードラッグ、イメージビューなど、ミニアプリ内のユーザインタラクションをキャプチャする。
我々は、この脆弱性を利用するために、ミニアプリケーションインタラクション履歴指向推論攻撃(THEFT)を設計する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:29:40 GMT)
CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception [14.6] マルチエージェント協調知覚は、ロボット知覚タスクを協調的に行うために、知覚情報を共有することによって、各エージェントの能力を高める。
既存の代表的な協調認識システムは、大量の非臨界情報を含む中間特徴写像を伝達する。
本稿では,オブジェクトクエリをベースとした協調フレームワークであるCoCMTを紹介し,重要な特徴を選択的に抽出し伝達することによって,通信帯域幅を最大化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:41:25 GMT)
Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs [14.6] MINTは、与えられたデータが機械学習モデルのトレーニングに使用されたかどうかを決定する一般的なアプローチである。
本研究は自然言語処理分野への応用に焦点を当てている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:37:37 GMT)
Revisiting Multi-Agent Asynchronous Online Optimization with Delays: the Strongly Convex Case [14.6] 複数エージェントの非同期オンライン最適化を遅延で再検討し、各ラウンドで決定を下すにはエージェントの1つだけがアクティブになる。
本稿では,従来のフォロー・ザ・リーダーアルゴリズムであるFTDLの遅延型を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:49:25 GMT)
Interpretable Image Classification via Non-parametric Part Prototype Learning [14.4] 解釈可能な意思決定プロセスで画像を分類することは、コンピュータビジョンにおける長年の問題である。
近年、自己説明可能なニューラルネットワークのアプローチとして、プロトタイプのPart Networksが注目を集めている。
本稿では,各クラスに対して意味的に固有のオブジェクト部品の集合を学習する,部分的解釈可能な画像分類のためのフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:46:53 GMT)
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4] 私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。
Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。
AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:29:22 GMT)
Quantum-Secured DSP-Lite Data Transmission Architectures for AI-Driven Data Centres [14.4] 本稿では,DSP-Liteデータ伝送アーキテクチャを提案する。
AI駆動型データセンタ光配線(AI-DCI)シナリオの厳格な要件をすべて満たしている。
自己ホモジンコヒーレント(SHC)システムと量子鍵分布(QKD)をマルチコアファイバベースの空間分割多重化(SDM)技術により統合することにより、セキュアで高容量でエネルギー効率のよいデータ伝送を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:25:46 GMT)
Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning [14.3] この研究は、等式、不等式、包含性、およびそれらが満たす性質(ir/reflexivity、a/symmetric、推移性、論理複雑性など)に焦点を当てている。
本稿では,新たに導入されたトークンの表現のみを訓練する,文脈内学習(in-context learning)の代替として,文脈外表現学習を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:32:30 GMT)
A Diver Attention Estimation Framework for Effective Underwater Human-Robot Interaction [14.3] 近年の視覚に基づく水中HRI法の進歩は、トップサイドオペレーターの助けを必要とせずに、人間のパートナーと対話する能力を持っている。
これらの方法では、AUVはダイバーが相互作用する準備ができていると仮定するが、実際にはダイバーは邪魔される可能性がある。
本稿では、ダイバーの注意度を自律的に決定するための、AUVに対するダイバーアテンション推定フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:06:56 GMT)
Radar: Fast Long-Context Decoding for Any Transformer [14.2] 我々は、最も重要なコンテキストトークンを動的に検索することで推論を高速化する、トレーニング不要のアプローチであるRadarを提案する。
Radarは、時間の複雑さを減らして、さまざまなアーキテクチャにわたる最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:23:10 GMT)
RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors [13.9] RI3Dは拡散モデルのパワーを生かした新しい手法であり、入力画像のスパースセットが与えられた場合、高品質な新規ビューを再構築する。
我々の重要な貢献は、ビュー合成プロセスを可視領域を再構築し、行方不明領域を幻覚させる2つのタスクに分けることである。
我々は、様々な場面において最先端のアプローチよりも優れた、目に見える領域と欠落する領域の両方で、詳細なテクスチャで結果を生成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:16:58 GMT)
Scalable Evaluation of Online Moderation Strategies via Synthetic Simulations [13.9] 代替モデレーション戦略の有効性を評価する大規模な研究は行われていない。
本稿では,大規模言語モデルでのみ実行される合成実験を活用する手法を提案する。
私たちのモデレーション戦略は、確立されたモデレーションガイドラインよりも大幅に優れています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:13:07 GMT)
Quantifying Coherence and Genuine Multipartite Entanglement : A Framework Based on Witness Operators and Frobenius Norm Distance [13.8] 量子系の絡み合いとコヒーレンスを定量化することは、理論的および実践的な重要な関心事である。
本稿では,複数の広く使用されているコヒーレンス対策と真の多部絡み合い対策の下位境界を評価する手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:23:34 GMT)
VIGFace: Virtual Identity Generation for Privacy-Free Face Recognition [13.8] VIGFaceは合成顔画像を生成する新しいフレームワークである。
これは、既存の個人と仮想顔画像との明確な分離性を示し、自信を持って合成画像を作成することができる。
既存の実際のイメージを組み込むことで、データ拡張によるパフォーマンスの向上を保証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:06:24 GMT)
FIND: Fine-grained Information Density Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis [13.8] FIND(textbfFine-fine textbfInformation textbfDensity Guided Adaptive RAG)は、疾患診断シナリオにおけるRAGの信頼性を向上させる新しいフレームワークである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:13:07 GMT)
V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality [13.7] V2X-ReaLOは,実車およびスマートインフラストラクチャ上にデプロイされたオープンオンライン協調認識フレームワークである。
本稿では,オンライン協調認識システムの性能を評価するために,オープンなベンチマークデータセットを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:31:20 GMT)
TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.7] 3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:35:04 GMT)
LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.4] 安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:17:52 GMT)
Capturing Semantic Flow of ML-based Systems [13.4] 本稿では,MLシステムの内部動作を捉えるための概念を提案する。
セマンティックフローは、制御フローの概念とMLベースのシステムの実行から取り出された内部状態を組み合わせる。
結果の表現はセマンティックフローグラフとして要約され、MLベースのシステムの従来の制御フローで明示的に表現されていない内部決定をキャプチャすることができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:39:04 GMT)
MentalChat16K: A Benchmark Dataset for Conversational Mental Health Assistance [13.4] MentalChat16Kは、人工的なメンタルヘルスカウンセリングデータセットと、行動保健コーチと緩和またはホスピスケアの患者の介護者の介入から匿名化されたテキストのデータセットを組み合わせた、英国のベンチマークデータセットである。
うつ病、不安、悲しみなどさまざまな状況をカバーするこのデータセットは、会話型のメンタルヘルス支援のための大きな言語モデルの開発と評価を容易にするように設計されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:25:10 GMT)
Mamba-VA: A Mamba-based Approach for Continuous Emotion Recognition in Valence-Arousal Space [13.2] 連続感情認識(Continuous Emotion Recognition, CER)は、知的人間とコンピュータの相互作用、メンタルヘルスモニタリング、自律運転において重要な役割を果たす。
本稿では,映像フレームの逐次的感情変動を効率的にモデル化するために,Mambaアーキテクチャを利用した新しい感情認識モデルMamba-VAを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:02:07 GMT)
ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision Models [13.2] 顔認識システム(FRS)は、顔認識攻撃に対してますます脆弱になり、Morphing Detection(MAD)アルゴリズムの開発が進められている。
MADの重要な課題は、見つからないデータに対する限定的な一般化性と、実用的なアプリケーション環境において説明責任が欠如していることである。
本研究は,Large Language Models (LLMs) を利用したゼロショット学習を用いたMADの新しいアプローチを探求する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:53:24 GMT)
SpotLight: Shadow-Guided Object Relighting via Diffusion [13.2] 物体の粗い影を提供することで、物体の照準を正確に制御できることを示す。
我々の手法であるSpotLightは、既存のニューラルレンダリングアプローチと制御可能なリライト結果を活用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:36:30 GMT)
An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation [13.2] 本稿では,シミュレーションと実環境のギャップを解消する新しいリアルタイムループフレームワークを提案する。
我々の研究の重要な貢献は、多様で代表的な実世界のデータの収集を促進する情報的コスト関数の設計である。
我々のアプローチは多機能なMJXプラットフォーム上で実装されており、我々のフレームワークは幅広いロボットシステムと互換性がある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:27:05 GMT)
Meta-learning characteristics and dynamics of quantum systems [13.0] メタ学習は、ほとんどデータが得られない新しいシステムに適応できることを示す。
ゲート電圧の異なるGe/Siコア/シェルナノワイヤにホストされたLoss-DiVincenzoスピン量子ビットの実験データを用いる。
提案手法を,他のメタ学習手法,バニラ変圧器,多層パーセプトロンと比較し,性能向上を実証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:56:58 GMT)
Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.8] 既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。
本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号法であるパーセプション・マグニファイア(PM)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:14:11 GMT)
Targeted Data Poisoning for Black-Box Audio Datasets Ownership Verification [12.8] 本稿では,最近導入されたデータタグ付け手法の音声データに適応する。
データタグガントは、ニューラルネットワークが保護されたイメージデータセットでトレーニングされたかどうかを検証する方法である。
提案手法は,性能を損なうことなく,高い信頼性でデータセットの使用を検出できることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:25:25 GMT)
Deep Learning for Time Series Forecasting: A Survey [12.7] 本稿では,先行研究について検討し,Deep Time Series Forecasting(DTSF)の一般的なパラダイムをモデルアーキテクチャの観点から要約する。
本稿では,時系列の構成に着目し,重要な特徴抽出手法を体系的に説明することによって,革新的なアプローチをとる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:32:01 GMT)
UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.7] 自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。
本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。
コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:59:03 GMT)
GBSVR: Granular Ball Support Vector Regression [12.5] 回帰問題に対処するため,GBSVR(Granular Ball Support Vector Regression)を提案する。
この研究は、グラニュラーボールの構築を容易にするために、連続値属性の離散化法も提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:52:43 GMT)
CoStoDet-DDPM: Collaborative Training of Stochastic and Deterministic Models Improves Surgical Workflow Anticipation and Recognition [12.4] 拡散確率モデル(DDPM)による固有モデリングを取り入れた革新的枠組みを導入する。
私たちのアプローチの中心は、共同学習のパラダイムです。
Cholec80データセットを用いた実験では,予測タスクでは,最先端手法と比較してeMAEが16%削減された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:59:05 GMT)
On the Diagram of Thought [12.3] 大規模言語モデル(LLM)における反復推論をモデル化するフレームワークであるDiagram of Thought(DoT)を紹介する。
DoTは命題、批評、洗練、検証を統一された有向非巡回グラフ(DAG)にまとめる
我々は、トポス理論を通じてDoTの厳密な数学的基礎を確立し、推論過程における健全性と一貫性を確保する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:13:06 GMT)
GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction [12.3] ニューラルサインされた距離場とガウススプラッティングを相乗化する統合LiDAR視覚システムを提案する。
実験では、様々な軌道にまたがる再現精度とレンダリング品質が向上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:53:38 GMT)
System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems [12.2] 本稿では、認知のクアッドプロセスモデルを用いて、システム0/1/2/3フレームワークを二重プロセス理論の拡張として紹介する。
我々は、認知の多様な時間的ダイナミクスを統一するために、マルチスケールの時間理論を採用することにより、ベルクソンの哲学の中でこのモデルを文脈化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:45:53 GMT)
SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [12.2] 連続環境におけるVLN(Vision-and-Language Navigation)は、制約のない3D空間をナビゲートしながら自然言語命令を解釈するエージェントを必要とする。
既存のVLN-CEフレームワークは、2段階のアプローチに依存している。
マルチモーダル大言語モデル(MLLM)に基づくナビゲータと拡張されたウェイポイント予測器を統合したゼロショットVLN-CEフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:32:57 GMT)
Prototype-Guided Cross-Modal Knowledge Enhancement for Adaptive Survival Prediction [12.1] ProSurvはプロトタイプ指向のクロスモーダル知識強化フレームワークである。
ペア化されたデータへの依存を排除し、堅牢な学習と適応型生存予測を可能にする。
4つの公開データセットに対する大規模な実験は、最先端の手法よりもProSurvの方が優れていることを示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:38:11 GMT)
CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.1] 本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。
VulSifterは大規模な研究に適用され、GitHubで127,063のリポジトリをクロールした。
次に,8,203個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:41:04 GMT)
FaVChat: Unlocking Fine-Grained Facial Video Understanding with Multimodal Large Language Models [12.0] FaVChatは、顔のきめ細かいビデオ理解のために特別に設計された最初のVMLLMである。
我々は60k以上の動画からなる大規模な顔画像データセットを構築し,大半が83の微粒な顔属性で注釈付けされている。
我々は,映像要約から高品質な映像QAサブセットへ移行し,タスクの複雑さを徐々に増大させ,モデルのきめ細かい視覚知覚を高める,プログレッシブトレーニングパラダイムを採用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:45:03 GMT)
PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation [11.9] PanoGen++は、視覚と言語のナビゲーションタスクのための、多種多様なパノラマ環境を生成するフレームワークである。
事前訓練された拡散モデルとドメイン固有の微調整を取り入れ、計算コストを最小限に抑えるために低ランク適応のようなパラメータ効率の手法を用いる。
PanoGen++はトレーニング環境の多様性と妥当性を高め、VLNタスクの一般化と有効性を向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:16:58 GMT)
Explainable Bayesian deep learning through input-skip Latent Binary Bayesian Neural Networks [11.8] この記事では、後続のレイヤにスキップしたり、除外したりすることで、LCBNNを前進させる。
入力スキップの LBBNN アプローチは、標準の LBBNN と比較してネットワーク密度を著しく減らし、小型ネットワークでは 99% 以上、大型ネットワークでは 99.9% 以上を減らした。
例えば、MNISTでは、97%の精度と935重量のキャリブレーションに達し、ニューラルネットワークの圧縮の最先端に達しました。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:59:03 GMT)
Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM [11.7] この研究は、自動運転車の解釈可能な意思決定の枠組みを示す。
我々は、検索型拡張生成(RAG)に基づく交通規制検索(TRR)エージェントを開発する。
検索したルールの意味的な複雑さを考えると、我々はLarge Language Model (LLM)を利用した推論モジュールも設計する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:00:16 GMT)
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.7] マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:48:43 GMT)
Audio-Visual Deepfake Detection With Local Temporal Inconsistencies [11.7] 本稿では,音声と視覚の微妙な時間的不整合を捉えることを目的とした,音声-視覚的ディープフェイク検出手法を提案する。
アーキテクチャの観点からは、時間距離マップと注意機構が組み合わさって、これらの矛盾を捉えるように設計されている。
本手法はDFDCおよびFakeAVCelebデータセットを用いた最先端手法に対して評価を行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:02:33 GMT)
Class-wise Federated Unlearning: Harnessing Active Forgetting with Teacher-Student Memory Generation [11.6] 能動的忘れ込みに基づく神経刺激型フェデレーション・アンラーニング・フレームワークを提案する。
我々のフレームワークは、新しい記憶を利用して古い記憶を上書きすることで、既存の方法と差別化している。
本手法は,バックドア攻撃に対する未学習の完全性を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:10:10 GMT)
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.6] 状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:35:13 GMT)
On Sufficient and Necessary Criteria of Multipartite Quantum Entanglement [11.5] 任意の次元多部量子状態の分離性と真の多部量子絡み合いについて検討する。
これらの基準に基づき、任意のマルチキュービット系に対して最大混合状態の周りの最大の分離可能な球が見つかる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:31:05 GMT)
Interactive Multimodal Fusion with Temporal Modeling [11.5] 本手法では,マルチモーダル・フレームワークを通じて視覚情報と音声情報を統合する。
ビジュアルブランチは、トレーニング済みのResNetモデルを使用して、顔画像から特徴を抽出する。
オーディオブランチは、トレーニング済みのVGGモデルを使用して、音声信号からVGGishとLogMelの特徴を抽出する。
提案手法は,Aff-Wild2データセット上での競合性能を実現し,VA推定に有効なマルチモーダル融合を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:31:56 GMT)
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity [11.3] 本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:17:19 GMT)
Why LLMs Are Bad at Synthetic Table Generation (and what to do about it) [11.3] 合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。
合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:19:46 GMT)
Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding [11.1] 投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:55:38 GMT)
General phase diagram features of superradiant phase transitions [11.0] 一般位相図では、原点が正規位相(NP)にあり、SPTは選択された結合パラメータベクトルの半径方向に沿って1回しか発生しない。
我々は,SPTを特定のモデルで説明し,多モード集団的挙動を用いて強い結合状態において達成できることを見出した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:47:40 GMT)
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model [11.0] AVVAは、オーディオ用Whisperとビデオ用DINOv2を使って、デュアルエンコーダコントラスト学習フレームワーク内で高品質なトレーニングクリップをスコアし、選択する。
データ品質のトレーディングデータ量により、AudioCaps、VALOR、VGGSoundの各トップ3の精度は47.8、48.4、58.0ポイント向上する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:37:01 GMT)
Chirality, magic, and quantum correlations in multipartite quantum states [10.9] キラル状態は局所ユニタリ演算を用いて局所積基底において複素共役に変換することはできない。
キラル対数距離」と呼ばれる測度は、状態と複素共役の間の最大忠実度の観点から定義される。
キラリティと、状態における「魔法」や「非安定化器」資源の量との一般的な関係を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:08 GMT)
Fixed-Point RNNs: From Diagonal to Dense in a Few Iterations [10.9] 我々は,高密度線形RNNを並列化可能な対角線RNNの固定点として1層に計算する。
一般的なおもちゃのタスクである$A_5$, $S_5$, copying, and modular arithmeticsで最先端の結果を得る。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:50:22 GMT)
SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models [10.8] 本稿では,大言語モデル(LLM)の広範な世界知識とパターンをキャプチャする能力を活用し,合成要約を利用する新しい手法であるSySLLMを提案する。
SySLLMサマリーは、デモベースのポリシーサマリーよりも好まれており、客観的エージェント識別タスクにおいて、それらのパフォーマンスにマッチするか、上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:10:14 GMT)
Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions [10.8] いくつかのウィキで削除をマークした記事を中心に,議論のデータベースを構築した。
次に、異なるタスクで様々なLMを評価するために使用します。
結果から,削除につながる議論は予測し易いことが明らかとなった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:07:35 GMT)
Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation [10.7] Emotional Mimicry Intensity Estimationは、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術である。
本稿では,動的相関モデリングとマルチモーダル時間信号のロバスト融合のための2段階クロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験結果から,6つの感情次元の平均ピアソン相関係数0.35が得られた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:46:16 GMT)
Numerically robust Gaussian state estimation with singular observation noise [10.5] 本稿では特異な観測ノイズを伴うガウス状態推定のための数値的ロバストなアルゴリズムを提案する。
提案手法の計算保存と数値ロバスト性を解析し,本手法の有効性をシミュレーションで検証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:43:53 GMT)
H2-MARL: Multi-Agent Reinforcement Learning for Pareto Optimality in Hospital Capacity Strain and Human Mobility during Epidemic [10.4] 我々は,病状伝達をシミュレートするオンライン更新可能なパラメータを用いたタウンシップレベルの感染モデルを構築した。
我々は、様々な規模の4つの代表都市から10億以上の記録を含むタウンシップレベルの人体移動データセットを構築した。
H2-MARLは最適な二重目的トレードオフ能力を有しており、ヒトの移動制限損失を最小限に抑えつつ、病院の容量を最小化することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:40:07 GMT)
PAD: Personalized Alignment of LLMs at Decoding-Time [10.3] 本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。
パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。
PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:37:57 GMT)
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models [10.3] 画像を生成する前に空間配置条件を事前に計画できる統合レイアウト計画と画像生成モデルPlanGenを提案する。
PlanGenは、ローカルキャプションとバウンディングボックス座標の特別なエンコーディングを必要とせずに、レイアウト条件をコンテキストとしてモデルに統合する。
さらに、よく設計されたモデリングのおかげで、PlanGenはレイアウト誘導の画像操作にシームレスに拡張できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:37:09 GMT)
OODD: Test-time Out-of-Distribution Detection with Dynamic Dictionary [10.2] ディープラーニングモデルでは、アウト・オブ・ディストリビューション(OOD)検出が依然として難しい。
我々は,OOD辞書を微調整なしで動的に保守・更新する新しいテスト時間OOD検出手法OODDを提案する。
我々は,検出性能を維持しながら3倍の高速化を実現する,KNNベースのOOD検出フレームワークの最適化版を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:41:56 GMT)
PIMRL: Physics-Informed Multi-Scale Recurrent Learning for Spatiotemporal Prediction [10.2] PIMRLフレームワークは、事前トレーニングを通じてニューラルネットワークに物理的な知識を組み込んで、学習のためのデータ駆動アプローチを採用する。
PIMRLは、1次元から3次元までの5つのベンチマークデータセットにおいて、最先端のパフォーマンスを一貫して達成している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:01:03 GMT)
3D Student Splatting and Scooping [10.1] 3D Gaussian Splatting (3DGS)は、新しいビュー合成のための新しいフレームワークを提供し、ニューラルレンダリングと関連するアプリケーションに関する新しい研究の波をスパイクさせた。
フレキシブルな学生のt分布からなる新しい混合モデルを提案する。
より良い表現力を提供する場合、SSSは学習に新たな課題をもたらす。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:20:54 GMT)
Federated Class-Incremental Learning: A Hybrid Approach Using Latent Exemplars and Data-Free Techniques to Address Local and Global Forgetting [10.1] FCIL(Federated Class-Incremental Learning)とは、動的に変化するクライアントの数が、継続的に増加するタスク数を共同で学習するシナリオを指す。
我々は,局所的およびグローバルな忘れを定式化するFCILの数学的枠組みを開発する。
局所的, グローバルな忘れを解消するために, 潜在例とデータフリー手法を利用したHybrid Rehearsalという手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:12:47 GMT)
Fourier Decomposition for Explicit Representation of 3D Point Cloud Attributes [10.0] スペクトル領域の操作により知覚場を拡張しながら色や幾何学的特徴を歪曲する点雲符号化手法を提案する。
解析により, この符号化手法が特徴成分を効果的に分離し, 振幅が一意に色属性を捕捉し, 位相が幾何学的構造を符号化することを確認した。
ポイントクラウド分類とスタイル転送タスクにおけるポイントクラウドエンコーディングのアプローチを検証し,DensePointデータセットの最先端結果を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:13:40 GMT)
OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction [9.7] 現在の方法は、敵条件や分布シフトに起因する不確実性を見落としていることが多い。
本稿では,3次元占有予測のための不確実性推定手法を効率的に適用することを提案する。
本手法は、自律運転システムの堅牢性を高める可能性を示すとともに、信頼性の高い不確実性対策を一貫して示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:50:07 GMT)
A New Benchmark for Few-Shot Class-Incremental Learning: Redefining the Upper Bound [9.7] CIL(Class-incremental Learning)は、先進的なクラスに継続的に適応し、学習したクラスの知識を維持することを目的としている。
FSCIL(Few-shot class-incremental Learning)は,サンプル数限定で段階的なクラスを学習するモデルを必要とする,さらに大きな課題を提示している。
我々は,不均衡認識技術を統合することで,FSCILに適した新しいジョイントトレーニングベンチマークを導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:25:29 GMT)
Unlocking Generalization Power in LiDAR Point Cloud Registration [9.7] UGPはLiDARポイントクラウド登録のための一般化能力を高めるために設計されたフレームワークである。
KITTIとnuScenesの実験では、UGPはそれぞれ94.5%と91.4%という最先端のレジストレーションリコール率を達成した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:20:59 GMT)
Safe exploration in reproducing kernel Hilbert spaces [9.6] データからRKHS基準を推定できる安全なBOアルゴリズムを提案する。
物理シミュレータや実逆振り子上での強化学習ポリシーを安全に最適化するために,本アルゴリズムを適用した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:28:54 GMT)
AnywhereDoor: Multi-Target Backdoor Attacks on Object Detection [9.5] AnywhereDoorは、オブジェクト検出のためのマルチターゲットバックドアアタックである。
敵は、すべてのオブジェクトクラスまたは特定のオブジェクトクラスをまたいで、オブジェクトを消したり、新しいオブジェクトを作ったり、ラベルを間違えたりすることができる。
このような柔軟な制御のための既存の手法の適応と比較して、攻撃成功率を26%向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:18:40 GMT)
3D Extended Object Tracking based on Extruded B-Spline Side View Profiles [9.5] 本稿では,B-スプライン曲線を用いた物体の側視プロファイルを記述することで,3次元拡張オブジェクトトラッキング(EOT)を提案する。
B-スプライン曲線の使用は、制御点を自由に移動させることで、その柔軟な表現力を利用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:17:34 GMT)
Accurate, provable, and fast nonlinear tomographic reconstruction: A variational inequality approach [9.4] EXACT(Extragradient Algorithm for Computed Tomography)と呼ばれる単一材料再構成のための簡易反復アルゴリズムを開発した。
本研究は, EXACTの統計的, 計算性能の保証を, 実測過程の前提条件で証明する。
我々は,CTファントム画像復元タスクにEXACTアルゴリズムを適用し,X線投影露光が少ないこと,ソース強度が低いこと,既存手法に類似した再現性を実現するための時間が少ないこと,などを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:04:34 GMT)
RedChronos: A Large Language Model-Based Log Analysis System for Insider Threat Detection in Enterprises [9.3] 内部脅威検出 (IDT) は、組織や企業内のセキュリティ脅威に対処することを目的としている。
RedChronosは大規模言語モデルに基づくログ分析システムである。
RedChronosは、精度、精度、検出率の点で、既存のアプローチより優れているか、あるいは一致している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:47:44 GMT)
DNA Nanotechnology for Superradiance [9.3] 1954年にディックが提唱した超放射能は、高効率な量子光源である。
これまでの研究は、量子ドットと有機染料のランダムな凝集を通して、誤って超放射光を観測してきた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:34:03 GMT)
Neuroplastic Expansion in Deep Reinforcement Learning [9.3] 学習エージェントにおける可塑性の喪失は、強化学習における学習と適応を著しく阻害する。
本稿では,認知科学における皮質拡大に触発された新しいアプローチであるニューロプラスティック・エクスパンジョン(NE)を提案する。
NEは、ネットワークを小さな初期サイズからフル次元に動的に拡大することにより、トレーニングプロセス全体を通して学習性と適応性を維持します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:25:44 GMT)
Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [9.2] ATOP(Articulate That Object Part)は、静的な3Dオブジェクトを明瞭化するためのモーションパーソナライゼーションに基づく、新しい数ショット方式である。
提案手法は,現実的な動画を生成し,より正確で一般化可能な3次元動作パラメータを予測できることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:51:34 GMT)
Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization [9.2] 学習可能な画像圧縮は、RD効率で標準化されたビデオコーデックを上回る可能性を示している。
既存のハードウェア実装の多くは、RD効率に遅延を優先順位付けし、ハードウェア設計空間を広範囲に調査している。
本稿では,RD効率を損なうことなく,特定のハードウェアプラットフォームの設計の調整の負担をモデル次元にシフトする,新しい設計パラダイムを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:27:15 GMT)
Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling [9.1] ディープニューラルネットワーク(DNN)はしばしば、オブジェクト認識中に特定のカテゴリに対するバイアスを示す。
本稿では,クラス固有の知覚多様体の幾何学的複雑さをモデルバイアスにリンクする幾何学的解析フレームワークを提案する。
本稿では,知覚多様体の幾何学的性質を計算するために設計された知覚多様体幾何学ライブラリを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:14:55 GMT)
LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner [9.0] 言語モデル(LM)は、自然言語を理解する強力な能力を有しており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的である。
本稿では,言語モデル駆動型多エージェントPDDLプランナ(LaMMA-P)を提案する。
LaMMA-Pは、LMの推論能力と従来の探索プランナーの強みを統合し、高い成功率と効率を達成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:17:58 GMT)
From Slices to Sequences: Autoregressive Tracking Transformer for Cohesive and Consistent 3D Lymph Node Detection in CT Scans [9.0] LN-トラッカー(LN-Tracker)は、関節終端検出と3Dインスタンスアソシエーションのための新しいLN追跡変換器である。
LN-Trackerはトランスフォーマーのデコーダのクエリをトラックと検出グループに分離する。
4つのリンパ節データセットの大規模な評価は、LN-Trackerの優れた性能を示し、他の上位3D/2.5D検出器と比較して、平均的な感度が2.7%向上している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:01:12 GMT)
HeightFormer: Learning Height Prediction in Voxel Features for Roadside Vision Centric 3D Object Detection via Transformer [9.0] The framework learning height prediction in voxel features via transformer, called HeightFormer。
ボクセルの特徴を局所的な高さ列に分類し、注意機構を利用して高さ分布予測を行う。
提案手法は,DAIR-V2X-I と Rope3D の2つの大規模道路側ベンチマークに適用できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:17:19 GMT)
Flow-NeRF: Joint Learning of Geometry, Poses, and Dense Flow within Unified Neural Representations [8.9] Flow-NeRFは、シーン幾何学、カメラポーズ、高密度光フローを同時に最適化する統合フレームワークである。
我々は,世界空間表現に標準空間特徴を渡す効果的な機能拡張機構を開発する。
提案手法は,新しいビュービューの合成と深度推定のためのほぼすべての指標において,従来の手法を超越した手法である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:37:11 GMT)
Optimizing for the Shortest Path in Denoising Diffusion Model [8.9] 最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。
複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。
この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:16:50 GMT)
Bilingual Dual-Head Deep Model for Parkinson's Disease Detection from Speech [8.9] 本研究は, 音声信号からのパーキンソン病(PD)検出問題にバイリンガル設定で対処することを目的として, タイプベースバイナリ分類のためのアドホックなデュアルヘッドディープニューラルアーキテクチャを提案する。
片頭はダイアドコキネティックなパターンに特化しており、もう片頭は連続した発声音声に存在する自然な音声パターンを検索する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:23:11 GMT)
Security and Real-time FPGA integration for Learned Image Compression [8.8] Learnable Image Compression (lic) は、圧縮効率において、標準化されたビデオコーデックよりも優れていることが証明されている。
本研究は、ハードウェア上でlicモデルをトレーニング、セキュリティ、デプロイするための統合ワークフローとプラットフォームを提供することによって、これらの課題に対処する。
本稿では,新しい量子化対応透かし (QAW) 手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:56:14 GMT)
GenUP: Generative User Profilers as In-Context Learners for Next POI Recommender Systems [8.8] POI(Point-of-Interest)レコメンデーションシステムは、透明性、解釈可能性、精査性に欠けることが多い。
既存の手法は、他のユーザーからの類似の軌跡を活用することで、この問題に対処することが多い。
本稿では,LBSNの大規模チェックインから自然言語(NL)ユーザプロファイルを生成する手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:54:57 GMT)
KernelGPT: Enhanced Kernel Fuzzing via Large Language Models [8.8] 我々はLarge Language Models (LLM) を通じてsyscall仕様を自動合成する最初のアプローチである KernelGPT を提案する。
以上の結果から, KernelGPTは最新の技術よりも, より新しい, 有効な仕様を作成できることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:00:21 GMT)
Fast Sideband Control of a Weakly Coupled Multimode Bosonic Memory [8.8] 超伝導キャビティとトランスモンのような非線形回路を備えた回路量子電磁力学は、ハードウェア効率の良い量子情報処理のための有望なプラットフォームを提供する。
分散結合を弱めることにより、このアーキテクチャを実現する上での重要な課題に対処する。
トランスモンを介するサイドバンド相互作用によってゲート速度を動的に増幅することにより,高速かつ高忠実なマルチモード制御を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:07 GMT)
VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames [8.7] 本稿では,3次元ガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:56:05 GMT)
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.6] TokenCarveは、2段階のトークン圧縮フレームワークである。
ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:04:31 GMT)
ST-FlowNet: An Efficient Spiking Neural Network for Event-Based Optical Flow Estimation [8.5] イベントベースの光フロー推定のための有望なツールとして、スパイキングニューラルネットワーク(SNN)が登場した。
本研究では,イベントベースデータからの光フロー推定に適した新しいニューラルネットワークアーキテクチャST-FlowNetを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:28:42 GMT)
Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.5] 機械学習データセットの潜時バイアスは、トレーニング中に増幅され、テスト中に/または隠される。
本稿では,偏見源に関するターゲット仮説を生成するためのデータモダリティに依存しない監査フレームワークを提案する。
大規模医療データセットを解析することにより,本手法の適用可能性と価値を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:16:48 GMT)
ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models [8.5] 大規模言語モデルは分子科学の分野で顕著な進歩を遂げた。
タンパク質科学において、アミノ酸配列はLDMの唯一のトークン化剤として機能する。
本稿では,タンパク質配列,構造,テキスト情報を統一された離散空間にトークン化する新しいフレームワークであるProtを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:54:27 GMT)
From Equations to Insights: Unraveling Symbolic Structures in PDEs with LLMs [8.4] 偏微分方程式(PDE)における記号関係の学習に大規模言語モデル(LLM)を活用することを提案する。
以上の結果から,PLMはPDEのシンボル情報を利用して,PDEソリューションに関わる演算子を効果的に予測できることが示唆された。
この研究は、科学的問題の象徴的構造を理解し、解法プロセスを進めるための新しい道を開く。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:52:20 GMT)
Conditional diffusions for amortized neural posterior estimation [8.4] 本稿では,高容量要約ネットワークを併用した条件拡散の有効性を示す。
その結果,より単純で浅いモデルであっても,安定性の向上,精度の向上,トレーニング時間の短縮が得られた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:16:15 GMT)
EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.3] ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:32:46 GMT)
Data Caricatures: On the Representation of African American Language in Pretraining Corpora [8.2] 我々は、主に英語、オープンソースの事前学習コーパスにおけるアフリカ系アメリカ人表現の量と質を評価する。
AALは、アメリカの人口統計学と比較して、すべての評価済み事前学習コーパスで不足しており、0.007%の文書で構成されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:31:10 GMT)
$ShiftwiseConv:$ Small Convolutional Kernel with Large Kernel Effect [8.2] 大型カーネルは、様々な視覚タスクにおけるトランスフォーマーアーキテクチャよりも、標準畳み込みニューラルネットワーク(CNN)が優れている。
カーネルサイズの増加を念頭に設計した最近の研究では、性能の低下や停滞が示されている。
本稿では,大規模カーネルの重要な隠蔽因子を,ある粒度で特徴を抽出し,複数の経路で特徴を融合させるという,2つの分離された構成要素としてまとめることができることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:35:17 GMT)
Team NYCU at Defactify4: Robust Detection and Source Identification of AI-Generated Images Using CNN and CLIP-Based Models [8.1] 本稿では,CNNとCLIP-ViT分類器を用いて,AI生成画像の検出とソースモデルの同定に取り組む。
CNNベースの分類器では、EfficientNet-B0をバックボーンとして利用し、RGBチャネル、周波数特性、再構成エラーでフィードをフィード化する。
CLIP-ViTでは、事前訓練されたCLIP画像エンコーダを用いて画像の特徴を抽出し、SVMを用いて分類を行う。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:21:16 GMT)
CPLOYO: A Pulmonary Nodule Detection Model with Multi-Scale Feature Fusion and Nonlinear Feature Learning [8.1] 多型検出は、肺がん全体の検出率の向上と治療率の向上に寄与する。
高感度の結節検出を実現するため、YOLOv8モデルにターゲット改良が加えられた。
C2f_RepViTCAMFモジュールは、バックボーン内のC2fモジュールを増強するために導入された。
MSCAFモジュールはモデルの特徴融合部を再構築するために組み込まれた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:51:57 GMT)
Graph-Grounded LLMs: Leveraging Graphical Function Calling to Minimize LLM Hallucinations [8.1] グラフは、自動運転車のモーションプランニング、ソーシャルネットワーク、シーン理解、知識グラフなど、幅広いアプリケーションに不可欠なものだ。
本稿では,グラフライブラリを関数呼び出しを通じて統合することにより,グラフ関連タスク上でのLLM性能を向上させるシステムであるGraph-Grounded LLMを提案する。
我々は,NLGraphベンチマークの結果から,幻覚の顕著な低減と,グラフに基づく問題の解法における数学的精度の向上を実証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:57:28 GMT)
Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression [8.0] 入力に対するブラックボックス深部生成モデルから,有効かつ小さな予測セットを生成する問題を考える。
我々は、生成予測セット(GPS)と呼ばれる単純で効果的な共形推論アルゴリズムを開発する。
GPSの背後にある重要な洞察は、許容可能な出力を得るのに必要な最小限のサンプル数に対して、分布内の固有の構造を利用することである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:16:23 GMT)
ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMs [8.0] 我々は3つの重要な革新を通じて効率的なキャッシュ管理を実現する動的ゼロショット圧縮フレームワークであるZeroMergeを提案する。
我々はZeroMergeが圧縮比5%でフルキャッシュ性能を維持しつつ,40Kトークン長で推論を倍増していることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:36:03 GMT)
Enhanced Route Planning with Calibrated Uncertainty Set [7.8] 本稿では,CQR-GAE(Conformalized Quantile Regression for Graph Autoencoders)を提案する。
実世界の交通シナリオにCQR-GAEモデルを適用することで,提案手法の有効性を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:31:42 GMT)
PluralLLM: Pluralistic Alignment in LLMs via Federated Learning [7.8] 我々は、複数のユーザグループが機密データを共有せずに、トランスフォーマーベースの嗜好予測器を協調的に訓練できる、フェデレート学習ベースのアプローチであるPluralLLMを紹介した。
提案手法は,フェデレート平均化(FedAvg)を利用して,選好更新を効率よく集約し,コンバージェンスを46%高速化し,アライメントスコアを4%改善し,グループ公平度を集中訓練とほぼ同等に向上する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:45:27 GMT)
Learn then Decide: A Learning Approach for Designing Data Marketplaces [7.7] 最大競売価格(MAPP)機構を導入する。
MAPPはまずオークションを通じて入札者の価値分布を推定し、次に最適な上場価格を決定する。
提案手法は,O_p(T-1/2(log T)2)$の平均的累積的後悔度を$O_p(T-1/2(log T)2)$で収束させることで,非回帰学習を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:07:30 GMT)
Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators [7.7] CIMはディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、かなりのオーバーヘッドに悩まされている。
低精度のADCは、このオーバーヘッドを削減できるが、部分的なサム量子化誤差による精度低下をもたらす。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:32:19 GMT)
Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation [7.7] 本稿では,RelePについて紹介する。
ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:15:59 GMT)
PCLA: A Framework for Testing Autonomous Agents in the CARLA Simulator [7.7] オープンソースのPythonテスティングフレームワークであるPCLA(Pretrained CARLA Leaderboard Agents)を紹介する。
PCLAは、任意のCARLA環境/シナリオで様々な自律エージェントをテストするために特別に設計された最初のインフラである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:14:35 GMT)
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation [7.6] KUDAは、動的学習とキーポイントによる視覚的プロンプトを統合したオープン語彙操作システムである。
我々の重要な洞察は、キーポイントベースのターゲット仕様が同時にVLMによって解釈可能であることである。
我々は,多様な対象カテゴリにわたる自由形式言語命令を含む操作タスクにおいて,KUDAを評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:59:17 GMT)
CODEI: Resource-Efficient Task-Driven Co-Design of Perception and Decision Making for Mobile Robots Applied to Autonomous Vehicles [7.5] 本稿では,移動ロボットの設計における統合的課題と戦略に焦点を当てる。
意思決定における知覚と行動計画の相互作用を強調した。
本稿では,移動ロボットの共設計問題を解決するための枠組みを,共設計の共設計の略であるCODEIと呼ぶ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:12:44 GMT)
Debias your Large Multi-Modal Model at Test-Time via Non-Contrastive Visual Attribute Steering [7.5] 大規模マルチモーダルモデル(LMM)のための学習自由脱バイアスフレームワークを提案する。
我々のフレームワークは、保護された属性に対する参照を減らすステアリングベクトルを構築することによって、テキスト生成中のモデルの表現に介入する。
実験の結果,これらの介入は,感情や流布を維持しつつ,保護属性に関連するテキストを生成するLMMの妥当性を効果的に低下させることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:02:59 GMT)
Grounding Natural Language to SQL Translation with Data-Based Self-Explanations [7.5] Cycleは、エンドツーエンドの翻訳モデルのために設計されたフレームワークで、自己評価を通じて最適な出力を自律的に生成する。
主な考え方は、データ基底のNL説明を自己提供のフィードバックとして導入し、そのフィードバックを使って翻訳の正確性を検証することである。
その結果、1) サイクルで導入されたフィードバックループは既存のモデルの性能を一貫して改善することができ、特にRESDにCycleを適用することで、検証セットで82.0%(+2.6%)、テストセットベンチマークで81.6%(+3.2%)の翻訳精度が得られることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:15:49 GMT)
Demoting Security via Exploitation of Cache Demote Operation in Intel's Latest ISA Extension [7.4] 我々は、Intelが最近導入した、効率的なデータ共有を促進するcldemote拡張について検討する。
性能上の利点があるにもかかわらず、我々は、重要な特性のないアクセス、キャッシュ間状態遷移、障害抑制を解明し、マイクロアーキテクチャーアタックに利用できるようにする。
分析に基づいて,Flush+DemoteとDemote+Timeという2つの新しい攻撃プリミティブを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:43:14 GMT)
RankPO: Preference Optimization for Job-Talent Matching [7.4] 大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。
最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。
第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:14:37 GMT)
Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.3] 様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。
メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。
最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:42:39 GMT)
The R2D2 Deep Neural Network Series for Scalable Non-Cartesian Magnetic Resonance Imaging [7.2] R2D2 Deep Neural Network (DNN) シリーズのパラダイムを導入し,MRIにおける非モンテカルロk空間の取得から高速でスケーラブルな画像再構成を実現する。
少数のDNNを持つシリーズは、ロールされていないR2D2-Netよりも優れた再構築品質を実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:35:19 GMT)
AI-assisted Early Detection of Pancreatic Ductal Adenocarcinoma on Contrast-enhanced CT [7.2] 膵管腺癌 (PDAC) は, 膵癌で最も多く, 活発な膵癌の1つである。
本研究ではコントラスト強調CTでPDACを検出するための粗大なアプローチを開発する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:31:18 GMT)
Uncertainty in Action: Confidence Elicitation in Embodied Agents [7.2] 本研究は,オープンエンドマルチモーダル環境におけるインボディード・インテリジェンス・エコシテーションに関する最初の研究である。
本稿では, 帰納的, 帰納的, 帰納的推論にまたがる信頼度を, 構造的信頼度評価として導入する。
階層型推論手法であるChain-of-Thoughtsでは,信頼性校正の精度が向上している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:41 GMT)
Large Language Models are Biased Because They Are Large Language Models [7.2] 有害なバイアスは、大きな言語モデルの設計から生じる必然的な結果である、と私は主張する。
これは事実である範囲において、LLMによって駆動されるAIの深刻な再考なしに有害なバイアスの問題は適切に対処できないことを示唆している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:32:18 GMT)
Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [7.1] 我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御状態プロセスはポリシーに従って集約された係数で動的に弱収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策評価と政策勾配推定器のバイアスとばらつきを分析した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:35:23 GMT)
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.0] ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:18:37 GMT)
Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.0] MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:48:08 GMT)
TARS: Traffic-Aware Radar Scene Flow Estimation [7.0] シーンフローは、自動運転にとって重要な動き情報を提供する。
最近のLiDARシーンフローモデルは、物体が剛体であると仮定して、インスタンスレベルでの剛体運動仮定を利用する。
本稿では,交通レベルにおける動き剛性を利用した新しい$textbfTARS$を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:54:08 GMT)
Inter-environmental world modeling for continuous and compositional dynamics [7.0] 環境全体にわたってシミュレートする継続的潜在アクション表現を学習する、教師なしのフレームワークであるLie Actionを紹介した。
WLAはビデオフレームのみを用いてトレーニングが可能であり、アクションラベルが最小でも無ければ、新しいアクションセットを持つ新しい環境に迅速に適応できることを実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:02:54 GMT)
Benign Overfitting in Time Series Linear Models with Over-Parameterization [6.9] 時系列データを用いて線形回帰モデルを解析する。
我々は推定器の過大なリスクの理論を発展させる。
リスク境界の収束率を示し、時間的共分散のコヒーレンスにも影響されていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:19:36 GMT)
Learning Disease State from Noisy Ordinal Disease Progression Labels [6.9] ノイズの多い順序ラベルから学ぶことは、医療画像において重要な課題である。
本研究は,病状状態を分類可能な表現を学習するために,常態性疾患進行ラベルを使用できるかどうかを問うものである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:04:27 GMT)
The Breakdown of Gaussian Universality in Classification of High-dimensional Linear Factor Mixtures [6.9] 一般的な混合データ環境下での分類における経験的リスク最小化の高次元的特徴について述べる。
その分解の影響を理解するために、ガウス普遍性の条件を定義し、損失関数の選択に対するそれらの影響について議論する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:01:35 GMT)
Learning Interpretable Logic Rules from Deep Vision Models [6.9] VisionLogicは、深いビジョンモデルから解釈可能なロジックルールを抽出するフレームワークである。
単一の画像に対する局所的な説明と、特定のクラスに対するグローバルな説明を提供する。
ヴィジュアル論理はまた、述語によって符号化された視覚概念の研究を促進する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:04:04 GMT)
DA-STGCN: 4D Trajectory Prediction Based on Spatiotemporal Feature Extraction [6.8] 本稿では,2つの注意機構を統合した革新的なグラフ畳み込みネットワークであるDA-STGCNを提案する。
本モデルでは,自己アテンションアプローチにより隣接行列を再構成し,ノード相関の捕捉性を高める。
その結果, 平均変位誤差 (Attention) と最終変位誤差 (FDE) の20%と30%の低減を実現し, 現行の4次元軌道予測法よりも顕著な改善が見られた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:39:44 GMT)
FlashRNN: I/O-Aware Optimization of Traditional RNNs on modern hardware [6.7] 状態追跡機能は、時系列タスクと論理的推論にとって重要である。
LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。
我々は、Tritonのハードウェア最適化FlashRNNと、レジスタレベルに最適化されたカーネルで、これらのネットワークがどれだけ高速になるかを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:14:49 GMT)
Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey [6.7] VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の交差点において、トランスフォーメーション技術として登場した。
VLMは、視覚的およびテキスト的データに対して強力な推論と理解能力を示し、ゼロショット分類において古典的な単一モダリティ視覚モデルを上回る。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:50:08 GMT)
Deep Learning-Based Direct Leaf Area Estimation using Two RGBD Datasets for Model Development [6.7] 単一葉面積の推定は作物の生育の指標であり,新品種を育むための表現型形質である。
本研究では,実世界のシナリオにおいて,モバイルカメラを用いたRGBD画像の深層学習に基づく葉面積推定について検討する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:39:09 GMT)
scMEDAL for the interpretable analysis of single-cell transcriptomics data with batch effect visualization using a deep mixed effects autoencoder [6.6] scMEDALはシングルセルミックスエフェクトディープオートエンコーダ学習のためのフレームワークである。
scMEDALはバッチ固有のバリエーションをモデル化しながら、バッチ効果を抑制する。
病気の状態、ドナー群、細胞型のより正確な予測を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:15:37 GMT)
2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos [6.6] 本研究では,人間の活動ビデオデータセットから手頃なデータを抽出するフレームワークを提案する。
本稿では,VLMに基づく価格予測モデルである2HandedAfforderを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:35:58 GMT)
Label Unbalance in High-frequency Trading [6.4] 金融取引において、リターン予測は取引システムの成功の基盤の1つである。
本稿では,包括的ラベル不均衡調整手法を用いた厳密なエンドツーエンドディープラーニングフレームワークを採用する。
われわれは将来の中国市場での高頻度リターンの予測に成功している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:55:06 GMT)
HOPS: High-order Polynomials with Self-supervised Dimension Reduction for Load Forecasting [6.4] 本稿では、上記の問題に対処するため、低階近似と自己監督次元削減を提案する。
提案手法は,ISO New Englandの負荷データセットに基づいて,複数の競合モデルに対して高い予測精度を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:18:10 GMT)
Reference-Free 3D Reconstruction of Brain Dissection Photographs with Machine Learning [6.4] 神経病理とMRIの相関は、病理の顕微鏡的署名をinvivo scanに転送する可能性がある。
近年,3次元再構成画像からこれらの相関関係を構築するための古典的登録法が提案されている。
本稿では,外部参照のない解剖写真再構成手法であるRefFreeを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:09:16 GMT)
Understanding and Predicting Derailment in Toxic Conversations on GitHub [6.3] この研究は、GitHubの有害性につながる会話の脱線を理解し予測することを目的としている。
このデータセットに基づいて,有害な会話や脱線点の特徴を識別する。
本研究では,エスカレーション前に潜在的に有害な会話を自動的に検出し,対処するための能動的モデレーション手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:25:44 GMT)
Representation Retrieval Learning for Heterogeneous Data Integration [6.3] Representation Retrieval(R2$)フレームワークを提案する。このフレームワークは表現学習モジュール(表現器)と疎性誘導機械学習モデル(学習器)を統合している。
我々は,マルチタスク学習における従来の完全共有仮定を緩和し,部分的共有構造を実現し,SIPが過剰リスク境界の収束率を向上させることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:39:15 GMT)
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence [6.3] 複数のAIファンデーションモデル間のインタラクションをオーケストレーションするフレームワークを開発する。
このフレームワークは、主に現実世界の知識を必要とするタスクに対して、無視可能なメリットを提供する。
一方、我々は、集中的な論理的推論を必要とするタスクの大幅な改善について言及する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:20:53 GMT)
Foundation Model of Electronic Medical Records for Adaptive Risk Estimation [6.2] 米国はGDPの約18%を医療に割り当てているが、他の高所得国と比較して平均寿命が低く、死亡率も高い。
ETHOS(Enhanced Transformer for Health Outcome Simulation)は,患者の健康スケジュールをEHRからトークン化するAIモデルである。
Adaptive Risk Estimation System (ARES)は、臨床医が定義した臨界事象に対するダイナミックでパーソナライズされたリスク確率を計算するためにETHOSを利用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:37:55 GMT)
SplatAD: Real-Time Lidar and Camera Rendering with 3D Gaussian Splatting for Autonomous Driving [6.2] カメラとライダーデータのセンサリアリスティックレンダリングのための既存のニューラル放射場(NeRF)法は、低レンダリング速度に悩まされている。
SplatADは,カメラとライダーデータの両方の動的シーンをリアルかつリアルタイムにレンダリングするための,最初の3DGSベースの手法である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:41:47 GMT)
Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.0] より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。
これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:50:57 GMT)
KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis [6.0] KG4Diagnosisは、大規模言語モデルと知識グラフの自動構築を組み合わせた、新しい階層型マルチエージェントフレームワークである。
本フレームワークは,2層構造を用いて実世界の医療システムをミラーリングする。初期評価とトリアージのためのGPエージェントであり,特定のドメインにおける深度診断のための特殊なエージェントと協調する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:05:30 GMT)
Punctuation restoration improves structure understanding without supervision [5.9] 学習目的としての句読点復元が構造関連タスクの性能を向上させることを示す。
その結果,句読点復元は構造理解を向上する効果的な学習目標であることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:32:50 GMT)
Multi-Agent Q-Learning Dynamics in Random Networks: Convergence due to Exploration and Sparsity [5.9] ネットワーク構造がランダムなグラフモデルから引き出されるネットワークポリマトリクスゲームにおけるQラーニングダイナミクスについて検討する。
各設定において、エージェントの合同戦略が一意の平衡に収束する十分な条件を確立する。
数値シミュレーションにより理論的知見を検証し,多エージェントシステムにおいて収束が確実に達成できることを実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:16:51 GMT)
Lightweight Models for Emotional Analysis in Video [5.9] 我々はMobileNetV4とマルチスケール3次元時間アグリゲーションモジュールを用いた効率的な特徴抽出手法を提案する。
このフレームワークは計算効率と予測精度のバランスが提案されており、モバイルおよび組み込みコンピューティング環境におけるリアルタイムアプリケーションに適している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:38:33 GMT)
Continuous K-space Recovery Network with Image Guidance for Fast MRI Reconstruction [5.9] 高速MRIは、アンダーサンプリングされたk空間から高品質な画像を復元することを目的としている。
既存の方法では、アンサンプされたデータをアーティファクトのないMRI画像にマッピングするために、ディープラーニングモデルを訓練する。
画像領域誘導を用いた暗黙的ニューラル表現の新しい視点から、連続的なk空間回復ネットワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:40:10 GMT)
Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles [5.9] 本論文は, 建物後屋内シナリオにおける構造損傷検査と生存者検出のための自律検査手法を提案する。
自律航法、深層学習に基づく損傷および生存者検出法、および搭載センサーを備えたカスタマイズされた低コストのマイクロエアロビー(MAV)を備えている。
擬似災害後のオフィスビルにおける実験により, 構造物の損傷検査や生存者の発見において, 高い精度を達成できることが実証された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:13:48 GMT)
The quantum non-Markovianity for a special class of generalized Weyl channel [5.7] 我々は、クラス作用素がワイル対角線に比例し、残りが消滅する一般化ワイルチャネルの特別なクラスを研究する。
CPの可視性と識別性に基づいて非マルコビアン性を同定する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:16:32 GMT)
Quantum-Chiplet: A Novel Python-Based Efficient and Scalable Design Methodology for Quantum Circuit Verification and Implementation [5.7] 本稿では,超並列量子計算解析を容易にする新しい量子表現(QPR)を提案する。
量子回路の検証には,階層型量子行動モデリング手法であるQuantum-Chipletを導入する。
量子振幅推定の例は、この手法が14キュービットのIBM Qiskitと比較して10倍以上のスピードアップで設計プロセスを大幅に改善することを示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:12:41 GMT)
AgentDAO: Synthesis of Proposal Transactions Via Abstract DAO Semantics [5.7] 本稿では,大規模言語モデルを用いたマルチエージェントシステムと,ガバナンス提案を生成するラベル中心検索アルゴリズムを提案する。
Langが達成した重要な最適化は、トークン要求の低い提案生成を確実に保証する、ユーザ入力のセマンティックアウェアな抽象化である。
実世界の応用に関する予備的な評価は、既存の基礎モデルによる複雑な提案の可能性を反映している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:52:18 GMT)
Symmetry classification correspondence between quadratic Lindbladians and their steady states [5.7] 二次リンドブラディアンの対称性クラスとその定常状態の間の接続を構築する。
数値シミュレーションにより、正しい定常対称性クラスへの長い時間での収束が確認される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:06 GMT)
Emotion Recognition with CLIP and Sequential Learning [5.7] 本稿では,Valence-Arousal (VA) Estimation Challenge, Expression Recognition Challenge, and the Action Unit (AU) Detection Challengeについて述べる。
本手法では,継続的な感情認識の促進を目的とした新しい枠組みを導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:02:06 GMT)
Simultaneous Decoding of Classical Coset Codes over $3-$User Quantum Interference Channel : New Achievable Rate Regions [5.6] 量子干渉チャネル(QIC)を用いた古典情報通信の問題点について検討する。
古典量子容量領域に3ドル(約3,300円)のQICを新たに導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:46:30 GMT)
RSR-NF: Neural Field Regularization by Static Restoration Priors for Dynamic Imaging [5.6] 動的CT(Dynamic Computed Tomography)の逆問題では、1つの視野角に1つの投影しか得られない。
地平線動データは通常、教師あり学習技術に使用するには利用できないか不足している。
可変分割を持つADMMに基づくアルゴリズムを用いて、変動目標を効率的に最適化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:50:47 GMT)
GraCo -- A Graph Composer for Integrated Circuits [5.5] 本稿では、強化学習(RL)を用いた新しい集積回路法であるグラフ合成法GraCoを紹介する。
GraCoはグラフをステップバイステップで構築することを学び、それをネットリストに変換し、SPICEでシミュレートする。
GraCoは高度にカスタマイズ可能であり、フレームワークに事前の設計知識を組み込むことを可能にします。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:47:05 GMT)
HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in Rust [5.5] 2018年以降、442のRust関連の脆弱性が現実世界のアプリケーションで報告されている。
本稿では,大規模言語モデル(LLM)の幻覚を利用して,現実のRustシナリオの脆弱性を検出する新しいフレームワークであるHALURustを紹介する。
HALURustは、54のアプリケーションにまたがる447の関数と18,691行のコードを含む、81の現実世界の脆弱性のデータセットで評価された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:38:34 GMT)
Adapting Multilingual Embedding Models to Historical Luxembourgish [5.5] 本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。
文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。
コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:19:30 GMT)
MASQUE: A Text-Guided Diffusion-Based Framework for Localized and Customized Adversarial Makeup [5.5] 我々は,ユーザ定義のテキストプロンプトで導かれる局所的な対角化粧を生成する新しい拡散ベースのフレームワークであるMASQUEを開発する。
以上の結果から,MASQUEはすべてのベースラインに対するドッジ成功率を大幅に向上し,知覚的忠実度が向上し,テキストメイクプロンプトへの適応性が向上することが示された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:05:53 GMT)
Large Language Model Strategic Reasoning Evaluation through Behavioral Game Theory [5.4] 本研究では,行動ゲーム理論に基づく評価フレームワークを導入する。
実験の結果,GPT-o3-mini,GPT-o1,DeepSeek-R1がほとんどのゲームを支配しているが,モデルスケールだけでは性能を判断できないことがわかった。
拡張の促進に関して、CoT(Chain-of-Thought)の促進は、特定のレベルのモデルに対してのみ戦略的推論を増大させ、他の場所では限定的な利得を提供するため、普遍的に効果的ではない。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:08 GMT)
Fast-response low power atomic oven for integration into an ion microchip [5.3] 我々は、マイクロチップデバイスに容易に組み込むことができる量子技術のための、新しいマイクロファブリケード中性原子源を提案する。
空気中で容易に酸化するBaなどの材料で, 真空中で蒸発物質を担持する方法を実証した。
量子技術において一般的に使用されるイオン種に対して、オーブン寿命を10年以上連続的に使用するように計算する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:06:45 GMT)
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers? [5.3] 学習可能なアクティベーション関数(KAN)は、学習可能なアクティベーション関数で構成され、データからより複雑な関係を捉えることができる。
本稿では,バニラ視覚変換器(ViT)のための一般学習可能なKolmogorov-Arnold Attention(KArAt)を最初に設計する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:59:52 GMT)
Computational Law: Datasets, Benchmarks, and Ontologies [5.2] 近年のコンピュータ科学と人工知能の発展は、法分野に寄与している。
機械学習モデルとディープラーニングモデルは、トレーニングと比較のためにかなりの量のドメイン固有データを必要とする。
意味的な資源は大規模な法体系を構築するのに有用である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:04:09 GMT)
Predicting Chemical Reaction Outcomes Based on Electron Movements Using Machine Learning [5.2] 一般反応予測のための最初の電子ベース機械学習モデルであるReactronを提案する。
既存の製品のみのモデルよりもReactronの高い予測性能を実証する。
内分布と外分布の両方において堅牢な性能を持つReactronは、化学における人間のような推論を具現化している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:31:51 GMT)
Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery [5.1] 材料情報学(MI)は、材料発見と開発を大幅に効率化することが期待されている。
MIに使用されるデータは、計算と実験の両方から得られる。
本研究では,得られたデータを用いて材料マップを構築し,材料の構造的特徴との関係を可視化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:04:14 GMT)
Scalable mixed-domain Gaussian process modeling and model reduction for longitudinal data [5.0] 混合領域共分散関数に対する基底関数近似スキームを導出する。
我々は,GPモデルの精度をランタイムのごく一部で正確に近似できることを示す。
また、より小さく、より解釈可能なモデルを得るためのスケーラブルなモデルリダクションワークフローを実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:52:01 GMT)
Towards Constraint-Based Adaptive Hypergraph Learning for Solving Vehicle Routing: An End-to-End Solution [5.0] 車両の経路問題は、広大な解空間と複雑な制約によって特徴づけられる。
本研究では,制約指向のハイパーグラフと強化学習を組み合わせた新しいエンドツーエンドフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:42:44 GMT)
SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable [5.0] 大規模言語モデル(LLM)は目覚ましい性能を示したが、その多様な長所と短所により、全てのタスクにおいて単一のLLMが支配的になるのを防いでいる。
本研究は,一貫した出力を誘導することにより,LLMを効率的にアンサンブルするためのフレームワークであるSCE(Scalable Consistency Ensemble)を導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:54:28 GMT)
Robustness Tokens: Towards Adversarial Robustness of Transformers [4.9] 本稿では,従来の逆数学習のようにモデルパラメータをチューニングする代わりに,計算要求の少ない数個のプライベートトークンを微調整する,トランスフォーマーアーキテクチャに特有の新しいアプローチであるRobustness Tokensを提案する。
我々は、ロバストネストークンが、元のダウンストリーム性能を維持しながら、ホワイトボックスの敵攻撃に対して、ビジョントランスフォーマーモデルを著しく堅牢にすることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:26:19 GMT)
Developing and Evaluating an AI-Assisted Prediction Model for Unplanned Intensive Care Admissions following Elective Neurosurgery using Natural Language Processing within an Electronic Healthcare Record System [4.8] 特殊神経集中治療ユニット(ITU)のタイムリーケアは死亡率と入院率を低下させる。
しかし、術後のケア決定は主観的のままである。
本研究は、人工知能(AI)を用いて電子健康記録(EHR)を分析し、ITUの入院を予測した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:48:48 GMT)
Red Teaming Contemporary AI Models: Insights from Spanish and Basque Perspectives [4.8] スペイン政府は、スペイン語と共用言語をサポートするためにALIAを提案した。
10人の参加者が専門知識と創造性を使って、3つのAIモデルを手動でテストしました。
結果はすべてのモデルの脆弱性を明らかにし、バイアスは29.5%から50.6%であった。
これらの発見は、信頼できる信頼できるAIシステムを開発する上で、永続的な課題を浮き彫りにしている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:27:24 GMT)
Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets [4.7] 我々は,Multigrid(MG)理論のスムースにインスパイアされた,新しいニューラルネットワーク構築ブロックを提案する。
この結果から,実虚根に基づく(二次的な)線形構造ブロックの構築により,ポリMgNetのキャパシティが向上することが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:42:48 GMT)
Frequency-dependent squeezing for gravitational-wave detection through quantum teleportation [4.6] 地中干渉計による重力波検出器は、弱い力に対する高精度なセンサーである。
現在の機器と将来の機器は、周波数依存の圧縮真空を検知ポートに注入することで、この制限に対処する。
本研究は、量子テレポーテーションと光の絡み合った状態の原理を用いた新しいスキームを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:58:08 GMT)
Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos [4.6] 本稿では,3つの組立アクティビティとそれに対応するパフォーマンスベースラインを備えた新しいデータセットを提案する。
ビデオセグメントは、アノテータによって知覚される闘争のレベルが、強制的な選択4ポイントスケールで評価された。
このデータセットは、73人の参加者から5.1時間の動画と725,100フレームを収録した最初の闘争アノテーションデータセットである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:08:10 GMT)
High-rate self-referenced continuous-variable quantum key distribution over high-loss free-space channel [4.6] 本稿では,時間変化パラメータの高精度推定のための連続時間モード理論を提案する。
また、主量子系と補助量子系を持つ自由空間実験系を設計する。
具体的には、高速でセキュアな量子鍵分布を高速な自由空間チャネル上で実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:50:37 GMT)
Towards Generalizable Scene Change Detection [4.5] 現在最先端のScene Change Detectionアプローチは、目に見えない環境と異なる時間条件下では信頼性が低い。
本稿では,未確認領域の性能と時間的整合性に対処するため,GeSCF(Generalizable Scene Change Detection Framework)を提案する。
GeSCFは、既存のSCDデータセットで平均19.2%、ChangeVPRデータセットで30.0%のパフォーマンス向上を達成した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:55:30 GMT)
Subgroup Performance Analysis in Hidden Stratifications [4.5] 機械学習モデルは、患者グループ間での大幅なパフォーマンス格差に悩まされる可能性がある。
分類ラベルやメタデータにアクセスすることなく、簡易なサブグループ発見手法を提案する。
医療における信頼性の高いAIの総合的なパフォーマンス検証とモニタリングのための重要なツールとして,サブグループ発見が有効である,という最初の説得力のある証拠を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:57:24 GMT)
Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction [4.5] 本稿では, 異常の正確な識別と局所化を目的とした, Hoi2 Anomaly と呼ばれる新しい異常検出手法を提案する。
提案手法は,Human-object Interaction (HOI) ペアからなるマルチモーダル・インストラクション・チューニング・データセットを異常なシナリオで構築することを含む。
実験結果は,Hoi2Anomalyが既存の生成的アプローチを精度と説明可能性の観点から上回っていることを示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:09:51 GMT)
An Efficient Recommendation System in E-commerce using Passer learning optimization based on Bi-LSTM [4.5] 本稿では,eコマースレコメンデーションシステムに適用可能なPasser Learning Optimization-enhanced Bi-LSTM分類器に基づくレコメンデーションシステムを提案する。
赤ちゃんデータセットで1.24%のMSEを達成する。これにより、88.58%まで上昇する。また、デジタル音楽とパティオ芝生の庭のデータセットのF1の88.46%と92.51%の堅牢なパフォーマンスもある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:43:36 GMT)
An Improved Two-Step Attack on Lattice-Based Cryptography: A Case Study of Kyber [4.4] 我々はキーバーに対する2段階攻撃を改良し、より少ないパワートレースと少ない時間で全秘密鍵 s を迅速に回収する。
最初のステップでは、相関パワー分析(CPA)を用いて、少数のパワートレースを持つsの推測値の一部を取得する。
第2のステップでは、CPAの結果に基づいてsを回復するために格子攻撃を採用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:42:29 GMT)
Sample Compression for Continual Learning [4.4] 連続学習アルゴリズムは、一連のタスクから学習することを目的としており、トレーニング分布を静止しないものにしている。
本稿では,タスク毎に最も代表的なサンプルを効率的に保持できる「Continual Pick-to-Learn」(CoP2L)という新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:05:56 GMT)
Efficient Reachability Analysis for Convolutional Neural Networks Using Hybrid Zonotopes [4.3] フィードフォワードニューラルネットワークの既存の伝播に基づく到達可能性分析手法は、スケーラビリティと精度の両方を達成するのに苦労することが多い。
この研究は、畳み込みニューラルネットワークの到達可能な集合を計算するための、新しいセットベースのアプローチを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:45:26 GMT)
Target-aware Bidirectional Fusion Transformer for Aerial Object Tracking [4.2] UAV追跡のための新しい目標対応双方向核融合変換器(BFTrans)を提案する。
我々の手法は他の最先端トラッカーを超え、組込みプラットフォーム上で平均30.5 FPSで実行することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:53:29 GMT)
Populating cellular metamaterials on the extrema of attainable elasticity through neuroevolution [4.2] 材料の異なる機械的特性間のトレードオフは、工学的材料設計における課題を提起する。
我々は、多目的最適化(MOO)問題を効率的に解くために、神経進化アルゴリズムを用いる。
本手法は多分野にわたる多種多様なメタマテリアルの計算的発見のための普遍的な枠組みとして機能する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:07:31 GMT)
The Relativity of Causal Knowledge [4.1] 人工知能の最近の進歩は、純粋に予測可能なシステムの限界を明らかにし、因果的および協調的推論へのシフトを要求する。
本稿では、構造因果モデル(SCM)が本質的に不完全であり、関係ネットワークに埋め込まれた主観的表現であることを示す因果知識の相対性について紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:24:48 GMT)
WAFFLED: Exploiting Parsing Discrepancies to Bypass Web Application Firewalls [4.1] Webアプリケーションファイアウォール(WAF)の運用は防御を損なう可能性がある。
我々は、相違点を明らかにすることによって、WAFをバイパスする革新的なアプローチを提案する。
我々は,5つの有名なWAFの1207バイパスを同定し,確認した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:56:29 GMT)
Knowledge-data fusion dominated vehicle platoon dynamics modeling and analysis: A physics-encoded deep learning approach [4.0] 本稿では,非線形車両小隊力学をモデル化する物理符号化深層学習ネットワークPeMTFLNを提案する。
分析可能なパラメータエンコード計算グラフ (APeCG) は、鉛車両の駆動挙動に応答するために小隊を誘導するように設計されている。
PeMTFLNのコードはオープンソースである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:42:00 GMT)
"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.0] 大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。
本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:46:32 GMT)
Reconsidering Feature Structure Information and Latent Space Alignment in Partial Multi-label Feature Selection [4.0] 部分的マルチラベル特徴選択の目的は、データがラベルあいまいな問題を持つ部分的マルチラベルデータセットから得られる最も代表的なサブセットを選択することである。
従来の手法は主にラベル内の情報の利用とラベルと特徴の関係に重点を置いていた。
本稿では,特徴空間で抽出された情報を用いて潜在空間の曖昧さを解消する潜在空間アライメントに基づく手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:21:29 GMT)
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions [4.0] 本稿では,フレームレベルの字幕から得られる包括的情報を戦略的に活用するナレーション・ザ・ビデオ(NarVid)を提案する。
提案したNarVidは,ナレーションを複数の方法で活用する。1)ナレーションとビデオ間の相互モーダルな相互作用による機能強化,2)無関係あるいは不正な情報を抑制するためのクエリ対応適応フィルタリング,3)クエリ-動画類似度とクエリ-ナレーション類似度を付加したデュアルモーダルマッチングスコア。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:24:58 GMT)
Multilevel Generative Samplers for Investigating Critical Phenomena [3.8] 長距離相関はマルコフ連鎖モンテカルロにおいて臨界減速を引き起こす。
ほぼクリティカルなシステムに特化した新しいサンプリング手法を提案する。
有効サンプルサイズRiGCSは,最先端生成モデルベースラインよりも桁違いに高い値を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:13:52 GMT)
Clothes-Changing Person Re-identification Based On Skeleton Dynamics [3.8] Clothes-Changing ReIDは、さまざまな時間や場所で撮影された異なるビデオ間で同じ個人を認識することを目的としている。
伝統的なReID法は外観に大きく依存することが多く、衣服が変わると精度が低下する。
本稿では,骨格データのみを使用し,外観特徴を使用できないClothes-Changing ReID法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:02 GMT)
ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation [3.8] ConceptGuardは、シフト埋め込み、コンセプトバインディングプロンプト、メモリ保存正規化を組み合わせた包括的なアプローチである。
本手法は, 定量的, 定性的な解析において, 基礎的手法を連続的に, 著しく上回ることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:39:24 GMT)
Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7] ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:28:11 GMT)
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation [3.7] 本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。
AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。
LongBenchとBabilongベンチマークの実験では、AttentionRAGは最大6.3$times$コンテキスト圧縮を達成し、LLMLinguaのメソッドはキーメトリックで約10%上回っている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:22:28 GMT)
Architecture-Aware Minimization (A$^2$M): How to Find Flat Minima in Neural Architecture Search [3.7] 微分可能なNAS法でよく用いられるニューラルアーキテクチャ空間の幾何学的性質について検討する。
これらの知見に基づいて,新しい解析的アルゴリズムフレームワークであるArchitecture-Aware Minimization (A$2$M)を提案する。
A$2$Mは、ベンチマークデータセット上の最先端のDARTSベースのアルゴリズムの一般化を一貫して改善する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:30:17 GMT)
ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content [3.7] 我々は,AI生成した極端コンテンツに対するモデル脆弱性を評価するために設計されたベンチマークデータセットと評価フレームワークExtremeAIGCを紹介する。
ExtremeAIGCは、最先端の画像生成技術を用いて、さまざまなテキストおよび画像ベースのサンプルをキュレートすることで、現実世界のイベントと悪意のあるユースケースをシミュレートする。
我々の研究は、LMMの深刻な弱点を明らかにし、最先端の安全対策でさえ過激派物質の発生を防げないことを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:10:29 GMT)
Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials [3.6] ソフトで多孔質なメカニカルメタマテリアルは、ソフトロボティクス、音の低減、バイオメディシンに重要な応用をもたらすパターン変換を示す。
我々は、代理モデルとして機能するために好意的にスケールする機械学習ベースのアプローチを開発する。
このネットワークは、対称性の少ないグラフニューラルネットワークよりも正確で、データ効率が高いことを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:48:27 GMT)
OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses [3.6] OASST-ETCは、24人の参加者の読書パターンを捉えた新しいアイトラッキングコーパスである。
分析の結果,好ましくない反応と好ましくない反応の読解パターンが明らかとなった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:28:38 GMT)
SHIP: A Shapelet-based Approach for Interpretable Patient-Ventilator Asynchrony Detection [3.6] PVA(Patent-ventilator asynchrony)は、機械的換気の際の一般的な問題であり、最大85%の患者に影響を及ぼす。
PVA検出のためのシェープレットベースアプローチ ShiP を提案する。
本手法は,シェープレットに基づくデータ拡張によるデータセットの不均衡に対処し,より効果的な分類のために,シェープレットプールを構築してデータセットを変換する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:01:30 GMT)
There and Back Again: On the relation between Noise and Image Inversions in Diffusion Models [3.6] 反転に基づく手法は、復調処理を反転させ、画像を近似したスタートノイズにマッピングする。
その結果,潜伏剤はスムーズな画像領域に対して予測される低ノイズの形で構造パターンを示すことがわかった。
これにより、DDIMの逆転手順と未定義の潜入画像マッピングに基づいて生成されたエディションの多様性が低くなる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:33:51 GMT)
Low-Rank Continual Personalization of Diffusion Models [3.6] 近年のDreamboothやLoRAのような拡散モデルのパーソナライズ手法は、微調整された事前学習モデルによって新しい概念を創出することができる。
これらのテクニックを連続したタスクに適用して、例えば新しいオブジェクトやスタイルを含むようにすることで、以前の知識を忘れてしまう。
本研究では,過去のタスクのアダプタにアクセスできない厳密な体制下での継続的カスタマイズの問題に取り組む。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:04:09 GMT)
Topological stabilizer models on continuous variables [3.6] 連続変数(CV)自由度に基づく2次元トポロジカル安定化符号の族を構築する。
これらのCV符号は、トポロジカルなキュート符号と局所的な符号化をCVに連結することで得られる符号を超えていると推測する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:32:48 GMT)
Jailbreaking Large Language Models in Infinitely Many Ways [3.6] Infinitely Many Paraphrases's attacks (IMP) は、パラフレーズや符号化通信を扱うモデルの増大する能力を活用するジェイルブレイクのカテゴリである。
IMPは、トークン間の単純なマッピングのセマンティクスを扱い、バインドするモデルの能力と組み合わせて成長する。
我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:43:27 GMT)
MastermindEval: A Simple But Scalable Reasoning Benchmark [3.6] MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:59:54 GMT)
A Bi-channel Aided Stitching of Atomic Force Microscopy Images [3.5] そこで本研究では,AFM生成バイオフィルム画像にバイチャネル支援機能を用いた画像縫合法を提案し,その応用を実証する。
我々は、AFMデータの振幅チャネルを用いてマッチング特性を最大化し、元の地形画像の位置を推定する。
このワークフローは, 不正な縫合による誤解析や発見を避けるために, 実験者にとって有益であると考えている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:22:06 GMT)
R.U.Psycho? Robust Unified Psychometric Testing of Language Models [3.4] R.U.Psychoは、生成言語モデルに関する堅牢で再現可能な心理測定実験を設計し、実行するためのフレームワークである。
文献に先行した知見を裏付ける様々な心理測定アンケートにおける枠組みの有効性を実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:12:34 GMT)
PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning [3.3] PRISMは2DベースのPreference-Based Reinforcement Learning(PBRL)の限界を克服するために設計された新しいフレームワークである
中心となるPRISMは、3D Point Cloud-Language Modelを採用し、Chain-of-Thought (CoT)推論を取り入れている。
私たちの経験的成果は、ロボット操作や自律ナビゲーションといったタスクにまたがるものであり、現実世界のアプリケーションに対するPRISMの可能性を強調しています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:58:10 GMT)
Approximation Methods for Simulation and Equivalence Checking of Noisy Quantum Circuits [3.3] 現在のNISQ時代には、ノイズ量子回路のシミュレーションと検証が不可欠である。
本稿では,雑音量子回路の等価性をシミュレーションし,評価するための近似アルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:19:30 GMT)
A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training [3.2] 勾配降下法(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて顕著な成功を収めた。
モデルトレーニングの有望な代替手段として、交代最小化(AM)メソッドが登場した。
本稿では,ニューラルネットワークトレーニングのための新しいTriple-Inertial Accelerated Alternating Minimization(TIAM)フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:57:09 GMT)
Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2] 本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:56:43 GMT)
A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy Detection [3.2] 顔の麻痺を検知するための非構造化データを処理するマルチモーダルフュージョンに基づくディープラーニングモデルを提案する。
我々のモデルは96.00 F1を達成したが、これは手作りの特徴だけで訓練されたニューラルネットワークよりもはるかに高い。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:48:35 GMT)
Byzantine-Resilient Federated Learning via Distributed Optimization [3.2] ビザンティン攻撃は連邦学習(FL)に重大な課題をもたらす
従来のFLフレームワークは、モデル更新のための集約ベースのプロトコルに依存しており、高度な敵戦略に弱いままである。
本研究は, プリマル・デュアル・マルチプライヤ法(PDMM)が本質的にビザンチンの影響を軽減し, 耐故障性を考慮したコンセンサス機構を生かしていることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:34:42 GMT)
Analysis of High-dimensional Gaussian Labeled-unlabeled Mixture Model via Message-passing Algorithm [3.2] 半教師付き学習(SSL)は、ラベル付きデータを限られた量のラベル付きデータとともに活用する機械学習手法である。
本稿ではSSL設定における二項分類のための高次元GMMの特性を詳細に解析する。
適切な正規化を行うことで、RMLEは推定誤差と予測誤差の両方でほぼ最適性能が得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:22:52 GMT)
Vulnerability Detection: From Formal Verification to Large Language Models and Hybrid Approaches: A Comprehensive Overview [3.1] 本稿では,最先端のソフトウェアテストと検証に焦点をあてる。
古典的な形式的手法、LLMに基づく分析、新しいハイブリッド手法の3つの主要なアプローチに焦点を当てている。
LLMによるインサイトとフォーマルリガーを統合することで,ソフトウェア検証の有効性とスケーラビリティが向上するかどうかを解析する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:22:22 GMT)
Score matching for bridges without learning time-reversals [3.1] スコアマッチング手法を用いてブリッジ拡散過程を学習するための新しいアルゴリズムを提案する。
本手法は,前処理のダイナミクスを逆転させ,これを用いてスコア関数を学習することに依存する。
従来の手法とは対照的に、$nabla_x log p(t, x; T, y)$ というスコア項を直接学習する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:05:34 GMT)
Video Super-Resolution: All You Need is a Video Diffusion Model [3.1] 本稿ではDiffusion Posterior Samplingフレームワークに基づく汎用ビデオ超解像アルゴリズムを提案する。
実世界の物理を学習する強力なモデルは、先行知識として様々な動きパターンを容易に扱うことができると論じる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:01:32 GMT)
Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.0] CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトで不信なCoTが発生することを示す。
具体的には、モデルが二分問題に対する回答において、その暗黙のバイアスを合理化していることが分かる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:49:58 GMT)
Model-Agnostic Knowledge Guided Correction for Improved Neural Surrogate Rollout [3.0] 本稿では,ニューラルサロゲート,RL決定モデル,物理シミュレータを組み合わせることで,ロールアウト誤差を大幅に低減するモデルに依存しないコスト認識モデルを提案する。
HyPERは、物理的条件の変化に適応し、騒音の破損に抵抗するインテリジェントなポリシーを学ぶ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:00:23 GMT)
Respecting the limit:Bayesian optimization with a bound on the optimal value [3.0] 我々は、最小値の正確な知識があるか、または、おそらくその値に対するより低いバウンドを持つかのシナリオについて研究する。
本稿では,有界情報を組み込んだ新たなサロゲートモデルであるSlogGPについて述べる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:26:21 GMT)
DNA Origami Nanostructures Observed in Transmission Electron Microscopy Images can be Characterized through Convolutional Neural Networks [3.0] 畳み込みニューラルネットワーク(CNN)モデルは、プログラム可能な自己組織化に使用されるDNA折り紙ナノ構造を特徴付けることができる。
透過電子顕微鏡(TEM)画像におけるDNA折り紙ナノ構造の結合数を特徴付けるため,9つのCNNモデルの性能をベンチマークした。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:31:10 GMT)
CountPath: Automating Fragment Counting in Digital Pathology [2.9] 本研究では, YOLOv9モデルとVision Transformerモデルを用いたフラグメントカウントの自動手法について検討する。
この結果から,自動システムは専門家による評価に匹敵する性能を達成し,手動計数に代わる信頼性と効率的な代替手段を提供することを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:29:16 GMT)
On the Injective Norm of Sums of Random Tensors and the Moments of Gaussian Chaoses [2.9] 我々は、下ガウス乱テンソルの和の予想$ell_p$単射ノルムの上界を証明した。
我々の証明は単純であり、明示的な幾何学的あるいは連鎖的な議論には依存していない。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:31:51 GMT)
Geometric Parameter Estimations of Perovskite Solar Cells Based on Optical Simulations [2.9] 厚さは、ペロブスカイト太陽電池の外部量子効率を利用する畳み込みニューラルネットワークによって予測される。
不透明なペロブスカイトによる光感度の問題により、畳み込みニューラルネットワークは透明なペロブスカイトでより良い性能を示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:54:12 GMT)
IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models [2.9] 本稿では、視覚言語モデル(VLM)を用いて環境意味を推論する新しい動き計画フレームワークIMPACTを提案する。
20のシミュレーションと10の現実世界シーンを用いて実験を行い、タスク成功率、物体変位、人間評価器からのフィードバックを用いて評価する。
3620以上のシミュレーションと200件の現実世界での試行の結果から,IMPACTは粗い環境下での効率的な接触リッチな動作計画を可能にすることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:09:00 GMT)
DeepInnovation AI: A Global Dataset Mapping the AI innovation from Academic Research to Industrial Patents [2.8] DeepInnovationAIは3つの構造化ファイルを含む包括的なグローバルデータセットである。
DeepInnovationAIは、研究者、政策立案者、業界リーダーがトレンドを予測し、コラボレーションの機会を特定することを可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:53:58 GMT)
Training Hybrid Deep Quantum Neural Network for Reinforced Learning Efficiently [2.8] 我々は、効率的なバックプロパゲーションによって課題を克服するスケーラブルな量子機械学習アーキテクチャを提案する。
提案手法は,hDQNNが純粋に古典的なモデルと比較して,潜在的な一般化可能性を示すことを強調している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:32:13 GMT)
eXpLogic: Explaining Logic Types and Patterns in DiffLogic Networks [2.8] 本稿では,ある関数を活性化する入力パターンを説明するためのアルゴリズム(eXpLogic)を示す。
これらのマップは、ネットワークサイズと推論時間をそれぞれ87%と8%削減し、クラス固有の予測に限定的な影響(-3.8%)を持つ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 00:01:36 GMT)
VITAMIN: A Compositional Framework for Model Checking of Multi-Agent Systems [2.7] 本稿では,マルチエージェントシステム (MAS) の形式的検証をモジュール的かつ多目的に行う手法を提案する。
MASの既存の検証手法やフレームワークとは異なり、VITAMINは様々なロジックに対応するために容易に拡張するために構築されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:32:57 GMT)
A Multi-Modal Federated Learning Framework for Remote Sensing Image Classification [2.7] 本稿では,RS画像分類問題に対する新しいマルチモーダルFLフレームワークを提案する。
提案フレームワークは,マルチモーダル融合(MF),特徴白化(FW),相互情報モジュール(MIM)の3つのモジュールから構成される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:20:15 GMT)
Adaptive Moment Estimation Optimization Algorithm Using Projection Gradient for Deep Learning [2.7] PadamPは、CIFAR-10/100のスケールで2次モーメントのp次パワーを適応的に推定することで導出される。
VGG-16とResNet-18AR-100を用いた実験は、パダムPの有効性を示し、VGG-16の顕著な性能を示した。
PadamPは、適応性と能力の点で、既存のアルゴリズムよりも優れています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:31:08 GMT)
Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets [2.7] 本研究では,BART,FLAN-T5,LLaMA-3-8B,Gemma-7Bの4大言語モデルについて,徹底的に評価する。
評価はROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEORなどの広く知られている自動測定値を用いて、一貫性のある情報的な要約を生成する際のモデルの能力を評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:40:42 GMT)
Bias-preserving and error-detectable entangling operations in a superconducting dual-rail system [2.7] 超伝導マイクロ波キャビティに基づくデュアルレール消去量子ビットのための新しい2量子ゲートの設計と実現を行う。
ゲートは高速(シム$500 ns)で、エラー検出後0.1%未満の残差が生じる。
制御量子ビットの少なくとも3倍の頻度で発生する低および非対称な劣化誤差を測るとともに、1ゲートあたり$sim$0.5%の低消去率を測定する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:49:43 GMT)
HyperSeq: A Hyper-Adaptive Representation for Predictive Sequencing of States [2.7] HyperSeqは、開発者の認知状態をモデル化するために設計された、リソース効率のよいアプローチである。
HyperSeqは、アクションシーケンスの予測と、70%を超える顕著な予測精度において、いかに優れているかを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:05:45 GMT)
Data augmentation using diffusion models to enhance inverse Ising inference [2.7] 拡散モデルは、小さなデータセットを増大させることでパラメータ推論を向上させることができることを示す。
本研究は,物理問題におけるデータ拡張に拡散モデルを用いるための概念実証として機能する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:29:17 GMT)
Quantum teleportation between simulated binary black holes [2.6] ブラックホールの量子的記述は、事象の地平線の後ろに隠された量子情報がほぼ瞬時に外部にテレポート可能であることを予測している。
本研究では、自然に二元ブラックホール系をシミュレートするキラルスピン鎖モデルが、この伝送過程を実現することを実証する。
この結果から,凝縮物質系におけるブラックホールの量子的性質のシミュレーションが可能となった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:02 GMT)
An Open-RAN Testbed for Detecting and Mitigating Radio-Access Anomalies [2.6] 本稿では,セキュアな無線アクセスのためのオープンラジオアクセスネットワーク(O-RAN)テストベッドを提案する。
本稿では, 異常検出に基づく無線オリジン攻撃検出と緩和手法と, テストベッド内の専用アプリケーション(xApps)として実装する方法について論じる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:10:29 GMT)
SCLA: Automated Smart Contract Summarization via LLMs and Control Flow Prompt [2.5] 制御フローグラフ(CFG)とコードの制御フローからの意味的事実を意味的にリッチなプロンプトに組み込むことで要約を強化するLCMに基づくSCLAを提案する。
実世界の4万件のスマートコントラクトのデータセットに関する総合的な実験を通じて,SCLAの有効性を検証する。
実験の結果、SCLAは総和品質を著しく改善し、SOTAベースラインを26.7%、23.2%、16.7%、14.7%とそれぞれBLEU-4、METEOR、ROUGE-L、BLEURTのスコアで上回った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:05:15 GMT)
Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access [2.5] 物理駆動型ディープラーニング(PD-DL)アプローチは、高速磁気共鳴画像(MRI)スキャンの再構築に人気がある。
PD-DLは、既存の高速MRI技術よりも高い加速速度を提供するが、その使用は特定のMRIセンターの外で限られている。
日常的な臨床再構成画像のみを用いた高品質PD-DLトレーニングのための圧縮性に着想を得た非教師なし学習(CUPID)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:54:28 GMT)
SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability [2.5] SAEBenchは7つのメトリクスにわたるSAEパフォーマンスを測定する総合的な評価スイートである。
最近提案された8つのSAEアーキテクチャとトレーニングアルゴリズムをまたいだ200以上のSAEスイートをオープンソースにしています。
評価の結果,プロキシメトリクスのゲインは,実用的なパフォーマンスに確実に変換されないことがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:18:16 GMT)
Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? [2.4] 本研究では,近年の大型言語モデル (LLM) が,6つの類型的多様言語において,相対的節のアタッチメントのあいまいさをナビゲートする方法について検討する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:44:15 GMT)
The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory [2.4] 質の高いテスト項目は、特にIRTにおける教育評価に不可欠である
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして,IWF(Item-Writing Flaw)ルーブリックが登場した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:47:07 GMT)
Monte Carlo model of distilled remote entanglement between superconducting qubits across optical channels [2.4] 有望な量子コンピューティングアーキテクチャは、量子トランスデューサを介して光チャネルでリンクされた超伝導量子プロセッサのモジュールから構成される。
蒸留がなくても、現在のトランスデューサは50%の忠実度でベル対の分布を可能にするしきい値にあることを示す。
もし次世代のトランスデューサが、付加ノイズと効率の両方で3桁改善され、繰り返し速度が50倍に向上すれば、100kHzの速度で99.7%のフィデリティを達成できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:51:47 GMT)
A Clifford Algebraic Approach to E(n)-Equivariant High-order Graph Neural Networks [2.3] 我々はClifford Group Equivariant Graph Neural Networks (CG-EGNN)を紹介する。
CG-EGNNはクリフォード代数の文脈で高階局所構造を統合することで高階メッセージパッシングを強化する。
CG-EGNNは,n-body,CMUモーションキャプチャ,MD17など,様々なベンチマークにおいて,従来の手法よりも優れていたことを実証的に検証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:52:50 GMT)
Bayesian Experimental Design via Contrastive Diffusions [2.2] 実験設計(BOED)は、一連の実験の実行コストを削減する強力なツールである。
コスト効率の良いサンプリング特性を持つプール勾配分布を導入し、新しいEIG式によるEIGコントラスト後部へのトラクタアクセスを提供する。
BOEDフレームワークに生成モデルを組み込むことで、適用範囲を拡大し、非現実的なシナリオでの利用を拡大する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:23:03 GMT)
A Framework for Supporting the Reproducibility of Computational Experiments in Multiple Scientific Domains [2.1] 近年、研究コミュニティや一般大衆は、科学的研究の再現性について深刻な疑問を提起している。
本稿では,計算実験の構成,実行,パッケージングをサポートするSciRepというフレームワークを提案する。
我々のアプローチは、あらゆるコンピュータで再実行可能な、複数の科学分野から実験用のパッケージを作成することを可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:40:30 GMT)
OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problem with Reasoning Large Language Model [2.1] 運用研究(OR)は資源配分、生産計画、サプライチェーン管理など様々な分野に広く適用されてきた。
従来の手法は専門家に大きく依存しており、コストがかかり開発サイクルが長い。
OR-LLM-Agentは、現実世界のOR問題を解決するためにエンドツーエンドの自動化を可能にする最初のAIエージェントである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:40:50 GMT)
Exploiting Concavity Information in Gaussian Process Contextual Bandit Optimization [2.1] 文脈的帯域幅フレームワークは、逐次最適化問題を解決するために広く使われている。
我々は、平均報酬が各固定されたコンテキストに対するアクションの凹凸関数であることが知られている設定について検討する。
本稿では,この凹凸情報に基づいてベイジアンガウス過程モデルの後部を条件にすることで,最適化を加速するコンテキスト的帯域幅アルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:35:54 GMT)
PolyRoof: Precision Roof Polygonization in Urban Residential Building with Graph Neural Networks [2.0] グラフニューラルネットワークとポイント検出を統合したRe:PolyWorldは、高精細なビルディングルーフベクトルデータを再構築する有望なソリューションを提供する。
本研究は,Re:PolyWorldの注目ベースのバックボーンと付加的な面積分割損失を組み込むことにより,複雑な都市住宅におけるパフォーマンスを向上させる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:52:33 GMT)
Veri-Car: Towards Open-world Vehicle Information Retrieval [2.0] 本稿では,この課題を支援するための情報検索統合手法であるVeri-Carを提案する。
教師付き学習技術を利用して、車のメイク、タイプ、モデル、年、色、ナンバープレートを正確に識別する。
このアプローチはまた、新しい車モデルやバリエーションが頻繁に現れるような、オープンワールドの問題を扱うという課題にも対処する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:56:06 GMT)
Quantum Error Detection For Early Term Fault-Tolerant Quantum Algorithms [2.0] 本稿では,量子アルゴリズムのフォールトトレラントコンパイルとシミュレーションのためのフレームワークを提案する。
最適なシンドロームスケジュールを見つけることは、アルゴリズムの成功確率を平均6.7倍改善する。
本稿では,フォールトトレラントコンパイルパラメータを予測するための単純なデータ駆動型手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:34:01 GMT)
TAU: Modeling Temporal Consistency Through Temporal Attentive U-Net for PPG Peak Detection [2.0] Photoplethysmography (PPG)センサーは、心拍数(HR)と心拍変動(HRV)を監視する消費者向けウェアラブルデバイスで広く使われている。
流行にもかかわらず、PSG信号は日々の活動によって引き起こされる運動人工物によって汚染される。
PPG信号からピークを正確に検出するために,TAU(Temporal Attentive U-Net)を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:45:08 GMT)
Complex Frequency Detection in a Subsystem [1.9] 複素周波数励起と合成は非エルミート近似に敏感であることを示す。
我々の研究は、量子系における非エルミート物理学の厳密な理解の道を開いた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:40:00 GMT)
Histogram Approaches for Imbalanced Data Streams Regression [1.8] 不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。
合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:38:47 GMT)
Test Amplification for REST APIs Using "Out-of-the-box" Large Language Models [1.8] 私たちはChatGPTとGitHubのCopilotを使って、REST APIテストスイートを増幅しています。
私たちは、最も強力なテストスイートをもたらすプロンプトについて、一連のガイドラインと教訓を導き出します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:30:14 GMT)
Monomial Matrix Group Equivariant Neural Functional Networks [1.8] ネットワーク重みに対するグループアクションの研究を、スケーリング/サイン・フリップの対称性を取り入れて拡張する。
我々はNFNの新しいファミリーをMonomial Matrix Group Equivariant Neural Functional Networks (Monomial-NFN)と名付けた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:36:01 GMT)
The Algorithmic State Architecture (ASA): An Integrated Framework for AI-Enabled Government [1.8] 本稿ではアルゴリズム状態アーキテクチャ(ASA)を紹介する。
これは、Digital Public Infrastructure、Data-for-Policy、 Algorithmic Government/Governance、およびGovTechがAI対応状態の統合システムとしてどのように相互作用するかを概念化したものだ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:16:38 GMT)
Sentiment Analysis in SemEval: A Review of Sentiment Identification Approaches [1.7] 2013-2021年の間,SemEvalの各エディションの上位システムについて検討した。
本稿では,感情分析システムの主要な構成要素に着目し,研究動向の進展を示すシステムについて分析する。
本研究は,前処理技術の積極的な活用,語彙に基づく単語埋め込みアプローチからの特徴工学と単語表現の進化,ニューラルネットワークとトランスフォーマーの優位性を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:25:23 GMT)
The Mathematical Construction of the BFV Scheme [1.7] BFVスキームは整数の同型加法および乗法のために設計されている。
BFVは正確な暗号化と復号化を保証する。
このチュートリアル記事は、BFVが数学的レベルからどのように機能するかを理解するのに役立つように設計されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:18:50 GMT)
Fabrication of Metal Air Bridges for Superconducting Circuits using Two-photon Lithography [1.6] 超電導エアブリッジ(AB)は、送電線によって中断された場合、地上の平面を電気的に接続するために一般的に使用される。
高Q$Ta四分波コプラナー導波路共振器上に35ABを配置した場合にマイクロ波損失の測定値が観測される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:46:11 GMT)
VisTai: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan [1.6] 従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。
この種の評価スイートとしては,Vistai-MCQ と Vistai-Dialogue の2つの補完的なコンポーネントがある。
分析の結果,様々なVLMの性能差が明らかとなり,従来の中国の視覚コンテンツ処理における具体的な課題が浮き彫りになった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:49:35 GMT)
Probabilistic Forecasting via Autoregressive Flow Matching [1.5] FlowTimeは、時系列データの確率予測のための生成モデルである。
我々は、将来の観測の連成分布を条件密度の列に分解し、それぞれが共有フローを介してモデル化される。
本研究では,複数の動的システムおよび実世界の予測タスクにおけるFlowTimeの有効性を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:54:24 GMT)
Combinatorial Designs and Cellular Automata: A Survey [1.5] セルラーオートマタ (CA) を代数系の一種とみなし, 短期動作による設計に着目する。
線形ケースと非線形ケースの両方を考慮すると、両置換CAによる相互にラテン正方形の構築に関する文献で発表された主な成果を概観する。
次に、これらの結果のいくつかの重要な応用を暗号に調査し、CAベースの設計に関する今後の研究で解決すべきオープンな問題について議論する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:54:49 GMT)
Assessing the validity of new paradigmatic complexity measures as criterial features for proficiency in L2 writings in English [1.5] この記事では、新しい文法的および構造的複雑性メトリクスの調査を通じて、第二言語(L2)による開発について述べる。
言語機能と特定の文法的パラダイムをリンクすることで、学習者英語におけるパラダイム生産を探求する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:01:07 GMT)
A Chaotic Image Encryption Scheme Using Novel Geometric Block Permutation and Dynamic Substitution [1.5] 本稿では,画素の幾何学的形状抽出に基づいて画素をスクランブルする,新しい幾何学的ブロック置換手法を提案する。
ビットXOR演算のために、2Dヘノンマップを用いてカオスなシードマトリックスを生成し、スクランブル画像でビットXORする。
統計セキュリティ解析により,提案手法の安全性が向上し,不確実性と予測不可能性が向上し,エントロピーが7.9974,相関係数が0.0014となった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:25:04 GMT)
DeclareAligner: A Leap Towards Efficient Optimal Alignments for Declarative Process Model Conformance Checking [1.4] 本稿では,AIパスフィニング手法であるA*探索アルゴリズムを用いた新しいアルゴリズムであるDeclareAlignerを紹介する。
提案手法は,8,054個の合成および実寿命アライメント問題を用いて評価し,最適アライメントを効率的に計算できることを実証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:49:29 GMT)
Generative Binary Memory: Pseudo-Replay Class-Incremental Learning on Binarized Embeddings [1.4] 本稿では、合成バイナリ擬似例を生成する新しいCIL擬似再生手法であるジェネレーティブバイナリメモリ(GBM)を提案する。
特別に設計された特徴ビナライザを用いて、GBMはクラス分布のマルチモーダルな特性を、潜伏したバイナリ空間で効果的にモデル化する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:11:59 GMT)
Noise-immune quantum correlations of intense light [1.4] 我々は、大量のノイズを持つ入力から始める場合でも、量子レベルのノイズを持つ強い光の生成を実証する。
マルチモード系における新しい量子ノイズ理論に基づき、ノイズの多い入力から量子光を生成する能力は、マルチモードの量子相関から得られることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:11:43 GMT)
Numerical and statistical analysis of NeuralODE with Runge-Kutta time integration [1.4] 対象尺度の汎用クラスに対する最大様相に基づく経験的リスク最小化の整合性に関する詳細な説明を行う。
また,第2次Runge-Kutta (RK) 時間積分に基づくNeuralODEアルゴリズムの数値解析を行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:58:18 GMT)
Continuous Approximation of the Fully Connected Ising Hamiltonian: Exact Ground State Solutions for a Novel Class of Ising Models with Applications to Fidelity Assessment in Ising Machines [1.3] 離散イジング・ハミルトニアンを連続的な枠組みに再構成することで、大規模イジング問題を解くための新しい分析的アプローチを提案する。
提案手法を検証するため, 解析解と量子インスパイアされたIsingアルゴリズムと量子Isingマシンから得られた解を比較した数値実験を行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:52:37 GMT)
Automatic quality control in multi-centric fetal brain MRI super-resolution reconstruction [1.3] 胎児脳MRIの超解像再構成(SRR)ボリュームの自動品質管理に着目する。
本稿では,100以上の画像品質指標を抽出し,画像品質スコアを予測する機械学習手法FetMRQC$_SR$を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:34:40 GMT)
Performance of the spin qubit shuttling architecture for a surface code implementation [1.3] Qubit shuttlingは、いくつかの量子コンピューティングプラットフォームを、効果的な量子誤り訂正(QEC)に必要なqubitレジスタサイズに進化させることを約束する。
本稿では,エラーのシャットリング,一方の非偏極化,もう一方の非偏極化の2つのシナリオについて検討する。
論理誤差率10-12$に達するために必要なキュービットオーバーヘッドは、シャットリング操作あたりのエラー率を1パーセント程度まで適度に増加させるだけである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:46:02 GMT)
Resource efficient data transmission on animals based on machine learning [1.3] 本研究の目的は,機械学習によって誘導される選択的データ伝達が,バイオログのエネルギー消費をいかに減らすかを検討することである。
バイオログ(英: Biologger)は、様々なセンサーを通して動物の行動を追跡する電子機器である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:38:50 GMT)
Eye on the Target: Eye Tracking Meets Rodent Tracking [1.3] 本稿では,Aria メガネからの視線追跡データを用いて,プロンプトポイントを生成する新しいパイプラインを提案する。
処理後処理を適用してプロンプトを洗練し,セグメンテーションの品質を向上する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:27:42 GMT)
Single-photon scattering in giant-atom topological-waveguide-QED systems [1.2] 本研究では,Su-Schrieffer-Heeger(SSH)導波路中の単一光子散乱を2つの2レベル巨大原子に結合させた。
2つの巨大原子の集団的挙動は、量子干渉効果と位相効果によって調整できる。
この研究は、巨大原子トポロジカル導波路-QED系に基づく制御可能な単一光子デバイスの開発を促す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:16:03 GMT)
Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More [1.2] この作業は、グラフを検索する最小の例であるパススタータスクに関係している。
言語モデル(LM)には$G$、$s$、ターゲットノード$t$が与えられる。
タスクの最小限の性質は,タスクの分解を防ぐため,その難しさを生じさせる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:56:47 GMT)
Short-term AI literacy intervention does not reduce over-reliance on incorrect ChatGPT recommendations [1.2] 短期間のAIリテラシー介入は、過度な信頼性を著しく低下させることはなかった。
我々は、過度な信頼性に対抗するためにAIリテラシーを高めるのは簡単ではないと結論付けている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:10:33 GMT)
How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction? [1.1] 本研究は,再建の解剖学的変化に基づいて,再建の多様性を評価するための新しいアプローチを提案する。
SSIM や PSNR など,よく使用される品質指標のスコアが高いモデルでは,しかしながら,解剖学的尺度では,高いレベルのばらつきやバイアスが示されることが示されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:34:22 GMT)
Automated Tomato Maturity Estimation Using an Optimized Residual Model with Pruning and Quantization Techniques [1.1] トマトの成熟度は収穫時期の最適化と品質確保に重要な役割を果たしている。
既存のディープラーニングのアプローチは正確ではあるが、資源に制約のある農業環境での実践には計算的すぎることがしばしばある。
本研究では,移動学習,プルーニング,量子化技術によって最適化されたResNet-18アーキテクチャを用いて,計算効率の良いトマト分類モデルを構築することを目的とする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:56:19 GMT)
On the Significance of Intermediate Latents: Distinguishing Quantum Causal Scenarios with Indistinguishable Classical Analogs [1.0] 我々は、観測変数を表すノードと、潜伏変数または隠れ変数を表すノードの両方を含む有向非巡回グラフについて考察する。
我々は、潜在ノードの量子解釈への変化が、古典的に区別できない因果的シナリオの区別をいかに引き起こすかを強調した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:38:15 GMT)
Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference [0.9] 大規模言語モデル(LLM)は、プログラミングタスクの自動化にますます使われています。
本稿では,プログラム意味論におけるLLMの推論能力を評価するためのベンチマークであるFormalBenchを紹介する。
このベンチマークを用いて、一貫した仕様と完全な仕様を合成するLLMの能力を評価した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:41:37 GMT)
Deep Reinforcement Learning for Dynamic Resource Allocation in Wireless Networks [0.9] 本報告では,無線通信システムにおける動的リソース割り当てに対する深部強化学習(DRL)アルゴリズムの適用について検討する。
アルゴリズムと学習率の選択はシステム性能に大きく影響を与え、DRLは従来の手法よりも効率的なリソース割り当てを提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:17:05 GMT)
DDIM-Driven Coverless Steganography Scheme with Real Key [0.9] ジェネレーションベースのカバーレスステガノグラフィーが従来の方法の代替として登場した。
本稿では,実鍵機構を利用したDDIM駆動型無カバーステガノグラフィー手法を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:39:59 GMT)
Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.9] 本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:54:45 GMT)
Fewer Than 1% of Explainable AI Papers Validate Explainability with Humans [0.9] 本研究では、人間の説明可能性の主張を評価するために、説明可能なAI(XAI)文献を大規模に分析する。
また,XAI手法の評価にヒトの関与を示唆する用語を含む論文は253件のみで,その内128件が何らかの形で人間の研究を行った。
人間の説明可能性の主張と証拠に基づく検証の間には重大なギャップがあり,XAI研究の厳格性に対する懸念が高まっている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:39:50 GMT)
An Architectural View Type for Elasticity Modeling and Simulation -- The Slingshot Approach [0.8] ソフトウェアアーキテクトは、自動化されたリソース管理のための弾力性ポリシーの設計とデプロイにおいて、戦略的な役割を担っている。
既存のアプローチは、しばしばキュー理論のような形式的なモデルに依存し、高度なスキルを必要とし、アーキテクチャモデル内で弾力性を表現するための特定の方法が欠如している。
本稿では,Scaling Policy Definition(SPD)モデリング言語,視覚的表記法,高精度なシミュレーションセマンティクスをサポートする,弾力性モデリングとシミュレーションのためのアーキテクチャビュータイプを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:31:55 GMT)
It is Too Many Options: Pitfalls of Multiple-Choice Questions in Generative AI and Medical Education [0.8] MCQ(Multiple-choice question)ベンチマークにおけるLLM(Large Language Models)の性能は、その医療能力の証明としてしばしば引用される。
我々は、ペアMCQ(FreeMedQA)を用いた自由応答型質問の新しいベンチマークを作成しました。
このベンチマークを用いて,3つの最先端LCM (GPT-4o, GPT-3.5, LLama-3-70B-instruct) を評価し,自由応答問題において平均39.43%の性能低下が認められた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:42:04 GMT)
Social Media Harm Abatement: Mechanisms for Transparent Public Health Assessment [0.8] ソーシャルメディアプラットフォームは、広範囲の損害を被ったとして非難され、司法管轄区域で数十件の訴訟が起こされている。
本稿では、虐待を軽減できる収賄・和解計画の実現可能なメカニズムについて概説する。
本稿は、そのようなメカニズムの要件、プライバシーと監視への示唆、そしてそのような手続きが関係するトレードオフについて説明する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:26:46 GMT)
Low Complexity Point Tracking of the Myocardium in 2D Echocardiography [0.8] myoTrackerは、心エコー検査におけるポイントトラッキングのための低複雑さアーキテクチャ(0.3Mパラメータ)である。
CoTracker2アーキテクチャ上に構築されており、コンポーネントをシンプルにし、時間的コンテキストを拡張する。
MyoTrackerは推論時のCoTracker2の74倍、セットアップ時のEchoTrackerの11倍の速度でした。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:53:00 GMT)
The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity [0.7] 非線形活性化関数がニューラルネットワークの暗黙バイアスの形成にどのように寄与するかを考察する。
局所的動的誘引器は、ニューロンの活性化関数への入力がゼロとなる超平面のクラスターの形成を促進することを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:36:46 GMT)
OCPM$^2$: Extending the Process Mining Methodology for Object-Centric Event Data Extraction [0.7] オブジェクト指向プロセスマイニング(OCPM)は、複数の視点からビジネスプロセスの分析を可能にする。
本稿では,プロセスマイニングフレームワークであるPMinst2に基づいてOCEDを抽出する手法を提案する。
この枠組みを実世界の教育環境に適用することで検証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:30:10 GMT)
Multi-Modal Mamba Modeling for Survival Prediction (M4Survive): Adapting Joint Foundation Model Representations [0.7] M4Surviveは、効率的なアダプタネットワークを用いて、共同基盤モデル表現を学習する新しいフレームワークである。
Mambaベースのアダプタを利用することで、M4Surviveは計算効率を保ちながら効率的なマルチモーダル学習を可能にする。
この研究は、精度オンコロジーと予測分析の進歩における基礎モデル駆動型マルチモーダル融合の可能性を明らかにする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:18:32 GMT)
What exactly does Bekenstein bound? [0.7] ウンルーチャネルの古典的および量子的容量は、復号器ボブに関連するベッケンシュタイン境界に従うことを示す。
古典ビットや量子ビットとは異なり、ゼロビットとその関連する情報処理能力は一般にベーケンシュタイン境界に制約されない。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:27:14 GMT)
Assessing Vulnerability in Smart Contracts: The Role of Code Complexity Metrics in Security Analysis [0.7] 本研究は,Solidityスマートコントラクトにおける脆弱性のあるコードの指標として,コード複雑性メトリクスを使用することを検討する。
21の複雑性メトリクスを分析して、それらの相互関係、脆弱性との関連性、識別力、および脆弱性と中立なコードの平均値を検討した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:47:08 GMT)
Faithful and Privacy-Preserving Implementation of Average Consensus [0.7] 本稿では,メカニズム設計理論と暗号化制御に基づくプロトコルを提案し,平均的なコンセンサス問題を解決する。
我々は,セキュアなマルチパーティ計算におけるシミュレーションパラダイムを用いて,提案プロトコルのセキュリティを分析する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:40:23 GMT)
DarkBench: Benchmarking Dark Patterns in Large Language Models [0.7] 大規模言語モデル(LLM)におけるダークデザインパターンを検出するベンチマークであるDarkBenchを紹介する。
私たちのベンチマークでは、ブランドバイアス、ユーザ保持、梅毒症、人為性、有害な生成、スニーカーの6つのカテゴリに660のプロンプトが組み込まれています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:48:42 GMT)
Public Channel-Based Fair Exchange Protocols with Advertising [0.6] 公正交換プロトコルと事前広告フェーズを明示的に組み合わせた定義を与える。
そこで我々は、zk-SNARKを用いて支援を行い、メインストリームの分散プラットフォームに依存した公平な交換プロトコルを構築した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:35:32 GMT)
Grokking as an entanglement transition in tensor network machine learning [0.6] 我々は、グラッキング現象が、基礎となる量子多体系における絡み合いの動的遷移と関係があることを数値的に証明する。
本研究では,有意義で関連する遺伝子サブコミュニティを識別するためのツールとして,マトリックス製品状態ネットワークにおける量子化と相関関数の測定を利用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:51:23 GMT)
CUBETESTERAI: Automated JUnit Test Generation using the LLaMA Model [0.6] 本稿では,Spring Bootフレームワークを使用したJavaアプリケーションのJUnitテスト生成を自動化するアプローチを提案する。
CUBETESTERAIと呼ばれるツールには、ユーザフレンドリーなWebインターフェースと、GitLabとDockerを使用したCI/CDパイプラインの統合が含まれている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:44:09 GMT)
Observation of the acoustic Purcell effect with a color-center and a nanomechanical resonator [0.6] ダイヤモンド中の色中心スピン量子ビットの周囲にナノメカニカル共振器を構築する。
スピン量子ビットを12GHzのアコースティックモードで共振させると10倍高速スピン緩和が観測される。
私たちの研究は、固体の量子欠陥に対する新しい制御体制を確立します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 01:44:50 GMT)
Multi-objective Good Arm Identification with Bandit Feedback [0.6] 我々は,多目的のバンドイット設定において,良好な腕識別問題を考える。
各ラウンド$t$に対して、プレイヤー/アルゴリズムは1つのアーム$i_t$を引いて、ベクトルフィードバックを受け取る。
提案アルゴリズムは,合成および実データを用いた実験において,他のベースラインよりも優れた数値性能が得られる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:04:04 GMT)
Numerical Error Analysis of Large Language Models [0.6] 本稿では,トランスアーキテクチャの前方通過におけるラウンドオフ誤差の影響を理論的に解析する。
また, 境界の実用的妥当性を示す数値実験も行った。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:53:17 GMT)
Pushing the Boundary of Quantum Advantage in Hard Combinatorial Optimization with Probabilistic Computers [0.5] 確率コンピュータ(p-コンピュータ)がモンテカルロアルゴリズムを実装可能であることを示す。
これらのアルゴリズムは、成熟した半導体技術のおかげで、現代のハードウェアで容易に実装可能であることを示す。
本結果は,pコンピュータをスケーラブルでエネルギー効率のよいハードウェアとして,最適化における実用的な量子優位性の概念に挑戦するものである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:24:13 GMT)
Optimizing Fire Safety: Reducing False Alarms Using Advanced Machine Learning Techniques [0.5] 本稿では,誤報の低減のための高精度かつ効率的な重み付けアンサンブルモデルを提案する。
密度を推定し、高密度と低密度の領域に応じて重みを計算し、高い領域の重みをKNNに、低い領域の重みをXGBoostに転送する。
提案手法は, 応答時間の短縮, 火災の安全性の向上, 火災の原因となる損傷の最小化に有効である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:07:14 GMT)
Benchmarking of quantum and classical SDP relaxations for QUBO formulations of real-world logistics problems [0.5] 擬似的非制約二項最適化問題の半定値プログラミング緩和に関する膨大な実験的検討を行った。
オープンな)車両ルーティング問題と(親和性に基づく)スロットリング問題に関する業界ベースの事例のQUBO再構成を検証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:51:45 GMT)
Predicting Treatment Response in Body Dysmorphic Disorder with Interpretable Machine Learning [0.5] 身体異形性障害(Body Dysmorphic Disorder, BDD)は、頻繁に診断される疾患である。
我々は、治療結果を予測するために複数の機械学習アプローチを採用している。
治療の信頼性は最も強力な予測因子として浮上した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:39:10 GMT)
Markerless Tracking-Based Registration for Medical Image Motion Correction [0.4] 本研究は, ビデオフルオロスコープにおける患者動作の干渉による摂食動態の分離に焦点を当てた。
光フロー法は、フリッカリングや不安定性などの人工物によって失敗し、異なる運動群を区別する信頼性が低い。
本稿では,摂食動態を保ちながら破壊運動を効果的に除去する新しい動き補正パイプラインを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:18:50 GMT)
Tackling water table depth modeling via machine learning: From proxy observations to verifiability [0.4] 水テーブル深度(WTD)の空間的パターンは、生態系の回復力、水文学的な接続性、人間中心のシステムを形成する上で重要な役割を担っている。
我々は,XGBoostアルゴリズムと2000万以上の実・代用的なWTD観測を用いて,WTDの3つの微細分解能(500m)MLシミュレーションを構築した。
我々のモデルはWTDの2つのPBシミュレーションと比較して、WTDの目に見えない実・代用的な観測をより正確に予測することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:12:17 GMT)
Post Quantum Migration of Tor [0.4] この論文は、Torが使用する暗号方式の概要を提案する。
非量子抵抗性を強調し、局所的なTorネットワークの理論的性能評価手法を導入する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:28:03 GMT)
The Art of Avoiding Constraints: A Penalty-free Approach to Constrained Combinatorial Optimization with QAOA [0.4] 量子近似最適化アルゴリズム(QAOA)は、2次(および高次)非制約二項最適化問題の最適解とほぼ最適解を決定するために設計されている。
制約付き最適化問題を解くために、革新的な利益緩和フレームワークを導入します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:57:40 GMT)
Lessons from the trenches on evaluating machine-learning systems in materials science [0.4] 科学における機械学習評価フレームワークの現状と今後の方向性について検討する。
構成妥当性,データ品質問題,メートル法設計制限,ベンチマーク保守問題など,機械学習評価に共通する課題を特定する。
本研究では,測定選択と制限を文書化するための構造化手法として評価カードを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:40:58 GMT)
Quantum Approximate Counting with Additive Error: Hardness and Optimality [0.3] 量子カウント(Quantum counting)は、量子検証回路で受け入れられる状態の部分空間の次元を決定するタスクである。
量子数え上げ問題のクラス#BQPを正確にあるいは適切な近似内で解く複雑さは、多体物理量を計算することの難しさに関係している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:27:02 GMT)
Langevin Monte-Carlo Provably Learns Depth Two Neural Nets at Any Size and Data [0.3] 我々は,Langevin Monte-Carloアルゴリズムが任意のサイズおよび任意のデータに対してディープ2ニューラルネットを学習できることを確立する。
総変分距離とq-Renyiの発散により、ランゲヴィン・モンテカルロの反復体は、これらのネットのいずれかに対して正規化された損失のギブス分布に収束することを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:50:33 GMT)
Histologic Dataset of Normal and Atypical Mitotic Figures on Human Breast Cancer (AMi-Br) [0.3] 病理組織学的には, 有糸分裂像の密度 (MFs) は, 多くの腫瘍タイプにおいて重要な予後マーカーである。
近年,非定型的形態を有するMFsの量は乳癌の予後基準として独立している可能性が報告されている。
非定型および正常なMF(AMi-Br)の最初の公開データセットを提示する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:10:26 GMT)
Using Context to Improve Word Segmentation [0.3] 幼児は単語のセグメンテーションを学ぶために、音声の統計的規則を使用することがある。
我々は,Goldwater et al. の2つのモデル,ユニグラムとビッグラムモデルを実装し,文脈が統計的単語セグメンテーションを改善する方法について検討する。
その結果,単語分割の予測において,ビッグラムモデルの方がユニグラムモデルより優れているという仮説に一致した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:04:55 GMT)
Quantum combinatorial optimization beyond the variational paradigm: simple schedules for hard problems [0.2] スピン状態経路を用いて量子断熱進化の幾何学を形成する方法を示す。
提案手法は大規模システムで動作するため,最先端の量子デバイスの性能向上に有効である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:40:08 GMT)
Robust Learning-Based Sparse Recovery for Device Activity Detection in Grant-Free Random Access Cell-Free Massive MIMO: Enhancing Resilience to Impairments [0.2] 本稿では,機械型通信(mMTC)における無許可ランダムアクセスにおけるアクティビティ検出について検討する。
CPUに中央的に実装されたデバイスアクティビティ検出に適した,シンプルで効率的なデータ駆動アルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:46:35 GMT)
Applying Tabular Deep Learning Models to Estimate Crash Injury Types of Young Motorcyclists [0.2] 若いモーターサイクリスト(特に15歳から24歳)は、スピード違反、交通違反、ヘルメット使用などの要因により、深刻な事故のリスクが高まる。
この研究は、2017年から2022年にかけてテキサス州で発生した10,726人の若いモーターサイクリストの事故を分析して、事故の深刻度に影響を与える重要な要因を特定することを目的としている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:45:13 GMT)
Enhance Exploration in Safe Reinforcement Learning with Contrastive Representation Learning [0.2] 安全な強化学習では、エージェントは探索行動と安全制約のバランスをとる必要がある。
本研究では,スパース・リワード環境における探索と安全優先行動のバランスをとるために,効率的な状態表現を学習することを目的とする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:53:42 GMT)
Sparse Dictionary Learning for Image Recovery by Iterative Shrinkage [0.1] 画像回復のためのスパース辞書学習におけるスパース符号化問題について検討する。
縮小操作を用いて構築したいくつかの最先端スパース最適化手法について検討・比較する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:45:37 GMT)
Object detection characteristics in a learning factory environment using YOLOv8 [0.1] 本稿では,検出対象の背景や特徴について,系統的に検討する。
後者は様々な材料と表面を含み、部分的に透明で、産業用4.0学習工場の文脈で光沢のある反射がある。
最終的に、同様の特徴は異なる振る舞いを示し、時には予期しない結果を示す傾向がある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:33:27 GMT)
ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.1] 本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。
我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。
以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:35:25 GMT)
Surface Reaction Simulations for Battery Materials through Sample-Based Quantum Diagonalization and Local Embedding [0.0] リチウム電池電極表面における酸素還元反応の研究に量子埋め込み法を適用した。
連成クラスタシングルと二重の計算を基底状態エネルギー上で精度良く行う。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:17:29 GMT)
Computing band gaps of periodic materials via sample-based quantum diagonalization [0.0] 本稿では,周期材料の電子基底状態をシミュレーションするための量子対角化(SQD)ワークフローを提案する。
量子回路をサンプリングし、結果として生じる構成部分空間でハミルトンを古典的に対角化することにより、代表材料のバンドギャップエネルギーを予測する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:34:02 GMT)
YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification [0.0] コード混合テキストにおける皮肉と感情検出のための新しい金標準コーパスを提案する。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
我々はGPT-3.5 Turboのような最先端の大規模言語モデルを実験し、コメントを皮肉的または非皮肉的なカテゴリに分類する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:17:21 GMT)
Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language Models [0.0] 本稿では,言語モデル(LLM)をベースとした,単語レベルの透明性コンプライアンスアノテーションを提案する。
このパイプラインは、プライバシーポリシーにおける透明性に関連するコンテンツの体系的な識別と詳細なアノテーションを可能にする。
我々は8つの著名なLCMの比較分析を行い、透明性開示の特定におけるその有効性について考察する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:41:25 GMT)
Why the Brain Cannot Be a Digital Computer: History-Dependence and the Computational Limits of Consciousness [0.0] 現在理解されている人間の脳は、古典的なデジタルコンピュータとして機能することができない。
我々の分析は、意識的に識別可能な感覚の「刺激フレーム」を表現するためのビット長要件を算出した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:27:42 GMT)
Wavefunction optimization at the complete basis set limit with Mutliwavelets and DMRG [0.0] マルチウェーブレットに基づくマルチレゾリューション解析(MRA)におけるDMRGの統合アルゴリズムを開発した。
我々は、MRA領域に代表される軌道に対する既存のラグランジアン最適化アルゴリズムを採用し、その計算効率を向上させる。
本手法をH2,He,HeH2,BeH2,N2などの小系に適用する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:59:03 GMT)
Visual Polarization Measurement Using Counterfactual Image Generation [0.0] 本稿では,PMCIG法による偏光計測について紹介する。
我々は、メディアや政治家の間で顕著な違いがある、視覚的コンテンツの顕著な分極を識別する。
政治家のレベルでは、我々の結果は偏極化報道のかなりのバリエーションを示しており、ドナルド・トランプとバラク・オバマが最も偏極化している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:32:07 GMT)
Utilizing discrete variable representations for decoherence-accurate numerical simulation of superconducting circuits [0.0] 超伝導回路のモデル化には離散可変表現(DVR)を用いる。
特に、電荷数と位相の両方のシンクDVRを用いて、いくつかの例の固有エネルギーを近似する。
これらのDVRは、デコヒーレンス-正確なシミュレーション、すなわち、崩壊、デコヒーレンス、デファス化による実験の精度を達成することができるだけでなく、より小さな基底サイズでの効率の向上も示している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:52:42 GMT)
Thermodynamic Bound on Energy and Negentropy Costs of Inference in Deep Neural Networks [0.0] 深部ニューラルネットワーク(DNN)における推論のエネルギーコストに対する基本熱力学境界の導出
DNNにおける線形演算は、原理的には可逆的に行うことができるが、非線形活性化関数は避けられないエネルギーコストを課す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:35:07 GMT)
Thermal Capacity Mapping of Cryogenic Platforms for Quantum Computers [0.0] 本稿では,量子コンピューティングに適用可能な低温プラットフォーム開発のための設計ツールを提案する。
市販希釈冷凍機を総合的に測定することで,「プラットフォーム容量マップ」を構築した。
我々は,連結ステージからの負荷によるStillステージ周辺の重要なボトルネックを特定し,IOに伴う熱負荷を推定するための既存の熱モデリング手法と,プラットフォームキャパシティマップから得られた実験結果との相違点を観察する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:15:40 GMT)
The Role of Hyperparameters in Predictive Multiplicity [0.0] 同じデータセットでトレーニングされた異なる機械学習モデルは、同じ入力に対して分岐予測を生成する。
これらの矛盾は、信用評価、雇用、医療診断などの高い評価の判断に深刻な影響を及ぼす可能性がある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:22:44 GMT)
Task-Specific Activation Functions for Neuroevolution using Grammatical Evolution [0.0] 我々は,新しいアクティベーション関数を自動進化させるために,文法進化(GE)を活用する革新的なアプローチであるNevo GEAFを紹介する。
有名なバイナリ分類データセットで実施された実験では、ReLUよりもF1スコア(2.4%と9.4%)が統計的に顕著に改善された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:50:21 GMT)
TacticExpert: Spatial-Temporal Graph Language Model for Basketball Tactics [0.0] バスケットボールの戦術モデリングは、歴史的データから複雑な空間的依存関係を効率的に抽出する必要がある。
既存の最先端(SOTA)モデルは、主にグラフニューラルネットワーク(GNN)に基づいており、長期的な、長距離、きめ細かい相互作用を捉えるのに苦労している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:27:24 GMT)
Symmetry Properties of Quantum Dynamical Entropy [0.0] 対称性の存在下での量子力学エントロピーの正確な挙動について検討する。
この結果から, 量子力学における対称性の役割が明らかになった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:59:28 GMT)
Symmetries, Scaling Laws and Phase Transitions in Consumer Advertising Response [0.0] 本研究では,物理における対称性とスケーリング則の概念に基づく新しいモデリング手法を提案する。
本稿では,飽和効果という重要な側面を考慮に入れたモデルを提案する。
マーケティングの感度、反応の感度、行動の感度といった新しい重要なパラメータを導入し、オーディエンスエンゲージメントと広告パフォーマンスのドライバーにさらなる洞察を与えます。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:48:26 GMT)
Strong-to-weak spontaneous symmetry breaking and average symmetry protected topological order in the doubled Hilbert space [0.0] この研究は、Z$対称性を持つ1次元のクラスタモデルの拡張版である。
提案するスキームを用いて,SPT混合状態とASPT混合状態を構築した。
2つの混合SPT状態の出現を数値的に実証し、デコヒーレンスの強度によって調整された2つの状態間の遷移相が生じることを示した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:44:24 GMT)
Statistical Analysis of Sentence Structures through ASCII, Lexical Alignment and PCA [0.0] アメリカ標準情報交換符号(ASCII)を用いて11テキストコーパスのテキストを表現する新しい統計手法を提案する。
ヒストグラムやShapiro-WilkやAnderson-Darling Testsといった正常性テストを通じて結果を分析する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:42:44 GMT)
Sovereignty in the digital era: the quest for continuous access to dependable technological capabilities [0.0] デジタル主権は、国家が信頼できる技術能力に継続的にアクセスする能力に依存する多面的な追求である。
本稿では,サイバー攻撃,サプライチェーンの改ざん,政治的・経済的行動などによる悪意ある行為によって,アクセス継続性や技術的信頼性が脅かされる可能性があることを明らかにする。
米国、中国、欧州連合などの国で採用されているさまざまなアプローチを検討することで、政治、経済、制度の性質に応じて、CTCにアクセスするための異なる戦略を強調します。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:58:08 GMT)
SortingEnv: An Extendable RL-Environment for an Industrial Sorting Process [0.0] 本稿では,産業的な選別システムを最適化し,進化空間におけるエージェントの挙動を研究することを目的とした,新しい強化学習(RL)環境を提案する。
選別プロセス内で物質の流れをシミュレートする際、我々の環境は、ベルト速度や占有レベルといった操作パラメータを持つデジタルツインのアイデアに従います。
これには、離散ベルトの速度調整に焦点を当てた基本バージョンと、複数のソートモードを導入した先進バージョンと、強化された材料組成観察という2つのバリエーションが含まれる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:38:25 GMT)
Solving Dicke superradiance analytically: A compendium of methods [0.0] 我々は、初期反転された$N$同一の2レベル系のアンサンブルに対して密度演算子の時間発展を再考する。
これは、完全に解析的な解を持つオープン量子系力学問題の最も単純な例の1つである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:33:02 GMT)
Simple Hamiltonians for Matrix Product State models [0.0] 行列積状態モデルに対する単純な親ハミルトニアンは、以前よりもより一般的であることを示す。
我々は、AKLTモデルを様々なレベルで一般化する、近隣の親ハミルトニアンと多くのモデルについて議論することによって、我々の発見を概説する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:18 GMT)
Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search [0.0] 木探索の観点から,Large Language Model (LLM) の安全性の段階的侵食をモデル化する多ターン対向フレームワークであるGiegeを紹介した。
GPT-3.5-turboで100%成功率,GPT-4で97%を達成できた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:57:32 GMT)
Semantic Synergy: Unlocking Policy Insights and Learning Pathways Through Advanced Skill Mapping [0.0] 本研究では,現在最先端の自然言語処理,セマンティック埋め込み,効率的な検索技術に基づく包括的システムを提案する。
システムは複数の文書から正規化能力を自動的に抽出し集約する。
認知能力、職業プロファイル、関連する学習コースの強い関係を創出する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:41:26 GMT)
Sagnac interferometer-based noise-free superresolution using phase-controlled quantum erasers [0.0] ノイズフリー超解像にはサニャック干渉計を用いたデブロリー波長が提案されている。
提案されたサニャック超解像は、最先端の古典的なセンサーをアップグレードするために応用できる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:53:23 GMT)
Rotation-mediated bosonic Josephson junctions in position and momentum spaces [0.0] 超低温原子では、二重井戸ポテンシャルにおけるボソントンネルは、実空間における典型的なジョセフソン接合を生成することができる。
本研究は,運動量空間のジョセフソンダイナミクスを回転フレーム内の単成分凝縮体に応用するための具体的なプロトコルを明らかにする。
我々のプロトコルは、理論的および実験的文脈において単成分凝縮体に対する運動量空間ジョセフソン効果を研究するための枠組みを提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:28:58 GMT)
Rotated Bitboards in FUSc# and Reinforcement Learning in Computer Chess and Beyond [0.0] FUSc#の移動ジェネレータが100%正しく動作することを示す。
我々は,「FUSc#-Zero」の実装方法と,優れたパフォーマンスを達成するために必要なトレーニングゲーム数を減らすために何が必要かについて議論した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:13:51 GMT)
Reinforcement Learning-Enhanced Procedural Generation for Dynamic Narrative-Driven AR Experiences [0.0] 本稿では,モバイルAR環境向けに設計された強化学習型WFCフレームワークを提案する。
環境固有のルールと強化学習(RL)による動的タイル量調整を統合することにより,ゲームプレイのニーズに応答し,コンテキスト的に一貫性のあるマップを生成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:31:10 GMT)
Refining Noise Mitigation in NISQ Hardware Through Qubit Error Probability [0.0] 新しい計量であるクビット誤差確率(QEP)は、クビットの確率を推定して誤差を被る。
我々は、QEPが最も重要なエラー軽減手法であるゼロノイズ外挿法(ZNE)の改善に利用できることを示した。
我々の手法はゼロ誤り確率補間 (ZEPE) と呼ばれ、量子ビット数や回路深さの点で優れたスケーラビリティを実現するキャリブレーションパラメータに基づいている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:42:03 GMT)
Real-time Pollutant Identification through Optical PM Micro-Sensor [0.0] 従来の大気汚染モニタリングシステムは、重要なデータを提供するが、その高コストと空間範囲の制限により、効果的なリアルタイム汚染物質識別を妨げている。
近年のマイクロセンサ技術の進歩により、データ収集は改善されているが、情報源同定のための効率的な手法はいまだに欠如している。
本稿では,光マイクロセンサのデータのみを用いて,汚染物質をリアルタイムに分類するための機械学習(ML)モデルの革新的応用について検討する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:27:10 GMT)
Quantum thermal machine regimes in the transverse-field Ising model [0.0] 我々は、横フィールドイジングモデルを用いて、量子熱機械機構を動作物質として同定し、解釈する。
無限小のワークストロークを考えることで、系の平衡特性から操作を理解することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:01:42 GMT)
Quantum switches for single-photon routing and entanglement generation in waveguide-based networks [0.0] 量子ノードの相互接続は 量子コンピューティングユニットのスケールアップを 約束します
系力学をコヒーレントに条件付ける量子スイッチとして、追加の量子ビット自由度を活用することを提案する。
ネットワークを横断する単一光子ルーティングにより絡み合った状態を生成するための決定論的プロトコルを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:37:25 GMT)
Quantum non-Gaussianity of light and atoms [0.0] 光子とフォノンの量子非ガウス状態は、光学的および機械的過程における高次2次非線形性の決定的な証人である。
本稿では、光子とフォノンの非古典的および量子的非ガウス状態の理論解析を紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:45:12 GMT)
Quantum gate broadcasting on graphs [0.0] 一般化された量子テレポーテーションに基づいて位相を符号化したゲートのコピーを複数の受信機に送ることができることを示す。
我々は、この量子ゲートブロードキャストプロトコルを、有向非巡回グラフ上の量子ネットワークに拡張する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:11:33 GMT)
Quantum complexity in gravity, quantum field theory, and quantum information science [0.0] 量子複雑性(Quantum complexity)は、限られたリソースを使用して状態の作成、あるいはユニタリの実装の難しさを定量化する。
異なるコミュニティが異なるツールを量子複雑性に適用し、複雑さを異なる方法で定義する。
我々は、複雑さの複数の定義と、それらの重要な特性と応用をカバーしています。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:01 GMT)
Quantum Theory, Gravity and Higher Order Geometry [0.0] 量子論は微分不可能であるのに対し、一般相対性理論は微分可能性の仮定に基づいて構築されており、量子論と重力の間には相容れない。
これは量子論の経路積分の定式化を含むため、重力と量子論の間の相互作用を記述するための自然な数学的枠組みを提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:26:33 GMT)
Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model [0.0] フィッシングは、今日のデジタルランドスケープにおいて永続的なサイバーセキュリティの脅威である。
本稿では,Llama-Guard-3-1Bモデルの改良版であるPhishsense-1Bを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:03:09 GMT)
Path-integral approaches to strongly-coupled quantum many-body systems [0.0] この理論の中核は、場の量子論の経路積分の定式化である。
有限サイズの量子系の処理における理論的アプローチの効率性を研究することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 23:39:16 GMT)
PS3C: An Ensemble-Based Two-Step Framework for Classification of Pep Smear Cell Images [0.0] Pep Smear Cell Classification Challenge (PS3C)は2025年にI SBIと共同で設立された。
本研究の目的は,スミア画像の自動分類ツールの開発を促進することである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:46:23 GMT)
Origin of time and probability in quantum cosmology [0.0] 時間と因果構造という古典的な概念が、普遍的な量子状態からの量子力学的確率とともにどのように現れるかについて議論する。
我々の議論は量子重力に対する標準的なアプローチである量子測地力学に基づいている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:00:01 GMT)
Optimal Symbolic Construction of Matrix Product Operators and Tree Tensor Network Operators [0.0] 本研究では,行列積演算子(MPO)とツリーテンソルネットワーク演算子(TTNO)を構築するための改良されたフレームワークを提案する。
与えられた(ハミルトニアン)作用素は典型的には、テンソルネットワーク構造に変換できる「作用素弦の和」形式の既知の記号を持つ。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:04:53 GMT)
Optimal Security Response to Network Intrusions in IT Systems [0.0] この論文は、ITインフラにおける最適なセキュリティ対応のための実践的な方法論を開発することで、課題に取り組む。
まず、ターゲットインフラストラクチャの主要コンポーネントを複製するエミュレーションシステムを含む。
第2に、近似モデルを用いてゲーム理論応答戦略を最適化するシミュレーションシステムを含む。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 08:27:31 GMT)
OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions [0.0] オープンセマンティックマッピング(OSM)は、セマンティックセグメンテーションとSLAM技術を組み合わせたロボット知覚における重要な技術である。
本研究は室内照明条件の異なる条件下での最先端意味マッピングアルゴリズムの評価に焦点をあてる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:07:51 GMT)
Numerical study of computational cost of maintaining adiabaticity for long paths [0.0] 最近の研究は、経路長の無次元量$Q_D$のスケーリングは、時間スケールよりも断熱性を維持するための計算コストのスケーリングのためのより良いプロキシであると主張した。
この予想は、数値的に研究できる単純なハミルトン系に対して成り立つことを実証する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:47:19 GMT)
Note on Von Neumann Entropy and the Ordering of Inverse Temperatures [0.0] フォン・ノイマンエントロピー(英: von Neumann entropy)は、温度の単調に増加する関数である。
rho_beta$ for a given Hamiltonian $H$ satisfies $S(rho_beta) geq S(rho_beta) iff beta_1 leq beta_2$
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:39:55 GMT)
No-go theorem for environment-assisted invariance in non-unitary dynamics [0.0] 局所演算はクラウス作用素表現において直和形式をとらなければならないことを示す。
即時的な結果として,非一元的操作によって環境支援による断熱的ショートカットが達成できないことを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:24:47 GMT)
Mixed-state learnability transitions in monitored noisy quantum dynamics [0.0] 我々は、ノイズの進化を行う監視量子系における学習可能性遷移を考察する。
本研究では, この条件下でのファジィ相を, 自発的な強弱対称性の破れを示す混合状態相とみなす。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:37:11 GMT)
MinorBench: A hand-built benchmark for content-based risks for children [0.0] 大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:34:43 GMT)
MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0] 医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:29:47 GMT)
Masked Mixers for Language Generation and Retrieval [0.0] 我々は、トランスにおける入力表現精度の低下と、マスクミキサーと呼ばれるものにおけるより正確な表現を観察する。
小型のマスクミキサーは、最先端のトランスフォーマーベース検索モデルよりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:12:20 GMT)
Mamba time series forecasting with uncertainty propagation [0.0] 電力消費のベンチマークでは、マンバの予測平均誤差は約8%である。
トラフィック占有率ベンチマークでは、平均誤差は18%に達する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:39:38 GMT)
MIX : a Multi-task Learning Approach to Solve Open-Domain Question Answering [0.0] 本稿では,複数タスクの深層学習手法であるMIXを紹介する。
本稿では,検索スペースを削減するためのBM25ベースのRetriever,RoBERTaベースのScorer,検索した段落をランク付けして関連するテキストスパンを抽出するExtractorの3つのブロックからなる多段パイプラインとして設計する。
我々のシステムは、概念的には単純でありながら、分隊オープンベンチマークにおける最先端のパフォーマンスと同等である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:56:45 GMT)
LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions [0.0] DeepSeek R1は疾患レベルの精度が76%、全体的な精度が82%に達し、O3 Miniを上回った。
しかし、どちらのモデルも呼吸疾患の分類に苦慮し、DeepSeek R1では40%、O3 Miniでは20%のアキュラシーを記録した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:54:26 GMT)
LLMs Working in Harmony: A Survey on the Technological Aspects of Building Effective LLM-Based Multi Agent Systems [0.0] 本研究では,LLMに基づくマルチエージェントシステムの開発に不可欠な基礎技術について検討する。
協調的で動的な環境のためにこれらのシステムをいかに最適化するかを問うため、アーキテクチャ、メモリ、計画、技術/フレームワークの4つの重要な領域に焦点を当てます。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:17:50 GMT)
LLM Agents Display Human Biases but Exhibit Distinct Learning Patterns [0.0] 経験的タスクから判断する文脈におけるLarge Language Models (LLMs)の選択パターンについて検討する。
その結果,LLMは人間に類似した行動バイアスを呈することがわかった。
しかし、選択パターンをより微妙に分析すると、これは非常に異なる理由で起こることが分かる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:47:03 GMT)
JPEG Compliant Compression for Both Human and Machine, A Report [0.0] 我々は人間と機械の両方のための画像圧縮アルゴリズム(DNN)を開発した。
その結果、HMOSDQは、レート精度とレート歪み性能の点で、デフォルトJPEGアルゴリズムよりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 21:52:25 GMT)
Increasing quantum speed meter sensitivity using optical spring [0.0] 本稿では,光バネから発生する量子ノイズの低周波化による速度メータ型ブロードバンド感度向上が共存可能であることを示す。
我々は、この最小位置が干渉計のコア光学に影響を与えることなく変化し、チャープのGW信号に追従する量子ノイズ形状をリアルタイムに調整できることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:08:00 GMT)
Improving Medical Waste Classification with Hybrid Capsule Networks [0.0] 医療廃棄物の不適切な処理は、環境と公衆衛生の深刻なリスクを引き起こす。
我々は, 医療廃棄物の分類を改善するために, カプセルネットワークと事前訓練したDenseNetモデルの統合について検討する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:49:30 GMT)
Impact of buckypaper on the mechanical properties and failure modes of composites [0.0] バッキーペーパー(BP)およびカーボンナノチューブ(CNT)膜は複合積層体に組み込まれている。
複合積層板の変形・破壊機構への影響については, 十分に検討されていない。
本稿では, BPインターリーブを用いたCFRP複合積層板の機械的応答に関する研究を目的とした, 深層学習(DL)に基づくサロゲートモデルを提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:43:01 GMT)
HyperArm Bandit Optimization: A Novel approach to Hyperparameter Optimization and an Analysis of Bandit Algorithms in Stochastic and Adversarial Settings [0.0] 本稿では,機械学習モデルにおけるハイパーパラメータチューニングに EXP3 を適用した新しいフレームワークである HyperArm Bandit Optimization (HABO) を提案する。
HABOは、個々のハイパーパラメータをスーパーアームとして扱い、潜在的な構成をサブアームとして扱い、動的リソース割り当てと効率的な探索を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:50:28 GMT)
Hydrogen Atom in a Fuzzy Spherical Cavity [0.0] ファジィオニオンモデルは量子空間の研究によって動機づけられるが、標準物理学の研究にも使用できる。
この単純なアプローチは、球状キャビティ内の水素原子を分析する他の研究結果の再現方法を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:11:38 GMT)
Heuristics and Biases in AI Decision-Making: Implications for Responsible AGI [0.0] GPT-4o, Gemma 2, Llama 3.1の3大言語モデル(LLM)における認知バイアスの存在について検討した。
この研究は、9つの確立された認知バイアスにわたる1,500の実験を使用して、モデルの反応と一貫性を評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 19:55:06 GMT)
Heisenberg dynamics of mixed quantum-classical systems [0.0] 混合量子古典系は、量子オブザーバブルとラグランジアン軌道に作用するユニタリ作用素の相互作用を含む。
この相互作用は、古典的な軌道上で量子自由度によって抽出されたバックリアクションによって特に困難となる複雑な構造を反映している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:01:36 GMT)
Ground-state selection via many-body superradiant decay [0.0] 多体開放量子系では、単一粒子分岐比によって予測されるよりも1つの基底状態の占有確率がかなり高められることが示される。
置換対称性の存在下では、この問題は任意の競合するチャネルに対して正確に解決可能であることを証明している。
本研究は,量子システムの構築と制御における多体戦略の新たな道を開くものである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:37:31 GMT)
Generalized Uncertainty Relation Between an Observable and Its Derivative [0.0] 観測者の不確かさとその時間微分の積は、可観測者とその微分の間の可換作用素の半分で有界であることを示す。
本研究は, 量子力学の理解を深め, 測定精度に時間依存的相互作用が与える影響について考察した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:01:28 GMT)
From Linear to Spline-Based Classification:Developing and Enhancing SMPA for Noisy Non-Linear Datasets [0.0] MPAの分類性能と、元のアルゴリズムにおけるいくつかのマイナーな開発について検討する。
次に、類似の学習機構を用いた分類に立方体スプラインを用いることの背景にある概念について議論し、既知の特性を持つ合成データセットのトレーニング結果を解析する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:58:40 GMT)
Flows on convex polytopes [0.0] 実次元ポリトープが単位球に同型であることを示し、我々のアプローチは球上で定義された流れを利用し、元のポリトープにマッピングする。
本実験は, メタボリックフラックス解析の応用から着想を得て, 競合密度推定, サンプリング精度, 高速トレーニング, 推論時間の実現を実証した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:15:40 GMT)
First-Passage Approach to Optimizing Perturbations for Improved Training of Machine Learning Models [0.0] 機械学習モデルのトレーニングを改善するために、いくつかのプロトコルが開発されている。
それらをファーストパスプロセスとしてフレーム化して、摂動に対する応答を検討します。
摂動学習プロセスが準定常状態に達すると、単一摂動周波数での応答が幅広い時間スケールで予測可能であることを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:41:50 GMT)
Extreme Learning Machines for Attention-based Multiple Instance Learning in Whole-Slide Image Classification [0.0] 全スライディング画像分類は、計算病理学と医学における重要な課題である。
深部MILのための高次元特徴空間を用いた新しい手法を提案する。
末梢血の循環レア細胞(CRC)を検出する問題に対して,本アルゴリズムを適用した。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:14:08 GMT)
Evaluating a Novel Neuroevolution and Neural Architecture Search System [0.0] 拡張ニューラルアーキテクチャサーチ(NAS+)のPython実装であるNeuvo NAS+の有効性を示す。
本稿では,タスク固有のネットワーク機能を選択するNevo NAS+システムの設計について述べる。
結果,Nuvo NAS+アプローチはいくつかの機械学習手法よりも優れていた。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 20:35:34 GMT)
Entanglement witness for combined atom interferometer-mechanical oscillator setup [0.0] 本稿では,その違反から絡み合いの発生を判断できる絡み合い証人を提案する。
ノイズのないケースとサーマルノイズを含む場合の両方でこれを行う。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 02:58:44 GMT)
Enhancing Aviation Communication Transcription: Fine-Tuning Distil-Whisper with LoRA [0.0] OpenAIのWhisperは、主要な自動音声認識モデルの1つである。
航空通信の転写のための微調整ウィスパーは、計算的に効率的ではない。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 22:12:45 GMT)
Efficient spectrum analysis for multi-junction nonlinear superconducting circuit [0.0] 半自動的かつ高精度なスペクトル分析法を開発した。
複数のジョセフソン接合を含む超伝導量子回路のハミルトニアンを推定する。
また、シミュレーション手法における近似の適切な範囲を決定し、解析の物理的信頼性を評価する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:39:31 GMT)
Efficient Implementation of CRYSTALS-KYBER Key Encapsulation Mechanism on ESP32 [0.0] Kyberは、米国国立標準技術研究所の最初の量子後暗号標準化プロセスの勝者である。
我々は,モノのインターネットのためのマイクロコントローラであるESP32上で,Kyberの効率的な実装を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:45:31 GMT)
Dynamics of edge modes in monitored Su-Schrieffer-Heeger Models [0.0] 監視したSu-Schrieffer-Heeger(SSH)モデルにおけるエッジモードのダイナミクスに対する消散の影響について検討する。
チェーンのエッジを散逸から保護することにより、ユニタリ限界に類似した特性を回復することができる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 09:53:21 GMT)
Dynamics of disordered quantum systems with two- and three-dimensional tensor networks [0.0] 2次元および3次元テンソルネットワークは、イジングスピングラスの量子アニールダイナミクスを正確に、効率的にシミュレートできることを示す。
我々はシミュレーションのスケーラビリティを活用し、300ドル以上のキュービットのシステムをシミュレートする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:51:02 GMT)
Dynamic Realization of Majorana Zero Modes in a Particle-Conserving Ladder [0.0] マヨラナゼロモードをサポートするトポロジカル超伝導系の実現手法を提案する。
この結果から,マヨラナゼロモードは大きなパラメータ空間で安定化可能であることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:01:39 GMT)
Detuning-symmetric laser cooling of many mechanical modes with a photothermally modified cavity [0.0] 単一青色レーザで駆動される光熱修飾光学キャビティを用いた膜のメカニカルモードを同時に冷却する。
機械系に直接適用される放射圧やボロメトリー力とは対照的に、この冷却効果は変形の兆候に依存しない。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:53:29 GMT)
Determination of galaxy photometric redshifts using Conditional Generative Adversarial Networks (CGANs) [0.0] 銀河の光度赤方偏移を決定するために、条件付き生成共振ネットワーク(CGANs)が提案されている。
CGANの品質測定はMDNの結果に近いため、光度赤方偏移推定においてCGANを使用するための扉を開く。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 12:31:03 GMT)
Designing a compact cavity-enhanced source of entangled photons [0.0] 絡み合いは将来の大規模量子ネットワークの鍵となるリソースとなる。
単一キャビティ内に2つの非線形結晶を用いた新しいキャビティ強化ソース設計を提案する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:05:33 GMT)
Deep Learning-Based Automated Workflow for Accurate Segmentation and Measurement of Abdominal Organs in CT Scans [0.0] 本研究の目的は,CTスキャンにおける腹部臓器の分画と計測のための自動ワークフローの開発と評価である。
提案手法はCTスキャンにおける腹部臓器計測の自動化,効率的,信頼性の高いソリューションを提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:50:44 GMT)
Deep Learning based discovery of Integrable Systems [0.0] 統合可能なモデルを発見するための新しい機械学習ベースのフレームワークを提案する。
まず、ニューラルネットワークの同期アンサンブルを用いて、ヤン・バクスター方程式の高精度数値解を求める。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:42:37 GMT)
Dark Deceptions in DHCP: Dismantling Network Defenses [0.0] 本稿では,動的ホスト構成プロトコル(DHCP)の脆弱性とその信頼性,統合性,可用性(CIA)トライアドへの影響について検討する。
様々な攻撃の分析を通じて、脅威の分類、リスクの評価、適切な制御を提案する。
この議論はまた、DHCPのエクスプロイトを通じてVPNのデクローズの危険性を強調し、ネットワークインフラストラクチャの保護の重要性を強調している。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:22:30 GMT)
Cosmic muon flux attenuation methods for superconducting qubit experiments [0.0] 超伝導量子ビットを含む実験と互換性のある宇宙ムーンフラックスを減衰させる2つの実用的な緩和法を提案し,実証する。
特別に構築された宇宙ムーン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ムーンフラックスの大きな減衰を達成できる。
地上実験室では2つのゲルマニウムウェハを用い,それぞれに粒子センサを装着し,天空に対するチップの配向が基板上に堆積したエネルギー量と種類にどのように影響するかを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:28:00 GMT)
Consistent multi-animal pose estimation in cattle using dynamic Kalman filter based tracking [0.0] KeySORTは、トラックレットをバウンディングボックスフリーで構築するための適応カルマンフィルタであり、検出されたキーポイントの時間的一貫性を著しく向上する。
実験結果から,提案アルゴリズムは,精度の高い真理キーポイントの最大80%を検出できることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:15:54 GMT)
Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models [0.0] 大規模言語モデルを複数のタスクに適応させることは、クロススキルの干渉を引き起こす可能性がある。
合成部分空間表現ファインチューニング(CS-ReFT)を提案する。
CS-ReFTは複数の正規直交部分空間変換を学習し、それぞれ異なるスキルを習得し、軽量ルータを介して構成する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:57:04 GMT)
Coherence of a hole spin flopping-mode qubit in a circuit quantum electrodynamics environment [0.0] 我々は、高インピーダンス窒化ニオブマイクロ波共振器と結合したシリコンナノワイヤにFMホールスピン量子ビットを合成した。
マイクロ秒帯で100MHz以上のRabi周波数とコヒーレンス時間を報告し, 単一ゲート品質係数が380。
我々は,光化学効果がコヒーレンスを主に制限し,放射減衰が主緩和チャネルであり,光子ショットノイズが脱落を引き起こすことを初めて明らかにした。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 18:26:59 GMT)
Cognitive-Mental-LLM: Leveraging Reasoning in Large Language Models for Mental Health Prediction via Online Text [0.0] 本研究では,Reddit から得られた複数のメンタルヘルスデータセットの分類精度を向上させるため,構造化推論手法-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), Tree-of-Thought (ToT) の評価を行った。
我々は,Zero-shot CoTやFew-shot CoTといった推論駆動型プロンプト戦略を,Ba balanced Accuracy,F1 score,Sensitivity/Specificityといった重要なパフォーマンス指標を用いて分析する。
以上の結果から,特に複雑な場合において,推論手法により直接予測よりも分類性能が向上することが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 06:42:37 GMT)
Climate land use and other drivers impacts on island ecosystem services: a global review [0.0] 島は多様なホットスポットであり、環境劣化、気候の変化、土地利用の変化、社会危機に弱い。
この研究は、世界中の気候変動・地域・生態系サービスに関する多くの論文をレビューした。
生態系のサービスに負の気候変動が与える影響は、気候変数よりも土地利用の変化や他の非気候ドライバ変数によってより定量化されている。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 11:41:17 GMT)
Capturing an Electron in the Virtual State [0.0] 本研究では, 古典的に禁止された領域における粒子検出のパラドックスを解消し, トンネル力学を再現することを示す。
以上の結果から, 古典的に禁止された領域における粒子検出のパラドックスを解消し, トンネル力学を根本的に回復させることが示唆された。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:27:54 GMT)
BioSerenity-E1: a self-supervised EEG model for medical applications [0.0] BioSerenity-E1は臨床脳波治療のための自己監督型基礎モデルの1つである。
スペクトルトークン化とマスク付き予測を組み合わせることで、関連する診断タスク間で最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:42:46 GMT)
Benchmarking low-power flopping-mode spin qubit fidelities in Si/SiGe devices with alloy disorder [0.0] デバイスアンサンブルにおける電気駆動スピン回転の単一量子ゲート特性をシミュレートする。
単一ドットゲートの忠実度は磁気ノイズによって制限されるのに対し,フリップモードの忠実度は電荷ノイズとスピン緩和によって制限されることがわかった。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:29:30 GMT)
Asymptotic spectrum of weighted sample covariance: another proof of spectrum convergence [0.0] 我々は、スペクトルが重い尾を持つ有限標本でどのように振る舞うかを示す。
一般的な目的は、重み付きサンプル共分散の高次元スペクトルの詳細な紹介を提供することである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:03:29 GMT)
Apparent teleportation of indistinguishable particles [0.0] 量子テレポーテーション(quantum teleportation)と近年の量子粒子テレポーテーション(quantum particle teleportation)という2つの現象が量子力学によって予測された。
本稿では,第3のテレポーテーション現象について紹介する。
これは、標準模型の素粒子と反粒子が区別できないという自然な結果のようである。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 17:15:43 GMT)
Analytic solution to degenerate biphoton states generated in arrays of nonlinear waveguides [0.0] 非線形導波路のアレイにおける退化二光子状態の進化に対する解析解を得るために超モード法を用いる。
この解は任意の数の導波路と結合プロファイルの配列を説明できる。
本稿では,解析解を用いて逆問題に対処する方法の実証例を示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:38:16 GMT)
Advanced Tool Learning and Selection System (ATLASS): A Closed-Loop Framework Using LLM [0.0] ATLASSはクローズドループフレームワークとして設計された高度なツール学習と選択システムである。
エージェントはツールの選択、実行、改善のオーケストレーションにおいて重要な役割を担い、適応的な問題解決能力を確保する。
OpenAI GPT-4.0 は LLM エージェントとして使用され、安全性と倫理上の懸念は人間のフィードバックによって処理される。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:39:00 GMT)
Adiabatic elimination and Wigner function approach in microscopic derivation of open quantum Brownian motion [0.0] オープン量子ブラウン運動(OQBM)は、新しい量子ブラウン運動のクラスを表す。
OQBMの還元密度行列に対する導出したマスター方程式を数値的に解く。
研究システムに関する物理的知見を得るために、オープン量子ブラウン粒子の対角線外要素の動力学をプロットした。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:56:45 GMT)
Adding numbers with spiking neural circuits on neuromorphic hardware [0.0] 我々はLavaソフトウェアフレームワークに1つのシーケンシャルおよび2つの並列バイナリ加算器を実装し、それらをニューロモルフィックチップであるLoihi 2にデプロイする。
本稿では、時間複雑性、ニューロン、シナプスリソース、および現在の実装で追加できる数値のビット幅の制約について述べる。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 14:04:11 GMT)
ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents [0.0] 著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。
彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。
結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 10:16:46 GMT)
AGI, Governments, and Free Societies [0.0] 我々は、AGIが社会を「専制的レヴィアサン」または「従属レヴィアサン」に向かわせるという明確なリスクを生んでいると論じる。
これらのダイナミクスが3つの重要なチャネルを通してどのように展開できるかを分析します。
AGIによる国家の能力増強は、前例のない監視と統制を可能にし、権威主義的な慣行を定着させる可能性がある。
逆に、非国家アクターへのAGI機能の急速な拡散は、国家の正当性と統治性を損なう可能性がある。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 16:15:44 GMT)
A discrete Fourier transform based quantum circuit for modular multiplication in Shor$'$s algorithm [0.0] モジュラー指数化のための量子回路を提案する。
我々の提案のゲート複雑度は$O(L3)$であり、ここで L は分解される数を保存するのに必要なビット数である。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 03:39:13 GMT)
A Neumann-Neumann Acceleration with Coarse Space for Domain Decomposition of Extreme Learning Machines [0.0] 極端学習機械(ELM)は物理インフォームドニューラルネットワークよりも高速かつ正確に偏微分方程式を解くことができる。
高い精度で解くためには少なくとも2乗の問題を解く必要がある場合、計算コストは高いままである。
本稿では,EMMのための粗い空間を構築し,トレーニングのさらなる加速を可能にする。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 04:24:55 GMT)
A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization [0.0] 本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。
この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 13:30:54 GMT)
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion [0.0] 本研究では,GitHubのバグレポートの毒性について,81件を含む203件のバグスレッドの質的分析を通じて検討した。
以上の結果から,バグの重症度や優先度の誤認識,ツールによる未解決のフラストレーション,プロフェッショナルコミュニケーションの経過など,毒性が頻繁に発生することが明らかとなった。
予備的な知見は,毒性を緩和することにより,バグ解決を改善するための実用的な勧告を提供する。
論文参考訳(メタデータ) (Thu, 13 Mar 2025 05:39:29 GMT)