LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1] 大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:34:38 GMT)
CFReID: Continual Few-shot Person Re-Identification [130.6] Lifelong ReIDは、複数のドメインにまたがる知識を漸進的に学習し、蓄積するために提案されている。
LReIDモデルは、一般にプライバシとコストの懸念のためにアクセスできない、目に見えない各ドメインの大規模ラベル付きデータでトレーニングする必要がある。
本稿では,数ショットデータを用いてモデルをインクリメンタルにトレーニングし,すべてのドメインでテストするContinual Few-shot ReIDを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:17:05 GMT)
Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces [113.9] 本稿では,RGB-D画像から実世界の屋内環境の3次元シーングラフを推定するタスクを紹介する。
オブジェクトの空間的関係に焦点を当てた従来の3Dシーングラフとは異なり、機能的な3Dシーングラフはオブジェクト、インタラクティブな要素、およびそれらの機能的関係をキャプチャする。
我々は,拡張されたSceneFun3Dデータセットと新たに収集されたFunGraph3Dに対して,機能的な3Dシーングラフを付加したアプローチを評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:53:19 GMT)
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1] TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:43:02 GMT)
MotionMap: Representing Multimodality in Human Pose Forecasting [98.3] タスクを適切に配置するための代替パラダイムを提案する。
最先端の手法はマルチモーダリティを予測するが、これは大量の予測をオーバーサンプリングする必要がある。
マルチモーダリティのためのシンプルなヒートマップベースの表現であるMotionMapを用いて,これらの問題に対処する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:42:33 GMT)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.7] 1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:07:01 GMT)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.7] FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:30:32 GMT)
SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.7] 大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:22:02 GMT)
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.4] タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:41:57 GMT)
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval [90.7] Video-ColBERTは、クエリとビデオ間の微粒な類似性評価のためのシンプルで効率的なメカニズムを導入している。
このインタラクションとトレーニングのパラダイムは、ビデオコンテンツをエンコードするための、強い個人的かつ互換性のある表現につながることが分かっています。
これらの表現は、他のバイエンコーダ法と比較して、一般的なテキスト・ビデオ検索ベンチマークのパフォーマンスが向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:51:29 GMT)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.6] 後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:47:05 GMT)
Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.4] Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:17:13 GMT)
Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders [87.2] Dora-VAEは,提案したシャープエッジサンプリング戦略と2つのクロスアテンション機構により,VAEの再構築を促進する新しいアプローチである。
Dora-VAEは最先端の高密度XCube-VAEに匹敵する再現性を実現し、少なくとも8$times$小さめの遅延空間を必要とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:41:50 GMT)
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks [85.5] 既存のビデオ分類と検索データセットの偏りのないサブセットに基づくビデオベンチマーク「unbiased through Textual Description (UTD)」。
我々は、VLMとLLMを利用して、表現バイアスからベンチマークを分析し、デビアスする。
一般的な12の動画分類と検索データセットを体系的に分析する。
我々は、オリジナルおよびデバイアスド分割に関する30の最先端ビデオモデルをベンチマークし、モデル内のバイアスを分析する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:00:25 GMT)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3] MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:38:42 GMT)
STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.2] STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:33:28 GMT)
Analytic DAG Constraints for Differentiable DAG Learning [83.9] 解析関数とDAG制約の関連性を確立するための理論を開発する。
集合 $f(x) = c_0 + sum_i=1inftyc_ixi | forall i > 0, c_i > 0; r = lim_irightarrow inftyc_i/c_i+1 > 0$ から得られる解析関数は、有効な DAG 制約を定式化するために用いられる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:51:35 GMT)
Online 3D Scene Reconstruction Using Neural Object Priors [83.1] 本稿では,RGB-Dビデオシーケンスが与えられたオブジェクトのレベルにおいて,オンラインでシーンを再構成する問題に対処する。
本稿では,新しい対象部品が明らかになれば,オブジェクト中心の暗黙表現を継続的に更新する特徴グリッド機構を提案する。
提案手法は, 再建精度と完全性の観点から, 最先端のニューラル暗黙モデルより優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:09:36 GMT)
Defeating Prompt Injections by Design [79.0] CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:54:10 GMT)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.5] 我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:58:15 GMT)
Any6D: Model-free 6D Pose Estimation of Novel Objects [76.3] 我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:46:21 GMT)
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model [76.0] PM4Benchは,大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマークである。
10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。
これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:38:37 GMT)
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.1] 既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。
この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。
ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。
本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:15:05 GMT)
SPHERE: An Evaluation Card for Human-AI Systems [75.1] 本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:17:20 GMT)
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images [74.9] 数枚の画像からリアルなアニメーションで、パーソナライズされた3Dアバターを再構成する新しい手法を提案する。
我々は、1000人以上の服を着た人間から普遍的な事前学習を行い、即時フィードフォワード生成とゼロショット一般化を実現する。
提案手法は, 最新技術よりも忠実な再構築とアニメーションを生成し, カジュアルに撮影された携帯電話写真からの入力に直接一般化することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:20:47 GMT)
Large-scale Pre-training for Grounded Video Caption Generation [74.2] 本稿では,映像中のキャプションとオブジェクトの接地に関する新しいアプローチを提案する。
本稿では,個々のフレームにまたがるバウンディングボックスで接地したキャプションを,時間的に密度が高く一貫したバウンディングボックスアノテーションに集約する大規模自動アノテーションを提案する。
iGroundと呼ばれる新しいデータセットを導入し、手動で注釈付けされたキャプションと、密集した時間的接地されたバウンディングボックスを備えた3500本のビデオを紹介した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:11:52 GMT)
GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9] 本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:46:14 GMT)
HOIGPT: Learning Long Sequence Hand-Object Interaction with Language Models [73.9] HOIGPTは、3Dハンドオブジェクトインタラクション(HOI)の認識と生成を統一するトークンベースの生成方法である。
HOIGPTは、HOIシーケンスと自然言語記述の間の入札変換を予測するために、大きな言語モデルを利用する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:25:29 GMT)
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.9] 本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:18:59 GMT)
Human-like conceptual representations emerge from language prediction [72.6] 大規模言語モデル(LLMs)は、言語データに対する次世代の予測を通じてのみ訓練され、顕著な人間的な振る舞いを示す。
これらのモデルは、人間に似た概念を発達させ、もしそうなら、そのような概念はどのように表現され、組織化されるのか?
以上の結果から,LLMは言語記述から他の概念に関する文脈的手がかりに関して柔軟に概念を導出できることが示唆された。
これらの結果は、構造化された人間のような概念表現が、現実世界の接地なしに言語予測から自然に現れることを証明している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:10:35 GMT)
Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.5] ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:30:47 GMT)
CoMP: Continual Multimodal Pre-training for Vision Foundation Models [72.3] 我々は、VFM(Vision Foundation Models)をマルチモーダルな方法で継続的に事前訓練する。
我々は、慎重に設計されたマルチモーダル事前学習パイプラインであるCoMPを紹介する。
3段階の訓練により、VFMはマルチモーダル理解だけでなく、分類やセグメンテーションなどの下流タスクでも顕著な改善が達成される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:52:47 GMT)
From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.4] オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。
提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。
トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:22:37 GMT)
DashGaussian: Optimizing 3D Gaussian Splatting in 200 Seconds [71.4] 3DGSの最適化複雑性に関するスケジューリング手法であるDashGaussianを提案する。
提案手法は, 各種3DGSバックボーンの最適化を平均45.7%高速化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:17:27 GMT)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.2] 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:51:39 GMT)
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.8] ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
このモデルファミリは2ストリームのSlowFastメカニズムを使用し、長距離時間コンテキストの効率的なモデリングを可能にする。
合理化されたトレーニングパイプラインと高品質なデータミキシングによって最適化された、1Bから7Bパラメータの範囲のモデルを提供します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:07 GMT)
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.7] Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:46:09 GMT)
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.6] 本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:14:43 GMT)
REALM: A Dataset of Real-World LLM Use Cases [69.6] REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。
RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。
LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:39:25 GMT)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.6] 戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:14:24 GMT)
Merging synthetic and real embryo data for advanced AI predictions [69.1] 我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:57:58 GMT)
Byzantine-Resilient Over-the-Air Federated Learning under Zero-Trust Architecture [68.8] 我々は,セキュアな適応クラスタリング(FedSAC)を用いたフェデレーション学習(Federated Learning)と呼ばれる,無線通信のための新しいビザンチン・ロバストFLパラダイムを提案する。
FedSACは、デバイスの一部をゼロ信頼アーキテクチャ(ZTA)ベースのビザンティン識別と適応デバイスクラスタリングによる攻撃から保護することを目的としている。
実験精度と収束率の両面から,提案手法よりもFedSACの方が優れていることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:56:30 GMT)
Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation [67.3] 効率的な高IPCデータセット蒸留のための新しいカリキュラム粗粒抽出法(CCFS)を提案する。
CCFSは、各カリキュラムの現在の合成データセットに基づいて、適切な実データを選択するために粗い戦略を採用している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:47:40 GMT)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.0] 我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:30:58 GMT)
MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.9] 敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:27:02 GMT)
Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.5] オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。
ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。
パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:00:37 GMT)
Structure-Aware Correspondence Learning for Relative Pose Estimation [65.4] 相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。
既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。
本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:43:44 GMT)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.6] VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:26:56 GMT)
Overtrained Language Models Are Harder to Fine-Tune [64.4] 大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:11:56 GMT)
Targeted Separation and Convergence with Kernel Discrepancies [62.0] カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:22:47 GMT)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.9] マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:46:52 GMT)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.3] 我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:31:44 GMT)
Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives [60.2] 3D Gaussian Splatting (3D-GS)は、3D Gaussian のパラメトリック点雲としてシーンをモデル化することで、新しいビューをリアルタイムにレンダリングすることのできる最近の3Dシーン再構築技術である。
レンダリング速度を大幅に向上させるために、3D-GSにおける2つの重要な非効率を同定し、対処する。
われわれのSpeedy-Splatアプローチはこれらの技術を組み合わせて、Mip-NeRF 360、Turps & Temples、Deep Blendingのデータセットから得られる、劇的な$mathit6.71timesで平均レンダリング速度を加速する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:30:29 GMT)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.3] 本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:34:01 GMT)
MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning [59.0] マルチモーダルマルチターンコンテキスト推論データセットは、310Kコンテキスト対話を備えた最大マルチモーダルマルチターンインストラクションチューニングデータセットである。
MMCR-310kで微調整されたモデルは、MMCR-Benchの文脈精度が5.2%向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:40:33 GMT)
Towards Universal Soccer Video Understanding [58.9] 本稿では,サッカー理解のための総合的マルチモーダルフレームワークを提案する。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカービデオにまたがる時間的情報を活用し、様々な下流タスクに優れる高度なサッカー特化視覚情報であるMatchVisionを提示する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:22:47 GMT)
RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.8] 本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:47:54 GMT)
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.6] MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:49:35 GMT)
EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.4] EvAnimateは、静的な人間のイメージをアニメーションするためのモーションキューとしてイベントストリームを活用するフレームワークである。
EvAnimateは、従来のビデオ由来のキューが短いシナリオにおいて、高い時間的忠実度とロバストなパフォーマンスを達成することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:05:41 GMT)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.4] 実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:59:29 GMT)
ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.6] 複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、コンテキスト的に正確であり、異なるズームレベルで詳細なコヒーレントな病理像を合成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:48:36 GMT)
FACE: Few-shot Adapter with Cross-view Fusion for Cross-subject EEG Emotion Recognition [57.1] クロスオブジェクト脳波の感情認識は、重要なオブジェクト間変動と複雑に絡み合ったオブジェクト内変動によって困難である。
最近の数発の学習パラダイムは、これらの制限に対処しようと試みているが、しばしば限られたサンプルを用いて主題固有の適応を行う際に破滅的な過度なオーバーフィッティングに遭遇する。
本稿では,脳波の感情認識のためのFACEと呼ばれるクロスビュー融合方式のマイクロショットアダプタについて紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:16:52 GMT)
Graph Structure Refinement with Energy-based Contrastive Learning [57.0] グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:48:21 GMT)
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.4] 高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:47:26 GMT)
4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video [56.0] 3D Gaussian Splatting (3DGS)は、フォトリアリスティック・フリー・ビューポイント・ビデオ(FVV)体験を可能にする大きな可能性を秘めている。
既存の方法は、動的3DGS表現と圧縮を別々に扱うのが一般的である。
本稿では,FVVのRD性能を向上しつつ,ストレージサイズを大幅に削減するレート対応4Dガウス圧縮フレームワークである4DGCを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:05:27 GMT)
Learnable Infinite Taylor Gaussian for Dynamic View Rendering [55.4] 本稿では,ガウスの時間的進化をモデル化するための学習可能なテイラー式に基づく新しいアプローチを提案する。
提案手法は,本領域における最先端性能を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:53:56 GMT)
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.3] ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:16:03 GMT)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.3] ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:17:34 GMT)
Scheme of quantum communications based on Witting polytope [55.2] 論文では,40個の量子カードを用いた実例を用いて,この構成を文脈性に基づく量子鍵分布プロトコルに利用する方法について述べる。
より一般的な場合、代わりに4つの基底状態(量子)を持つ2つの任意の量子系が用いられる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:26:48 GMT)
Large Language Models Empowered Personalized Web Agents [54.9] Webエージェントは、従来のエージェントから、LLM(Large Language Models)ベースのWebエージェントへと進化してきた。
まず, LLMを活用したパーソナライズされたWebエージェントのタスクを定式化し, パーソナライズされたデータとユーザ指示を統合する。
我々はパーソナライズされたユーザメモリ拡張アライメント(PUMA)フレームワークを提案し、パーソナライズされたWebエージェントタスクにLLMを適用する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:51:54 GMT)
ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.8] 現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:11:22 GMT)
Prediction and Reference Quality Adaptation for Learned Video Compression [54.6] 時間予測はビデオ圧縮において最も重要な技術の一つである。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを適応的に決定する。
本稿では,信頼性に基づく予測品質適応(PQA)モジュールと基準品質適応(RQA)モジュールを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:57:47 GMT)
Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.5] 我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:16:20 GMT)
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.5] マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:39:57 GMT)
Can Text-to-Video Generation help Video-Language Alignment? [53.0] 最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。
この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。
本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。
複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:02:22 GMT)
Kalib: Easy Hand-Eye Calibration with Reference Point Tracking [52.4] カリブ (Kalib) は、視覚基礎モデルの一般化性を利用して課題を克服する手眼自動校正法である。
校正中は、ロボットの後ろの空間内のカメラ座標3D座標に運動基準点を追跡する。
Kalibのユーザフレンドリな設計と最小限のセットアップ要件により、非構造化環境での継続的操作のソリューションとなり得る。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:22:53 GMT)
Global Convergence of Continual Learning on Non-IID Data [52.0] 回帰モデルの連続学習のための総合的・包括的理論的解析を行う。
一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:06:07 GMT)
MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.6] 本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:32:17 GMT)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.4] 大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:11 GMT)
Guiding Principles for Using Mixed Methods Research in Software Engineering [51.2] 混合手法の研究はソフトウェア工学でよく用いられるが、社会科学や人間科学以外の研究者は、これらの設計を使用する際に経験を欠いていることが多い。
本稿では,混合手法の研究を設計するための指針とアドバイスを提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:53:15 GMT)
Knowledge Graph Enhanced Generative Multi-modal Models for Class-Incremental Learning [51.1] 学習過程を通じて進化する知識グラフを構築する知識グラフ強化多モードモデル(KG-GMM)を導入する。
テスト中,生成されたテキスト内の関係を解析し,特定のカテゴリを特定する知識グラフ拡張推論手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:20:43 GMT)
Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.9] マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:53:35 GMT)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.8] モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:03 GMT)
Your ViT is Secretly an Image Segmentation Model [50.7] Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。
タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。
画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:56:02 GMT)
Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? [50.6] 本稿では、制御プロトコルを変換する独自の戦略で、AIシステムがいかにうまく生成し、動作できるかを検討する。
AIシステムは、各コンテキストにおける最適なプランを確実に生成し、適切に調整された確率で行動し、通信せずに他のインスタンスと計画を調整する必要がある。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:10:06 GMT)
Emulating Full Participation: An Effective and Fair Client Selection Strategy for Federated Learning [50.1] 連合学習では、クライアントの選択はモデルの性能と公平性の両方に大きな影響を及ぼす重要な問題である。
2つの指標間の固有の対立に対処し、互いに強化する2つの原則を提案する。
提案手法は,データ分布に基づいてクライアントを選択することにより,この多様性を適応的に向上させ,モデル性能と公平性の両方を改善する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:54:06 GMT)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.8] 本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:30:41 GMT)
Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.8] ガウス過程状態空間モデル(GPSSM)は動的システムのモデリングのための強力なフレームワークとして登場した。
本稿では,これらの制約に対処するため,効率的に変換されたガウス過程状態空間モデル(ETGPSSM)を提案する。
提案手法は,単一共有ガウス過程(GP)と正規化フローとベイズニューラルネットワークを組み合わせることで,複雑な高次元状態遷移の効率的なモデリングを可能にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:19:45 GMT)
Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8] 科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。
本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。
以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:12:39 GMT)
iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8] iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:18:49 GMT)
Aether: Geometric-Aware Unified World Modeling [49.3] Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:51 GMT)
Thermal Radiation Force and Torque on Moving Nanostructures with Anisotropic Optical Response [49.2] 異方性光応答で動くナノ構造は横方向の力とトルクを経験し,その軌道を実質的に変化させることを示す。
これらの現象は、電磁場成分が平行に偏光し、軌道に垂直な付加的な結合から生じる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:55:55 GMT)
Entanglement cones and horizons in analogue cosmological production of Dirac fermions [49.2] 自己相互作用型Dirac fermionに対するfermion condensatesの出現について検討した。
本研究では, このアナログcQFTにおける光円錐状の絡み合いの伝播構造を通して, 時空拡大による時間-逆対称性の崩壊と擬スカラー凝縮によるパリティの複合的な分解を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:20:16 GMT)
Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.1] 本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:02:03 GMT)
NeSS-ST: Detecting Good and Stable Keypoints with a Neural Stability Score and the Shi-Tomasi Detector [48.8] 我々は,シトマイ検出器によって提供される基本的かつ局所化されたキーポイントに基づいて,ニューラルネットワークを学習し,安定性スコアを介して優れた特徴点を選択する。
We evaluate NeSS-ST on HPatches, ScanNet, MegaDepth and IMC-PT showed-of-the-art performance and good generalization on downstream task。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:04:21 GMT)
Good Keypoints for the Two-View Geometry Estimation Problem [48.8] 本稿では,2次元幾何推定問題の文脈における特徴点(キーポイント)のスコアリングに関する新しい理論モデルを提案する。
このモデルは、ホモグラフィー推定問題を解くための良いキーポイントが持つべき2つの特性を決定づける。
本研究では,境界NeSS-STキーポイント検出器を導入したホモグラフィー推定の利点を生かしたキーポイント検出手法を,開発したモデルを用いて設計する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:15:36 GMT)
Stochastic Poisson Surface Reconstruction with One Solve using Geometric Gaussian Processes [48.7] 表面再構成は、配向点雲から表面を再構成するための広く用いられるアルゴリズムである。
近年の研究では、ガウス過程モデルによる再構成面への不確実性の導入が提案されている。
その結果、我々のアプローチはよりクリーンで、より原理的で、より柔軟な表面再構築パイプラインを提供することを示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:47:51 GMT)
Model Predictive Task Sampling for Efficient and Robust Adaptation [46.9] 本稿では,タスク空間と適応リスクランドスケープを橋渡しするフレームワークとして,モデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:49:29 GMT)
Accenture-NVS1: A Novel View Synthesis Dataset [46.8] ACC-NVS1は、空中および地上画像に特化したノベルビュー合成の研究のために設計されたデータセットである。
このコレクションには、空中カメラと地上カメラの両方から撮影された6つの多様な現実世界のシーンが含まれており、合計148,000枚の画像が収められている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:24:08 GMT)
Improving Compositional Attribute Binding in Text-to-Image Generative Models via Enhanced Text Embeddings [46.7] テキストから画像への生成モデルにおける合成属性の結合障害について検討する。
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、これらのモデルが高忠実な構成シーンを生成することができない主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,構成上の大幅な改善が達成できることである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:33:14 GMT)
Dig2DIG: Dig into Diffusion Information Gains for Image Fusion [46.5] 本稿では拡散情報ゲイン(DIG)を導入し,各モードの情報貢献度を異なる段階で定量化する。
本手法は,融合品質と推論効率の両方の観点から,既存の拡散に基づくアプローチよりも優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:43:11 GMT)
LLaVAction: evaluating and training multi-modal large language models for action recognition [46.5] 我々は,行動認識を行うためのMLLMの評価と改善に重点を置いている。
EPIC-KITCHENS-100は,エゴセントリックな行動データセットとして最大かつ最も困難である。
難解な答えを邪魔者としてサンプリングすると、MLLMは正しい行動を認識するのに苦労する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:24:17 GMT)
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild [46.3] ロングチェーン・オブ・シント(CoT)推論は、ルールベースの報酬を持つ単純な強化学習フレームワークを通じて自然に現れる。
LLama3-8B,Mistral-7B/24B,DeepSeek-Math-7B,Qwen2.5-math-7B,およびQwen2.5モデル0.5Bから32Bを含む10種類のベースモデルを対象としたゼロRLトレーニングについて検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:06:10 GMT)
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.8] CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:47:51 GMT)
Reasoning to Learn from Latent Thoughts [45.6] そこで本研究では,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上できることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:41:23 GMT)
AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration [45.5] 本稿では,異なる通信ラウンド間の冗長なエージェントと通信を識別するエージェントDropoutを提案する。
AgentDropoutは、プロンプトトークンの消費が21.6%、完了トークンの消費が18.4%、タスクのパフォーマンス改善が1.14である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:04:55 GMT)
Morphological Symmetries in Robotics [45.3] 形態的対称性は ロボットの形態の固有の特性です
これらの対称性は、ロボットの状態空間とセンサーの測定にまで拡張される。
データ駆動型手法では, 機械学習モデルのサンプル効率と一般化を, モルフォロジー対称性により向上させることができることを示す。
解析手法の文脈では、ロボットの力学を低次元独立力学の重ね合わせに分解するために抽象調和解析を用いる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:59:34 GMT)
Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.3] マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:50:39 GMT)
Adapting Video Diffusion Models for Time-Lapse Microscopy [45.2] 本稿では,HeLa細胞の細胞分裂の時間分解顕微鏡ビデオを生成するために,ビデオ拡散モデルのドメイン適応を提案する。
3つの条件付け手法を探索し、顕微鏡特異的なシーケンス上で予め訓練されたビデオ拡散モデルを微調整する。
以上の結果から, 生物可塑性合成顕微鏡データを生成するための生成ビデオモデルのドメイン特異的微調整の可能性が示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:41:21 GMT)
NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting [45.2] スパースビュー画像からの新規なビュー合成を促進する3DGSベースのアプローチであるNexusGSを提案する。
本手法では3DGSを高密度点雲で初期化する新しい点雲密度化戦略を導入する。
実験によると、NexusGSは深度精度とレンダリング品質を著しく向上し、最先端の手法をかなり上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:40:17 GMT)
Latent Space Class Dispersion: Effective Test Data Quality Assessment for DNNs [45.1] Latent Space Class Dispersion (LSCD)は、ディープニューラルネットワーク(DNN)のテストデータセットの品質を定量化する新しいメトリクスである。
実験により,LSCDは画像分類タスクに関連する3つの一般的なベンチマークの試験データセットの欠陥を明らかにし,定量化することを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:45:50 GMT)
Towards entropic uncertainty relations for non-regular Hilbert spaces [45.0] エントロピック不確実性関係 (EUR) はヒルベルト空間とその双対に固有の不等式から生じる。
特異ヒルベルト空間の文脈におけるこれらの EUR の解析は未解決である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:41:50 GMT)
Minimum Volume Conformal Sets for Multivariate Regression [45.0] 等角予測は、有限サンプルの妥当性を持つ予測集合を構築するための原則化された枠組みを提供する。
本稿では,最小整合被覆集合を直接学習する新しい損失関数に基づく最適化駆動フレームワークを提案する。
提案手法は, 任意のノルム球によって定義された予測集合を最適化し, 単ノルムおよび多ノルムの定式化を含む。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:54:22 GMT)
Color Conditional Generation with Sliced Wasserstein Guidance [45.0] SW-Guidance(SW-Guidance)は、参照画像の色分布に条件付けされた画像生成のためのトレーニング不要のアプローチである。
本手法は,カラーコンディショナリ生成の最先端技術よりも,基準色との類似性に優れる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:06:03 GMT)
GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.7] GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:45:56 GMT)
Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.6] 大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:24:40 GMT)
Mani-GS: Gaussian Splatting Manipulation with Triangular Mesh [44.6] 本稿では,3DGSを直接自己適応で操作する三角形メッシュを提案する。
提案手法は,高忠実度レンダリングを維持しつつ,大きな変形,局所的な操作,軟体シミュレーションを処理可能である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:32:40 GMT)
Training and Evaluating with Human Label Variation: An Empirical Study [44.5] HLV(Human label variation)は、ラベル付きインスタンスが単一根拠真理を持つという標準的な仮定に挑戦する。
ファジィ集合理論を利用したHLVの新しい評価指標を提案する。
分離されたアノテーションやソフトラベルのトレーニングは、メトリクス間で最高のパフォーマンスを発揮します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:06:14 GMT)
Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.5] モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。
このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。
後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:01:28 GMT)
HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.1] HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:07:59 GMT)
DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.9] DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:58:09 GMT)
CADDreamer: CAD Object Generation from Single-view Images [43.6] 既存の3D生成モデルは、しばしば過度に密度が高く非構造的なメッシュを生成する。
本稿では,CADオブジェクトの境界表現(B-rep)を単一画像から生成するための新しいアプローチであるCADDreamerを紹介する。
その結果,本手法は単視点画像から高品質CADオブジェクトを効果的に回収することを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:14:18 GMT)
Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.7] 強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。
モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:35:16 GMT)
CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation [42.5] 制御可能で合成可能なビデオ生成のための教師なしのアプローチを導入する。
私たちのモデルは、注釈のないビデオのデータセットをスクラッチからトレーニングしています。
空間と時間の所望の場所にオブジェクトを配置することで、可愛らしい斬新なシーンを作成し、オブジェクトをアニメーション化することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:21:55 GMT)
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [42.0] 視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:27:19 GMT)
DiTEC-WDN: A Large-Scale Dataset of Hydraulic Scenarios across Multiple Water Distribution Networks [41.9] このデータセットは、短期(24時間)または長期(1年)でシミュレートされた36,000のユニークなシナリオで構成されている。
DiTEC-WDNは、グラフレベル、ノードレベル、リンクレベルの回帰、時系列予測など、さまざまな機械学習タスクをサポートすることができる。
この貢献は、公的なライセンスの下でリリースされ、クリティカルウォーターセクターにおけるオープンな科学研究を奨励し、センシティブなデータを露出するリスクを排除し、研究比較とシナリオ分析のための大規模な配水ネットワークベンチマークの必要性を満たす。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:40:40 GMT)
Color Transfer with Modulated Flows [41.9] 修正フローは、補正フローに基づく画像間の色移動のための新しいアプローチである。
提案手法は最適輸送に基づいており,RGB色空間内の可逆変換として色伝達を実行する。
提案手法は、4K画像の処理が可能で、コンテンツとスタイルの類似性の観点から最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:39:54 GMT)
GAEA: A Geolocation Aware Conversational Model [41.6] 本稿では,ユーザの要求に応じて,画像の位置に関する情報を提供する対話モデルGAEAを提案する。
GAEA-1.6Mは、OpenStreetMap(OSM)属性と地理的コンテキストヒントを活用することで構築された800Kイメージと約1.6Mの質問応答ペアを備えた包括的なデータセットである。
我々は、最先端のオープンソースとプロプライエタリなLMMを11種類検討し、GAEAが最高のオープンソースモデルであるLLaVA-OneVisionを25.69%、プロプライエタリモデルであるGPT-4oを8.28%上回っていることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:29:42 GMT)
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.4] 拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:58:24 GMT)
Revisiting Automatic Data Curation for Vision Foundation Models in Digital Pathology [41.3] 視覚基盤モデル(FM)は、全スライディング画像から抽出された高度に異質なタイルの組織学的特徴を表現することを学ぶ。
タイルレベルでの教師なし自動データキュレーションの可能性について検討し,3億5000万個のタイルを考慮に入れた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:23:48 GMT)
SpeechVerse: A Large-scale Generalizable Audio Language Model [40.8] SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:06:53 GMT)
Learning Causal Transition Matrix for Instance-dependent Label Noise [40.6] ノイズラベルのデータ生成過程を因果的観点から検討する。
観測不能な潜在変数は、インスタンス自身、ラベルアノテーションのプロシージャ、あるいはその両方に影響を与える可能性がある。
我々は、この因果関係を明示的にモデル化する新しいトレーニングフレームワークを設計した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:53:09 GMT)
CRCL: Causal Representation Consistency Learning for Anomaly Detection in Surveillance Videos [40.6] Video Anomaly Detection (VAD) は、ビデオ理解コミュニティの基本的な課題であり続けている。
従来の手法では、通常の時空間パターン固有の正規性を教師なしの方法でモデル化するために、簡単に収集された通常のイベントのみを使用する。
本研究では,教師なしビデオ正規化学習における因果変数の暗黙的なマイニングを行うために,因果一貫性表現学習(CRCL)を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:50:19 GMT)
On Using Certified Training towards Empirical Robustness [40.6] 認定されたトレーニングアルゴリズムは、単一ステップ攻撃における壊滅的な過度なオーバーフィッティングを防ぐことができる。
また,ネットワークオーバー近似のための概念的にシンプルな正規化器を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:14:00 GMT)
LGPS: A Lightweight GAN-Based Approach for Polyp Segmentation in Colonoscopy Images [40.2] ポリプセグメンテーションのための軽量なGANベースのフレームワークであるLGPSを提案する。
1) 改良された残留ブロックで強化されたMobileNetV2バックボーンと、効率的な特徴抽出のためのSqueeze-and-Excitationモジュールである。
最大かつ挑戦的なPolypGenテストデータセットでは、LGPSはDiceの0.7299とIoUの0.7867を達成し、全てのSOTAワークを上回り、堅牢な一般化を実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:41:53 GMT)
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [38.9] 拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:02:15 GMT)
LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7] LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。
2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:11:42 GMT)
Federated Incremental Named Entity Recognition [38.5] フェデレートされた名前付きエンティティ認識(FNER)は、プライベートデータを共有することなく、分散化されたローカルクライアントのモデル更新を集約することで、各ローカルクライアント内のモデルトレーニングを促進する。
既存のFNERメソッドは、固定されたエンティティタイプとローカルクライアントを事前に仮定する。
本稿では,これらの課題を克服するローカル・グローバル・フォーッティング・ディフェンス(LGFD)モデルを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:07:09 GMT)
Context-Enhanced Memory-Refined Transformer for Online Action Detection [38.3] オンラインアクション検出(OAD)は、過去の観測からストリーミングビデオのアクションを検出する。
最先端のOADアプローチは、過去の観測と、期待される未来との相互作用をモデル化する。
学習効率を阻害する既存のOAD手法におけるトレーニング推論の相違を同定する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:38:41 GMT)
Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens [38.3] 我々は、Vision Transformerのグリッドベースのトークン化をスーパーピクセルトークン化に置き換えることを提案する。
既存のフレームワークとの強い互換性を示すアプローチは、様々な下流タスクにおけるViTの精度と堅牢性を高める。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:51:37 GMT)
3D Shape Tokenization via Latent Flow Matching [38.3] 我々は3次元曲面を3次元の確率密度関数、すなわちp(x,y,z)をフローマッチングでモデル化する潜在3次元表現を導入する。
私たちの表現は、特に機械学習モデルによる消費のために設計されており、ポイントクラウドと最小限のデータ前処理を必要としながら、構築による連続性とコンパクト性を提供します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:10:37 GMT)
SEAlign: Alignment Training for Software Engineering Agent [38.1] コード生成モデルと現実世界のソフトウェア開発タスクのギャップを埋めるため、SEAlignを提案する。
我々は,HumanEvalFix,SWE-Bench-Lite,SWE-Bench-Verifiedの3つの標準エージェントベンチマークでSEAlignを評価した。
我々はSEAlignを使ってエージェントベースのソフトウェア開発プラットフォームを開発し、いくつかの小さなアプリケーションの開発をうまく自動化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:59:21 GMT)
ETAP: Event-based Tracking of Any Point [38.0] 任意の点の追跡(TAP)は、最近、局所的なテンプレートで個々の有意点に着目し、グローバルな画像コンテキストで任意の点を追跡するように、動き推定パラダイムをシフトした。
この研究は、最初のイベントカメラベースのTAP方式でこの問題に対処する。
これは、高時間分解能と高ダイナミックレンジのイベントカメラを活用して、堅牢な高速トラッキングと、非同期かつスパースなイベント計測を扱うTAPメソッドのグローバルコンテキストを利用する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:08:39 GMT)
Training-free Diffusion Acceleration with Bottleneck Sampling [37.9] Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:02 GMT)
SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking [37.9] 視覚的トラッキングタスク(TMoE)用に調整された知識の混合に基づく新しいトラッカーを提案する。
TMoEの利点は、画像対から時間文脈への関係モデリングを拡張し、モデルパラメータの最小化による追跡精度の向上である。
我々は7つのデータセットで実験を行い、実験の結果、我々の手法が現在の最先端トラッカーを著しく上回っていることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:43:02 GMT)
Robust-IR @ SIGIR 2025: The First Workshop on Robust Information Retrieval [37.8] 本ワークショップの目的は、各研究の最新の成果を体系化し、このニッチ領域における包括的コミュニケーションを促進することである。
ミニカンファレンスの一方的な議論を避けるため、このワークショップでは、ラウンドテーブルやパネルディスカッションセッションなど、非常にインタラクティブな形式を採用しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:10:22 GMT)
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [37.0] ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。
効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。
提案手法は,オンラインでオープンな3Dインスタンスのセグメンテーションにおける最先端の性能と効率の向上を両立させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:50:32 GMT)
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation [36.9] 画像の理解と生成を単一のモデルで統一する強力なフレームワークであるJanusFlowを紹介します。
JanusFlowは自動回帰言語モデルと修正フローを統合する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:33:32 GMT)
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.6] Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
我々は,WebArena-Liteベンチマークにおいて,Webナビゲーションを代表的な長期計画環境として利用し,最先端の54%の成功率を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:48:07 GMT)
LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene [36.6] FA-NeRFはビュー合成のための新しいフレームワークであり、単一のNeRFモデル内で全体のシーン構造と高精細度を同時にキャプチャする。
我々のフレームワークは、周波数コンバージェンスとクエリのための周波数グリッドと、異なる周波数コンテンツ間で特徴のバランスをとるための周波数認識機能の再重み付け戦略を組み込んでいる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:07:46 GMT)
Visual Persona: Foundation Model for Full-Body Human Customization [36.1] テキストから画像へのフルボディのカスタマイズのためのモデルであるVisual Personaを紹介する。
提案手法は,身体構造やシーンのバリエーションに関する文章記述と整合して,全身の外観を詳細に把握する。
Visual Personaは既存のアプローチを一貫して上回り、高品質でカスタマイズされた画像を生成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:28:09 GMT)
Leveraging Allophony in Self-Supervised Speech Models for Atypical Pronunciation Assessment [36.1] アロフォニー(Allophony)は、その音素環境に基づく音素の音素的実現のバリエーションを指す。
最近の音素ベースのアプローチは、様々な実現を単一音素として扱うことでこれを単純化することが多い。
複数のサブクラスタで音素分布をモデル化する新しい手法であるMixGoPを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:38:32 GMT)
Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition [36.0] 視覚変換器を用いた代表PEFT法について検討する。
VTAB-1Kでは,異なるPEFT法で類似の精度が得られた。
類似した精度にもかかわらず、PEFT法は異なる誤りを犯し、高い信頼度予測を行う。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:14:44 GMT)
Dynamically Learning to Integrate in Recurrent Neural Networks [35.9] 長期にわたる記憶の学習は、リカレントニューラルネットワーク(RNN)にとって難しい
ホワイトノイズを統合するために訓練された線形RNNの学習力学の数学的理論を構築した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:03:23 GMT)
Cost-Sensitive Learning for Long-Tailed Temporal Action Segmentation [35.7] プロシージャビデオにおける時間的アクションセグメンテーションは、フレームをアクションクラスに密にラベル付けすることを目的としている。
本研究では,2段階の学習バイアスを,階層的不均衡から派生し,遷移の変動から生じる遷移レベルのバイアスを同定する。
緩和策として、両バイアスを緩和する制約付き最適化問題を導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:37:12 GMT)
MuMA: 3D PBR Texturing via Multi-Channel Multi-View Generation and Agentic Post-Processing [35.6] 3D生成の現在の手法は、大きなチャネルをベースとした物理レンダリングでは依然として不足している。
マルチチャンネルマルチビュー生成とエージェント後処理による3次元手法 MuMA を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:06:33 GMT)
ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages [35.2] 大規模言語モデル(LLM)は、様々なテキスト生成タスクに対する自然言語の制約を理解するのに苦労する。
通常のコードタスクに対して優れたパフォーマンスを発揮するコード言語は、同じ言語がきめ細かい制約を表現している場合、うまく機能しない。
ConCodeEvalは、5つの表現にまたがるコード制約のための2つの新しいタスクを持つ、第一級のベンチマークです。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:44:59 GMT)
Forensics Adapter: Adapting CLIP for Generalizable Face Forgery Detection [35.1] ここでは,CLIPを有効かつ一般化可能な顔偽造検知器に変換するためのアダプタネットワークについて述べる。
提案手法は,5つの標準データセットの平均で約7%向上し,大幅な性能向上を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:41:55 GMT)
Panorama Generation From NFoV Image Done Right [34.9] 歪み特異的CLIP(Distort-CLIP)を提案し,パノラマ歪みを評価した。
この現象に対処するために,パノラマ生成を歪み誘導とコンテンツ補完に分離する分離拡散モデルフレームワークである textbfPanoDecouple を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:04:33 GMT)
Frequency Dynamic Convolution for Dense Image Prediction [34.9] 本稿では、FDConv( Frequency Dynamic Convolution)を導入し、Fourierドメインの固定パラメータ予算を学習することで制限を緩和する。
FDConvは、この予算を不整合フーリエ指数を持つ周波数ベースのグループに分割し、パラメータコストを増大させることなく周波数幅の重みを構築することができる。
我々は、ResNet-50に適用した場合、FDConvは、+3.6Mパラメータを適度に増加させ、優れた性能を達成することを実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:32:06 GMT)
Zero-Shot Styled Text Image Generation, but Make It Autoregressive [34.1] スタイル付き手書きテキスト生成(HTG)は近年,コンピュータビジョンや文書分析コミュニティから注目を集めている。
Emuruと呼ばれるテキスト画像生成のための新しいフレームワークを提案する。
提案手法は,自動回帰変換器と組み合わせた強力なテキスト画像表現モデル(変分オートエンコーダ)を利用する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:23:51 GMT)
Fractal Calibration for long-tailed object detection [33.2] 実世界のデータセットは不均衡な分布を辿り、希少なカテゴリーのオブジェクト検出において大きな課題を生じさせる。
近年の研究では、データセットのクラスを利用する再重み付けと再サンプリング手法の開発によってこの問題に対処している。
FRActal CALibration (FRACAL) を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:25:29 GMT)
DiffGED: Computing Graph Edit Distance via Diffusion-based Graph Matching [32.9] グラフ編集距離(GED)問題は、あるグラフを別のグラフに変換するのに必要な編集操作の最小数を計算することを目的としている。
本稿では、生成拡散モデルを利用してGEDを解き、対応する編集経路を復元する新しい手法DiffGEDを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:03:16 GMT)
Thermalizer: Stable autoregressive neural emulation of spatiotemporal chaos [32.5] 本研究では, 自己回帰エミュレータのロールアウトを安定化するために, 無変量尺度のスコアを暗黙的に推定できることを示す。
本研究では,このモデルを用いて自動回帰ロールアウトの安定化を図ることができることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:38:33 GMT)
Behavior Modeling Space Reconstruction for E-Commerce Search [32.5] 検索システムは、ユーザの嗜好とクエリ項目の関連性を静的に組み合わせ、しばしば固定された論理的「and」関係を通じて、ユーザの振舞いをモデル化する。
本稿では、因果グラフとVenn図の両方を用いて、統一レンズを通して既存のアプローチを再検討する。
これらの課題を克服するために,2つのコンポーネントによる探索精度を高め,行動モデリング空間を再構築する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:10:59 GMT)
Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages [32.1] 我々は、低リソースプログラミング言語のためのそのようなデータを作成するための新しいアプローチを提案する。
Excel 式を例に,共用ライブラリ関数の完全合成,教科書品質のデモを生成する。
通常のRAGアプローチよりも微調整の利点が示され、不慣れなターゲットドメインのため、控えめな改善しか得られない。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:09:03 GMT)
Large Language Models for Blockchain Security: A Systematic Literature Review [32.0] 大規模言語モデル(LLM)は、サイバーセキュリティの様々な領域にまたがる強力なツールとして登場した。
本研究の目的は,既存の研究を包括的に分析し,LLMがブロックチェーンシステムのセキュリティ向上にどのように貢献するかを明らかにすることである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:14:43 GMT)
Diff-Palm: Realistic Palmprint Generation with Polynomial Creases and Intra-Class Variation Controllable Diffusion Models [31.8] パーム認識は、大規模な公開データセットの欠如によって著しく制限されている。
これまでの手法では、手のひらをシミュレートするためにブエジエ曲線を採用しており、これが条件付きGANの入力として機能し、現実的な手のひらプリントを生成する。
本稿では, パーム・クリーゼ生成機構を実際の分布とより密に整合させる新しいパーム・クレーゼ表現を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:30:58 GMT)
MaSS13K: A Matting-level Semantic Segmentation Benchmark [31.2] マットレベルのセマンティックセマンティックセマンティックセマンティクスデータセットであるMaSS13Kを構築し、4K解像度で13,348個の実世界の画像からなる。
マスクの複雑さは、既存のセマンティックセグメンテーションデータセットの20~50倍である。
本稿では,高解像度なセマンティックセマンティックセグメンテーション,すなわち,効率的な画素デコーダを用いたMaSSFormerを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:59:40 GMT)
Training-Free Personalization via Retrieval and Reasoning on Fingerprints [31.0] 視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
R2Pは、様々な下流タスクにおける最先端のアプローチを一貫して上回る。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:36:24 GMT)
Zero-Shot Head Swapping in Real-World Scenarios [30.5] 本稿では,頭部と上半身を含む画像に対して頑健な新しい頭部交換法HIDを提案する。
マスクの自動生成には,頭部と身体のシームレスなブレンドを可能にするIOMaskを導入する。
本研究では,提案手法がヘッドスワップにおける最先端性能を実現することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:03:55 GMT)
Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics [30.4] 本稿では,統合されたオブジェクトインタラクションフレームワークを提案する。
静的シーンと動的オブジェクトとのインタラクションを言語コマンドを使って統一的に制御する。
我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:18:04 GMT)
ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation [30.2] ReconDreamerは大規模な演習を成功させた。
生成されたデータと実世界のセンサーの観測の間には、大きなギャップが残っている。
ReconDreamer++は、全体的なレンダリング品質を大幅に改善する拡張フレームワークである。
特に、NTA-IoUの6.1%増加、FIDの23.0%改善、地上測度NTL-IoUの4.5%向上など、大幅な改善が達成されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:40:20 GMT)
HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation [30.0] HunyuanPortraitは、ポートレートアニメーションの拡散に基づく条件制御方法である。
運転映像の表情と頭部ポーズにより、基準画像中のキャラクタをアニメーション化することができる。
我々のフレームワークは既存の手法より優れ、時間的一貫性と制御性に優れていた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:35:41 GMT)
U-REPA: Aligning Diffusion U-Nets to ViTs [30.0] 提案するU-REPAは,U-Net隠蔽状態とViT特徴をブリッジする表現アライメントパラダイムである。
実験により、結果のU-REPAは優れた生成品質を実現し、収束速度を大幅に加速できることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:46:00 GMT)
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning [30.0] ステップレベル自動算数補正のための拡張学習(RL)に基づく大規模言語モデル(LLM)の強化手法,StepAMCを提案する。
特に,テキスト分類タスクにおける段階的な自動算数補正をRL問題に変換し,LLMの推論能力を向上させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:28:34 GMT)
Enhancing Dataset Distillation via Non-Critical Region Refinement [29.9] 本研究では,NRR-DD法(Non-Critical Region Refinement dataset Distillation)を提案する。
また,距離ベース代表者(DBR)の知識伝達についても紹介し,訓練におけるソフトラベルの必要性を排除した。
実験結果から,NRR-DDは,小規模・大規模両方のデータセットで最先端の性能を実現することがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:20:22 GMT)
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation [29.4] ウィキオートジェン(WikiAutoGen)は、ウィキペディア形式の自動記事生成システムである。
従来のアプローチとは異なり、WikiAutoGenはテキストとともに関連する画像を検索して統合し、生成されたコンテンツの深さと視覚的魅力の両方を豊かにする。
事実の精度と包括性をさらに向上するため,多視点自己回帰機構を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:51:55 GMT)
Visual Position Prompt for MLLM based Visual Grounding [29.3] 本稿では,視覚位置プロンプトを備えたMLLMであるVPP-LLaVAを導入し,その接地性能を向上させる。
グローバルVPPは、入力画像に学習可能な軸状の埋め込みをオーバーレイし、構造化空間的手がかりを提供する。
また、0.6Mサンプルを用いたVPP-SFTデータセットを導入し、高品質なビジュアルグラウンドデータをコンパクトなフォーマットに統合し、効率的なモデルトレーニングを行う。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:34:55 GMT)
NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction [29.3] 我々は,ニューラルラジアンス場を符号付き距離場を学習するための先行として採用したNeRFPriorを提案する。
われわれのNeRFは、幾何学的手がかりと色覚的手がかりの両方を提供することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:48:59 GMT)
Generative Omnimatte: Learning to Decompose Video into Layers [29.1] 本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:08:09 GMT)
DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers [28.9] 本稿では,2次元視覚,3次元理解,3次元知覚に優れた単一エンコーダであるDUNEを紹介する。
我々のモデルは、より大きな教師に匹敵するパフォーマンスを達成し、時には、それぞれのタスクにおいて彼らよりも優れています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:41:25 GMT)
BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions [28.5] 既存のビデオフレーム(VFI)モデルは、一様でない動きのビデオで訓練する際、時間と位置のあいまいさに悩まされる傾向がある。
非一様運動を効果的に記述するための双方向運動場(Bidirectional Motion Field, BiM)を提案する。
BiM-VFIモデルは、最近の最先端のVFI手法を26%、LPIPSとSTLPIPSの45%で大幅に上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:37:44 GMT)
Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models [28.2] トランスフォーマーベースの大規模事前学習モデルでは、顕著な一般化能力を示している。
パラメータ効率のよい細調整(PEFT)法は、これらのモデルを最小限の計算とメモリ予算で下流タスクでカスタマイズするために提案されている。
本稿では,より表現力のあるフィルタ部分空間を構成する結合係数の小さな集合を学習し,事前学習された大きな変圧器をチューニングすることを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:42:40 GMT)
MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction [28.2] 単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。
モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:58:06 GMT)
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.2] 大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。
本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。
本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:58:20 GMT)
Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control [28.0] スケーラブルなT2I生成を実現するためのユニークな手法を提案する。
鍵となるアイデアは、ターゲットのT2Iパイプラインを、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で蒸留することである。
推論では、学習空間を利用して生成内容を変調する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:06:39 GMT)
Global-Local Tree Search for Language Guided 3D Scene Generation [28.0] VLM(Large Vision-Language Models)は、様々な分野において大きな成功を収めている。
本稿では,この課題を空間的・レイアウト的共通感覚制約を考慮した計画問題とみなす。
グローバルに、各オブジェクトを逐次配置し、各配置プロセス中に複数の配置を探索する。
我々は、絵文字グリッドでVLMをプロンプトし、VLMは、絵文字の名前で位置を記述することによって、オブジェクトに対して合理的な位置を生成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:21:13 GMT)
Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image Denoising [27.5] 我々は、NIR支援画像復調のためのクロスフィールド周波数相関爆発ネットワーク(FCENet)を開発した。
まず,NIR-RGB画像対の詳細な統計周波数解析に基づいて,周波数相関について検討する。
次に、周波数動的選択機構(FDSM)と周波数強制融合機構(FEFM)からなる周波数学習フレームワークを確立する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:58:13 GMT)
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation [27.5] 本研究では,未確認デバイス上での2次元視線予測に事前学習した3次元視線推定ネットワークを適用することを目的とした,クロスタスクな2次元視線推定手法を提案する。
このタスクは、3Dと2Dの視線、未知の画面ポーズ、限られたトレーニングデータとのドメインギャップのため、非常に難しい。
我々は,MPIIGaze,EVE,GazeCaptureの各データセットに対して,それぞれノートパソコン,デスクトップコンピュータ,モバイルデバイス上で収集した手法を評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:53:43 GMT)
Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings [27.5] そこで本稿では,画像パッチの位置順の学習に焦点をあてた2次元ランダム化位置符号化フレームワークを提案する。
具体的には、RPE-2Dは水平軸と垂直軸の両方に沿って広い範囲の位置を独立に選択し、全ての位置符号化が推論フェーズ中にトレーニングされることを保証する。
ImageNetデータセットでは,提案した RPE-2D は最先端の分解能一般化性能を達成し,既存の競合手法よりも256倍256$で,384倍384ドル,512倍512ドルで評価された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:30:38 GMT)
Hiding Images in Diffusion Models by Editing Learned Score Functions [27.1] 現在の手法は、高い抽出精度、モデル忠実度、隠れ効率の限界を示す。
本稿では,学習したスコア関数を編集することによって,画像の逆拡散過程に特定のタイミングで埋め込む,シンプルで効果的なアプローチについて述べる。
また、勾配に基づくパラメータ選択と低ランク適応を組み合わせたパラメータ効率の微調整手法を導入し、モデル忠実度と隠蔽効率を向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:04:25 GMT)
Large Language Models powered Network Attack Detection: Architecture, Opportunities and Case Study [27.0] 大規模言語モデル(LLM)は膨大なテキストコーパスで訓練される。
これにより、ネットワークの脅威検出のための新しい扉が開かれた。
本稿では,LLMを用いたDDoS検出の設計を事例として紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:40:46 GMT)
ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation [27.0] 大規模言語モデル(LLM)は、コード生成において有望な能力を示しているが、モデリングへの応用はいまだに未検討である。
我々の評価では、生成されたコードがうまくシミュレートできない場合が多いため、現在のLLMのかなりの制限が明らかになっている。
本稿では、教師付き微調整、グラフ検索拡張生成、フィードバック最適化を統合して、Modelicaコード生成の精度と信頼性を向上させるためのワークフローを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:04:49 GMT)
S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression [26.9] TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。
本研究は, 複雑かつ時間を要する空間的操作よりも効率的なチャネル集約が, 競争力のあるコンカレントモデルの実現の鍵であることを明らかにする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:19:16 GMT)
Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.8] 現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:33:20 GMT)
Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising [26.7] 既存の自己監督型イメージデノイングパラダイムは、情報ロッキーな操作に大きく依存している。
本稿では,情報ロジイ障壁を壊すために,自己監督型単一画像認識パラダイムであるPositive2Negativeを提案する。
本パラダイムは,自己監督型単一画像における最先端性能を実現し,大幅な速度向上を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:27:13 GMT)
Humanoid Policy ~ Human Policy [26.0] 人間行動変換器(HAT)と呼ばれる人-人-人-行動政策を訓練する。
HATのステートアクション空間は、人間とヒューマノイドロボットの両方に統一されており、ロボットのアクションに微分的に再ターゲットすることができる。
人間のデータは,HATの一般化と堅牢性の両方を改善し,データ収集効率を著しく向上させることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:31:56 GMT)
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling [25.9] Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM)は、語彙ミスマッチによるギャップを2つの重要な方法で埋める新しいアプローチである。
異なる語彙を持つ7B教師モデルを用いた1B学生モデルを用いた言語モデルの有効性を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:19:31 GMT)
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.9] 本稿では,プレノーム法とポストノーム法の両方の利点を統合した,単純かつ効果的なハイブリッド正規化戦略を提案する。
テストの結果、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:27:13 GMT)
StableGS: A Floater-Free Framework for 3D Gaussian Splatting [25.9] クロスビュー奥行きの整合性制約によってフローターを除去するフレームワークであるStableGSを紹介する。
また、半透明な形状と物体の材料特性を分離する双対オパシティGSモデルも導入する。
提案手法は3DGSトレーニングの不安定性に基本的に対処し,既存の最先端の手法をオープンソースデータセットで上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:02:51 GMT)
Enhancing LLM-based Code Translation in Repository Context via Triple Knowledge-Augmented [25.8] 大規模言語モデル(LLM)は、リポジトリレベルのコンテキストなしで関数レベルのコード変換でうまく振る舞っている。
我々は,3つの知識を付加したK-Transを提案し,レポジトリコンテキスト下でのLLMの翻訳品質を向上させる。
実験の結果、K-Transは、CodeBLEUのpass@1と0.138の相対的な改善により、以前の研究に適合したベースラインを19.4%/40.2%で大幅に上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:10:34 GMT)
Free Hunch: Denoiser Covariance Estimation for Diffusion Models Without Extra Costs [25.8] ノイズのある観測値が与えられたクリーンデータの共分散は、拡散モデルのための多くのトレーニング不要誘導生成法において重要な量である。
学習データから自由な共分散情報と生成軌道の曲率を用いて,これらの問題を解決する新しい枠組みを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:10:23 GMT)
ConFIG: Towards Conflict-free Training of Physics Informed Neural Networks [25.3] PINNに対してコンフリクトフリーな更新を提供するConFIG法を提案する。
すべての損失項に対して一貫した最適化率を維持し、競合レベルに基づいて勾配の等級を動的に調整する。
本稿では,ConFIG法の収束性を示す数学的証明について述べる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:26:29 GMT)
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling [24.8] Mining Gymは、マイニングプロセス最適化におけるRLアルゴリズムのテストと比較をトレーニングするために設計されたオープンソースのベンチマーク環境である。
このフレームワークは、機器故障の待ち行列やマイニングプロセスの直感性といった、重要なマイニングに関する不確実性をモデル化する。
Mining Gymは、ダッシュボードに組み込まれた包括的なデータロギングシステムと、マイニングサイトのリアルタイムビジュアル表現を備えている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:48:20 GMT)
FIND: An Unsupervised Implicit 3D Model of Articulated Human Feet [24.7] 我々は高忠実度3次元人足モデルを提案する。
モデルは、形状、テクスチャ、調音されたポーズという観点で、非絡み合った潜在コードによってパラメータ化される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:49:29 GMT)
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models [24.3] 拡散モデルを用いた高分解能(1K)画像生成のための新しいフレームワークLSRNAを提案する。
LSRNAは、LSR(Latent Space Super-Resolution)とRNA(Rerea-wise Noise Addition)を組み合わせて、高周波の詳細を強化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:50:15 GMT)
Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.2] 大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。
最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。
我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:17:30 GMT)
High Probability Complexity Bounds of Trust-Region Stochastic Sequential Quadratic Programming with Heavy-Tailed Noise [24.2] 本稿では,TR-SSQP(Trust-Region Sequential Quadratic Programming)法を提案する。
一階および二階の$epsilon$-stationary点を特定するための高確率複雑性境界を確立する。
より弱い雑音条件下では,本手法は高確率な1次繰り返し複雑性境界を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:23:13 GMT)
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting [24.0] MoDecGSは、複雑な動きを伴う挑戦的なシナリオにおいて、新しいビューを再構築するためのメモリ効率のよいフレームワークである。
MoDecGSは、現実のダイナミックビデオから動的3Dガウスのための最先端の手法よりも平均70%のモデルサイズ削減を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:47:13 GMT)
DiN: Diffusion Model for Robust Medical VQA with Semantic Noisy Labels [23.7] Med-VQAにおけるノイズラベルに対する最初のベンチマークは、意味論的に設計されたノイズタイプによる人間の誤ラベルをシミュレートすることで確立する。
Med-VQAにおけるノイズラベルの処理に拡散モデルを利用するDiNフレームワークを導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:42:48 GMT)
CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving [23.7] 軌道計画は自動運転に不可欠であり、複雑な環境で安全かつ効率的な航法を確保する。
本稿では、強化学習を用いてマルチモーダル軌道を生成するtextbfConsistent textbfauto-textbfregressive textbfPlannerについて紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:03:59 GMT)
Efficient Training of Multi-task Neural Solver for Combinatorial Optimization [23.7] 本稿では,統合型マルチタスクニューラルソルバを実現するための,汎用的で効率的なトレーニングパラダイムを提案する。
本手法は, 制約付きトレーニング予算の範囲内であっても, 全体的な性能を著しく向上させる。
また,本手法は単一タスク学習やマルチタスク学習と比較して最高の結果を得た。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:32:37 GMT)
CrossSDF: 3D Reconstruction of Thin Structures From Cross-Sections [23.4] CrossSDFは平面輪郭から発生する2次元符号付き距離から3次元符号付き距離場を抽出する新しい手法である。
提案手法は, 従来の手法よりも大幅に改善され, 薄型構造を効果的に再構築し, 正確な3次元モデルを生成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:03:32 GMT)
Geometry Matters: Benchmarking Scientific ML Approaches for Flow Prediction around Complex Geometries [23.1] 複雑な幾何学体を取り巻く流体力学の迅速かつ正確なシミュレーションは、様々な工学的・科学的応用において重要である。
科学機械学習(SciML)はかなりの可能性を示してきたが、この分野のほとんどの研究は単純な幾何学に限られている。
本稿では,複雑な地形上での流動予測のための多種多様なSciMLモデルのベンチマークにより,このギャップを解消する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:26:27 GMT)
Breaking the Encoder Barrier for Seamless Video-Language Understanding [22.7] 視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。
公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:06:39 GMT)
Efficient Long Sequential Low-rank Adaptive Attention for Click-through rate Prediction [22.4] 本稿では,新しい注意機構を提案する。
計算効率を確保しながら、既存の手法の欠点を克服する。
また、ユニークに設計された損失関数を統合して、注意の非線形性を保っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:16:41 GMT)
OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad [22.4] 我々は、FMが疎結合で高レベルな概念を抽出し、生の視覚的入力から複雑な関係構造を抽出できる新しいフレームワーク、Object-Concept-Relation Triad (OCRT)を提案する。
具体的には、オブジェクト中心の表現をセマンティックな概念空間に投影し、モデルが容易に解釈し、その重要性を推定し、無関係な要素をフィルタリングする。
具体的には、複数の下流タスクにおけるSAMとCLIPの一般化性と堅牢性を大幅に向上させることができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:04:17 GMT)
KOALA: A Kalman Optimization Algorithm with Loss Adaptivity [21.9] ニューラルネットワークをトレーニングする際、サンプルのサブセットのランダム選択により損失関数が(勾配の)時間とともに変化することを示す。
我々は、この損失を、何らかの参照に関してうるさい観察と見なすことを提案する。
この損失の解釈は、ノイズ測定から未知のパラメータを推定するために設計されているので、カルマンフィルタを勾配として採用することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:12:36 GMT)
Adaptive UAV-Assisted Hierarchical Federated Learning: Optimizing Energy, Latency, and Resilience for Dynamic Smart IoT [21.9] HFLのキーとなる応用は、リモート監視や戦場での運用を含む、スマートなモノのインターネットシステムである。
このようなシナリオでは、UAVはモバイルアグリゲータとして機能し、地上IoTデバイスへの動的接続を提供する。
本稿では,エネルギー制約付き動的展開型UAVで実現可能なHFLアーキテクチャについて検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:05:25 GMT)
A Vision Centric Remote Sensing Benchmark [21.5] リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。
リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。
CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。
我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:21:44 GMT)
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models [21.5] Diffusion-4Kはテキストと画像の拡散モデルを用いた直接超高解像度画像合成のための新しいフレームワークである。
超高解像度画像生成のための総合ベンチマークであるAesthetic-4Kを構築した。
様々な潜伏拡散モデルに適用可能な4K画像を用いた直接訓練のためのウェーブレットに基づく微調整手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:25:07 GMT)
3DSwapping: Texture Swapping For 3D Object From Single Reference Image [21.5] 3Dテクスチャスワップは、3Dオブジェクトテクスチャのカスタマイズを可能にする。
専用の方法はないが、適応された2D編集とテキスト駆動の3D編集アプローチは、この目的を果たすことができる。
3DSワッピング,3次元テクスチャスワッピング方式を導入し,プログレッシブ・ジェネレーション,ビュー・コンシスタンス・グラデーション・ガイダンス,プロンプト・チューニング・グラデーション・ガイダンスを統合した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:31:52 GMT)
SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens [20.7] 一つのRGB画像からリアルタイムなマルチパーソン3次元メッシュ推定を行うための一段階フレームワークを提案する。
画像中の個々の相対スケールに基づいて動的に調整されるスケール適応トークンを導入する。
実験の結果,提案手法は計算コストを大幅に削減しつつ,高分解能処理の精度を保っていることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:07:22 GMT)
Efficient Joint Prediction of Multiple Future Tokens [20.6] 本稿では,JTP(Joint Multi-token Prediction)を導入する。
従来のマルチトークン予測手法とは異なり、JTPは将来トークンの教師強制を戦略的に採用している。
本稿では,JTP手法が短時間の信念状態表現を実現するのに対して,マルチトークン予測の一般的な代替手段では実現できないことを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:52:42 GMT)
Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions [20.6] 視覚的指示とLMMのベース言語モデル(LLM)の間にはかなりの書法差があることを論じる。
そこで本研究では,軟式視覚命令の書き方とベースLLM自体の書き方とを整合させるために,ベースLLMを活用することを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:59:06 GMT)
Explaining Domain Shifts in Language: Concept erasing for Interpretable Image Classification [20.5] 概念に基づくモデルは、ブラックボックス表現を人間の理解可能な概念にマッピングすることができる。
しかし、ドメイン固有の概念は最終的な予測に影響を与えることが多い。
本稿では,新しい言語誘導概念提示フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:35:28 GMT)
Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models [20.3] Retrieval-Augmented Language Model (RALM)は、大規模言語モデル(LLM)とベクトルデータベースを組み合わせて、文脈固有の知識を検索する。
LLMとベクトルサーチを融合した異種加速器Chameleonを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:01:48 GMT)
Zero-shot Action Localization via the Confidence of Large Vision-Language Models [19.7] 我々はZEAL(Zero-shot Action Localization Method)を導入する。
具体的には、大規模言語モデル(LLM)の組み込みアクション知識を活用して、アクションを詳細に記述する。
我々は、訓練をせずに、挑戦的なベンチマークでゼロショットアクションローカライゼーションの顕著な結果を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:00:49 GMT)
MoST: Efficient Monarch Sparse Tuning for 3D Representation Learning [19.7] 3次元表現学習に適した,最初のパラメータ化に基づくパラメータ効率細調整法であるMonarch Sparse Tuning (MoST)を紹介した。
MoSTは追加の推論オーバーヘッドを導入せず、多くの3D表現学習バックボーンと互換性がある。
我々は3次元点雲の局所的幾何学的特徴を捉えることができる3次元点雲の新たな構造行列群であるポイント・モナーク(Point Monarch)を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:05:25 GMT)
Bootstrapped Model Predictive Control [19.7] 本稿では,ブートストラップ方式でポリシー学習を行う新しいアルゴリズムであるBootstrapped Model Predictive Control(BMPC)を紹介する。
BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。
本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:46:36 GMT)
Modern Hopfield Networks with Continuous-Time Memories [19.6] 本稿では,大規模な離散ホップフィールドメモリを小さな連続記憶に圧縮する手法を提案する。
作業記憶における連続的資源割り当ての心理学的理論に着想を得て,大規模な離散ホップフィールド記憶を小さな連続記憶に圧縮する手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:57:09 GMT)
Applications of Spiking Neural Networks in Visual Place Recognition [19.6] スパイキングニューラルネットワーク(SNN)は、その潜在的なエネルギー効率と低レイテンシについて、ますます認識されている。
本稿では,視覚的位置認識(VPR)におけるSNNの3つの進歩について述べる。
まず,各SNNが重複しない地理的に異なる場所の集合を表すモジュールSNNを提案する。
次に、複数のネットワークが同じ場所を表すモジュールSNNのアンサンブルを示す。
最後に,SNNに基づくVPRにおけるシーケンスマッチングの役割について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:51:37 GMT)
Regression Testing with a Natural Language Oracle [19.5] 本稿では,回帰を自動検出するTestoraを提案する。
Testoraは、コード変更による振る舞いの違いに対して、コード変更の意図を比較する。
19のレグレッションバグと11のPRがあり、別の意図があるにも関わらず、同時にバグを修正します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:55:35 GMT)
Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding [19.5] 宇宙レベルの視覚理解タスクのための幾何学的視覚言語モデルであるGalaxy-Walkerを紹介する。
Galaxy-Walkerは、銀河特性の推定と形態分類のタスクで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:35:56 GMT)
Feature Qualification by Deep Nets: A Constructive Approach [19.5] 線形ディープネット演算子を構築し,スムーズかつラジアルな関数を近似する上で,最適近似性能を有する。
構築されたディープネット演算子は、対象関数の滑らかさや放射性などの複数の特徴を許容できるという理論的証拠を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:48:17 GMT)
LTL-Constrained Policy Optimization with Cycle Experience Replay [19.4] 本稿では,制約の基盤となる構造を利用して満足度を誘導する新たな報酬形成手法であるCycle Replay(CyclER)を紹介する。
我々は、Cycleerの最適化が、最適に近い確率で制約を満たすポリシーを達成するという理論的保証を提供する。
実験結果から,既存のスカラー報酬と組み合わせたCycleerの最適化は,既存の報酬形成方法に優れており,実効性満足度の高い政策を見出すことが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:37:28 GMT)
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.4] SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。
SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。
我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:52:21 GMT)
RoCA: Robust Contrastive One-class Time Series Anomaly Detection with Contaminated Data [19.3] 正規性仮定に基づく手法は3つの制限に直面している。
彼らの基本的な前提は、トレーニングデータが汚染されていない(異常がない)ことである。
本稿では,上記の3つの課題に最初に対処した,新しい堅牢なアプローチであるRoCAを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:52:28 GMT)
OCCO: LVM-guided Infrared and Visible Image Fusion Framework based on Object-aware and Contextual COntrastive Learning [19.2] オブジェクト認識とコンテキスト協調学習を備えた新しいLVM誘導型融合フレームワークを提案する。
また、モダリティ差による融合画像における情報衝突を解決するために、新しい特徴相互作用融合ネットワークを設計する。
提案手法の有効性を検証し、下流視覚課題においても例外的な性能を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:57:23 GMT)
Constraint-Aware Feature Learning for Parametric Point Cloud [19.2] パラメトリック点雲はCAD形状から採取され、工業生産においてますます一般的になりつつある。
CAD固有の深層学習手法の多くは幾何学的特徴にのみ焦点をあてるが、CADの形状に固有の制約を見渡すことは困難である。
3つのベクトル化コンポーネントを持つディープラーニングフレンドリな制約表現を導入し、制約対応機能学習ネットワーク(CstNet)を設計する。
CstNetはCADドメインにおけるパラメトリックポイントクラウド分析に適した,最初の制約対応ディープラーニング手法である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:22:01 GMT)
Video-T1: Test-Time Scaling for Video Generation [19.1] 大規模言語モデル(LLM)の研究者たちは、スケーリングをテスト時間に拡大した。
ビデオ生成モデルが非自明な量の推論時間計算を許せば、挑戦的なテキストプロンプトによって生成品質をどの程度向上できるかという問題に答えることを目指している。
テキスト条件付きビデオ生成ベンチマークの実験では、テスト時間計算の増加がビデオの品質を大幅に向上させることを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:04 GMT)
From Fragment to One Piece: A Survey on AI-Driven Graphic Design [19.0] この調査では、視覚要素の知覚と生成、美的および意味的理解、レイアウト分析、生成など、さまざまなサブタスクをカバーしている。
著しい進歩にもかかわらず、人間の意図を理解し、解釈可能性を確保し、多層構成の制御を維持することが課題である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:05:09 GMT)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.9] 本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:18:56 GMT)
LLGS: Unsupervised Gaussian Splatting for Image Enhancement and Reconstruction in Pure Dark Environment [18.9] 本稿では3次元ガウス散乱に基づく教師なし多視点立体視システムを提案する。
本システムは、シーンを再構成しながら、低照度環境における画像の高精細化を目的としている。
実世界のデータセットを用いて行った実験により、我々のシステムは低照度化と3次元ガウススプラッティングの両方において最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:05:05 GMT)
Task-driven Image Fusion with Learnable Fusion Loss [18.8] Task-driven Image Fusion (TDFusion)は、タスクロスによってガイドされる学習可能なフュージョンロスを組み込んだフュージョンフレームワークである。
実験では、4つの異なるデータセットで実施された核融合実験を通じてTDFusionの性能を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:21:17 GMT)
Active Learning for Neural PDE Solvers [18.7] アクティブな学習は、モデルをより小さなトレーニングセットで同じ精度でサロゲートするのに役立ちます。
モジュール型かつアクティブな学習ベンチマークであるAL4PDEを紹介する。
ALは,ランダムサンプリングと比較して平均誤差を最大71%削減することを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:31:44 GMT)
A semantic communication-based workload-adjustable transceiver for wireless AI-generated content (AIGC) delivery [18.3] 動的無線ネットワークにおけるAIGC配信のためのリソース対応wOrkload-adjUstable TransceivEr(ROUTE)を提案する。
具体的には、通信リソースのボトルネックを緩和するために、SemComを使用して生成されたコンテンツのセマンティック情報を優先順位付けする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:49:06 GMT)
MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments [18.1] 奥行き画像のみから多室屋内環境のプライバシ保存型デジタル双対を生成するための,拡散に基づく新しいアプローチを提案する。
我々のアプローチの中心は、新しいMOSAIC(Multi-view Overlapped Scene Alignment with Implicit Consistency)モデルである。
実験により、MOSAICは複雑なマルチルーム環境の再構築において、画像の忠実度測定における最先端のベースラインよりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:05:07 GMT)
Towards Training-free Anomaly Detection with Vision and Language Foundation Models [18.0] 異常検出は、産業品質検査のような現実世界の応用に有用である。
論理的および構造的異常検出のトレーニングを必要としない新しいマルチモーダルフレームワークであるLogSADを紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:07:59 GMT)
Theory of Mixture-of-Experts for Mobile Edge Computing [18.0] モバイルエッジコンピューティングネットワークにおいて,Mixix-of-experts(MoE)理論を導入する。
我々のアプローチは、従来のMECアプローチとは異なり、時間とともに全体的な一般化誤差を一貫して減少させます。
また、ディープニューラルネットワーク(DNN)の実際のデータセットに関する広範な実験を行い、その結果を検証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:55:56 GMT)
Believing is Seeing: Unobserved Object Detection using Generative Models [17.9] 本研究では,2次元・2.5次元・3次元観測対象検出の新しい課題を紹介する。
我々は,この課題に対処するために,最先端の事前学習型生成モデルを適用した。
直接観察されていない物体の存在を推測するために使用できることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:41:43 GMT)
GS-Marker: Generalizable and Robust Watermarking for 3D Gaussian Splatting [17.9] 本稿では,3次元ガウススティング(3DGS)のためのシングルパス透かし手法を提案する。
GS-Markerという名前のフレームワークでは、メッセージの埋め込みに3Dエンコーダ、様々な歪みに対するレジリエンスを高めるために歪み層、レンダリングから透かしを抽出する2Dデコーダが組み込まれています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:29:14 GMT)
Multiple Object Tracking as ID Prediction [17.9] マルチオブジェクト追跡(MOT)は、ビデオ理解における長年の課題である。
我々は、複数のオブジェクト追跡をコンテキスト内ID予測タスクとして扱う新しい視点を導入する。
そこで本研究では,MOTIPと呼ばれるシンプルで効果的な手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:23:00 GMT)
Experimental Evidence of Vortex $γ$ Photons in All-Optical Inverse Compton Scattering [17.9] 軌道角モータ(OAM)を持つVortex$gamma$光子は、様々な用途に大きな可能性を秘めている。
ここでは、ラゲール・ガウスレーザーと衝突する相対論的電子の全光逆コンプトン散乱により、サブMeV渦$ガンマ$光子を生成することに成功した。
提案手法は,Vortex $gamma$光子を検出するための最初の実験的な証拠を提供し,広視野におけるOAM誘起量子現象の新たな視点を開く。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:16:39 GMT)
On the Perception Bottleneck of VLMs for Chart Understanding [17.7] チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:33:58 GMT)
Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.6] 視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。
Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。
15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:51:39 GMT)
Forming Auxiliary High-confident Instance-level Loss to Promote Learning from Label Proportions [17.4] ラベルパーセンテージ(LLP)からの学習は、各インスタンスのアノテートラベルではなく、インスタンスのバッグとバッグ内のクラスの割合を使用して分類器をトレーニングすることを目的としている。
本稿では,L2P-AHILを用いたLLP手法を提案する。
我々は,L2P-AHILが既存のベースライン法を超越し,バッグサイズが大きくなるにつれて性能向上がさらに重要であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:41:58 GMT)
SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction [17.3] 同期ビデオ予測(SyncVP)のためのマルチモーダルフレームワークを提案する。
SyncVPは、モダリティを訓練したモデルの上に構築され、効率的な時間的プレアテンションモジュールを導入している。
特にSyncVPは、1つのモダリティしか存在しないシナリオであっても、最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:53:44 GMT)
Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization [17.2] 我々は,高い精度と高い性能を同時に達成するアクセラレーションソリューションであるOakenを提案する。
Oakenはオンラインとオフラインのハイブリッドアプローチを採用し、オフラインのしきい値を設定して、オンラインの量子化スケールを決定する。
我々の実験によると、256のバッチサイズでは、OakenはA100 GPUよりも最大1.58倍のスループット向上を実現し、最小精度の損失は平均0.54%である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:56:50 GMT)
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [17.1] LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。
SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。
LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:53:06 GMT)
Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving [16.9] 本稿では,自動運転におけるシーン理解のための象徴的基礎モデル(FM)の学習手法であるFM4SUを提案する。
知識グラフ(KG)を活用して、道路トポロジや交通規則、交通参加者間の複雑な相互作用といったドメイン知識とともに、感覚観察をキャプチャする。
その結果、細調整されたモデルでは全てのタスクにおいて精度が大幅に向上することが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:38:25 GMT)
MoCha-Stereo: Motif Channel Attention Network for Stereo Matching [16.9] MoCha-Stereoは学習ベースのステレオマッチングネットワークである。
MoCha-Stereoは、KITTI-2015とKITTI-2012のリフレクティブ・リーダーボードで1位にランクインした。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:49:19 GMT)
FFN Fusion: Rethinking Sequential Computation in Large Language Models [16.9] 本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:20:35 GMT)
Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.9] 本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。
本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:11:58 GMT)
Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models [16.8] アモーダルセグメンテーションは、オブジェクトの可視領域と隠蔽領域の両方に対してセグメンテーションマスクを予測することを目的としている。
既存のほとんどの研究は、これを教師付き学習問題として定式化し、手動で注釈付アモーダルマスクや合成訓練データを必要とする。
この研究は、アモーダルセグメンテーションのための事前訓練された拡散ベースの塗装モデルを再利用するチューニング不要なアプローチを導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:56 GMT)
Universal Architectures for the Learning of Polyhedral Norms and Convex Regularization Functionals [16.8] 本稿では,限られたデータから画像の再構成を導くための凸正規化器の学習課題について述べる。
再構成を振幅同変とすることで、許容関数のクラスを狭めます。
このような関数は多面体ノルムの助けを借りて任意の精度で近似できることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:32:10 GMT)
SCVI: Bridging Social and Cyber Dimensions for Comprehensive Vulnerability Assessment [16.7] Social Cyber Vulnerability Index (SCVI)は、個人レベルの要因と攻撃レベルの特徴を統合する新しいフレームワークである。
SCVI は調査データ (iPoll) とテキストデータ (Reddit 詐欺レポート) を用いて検証される
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:10:34 GMT)
Uncertainty-guided Perturbation for Image Super-Resolution Diffusion Model [16.7] 拡散に基づく画像超解像法は、GANベースの手法よりも大きな優位性を示している。
私たちは、長いマルコフ連鎖の上に構築し、現実世界のシナリオで優れたパフォーマンスを実現できるようにします。
本研究では、地域固有の騒音レベル制御を誘導する不確かさ誘導雑音重み付けについて、その手法を不確かさ誘導雑音重み付けと呼ぶ。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:07:16 GMT)
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.7] 大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:49:56 GMT)
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.5] 本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:56:04 GMT)
LiDAR Remote Sensing Meets Weak Supervision: Concepts, Methods, and Perspectives [16.2] 本総説では,LiDARの解釈と逆転の研究を行うために,弱教師付き学習視点を採用する。
我々は,最新の進歩を要約し,LiDARリモートセンシングにおける弱教師付き技術の開発と適用について概観し,今後の研究方向性について論じる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:51:38 GMT)
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.1] 本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:16:20 GMT)
Deterministic Certification of Graph Neural Networks against Graph Poisoning Attacks with Arbitrary Perturbations [16.1] グラフニューラルネットワーク(GNN)は,グラフデータから学習するデファクト手法になりつつある。
GNNは訓練時の中毒攻撃に弱い。
PGNNCert は GNN の毒殺攻撃に対する最初の認証された防御法である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:59:44 GMT)
Counterfactual Token Generation in Large Language Models [15.9] 最先端の大規模言語モデルはステートレスであり、内部メモリや状態は保持しない。
我々は,Gumbel-Max構造因果モデルに基づくトークン生成の因果モデルを開発する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:05:17 GMT)
Leveraging Land Cover Priors for Isoprene Emission Super-Resolution [15.9] 本研究は,BVOCエミッションマップの精錬に費用効率の高いデータ駆動型アプローチを提供することにより,大気化学と気候モデリングに寄与する。
提案手法は,衛星による排出データの利用性を高め,大気質予測,気候影響評価,環境研究への応用を支援する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:23:46 GMT)
Browsing Lost Unformed Recollections: A Benchmark for Tip-of-the-Tongue Search and Reasoning [15.6] Browsing Lost Unformed Recollectionsは、一般的なAIアシスタントのベンチマークである。
350の質問を公開のリーダーボードを通じてリリースし、回答を250に維持し、残りの質問をプライベートテストセットとして保持します。
人間はこれらの質問を容易に受け取り(平均98%)、最高のパフォーマンスのシステムは56%だ。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:46:25 GMT)
Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching [15.2] 数式認識は、複雑な構造と数学的表現の様々な表記が原因で重要な課題を呈している。
本稿では, 画像レベルを基準値ではなく, 画像レベルを設計することで, 評価客観性を確保するために, キャラクタマッチング検出(CDM)メトリクスを提案する。
具体的には、モデル予測式と基底構造式の両方を画像整形式に描画し、視覚的特徴抽出と局所化技術を用いて文字レベルの正確なマッチングを行う。
このような空間認識と文字マッチングは、テキストベースの文字マッチングのみに依存する以前のBLEUやEdit Distanceのメトリクスと比較して、より正確で公平な評価を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:31:05 GMT)
Advancing Cross-Organ Domain Generalization with Test-Time Style Transfer and Diversity Enhancement [15.2] 本稿では、双方向マッピング機構を用いて、ソースとターゲットドメインの特徴を統一された特徴空間に投影するテスト時スタイル転送(T3s)を提案する。
スタイル表現空間をさらに拡大するために、クロスドメインスタイルの多様化モジュールを導入する。
提案手法は,3つの未知のデータセットに対して有効性を示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:22:27 GMT)
Automatic Teaching Platform on Vision Language Retrieval Augmented Generation [15.1] 本稿では,視覚言語検索のための拡張生成システム VL-RAG を提案する。
調整された回答と画像のデータベースを活用することで、VL-RAGシステムは特定の質問に沿った情報を動的に取得できる。
学生は視覚的・言語的に概念を探求し、より深い理解を促進し、常に人間の監視の必要性を減らすことができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:13:15 GMT)
3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian Splatting [15.1] 本研究では,EWAスプラッティングスプラッティングをアンセント変換に置き換えた3次元ガウスアンアンセント変換(3DGUT)を提案する。
これにより、自明化の効率を維持しつつ、ローリングシャッターなどの歪み時間依存効果を支持できる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:39:23 GMT)
PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models [15.1] PRISMは、異種データ分散における安定した性能を保証する生成モデルに適したフレームワークである。
ポーラス化特性により、PRISMは余分なプルーニングや量子化なしに軽量なモデルが得られる。
PRISMは、非IIDおよびプライバシ保護FL環境下で画像の生成に成功した最初の企業である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:34:35 GMT)
Surgical Action Planning with Large Language Models [15.0] 本稿では,現在開発中の知的アプリケーションにおける術中予測計画の欠如に対処するため,視覚入力から将来の行動計画を生成する手術行動計画タスクを紹介する。
LLMs-SAPは、将来の行動を予測するフレームワークであり、外科的目標の自然言語プロンプトを解釈することで、テキスト応答を生成する。
実験の結果,Qwen2.5-72B-SFTは19.3%の精度でQwen2.5-72Bを上回った。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:02:04 GMT)
MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs [14.8] MERGE$3$は、単一のGPU上での進化的マージを可能にする効率的なフレームワークである。
MerGE$3$は、評価のためのデータセットの削減、アイテム応答理論(IRT)を用いたモデル能力の推定、IRTベースのパフォーマンス推定器による最適なマージの進化によってこれを達成します。
提案手法は,言語間の知識を変換し,計算オーバーヘッドを大幅に低減した,最先端の多言語・多言語統合を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:04:09 GMT)
Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models [14.7] LVLM(Large Vision-Language Model)は、画像を記述する際にも幻覚に悩まされ、存在しないオブジェクトを含む回答を生成する。
これらのモデルは、疑問に答えるために重要な情報を含まない無関係な画像トークンに過度に焦点をあてる傾向があることが報告されている。
本稿では,2つの異なる指示の下での注意重みの変化を比較することで,無関係なトークンを識別する命令適応型視覚注意(IAVA)アプローチを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:09:06 GMT)
Attacking and Improving the Tor Directory Protocol [14.7] Torネットワークは、ボランティアされた中間リレーのオーバーレイネットワークを介してトラフィックをルーティングすることで、クライアントのプライバシを高める。
このプロトコルは、一部の当局が妥協しても安全であると期待されている。
現在のコンセンサスプロトコルには欠陥があり、悪意のあるリレーを備えた有効なコンセンサスドキュメントを作成することができるのは1つの権限のみである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:04:41 GMT)
Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution [14.6] クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。
本稿では、入力データに変分法を適用することの重要性を示し、フリーガイダンスを実現する方法を提案する。
また,本手法の一般化可能性を示すため,CrossFlowは多種多様なクロスモーダル/イントラモーダルマッピングタスクの最先端性に匹敵する性能を示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:06:07 GMT)
Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation [14.6] 我々は,Mambaアーキテクチャにおいて,パラメータ効率細調整(PEFT)のための2つの重要な洞察駆動戦略を導入する。
我々は,Mambaアーキテクチャに特化した新しいPEFT手法を提案する:プロジェクタターゲット対角中心線形変換(ProDiaL)
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:59:31 GMT)
BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance [14.3] 自律走行作業において,バードアイビュー(BEV)の表現が重要な役割を担っている。
センサーの限界と学習プロセスから生じる固有のノイズは、ほとんど役に立たないままです。
BEVDiffuser は,BEV特徴マップを地中構造オブジェクトレイアウトをガイダンスとして効果的に識別する,新しい拡散モデルである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:27:08 GMT)
DreamText: High Fidelity Scene Text Synthesis [14.3] シーンテキスト合成では、指定されたテキストを任意の画像にレンダリングする。
現在の方法は、通常、このタスクをエンドツーエンドで定式化するが、トレーニング中に効果的なキャラクタレベルのガイダンスが欠如している。
本稿では,高忠実度シーンテキスト合成のためのDreamTextを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:13:16 GMT)
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks [14.3] QualityFlowはプログラム合成のための動的エージェントワークフローである。
Quality Checkerは、正しいプログラム、不完全な合成テストを受け入れ、ワークフローの逸脱を防ぐことができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:10:04 GMT)
CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection [14.2] カテゴリクエリに基づくオブジェクト検出フレームワークであるCQ-DINOを提案する。
CQ-DINOは、オブジェクトクエリと学習可能なカテゴリクエリの間の対照的なタスクとして分類を再構成する。
実験により、CQ-DINOは挑戦的なV3Detベンチマークにおいて優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:22:55 GMT)
Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective [14.1] ビデオモデリングによる変更検出とキャプションタスクの再認識を行うフレームワークであるChange3Dを提案する。
両時間画像間で学習可能な知覚フレームを統合することにより、ビデオエンコーダは、認識フレームが直接画像と相互作用し、その違いを知覚することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:48:07 GMT)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.1] 音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:37:25 GMT)
Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis [14.1] 偏光カメラは、色と偏光の両方を捉えるためにダブルバイアーバーストセンサーを使用している。
低い光効率と低い空間分解能を示し、ノイズの増加と偏光測定の妥協をもたらす。
バースト超解像を偏光イメージングに適用することは、調整されたデータセットの欠如と信頼できる地上の真実のノイズ統計が問題となる。
この研究は、分極バースト超解像のベンチマークを確立し、ノイズ伝搬に関する重要な洞察を与え、分極画像再構成を向上する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:17:18 GMT)
Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling [14.0] U2Diff(英語版)は、軌道の完備化を扱うために設計された、テキストを融合した拡散モデルである。
また、後処理にランクニューラルネットワークを導入し、生成されたモード毎にtextbferror の確率推定を可能にする。
本手法は,4つの挑戦的スポーツデータセットの軌跡完了と予測において,最先端のソリューションよりも優れる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:46:58 GMT)
Cross-domain Random Pre-training with Prototypes for Reinforcement Learning [13.9] 教師なしのクロスドメイン強化学習(RL)事前トレーニングは、継続的な視覚的制御に挑戦する大きな可能性を示すが、大きな課題となる。
CRPTproは、新規で効率的で効果的な自己監督型RL事前学習フレームワークである。
CRPTproは、11/12のクロスストリームタスクにおいて、54.5%のウォールタイム事前トレーニング時間で、次の最高のProto-RL(C)を著しく上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:52:21 GMT)
ComicsPAP: understanding comic strips by picking the correct panel [13.8] ComicsPAPは、コミックストリップ理解のために設計された大規模なベンチマークである。
評価の結果,現状のLMMはこれらのタスクにほぼ近い確率で実行可能であることがわかった。
漫画のストリップ理解にLMMを適用し,ComicsPAPの10倍のモデルよりも優れた結果を得た。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:10:32 GMT)
MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering [13.7] 本稿では,広視野言語モデル(LVLM)と共通知識を体系的に統合することにより,視覚質問応答(VQA)を向上させる新しいフレームワークであるMAGIC-VQAを紹介する。
MAGIC-VQAは、外部ソースからの明示的な知識統合、コンテキストの洗練のためのBY-Type Post-Processing、構造化推論のためのグラフニューラルネットワーク(GNN)を用いたインプシット知識拡張という3段階のプロセスを採用している。
我々のフレームワークは,ベンチマークデータセット上での最先端性能を実現し,VQAにおける常識推論を大幅に改善する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:45:26 GMT)
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning [13.6] Instruct-CLIPは、オリジナルの画像と編集された画像間のセマンティックな変化を学習し、既存のデータセットの命令を洗練し、より良く調整する自己教師型手法である。
Instruct-CLIPを使用してInstruct2Pixデータセットを修正し、120K以上の洗練されたサンプルを取得し、新しいInstruct-CLIPベースの損失関数でガイドされたモデルを微調整します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:25:44 GMT)
Near-Optimal Sample Complexity for Iterated CVaR Reinforcement Learning with a Generative Model [13.6] リスクに敏感な強化学習(RL)のサンプル複雑性問題を生成モデルを用いて検討する。
この問題のサンプル複雑性に基づいて,上界と下界にほぼ一致する境界を定めている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:36:25 GMT)
Umlaut information [13.6] 球充填境界は臨界値以上のレートのノイズチャネル符号化における誤差指数を定量化する。
一方は非シグナリング支援符号のゼロレートエラー指数として、もう一方はリストデコーディングのゼロレートエラー指数として、他方はリストリミットの大きいリストリミットにおけるリストデコーディングのゼロレートエラー指数としてである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:21:07 GMT)
TriG-NER: Triplet-Grid Framework for Discontinuous Named Entity Recognition [13.5] TriG-NERは、不連続なエンティティ抽出のための堅牢なトークンレベル表現を学習するための新しいトリプルトグリッドフレームワークである。
我々のフレームワークはトークンレベルで三重項損失を適用し、類似性は同じエンティティ内に存在するワードペアによって定義される。
3つのベンチマークDNERデータセット上でTriG-NERを評価し、既存のグリッドアーキテクチャよりも大幅に改善したことを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:45:37 GMT)
Quantum Geometry and Many-Body Landau-Zener Tunneling in Time-dependent Quantum Systems with Instantaneous Quantum Integrability [13.4] 積分可能系から切り離された時間依存型量子多体系における量子幾何学的効果について検討する。
その結果,時間依存多体系における量子幾何学的シグネチャが明らかになった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:09:04 GMT)
A Simple yet Effective Layout Token in Large Language Models for Document Understanding [13.4] LayTokenLLMはレイアウト情報をテキストセグメントごとに単一のトークンとして表現する。
テキストとレイアウトトークンの間に位置IDを共有し、追加の位置IDを不要にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:32:54 GMT)
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.4] 問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:20:01 GMT)
Graph neural networks extrapolate out-of-distribution for shortest paths [13.3] グラフニューラルネットワーク(GNN)は、短いパスインスタンスの小さなセットに対して、スパーシリティ規則化された損失を最小限に抑えるために訓練される。
勾配降下により訓練されたGNNは、この損失を最小限に抑え、実際に外挿することができることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:52:05 GMT)
TARDIS: Mitigate Temporal Misalignment via Representation Steering [13.2] 言語モデルは、時間的ミスアライメント、データの時間的分布の変化によるパフォーマンス劣化にしばしば苦労する。
本稿では,この課題に対処する教師なし表現編集手法であるTARDISを提案する。
実験の結果,TARDISは微調整を必要とせず,下流タスク性能を向上させることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:03:42 GMT)
Fast and Physically-based Neural Explicit Surface for Relightable Human Avatars [13.2] 現在の手法では、ダイナミックジオメトリとリフレクタンスを捉えるために、ニューラル暗黙表現を用いており、ボリュームレンダリングの高密度サンプリングを必要とするため、高いコストがかかる。
本稿では,PhyNES(Neural Explicit Surface)について紹介する。
PhyNESは、人間のモデルをコンパクトな2D空間に整理し、材料歪み効率を高める。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:31:15 GMT)
Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion [13.2] データ分布よりも視覚知覚のモデル化に焦点をあてることで、視覚品質とビットレートのトレードオフをうまく達成できることを示す。
我々は、Wasserstein Distortion (WD)のために、過度に適合した画像であるC3を最適化することでこれを行う。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:55:22 GMT)
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.2] 下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。
我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。
13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:32:35 GMT)
Words as Bridges: Exploring Computational Support for Cross-Disciplinary Translation Work [13.1] 本研究では、ドメイン固有の埋め込みを用いて、概念探索を支援するクロスドメイン検索エンジンのプロトタイプを開発する。
翻訳作業におけるこのアプローチの約束と落とし穴に関する質的な洞察について論じる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:19:29 GMT)
Voxel-based Point Cloud Geometry Compression with Space-to-Channel Context [13.0] 本研究では,高密度点雲と低レベルスパース点雲の両方に対して,段階的にS2C(Space-to-Channel)コンテキストモデルを導入する。
高レベルのスパース点雲に対しては、解像度制限に対処するレベルワイドS2Cコンテキストモデルを提案する。
実験の結果,S2Cコンテキストモデルでは,復元品質の維持や改善を図りながらビットセーブを実現していることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:56:08 GMT)
Streaming Federated Learning with Markovian Data [13.0] フェデレートラーニング(FL)はコミュニケーション効率のよい協調学習の鍵となるフレームワークとして認識されている。
FLがマルコフデータストリームとの協調学習をサポートできるかを検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:49:42 GMT)
Where is this coming from? Making groundedness count in the evaluation of Document VQA models [13.0] 一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:14:46 GMT)
SE-GNN: Seed Expanded-Aware Graph Neural Network with Iterative Optimization for Semi-supervised Entity Alignment [12.9] 知識グラフ(KGs)のスケールが大きくなるにつれて、手動でアノテートしたシードペアのアノテートが困難になる。
半教師付きエンティティアライメントに反復最適化を施したシード拡張対応グラフニューラルネットワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:28:49 GMT)
A Shared Low-Rank Adaptation Approach to Personalized RLHF [12.9] RLHF(Reinforcement Learning from Human Feedback)は、人工知能システムと人間の価値を整合させる重要な手法として登場した。
既存のRLHFフレームワークは、人間の嗜好が比較的均一であり、単一の統一報酬モデルによって捉えられると仮定することが多い。
本稿では、ローランド適応(LoRA)をパーソナライズしたRLHFフレームワークに導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:01:08 GMT)
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.8] 拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:58:49 GMT)
The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.7] 実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:06:46 GMT)
Toward building next-generation Geocoding systems: a systematic review [12.7] ジオコーディングシステムは、空間分析のための科学研究と位置ベースサービスによる日常生活の両方で広く利用されている。
このレビューはまず、これらのシステムが対応しなければならない様々なシナリオにおいて、入力と出力をジオコーディングするための進化する要件について考察する。
次に、そのようなシステムを重要な機能コンポーネントに分解して構築する方法を詳細に分析する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:00:13 GMT)
MaRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers [12.6] 平均回帰(MR)拡散は微分方程式(SDE)の構造を直接修飾する
現在のトレーニングフリーの高速サンプリング器はMR拡散には直接適用されない。
MR拡散のサンプリングNFEを削減するために,MARS (MR Sampler) という新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:18:25 GMT)
CEFW: A Comprehensive Evaluation Framework for Watermark in Large Language Models [12.6] 本稿では,5つの重要次元にわたる透かし手法を包括的に評価する統合フレームワークを提案する。
これには、検出の容易さ、テキスト品質の忠実さ、埋め込みコストの最小化、敵攻撃に対する堅牢性、模倣や偽造を防ぐための非受容性などが含まれる。
本稿では,透かし情報の追加方法のバランスをとることで,堅牢性と非受容性を保証できるBa balanced Watermark (BW)を紹介した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:50:32 GMT)
J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.6] 本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:42:05 GMT)
Interpretable and Fair Mechanisms for Abstaining Classifiers [12.5] 本稿では,不確実性と不公平性に基づいて,両者の予測を拒否するアルゴリズムである,解釈的かつ公正な保証を導入する。
提案手法は,非リジェクトデータの集団間における誤り率と肯定的な決定率の差を低減させる。
この説明可能な側面は、最近のAI規制に照らして特に重要である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:06:43 GMT)
R2-KG: General-Purpose Dual-Agent Framework for Reliable Reasoning on Knowledge Graphs [12.5] R2-KGは、推論を2つの役割に分けるプラグイン・アンド・プレイのフレームワークである。
以上の結果から,R2-KGはKGベースの推論のための柔軟性とコスト効率のよい解であることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:24:19 GMT)
MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.5] MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。
MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。
MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:11:53 GMT)
Learned, uncertainty-driven adaptive acquisition for photon-efficient scanning microscopy [12.4] 走査型顕微鏡システムにおいて,画素単位の不確実性を同時に認識し,予測する手法を提案する。
実験的な共焦点・多光子顕微鏡システムにおいて,不確実性マップが深層学習予測における幻覚を識別できることを実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:48:32 GMT)
Zero-Knowledge Federated Learning: A New Trustworthy and Privacy-Preserving Distributed Learning Paradigm [12.3] フェデレートラーニング(FL)は、分散機械学習において有望なパラダイムとして登場した。
ZKPは、FLプロセス全体で信頼を確立し、システムの完全性を高めることで、潜在的なソリューションを提供する。
まず、ZKPの技術的役割を分類し分析する構造化ZK-FLフレームワークを提案する。
第2に、ZKPを用いてクライアント選択プロセスを洗練させる新しいアルゴリズム、Veri-CS-FLを導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:55:23 GMT)
Understanding Oversmoothing in Diffusion-Based GNNs From the Perspective of Operator Semigroup Theory [12.3] 本稿では拡散型グラフニューラルネット(GNN)における過平滑化問題の解析的研究について述べる。
過平滑化が拡散作用素のエルゴード性に本質的に関連していることを厳密に証明する。
実験結果から,このエルゴード性破壊項はディリクレエネルギーによって測定された過密化を効果的に緩和することが明らかとなった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:50:25 GMT)
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding [12.2] Video-XL-Proは、非常に長いビデオ理解のための効率的な方法である。
Video-XL-Proは、1つのA100 GPUで8Kフレーム以上を処理できる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:21:48 GMT)
No Thing, Nothing: Highlighting Safety-Critical Classes for Robust LiDAR Semantic Segmentation in Adverse Weather [12.2] 典型的な運転シーンでは、"物"カテゴリーは動的であり、衝突のリスクが高いため、安全なナビゲーションと計画に不可欠である。
悪天候は意味レベルの特徴の劣化と局所的特徴の悪化を招き,「もの」を「足」と誤認する原因となることを観察した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:16:42 GMT)
AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.1] テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:13:33 GMT)
DAGait: Generalized Skeleton-Guided Data Alignment for Gait Recognition [11.9] 本研究では,骨格の事前知識を用いて,対応するシルエット上でアフィン変換を行う骨格誘導型シルエットアライメント戦略を提案する。
提案手法は、最大24.0%の精度で、クロスドメインデータセットを大幅に改善する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:08:21 GMT)
A Universal Model Combining Differential Equations and Neural Networks for Ball Trajectory Prediction [11.9] 既存の方法は特定のボールタイプのために設計されており、一般化に苦慮している。
本稿では,物理方程式と統合されたデータ駆動型ユニバーサル球軌道予測法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:41:47 GMT)
ZECO: ZeroFusion Guided 3D MRI Conditional Generation [11.6] ZECOはZeroFusionでガイドされた3D MRI条件生成フレームワークである。
対応する3Dセグメンテーションマスクを備えた高忠実度MRI画像の抽出、圧縮、生成を行う。
ZECOは、脳MRIデータセットの定量的および質的な評価において、最先端モデルよりも優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:04:52 GMT)
Efficient and Accurate Scene Text Recognition with Cascaded-Transformers [11.6] 本稿では,効率よく正確なシーンテキスト認識システムを提案する。
本稿では,エンコーダモデルの効率向上に焦点をあてる。
実験の結果,STRシステムは最先端のベースラインに匹敵する性能を示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:58:37 GMT)
The Case for "Thick Evaluations" of Cultural Representation in AI [11.5] 生成的AI画像モデルは、非西洋文化を表現することができないことから、ますます評価されている。
これらの評価は、人々が自身の表現を定義する方法を無視して、還元的な表現の理想を通じて行われると論じる。
我々は、AI画像における社会世界の表現を評価するための、よりきめ細やかで、位置的かつ非帰的な測定フレームワークである「厚さ評価」の考え方を紹介した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:01:14 GMT)
Similarity-Dissimilarity Loss for Multi-label Supervised Contrastive Learning [11.5] マルチラベル分類のためのコントラスト学習を用いた類似性-類似性損失を提案する。
提案する損失は、教師付きコントラスト学習パラダイムの下で、すべてのエンコーダの性能を効果的に向上させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:44:57 GMT)
Generative Dataset Distillation using Min-Max Diffusion Model [11.4] 本稿では,生成モデルを用いて画像の合成を行う生成データセット蒸留の問題に対処する。
我々は、一般的な拡散モデルを利用して、トレーニング中のデータセットの多様性と代表性を制御するために、サロゲートデータセットを演算する。
画像サンプル数と拡散ステップによって制御される画像品質との間の重要なトレードオフを観察し、最適な性能を実現するために拡散ステップ削減を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:41:40 GMT)
AnDB: Breaking Boundaries with an AI-Native Database for Universal Semantic Analysis [11.4] AnDBはAIネイティブデータベースで、従来のOワークロードとAI駆動タスクをサポートする。
AnDBでは、AIの専門知識を必要とせずに、直感的なステートメントを使用してセマンティッククエリを実行することができる。
AnDBは将来的なデータ管理インフラストラクチャを保護し、スクラッチから始めることなく、すべての種類のデータの全潜在能力を効果的かつ効率的に活用することを可能にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:22:35 GMT)
PP-FormulaNet: Bridging Accuracy and Efficiency in Advanced Formula Recognition [11.4] 本稿では,最新式認識モデルPP-FormulaNetを提案する。
PP-FormulaNet-Lは、UniMERNetのような著名なモデルの精度を6%上回っている。
大量の高品質な公式データを抽出できるフォーミュラマイニングシステムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:39:51 GMT)
Mist: Efficient Distributed Training of Large Language Models via Memory-Parallelism Co-Optimization [11.2] 本稿では,メモリ,オーバーラップ,不均衡を考慮した自動分散トレーニングシステムであるMistを提案する。
Mistは、最先端手動システムMegatron-LMや最先端自動システムAcesoと比較して平均1.28$times$(最大1.73$times$)の高速化を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:21:08 GMT)
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.2] ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:08:16 GMT)
CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency [11.1] チェーン・オブ・シンキング(CoT)のような連鎖型手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:23:08 GMT)
RLCAD: Reinforcement Learning Training Gym for Revolution Involved CAD Command Sequence Generation [11.1] CAD幾何エンジン上に構築した強化学習学習環境(ジャム)を提案する。
我々は、B-Repジオメトリからコマンドシーケンスを生成する際に、最先端のSOTA(State-of-the-art)品質を実現する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:01:05 GMT)
ATARS: An Aerial Traffic Atomic Activity Recognition and Temporal Segmentation Dataset [11.1] 本稿では,Aerial Traffic Atomic Activity Recognition and (ATARS) データセットについて紹介する。
各フレームにアトミックなアクティビティラベルを提供し、トラフィックアクティビティの間隔を正確に記録します。
本稿では,原子活動の正確な時間的位置推定が可能な新しいタスクであるマルチラベルトリミング原子活動認識法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:06:04 GMT)
Personalization Toolkit: Training Free Personalization of Large Vision Language Models [11.0] 本稿では,事前学習された視覚基盤モデルを活用することにより,LVLMのパーソナライズに対するトレーニング不要なアプローチを提案する。
モデルに依存しないビジョンツールキットは、広範囲なリトレーニングを必要とせず、フレキシブルで効率的なパーソナライズを可能にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:34:02 GMT)
Education distillation:getting student models to learn in shcools [11.0] 本稿では,教育蒸留(ED)と呼ばれる新しい知識蒸留法を紹介する。
EDは小学校、中学校、大学の教育段階を模倣し、参照ブロックをデザインする。
CIFAR100、Tiny Imagenet、Caltech、Food-101データセットの実験結果は、指導基準ブロックが忘れることの問題を効果的に回避できることを示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:49:29 GMT)
DiffusedWrinkles: A Diffusion-Based Model for Data-Driven Garment Animation [11.0] 2次元画像拡散モデルを用いて3次元衣料のアニメーションを生成するためのデータ駆動方式を提案する。
提案手法は,多種多様な衣料品や体型のための高品質な3Dアニメーションを合成することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:08:26 GMT)
DeepFund: Will LLM be Professional at Fund Investment? A Live Arena Perspective [10.9] 本稿では,シミュレーション環境における大規模言語モデル(LLM)を評価するための総合的なプラットフォームであるDeepFundを紹介する。
提案手法は,LLMがアナリストとマネージャの両方として機能するマルチエージェントフレームワークを実装し,投資決定の現実的なシミュレーションを作成する。
異なる市場条件と投資パラメータをまたいだモデル性能を可視化し、詳細な比較分析を可能にするWebインターフェースを提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:32:13 GMT)
Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.9] 情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。
本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:06:11 GMT)
Foundations of the Theory of Performance-Based Ranking [10.9] 性能に基づくランク付けのための普遍理論の基礎を確立する。
ランキングスコアと呼ばれる普遍的なパラメトリックのスコアは、私たちの公理を満たすランクを確立するために使用できる。
2クラス分類の場合、ランキングスコアのファミリーは、よく知られたパフォーマンススコアを含んでいることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:18:19 GMT)
Seeing A 3D World in A Grain of Sand [10.9] 本研究では,1台のカメラと8対の平面鏡を用いた動画像撮影システムの設計を行った。
本手法は,様々なミニチュアシーンにおける最先端性能を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:32:35 GMT)
LeanStereo: A Leaner Backbone based Stereo Network [10.8] 学習注意重みに基づくコストボリュームとLogL1損失を組み合わせた高速なエンドツーエンドステレオマッチング手法を提案する。
また,本手法は操作を4倍に減らし,工法に比べて約9~14倍高速であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:10:52 GMT)
Distilling Stereo Networks for Performant and Efficient Leaner Networks [10.8] 本研究では, 現状のステレオ手法と一般知識蒸留技術を組み合わせて, ステレオネットワーク蒸留のためのジョイントフレームワークを開発する。
本研究では, ステレオネットワークから知識を蒸留するには, 完全蒸留パイプラインの設計を慎重に行う必要があることを示す。
その結果、よりリーンで高速なだけでなく、優れたパフォーマンスを提供する学生ネットワークが生まれる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:56:57 GMT)
Dark spin-cats as biased qubits [10.8] 基底状態ゼーマンレベル内のスピンキャットとして符号化されたバイアス原子量子ビットを提示する。
我々の構成の重要な特徴は、F_g gg 1$の基底状態スピン多様体と、F_e = F_g - 1$の励起ゼーマンスピン多様体との光を用いた結合である。
ダークスピンキャットの解析,ノイズに対するロバスト性,およびバイアス保存型単一量子ビットゲートとエンタングリングゲートについて考察する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:21:31 GMT)
Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning [10.8] 従来のアライメント手法は、微調整モデルへの人間のフィードバックに依存している。
人間の理解を超越したアウトプットを持つ超人的モデルには、大きな課題がある。
近年の研究では、より強力なモデルから知識を引き出すために弱いスーパーバイザーを使用している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:49:20 GMT)
DiffMove: Group Mobility Tendency Enhanced Trajectory Recovery via Diffusion Model [10.7] 現実世界では、少ない収集や限られたデバイスカバレッジのため、トラジェクトリデータはスパースで不完全であることが多い。
軌道回復のための群集知恵を利用するためのDiffMoveを提案する。
歴史的視点と現在の視点の両方から、個人のモビリティの好みを捉えます。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:08:21 GMT)
Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models [10.5] サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:53:00 GMT)
Spiking Neural Network as Adaptive Event Stream Slicer [10.3] イベントベースのカメラは、リッチエッジ情報、高ダイナミックレンジ、高時間分解能を提供する。
最先端のイベントベースのアルゴリズムの多くは、イベントを固定グループに分割することに依存しており、重要な時間情報の欠落をもたらす。
イベントストリームを適応的に分割可能な,新規に設計されたプラグアンドプレイイベント処理方式であるSpikeSlicerを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:13:02 GMT)
Surface-Aware Distilled 3D Semantic Features [10.3] ポーズアライメント、アニメーション、モーショントランスファー、そして3D再構成といった多くの3Dタスクは、3D形状間の対応を確立することに依存している。
この課題は最近、事前訓練された視覚モデルからのセマンティックな特徴のマッチングによって解決されている。
これらのあいまいさに対して堅牢な表面認識型埋め込み空間を学習する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:36:16 GMT)
CCMusic: An Open and Diverse Database for Chinese Music Information Retrieval Research [10.2] 本稿では,中国音楽に関連するデータセットからなるオープンで多様なデータベースであるCCMusicを紹介する。
データベースは、公開データセットと未公開データセットの両方を統合し、データのクリーニング、ラベルのリファインメント、データ構造の統合といったステップを踏む。
この目的のために開発された統合評価フレームワークを用いて,全データセットのベンチマーク評価を行う。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:47:21 GMT)
Learning to segment anatomy and lesions from disparately labeled sources in brain MRI [10.0] 本稿では,病変による破壊に対して頑健で,異なるラベル付きトレーニングセットからトレーニングできる手法を提案する。
本モデルでは,脳芽細胞腫データセットを用いて,いくつかの解剖学的構造と病変を改良した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:13:04 GMT)
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery [9.7] ドメイン一般化(DG)は、トレーニング中にターゲットディストリビューションにアクセスすることなく、モデルがOf-Distribution(OOD)データに一般化できるようにすることによってギャップを埋めようとしている。
実世界の分布シフト下での最先端物体検出器の汎用性とロバスト性について検討する。
本稿では,3つの新しいDGベンチマークデータセットのスイートであるReal-World Distribution Shifts (RWDS)を紹介する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:04:06 GMT)
Dual-domain Multi-path Self-supervised Diffusion Model for Accelerated MRI Reconstruction [9.6] 近年のディープラーニング,特に拡散モデルの発展により,MRIの高速化が進んでいる。
本稿では,これらの課題を克服するために,Dual-domain Multi-path Self-supervised Diffusion Model (DMSM)を提案する。
従来の拡散モデルとは異なり、DMSMは完全なサンプルデータからトレーニングへの依存を取り除く。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:10:51 GMT)
Safeguarding Mobile GUI Agent via Logic-based Action Verification [9.6] 本稿では,VSA (VeriSafe Agent) について紹介する。
VSAは、エージェントのアクションがアクションを実行する前にユーザーの意図と厳密に一致することを決定論的に保証するように設計されている。
我々は、広く使われている18のモバイルアプリで、300のユーザインストラクションでVSAのパフォーマンスを評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:46:05 GMT)
On the Performance Analysis of Momentum Method: A Frequency Domain Perspective [9.6] 本稿では,モーメント法を時間変動フィルタとして解釈する周波数領域解析フレームワークを提案する。
我々の実験はこの視点を支持し、関連するメカニズムをより深く理解する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:40:04 GMT)
Learnability in Online Kernel Selection with Memory Constraint via Data-dependent Regret Analysis [9.5] 本稿では,オンライン学習可能性,メモリ制約,データ複雑性の関連性を示す。
本稿では,2種類の損失関数に対してデータ依存上界を与えるアルゴリズムフレームワークを提案する。
以上の結果から,2つのデータ複雑度が線形である場合,小さなメモリ制約内で学習が可能であることが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:42:58 GMT)
Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition [9.4] 本稿では,モダリティ間の情報取得のバランスをとるための手法を提案する。
実験の結果、InfoRegは様々なデータセットで関連するマルチモーダル不均衡なメソッドよりも優れていた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:52:57 GMT)
Distributionally Robust Learning for Multi-source Unsupervised Domain Adaptation [9.4] 対象ドメインの分布がソースドメインの分布と異なる場合、経験的リスクはよく機能しない。
我々は、複数のソースドメインからのラベル付きデータと対象ドメインからのラベルなしデータを活用する、教師なしのドメイン適応アプローチを開発する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:01:18 GMT)
PS-EIP: Robust Photometric Stereo Based on Event Interval Profile [9.2] EventPSは各イベント間隔を独立して扱い、ノイズ、シャドウ、非ランベルト反射に敏感にする。
本稿では,イベントインターバルプロファイル(PS-EIP)に基づく測光ステレオを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:01:20 GMT)
Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization [9.2] 学習可能な画像圧縮は、RD効率で標準化されたビデオコーデックを上回る可能性を示している。
既存のハードウェア実装の多くは、RD効率に遅延を優先順位付けし、ハードウェア設計空間を広範囲に調査している。
本稿では,RD効率を損なうことなく,特定のハードウェアプラットフォームの設計の調整の負担をモデル次元にシフトする,新しい設計パラダイムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:42:11 GMT)
Unsupervised Detection of Fraudulent Transactions in E-commerce Using Contrastive Learning [9.2] 電子商取引プラットフォームは、詐欺の脅威が増えている。
従来の不正検出手法は、大量のラベル付きデータを必要とする教師付き学習に依存している。
そこで本研究では,SimCLRに基づく教師なしeコマース不正検出アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:14:16 GMT)
Materiality and Risk in the Age of Pervasive AI Sensors [9.2] 我々は、センサーの材料価格とその基礎となる計算モデルから生じるAIシステムに関連するリスクの次元を強調する。
我々は,これらのリスクを診断するためのセンサセンシティブなフレームワークを提案し,米国国立標準技術AIリスク管理フレームワークや欧州連合のAI法などの既存のアプローチを補完する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:48:08 GMT)
Language Model Uncertainty Quantification with Attention Chain [9.1] 大きな言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:43:47 GMT)
CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling [9.1] データ駆動型カーボンフラックスモデリングのための、最初の機械学習対応データセットであるCarbonSenseを紹介する。
我々の実験は、マルチモーダルなディープラーニング技術がこの領域にもたらす可能性を示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:37:27 GMT)
Rethinking Explainable Machine Learning as Applied Statistics [9.0] 説明可能な機械学習は、その並列性を応用統計と認識する必要がある、と我々は主張する。
研究論文では、これがほとんど議論されていないという事実が、現在の文献の主な欠点の1つである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:52:04 GMT)
Target-Aware Video Diffusion Models [9.0] 本稿では、アクターが特定のターゲットと対話する入力画像から映像を生成するターゲット対応ビデオ拡散モデルを提案する。
ターゲットに対するアクターの動きを誘導するために、しばしば密度の高い構造や動きの手がかりに依存する既存の制御可能な画像間拡散モデルとは異なり、我々のターゲット認識モデルはターゲットを示すための単純なマスクしか必要としない。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:59 GMT)
Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code [9.0] 大規模言語モデル(LLM)は、計画タスクの詳細な定義を伴っても、確実に計画に失敗する。
サイズが大きくなるような配布外タスクであっても、LCMを使って正確な計画を生成する方法を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:50:20 GMT)
LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty [8.9] 我々は,事前学習モデルからトレーニングサンプルの影響を排除した,新しいMachine Unlearning(MU)手法であるLoTUSを提案する。
LoTUSはモデルの予測確率を円滑にし、データの記憶から生じる過信を緩和する。
我々は,TransformerとResNet18モデルのLoTUSを,5つの公開データセット上で8つのベースライン手法に対して評価した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:34:23 GMT)
Hard constraint learning approaches with trainable influence functions for evolutionary equations [8.8] 本稿では進化方程式を解くための新しい深層学習手法を開発する。
逐次学習戦略は、大きな時間領域を複数のサブインターバルに分割し、時系列順に1つずつ解決する。
改良されたハード制約戦略は、時間間隔ノードにおけるPINNソリューションの連続性と滑らかさを厳密に保証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:24:33 GMT)
TrackID3x3: A Dataset and Algorithm for Multi-Player Tracking with Identification and Pose Estimation in 3x3 Basketball Full-court Videos [8.7] 本稿では,3x3バスケットボールシナリオにおけるマルチプレイヤー追跡,プレイヤー識別,ポーズ推定に特化して設計された最初のデータセットを提案する。
データセットは3つの異なるサブセット(室内固定カメラ、屋外固定カメラ、ドローンカメラ)で構成され、さまざまなフルコートカメラの視点と環境をキャプチャする。
そこで本研究では,トラッキングと識別の質を評価するために,Track-IDアルゴリズムと呼ばれるベースラインアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:55:46 GMT)
Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations [8.7] 本稿では,破壊的洞察の形成における手法の組み合わせの役割を強調する構造的アプローチを提案する。
歴史的に破壊的な手法の組み合わせを区別する特徴を識別するための、対照的な学習に基づくメカニズムを導入する。
本稿では,LLMのチェーン・オブ・シント機能を利用して,有望な知識の再結合を同定するモンテカルロ探索アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:41:17 GMT)
Neural Representation for Wireless Radiation Field Reconstruction: A 3D Gaussian Splatting Approach [8.6] 本稿では,無線放射場(WRF)再構成に基づくチャネルモデリングのための新しいフレームワークであるWRF-GSを提案する。
本稿では、電磁波物理をニューラルネットワーク設計に統合する拡張フレームワークであるWRF-GS+を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:52:38 GMT)
MGSO: Monocular Real-time Photometric SLAM with Efficient 3D Gaussian Splatting [8.6] 本稿では,光メトリックSLAMと3DGSを統合した新しいリアルタイムSLAMシステムであるMonocular GSOを提案する。
本システムでは, 品質, メモリ効率, 速度のバランスを保ち, 再現性を向上する。
現代のシステムを超えているだけでなく、ラップトップのハードウェアの性能も維持していることを示す実験も行っています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:17:35 GMT)
Int2Int: a framework for mathematics with transformers [8.4] Int2Intは、トランスフォーマーアーキテクチャの完全なPyTorch実装である。
本稿では,Int2Intの主な機能について紹介し,ユーザマニュアルとして機能し,拡張方法に関するガイドラインを提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:11:58 GMT)
Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model [8.4] 本研究では、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバを提案する。
Wavelet-SSMモジュールは、ウェーブレットベースの周波数領域の特徴抽出とSSMによるグローバル情報抽出を組み込む。
提案手法は,現在の最先端手法と比較して,視覚的に魅力的な結果と優れた性能を両立させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:25:44 GMT)
Sun-Shine: A Large Language Model for Tibetan Culture [8.3] チベット文化の最初の大規模言語モデルであるLlama-Sunshine(Sun-Shine)を紹介する。
Sun-Shineはチベット語の言語的特徴のために最先端のモデル最適化アーキテクチャを取り入れている。
また,チベット語テキストを多用した総合データセットであるTIB-STCを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:17:41 GMT)
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.3] LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:31:48 GMT)
NullSwap: Proactive Identity Cloaking Against Deepfake Face Swapping [8.3] 我々は、ディープフェイクの顔交換の本質を分析し、ターゲット画像ではなく、情報源の身元を保護する必要性を論じる。
我々はNullSwapを提案する。NullSwapは、ソースイメージのアイデンティティを隠蔽し、純粋なブラックボックスシナリオ下での顔交換を無効化する新しいプロアクティブディフェンス手法である。
実験は、様々なアイデンティティ認識モデルを騙すアプローチの際立った能力を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:49:39 GMT)
Learning Beamforming Codebooks for Active Sensing with Reconfigurable Intelligent Surface [8.3] 本稿では,ベースステーション (BS) と再構成可能な知的表面 (RIS) のためのビームフォーミングコードブックの設計を,アップリンクローカライゼーションのためのアクティブセンシング方式で検討する。
BSとRISは、それぞれのコードブックからBSビームフォーミングコードワードとRISコードワードを慎重に選択して適応的に構成される。
本稿では,コードブック構築のための学習的アプローチと,アクティブセンシングのためのコードワード選択を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:15:58 GMT)
xKV: Cross-Layer SVD for KV-Cache Compression [8.3] 長いコンテキストウィンドウを持つ大規模言語モデル(LLM)は強力なアプリケーションを実現するが、メモリ消費のコストがかかる。
近年の研究では、KV-cacheを複数の層から共有表現にマージする試みが試みられている。
支配的な特異ベクトルは、KV-Cacheの複数の層に驚くほどよく整合していることが分かる。
xKVは複数のレイヤのKVキャッシュを共有低ランクサブスペースに統合し、KVキャッシュのサイズを大幅に削減する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:06:37 GMT)
Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education [8.2] 大規模言語モデル(LLM)は、求職履歴書と候補履歴書を一致させることで、採用を自動化する能力を提供する。
しかし、これらのモデルに固有のバイアスは、不公平な雇用慣行をもたらし、社会的偏見を強化し、職場の多様性を損なう可能性がある。
本研究は、英語と米国の文脈における求人マッチングタスクにおけるLLMの性能と公平性について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:11:22 GMT)
Mitigating KV Cache Competition to Enhance User Experience in LLM Inference [8.2] KVキャッシュ競合を緩和するシステムであるCacheOPTを提案する。
要求の出力長を推定し、要求到着率に基づいて調整された、高い特定の確率で偏差をバウンドする。
リクエストが割り当てられる前にKVCを積極的に割り当て、プリエンプションを防ぐためにKVCをグローバルに予約する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:50:09 GMT)
Do Your Best and Get Enough Rest for Continual Learning [8.2] 留意曲線理論により、広範囲なデータを学習し、適切な休息を取ることにより、記憶保持を向上させることができる。
学習スケジュールを調整するビューバッチモデルを導入し、同じサンプルの再学習間のリコール間隔を最適化する。
実験により,これらの手法は長期記憶を向上できる忘れ曲線理論と一致していることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:08:37 GMT)
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1] 大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。
近年の進歩は、新たな推論型LSMの開発に繋がった。
オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで最先端のパフォーマンスを達成した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:54:26 GMT)
Quantum Parameter Estimation for Detectors in Constantly Accelerated Motion [8.1] 加速検出器の状態パラメータの量子フィッシャー情報(QFI)のダイナミクスを解析する。
十分に大きな加速に対して、加速パラメータを推定する最適な精度は、有限進化時間で達成できる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:22:04 GMT)
Hardware-Software Co-design for Distributed Quantum Computing [7.9] 分散量子コンピューティング(DQC)は、単一チップの制限を超えて量子コンピューティングアーキテクチャをスケールアップするための経路を提供する。
絡み合いはDQCで非ローカルな操作を実装する上で重要なリソースである。
DQCの現実的なモデルの下で,ハードウェアとソフトウェアの共同設計により,実行時と出力の忠実度が向上することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:19:32 GMT)
AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models [7.9] 本稿では,大規模言語モデル(LLM)を用いて,自律運転政策における効果的かつ多様な脆弱性を自動的に発見するフレームワークを提案する。
実験によると、AEDは専門家が設計した報酬と比較して、幅広い脆弱性と攻撃の成功率を達成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:59:17 GMT)
Sparse Tensor PCA via Tensor Decomposition for Unsupervised Feature Selection [7.9] 非教師付き特徴選択(UFS)に分解(TD)技術を導入する。
この問題を解決するために、スパース特異値分解の向きに依存したテンソルテンソル積を用いる。
提案したテンソルPCAモデルは,所定のモードで間隔を制限し,スパーステンソル主成分を得る。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:55:59 GMT)
LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment [7.8] 本稿では,LANGALIGNを提案する。LANGALIGNは,英語の埋め込みベクトルを対象言語と整列させることにより,対象言語処理を強化する。
韓国語、日本語、中国語に関する実験は、LANGALIGNが3つの言語全てで性能を著しく向上させることを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:02:26 GMT)
Sandi: A System for Accountability [7.8] サンディは悪行を測定する評価システムである。
報復を防ぐためには強力なプライバシー保証が必要である。
Sandiはどんな通信システムでも実装できます。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:23:21 GMT)
Finite-Time Bounds for Two-Time-Scale Stochastic Approximation with Arbitrary Norm Contractions and Markovian Noise [7.8] 2時間スケール近似(英: Two-time-scale Approximation、SA)は、強化学習と最適化に応用した反復アルゴリズムである。
強化学習の応用により、非線型2時間スケール SA 上の最初の平均正方形を与える。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:03:23 GMT)
Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish [7.7] この研究は、スカンジナビア本土の臨床テキストに対する最先端のNLP法の評価と分析を体系的に行うことを目的としている。
113記事のうち、18%がノルウェーの臨床的テキストに焦点を当て、64%(n=72)がスウェーデン語、10%(n=11)がデンマーク語、8%(n=9)が複数の言語に焦点を当てている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:47:32 GMT)
Deep Polycuboid Fitting for Compact 3D Representation of Indoor Scenes [7.7] 本稿では, 深層学習方式を用いて, ポリクボイドを用いて3次元屋内シーンをコンパクトに表現するための新しい枠組みを提案する。
我々のフレームワークは、Replica、ScanNet、iPhoneで撮影されたシーンなど、現実世界の屋内シーンのデータセットによく当てはまる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:18:16 GMT)
Quantum Circuit Mutants: Empirical Analysis and Recommendations [7.6] 実世界の382個の量子回路を変異させた700K以上の故障ベンチマーク(量子回路)を用いて,大規模な実験評価を行った。
この結果に基づいて、量子突然変異解析手法を体系的に定義する上で、研究者にとって貴重な知見を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:27:09 GMT)
IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera [7.5] IncEventGSは、単一のイベントカメラを備えたインクリメンタルな3Dガウススプレイティング再構成アルゴリズムである。
我々は,IncEventGSにおける従来のSLAMパイプラインの追跡とマッピングのパラダイムを活用する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:16:42 GMT)
EgoSurgery-HTS: A Dataset for Egocentric Hand-Tool Segmentation in Open Surgery Videos [7.4] EgoSurgery-HTSは、ピクセル単位のアノテーションと、エゴセントリックなオープンサージェリービデオで手術ツール、手、対話ツールをセグメンテーションするためのベンチマークスイートを備えた、新しいデータセットである。
我々は最先端のセグメンテーション手法の広範な評価を行い、エゴセントリックなオープンサージェリービデオにおける手・手指のセグメンテーションの精度を大幅に向上させた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:04:32 GMT)
Detecting Arbitrary Planted Subgraphs in Random Graphs [7.3] 本稿では,ErdHos-R'enyi乱数グラフ$mathcalG(n, q_n)$における仮設植木部分グラフ$Gamma = Gamma_n$の検出について検討する。
エッジ確率が$p_n$と$q_n$が固定された高密度な状態では、Gamma$を検出するための情報理論および計算しきい値が強く特徴付けられる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:54:43 GMT)
RAU: Towards Regularized Alignment and Uniformity for Representation Learning in Recommendation [7.2] スパースアライメントや不均一な均一性問題に対処するために、正規化アライメントと統一性(RAU)を提案する。
RAUはアライメントと統一性のための2つの新しい正規化手法で構成され、より良いユーザ/イテム表現を学習する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:03:21 GMT)
Enhancing Multi-Label Emotion Analysis and Corresponding Intensities for Ethiopian Languages [7.2] 我々はEthioEmoデータセットのようなマルチラベル設定で感情を注釈付けする。
各ラベル付けされた感情の強さに関するアノテーションを含める。
我々は、様々な最先端エンコーダのみの事前訓練言語モデル(PLM)とデコーダのみの大規模言語モデル(LLM)を評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:34:36 GMT)
DisentTalk: Cross-lingual Talking Face Generation via Semantic Disentangled Diffusion Model [7.2] DisentTalkは3DMM式パラメータを意味のある部分空間に分解し、きめ細かい顔制御を行うデータ駆動型セマンティック・ディコンタングルメントフレームワークを提供する。
高品質な中国語学習データの不足に対処するため、中国語の高精細な話し顔データセットであるCHDTFを紹介した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:46:34 GMT)
Protein Structure-Function Relationship: A Kernel-PCA Approach for Reaction Coordinate Identification [7.1] 本稿では,タンパク質の構造-機能関係を捉えるためのカーネル-PCAモデルを提案する。
機械学習技術を活用することで、我々のモデルは高次元のタンパク質データに意味のあるパターンを明らかにする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:22:51 GMT)
The emojification of sentiment on social media: Collection and analysis of a longitudinal Twitter sentiment dataset [7.1] TM-Sentiは、Twitterの感情データセットを大規模に管理し、ツイート数は1億1400万を超えている。
我々は,大規模なエモティコンと絵文字に基づくラベル付き感情分析データセットを組み立てるための方法論を記述し,評価する。
私たちの分析では絵文字のエモティコンへの利用の増加など、興味深い時間的変化が強調されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:29:20 GMT)
Human Motion Unlearning [7.0] 有毒なアニメーションの合成を防止するために,人間の動作を学習するタスクを導入する。
大規模かつ最近のテキスト・ツー・モーション・データセットから有害な動きをフィルタリングして,最初の動作ベンチマークを提案する。
我々はLCRをダブしたLatent Code Replacementに基づく新しい動き学習モデルを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:46:27 GMT)
ArchSeek: Retrieving Architectural Case Studies Using Vision-Language Models [6.9] ArchSeekは、レコメンデーション機能を備えた革新的なケーススタディ検索システムだ。
視覚言語モデルとクロスモーダルな埋め込みによって、きめ細かい制御でテキストと画像のクエリを可能にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:50:23 GMT)
Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024 [6.9] 我々は,2024年にソーシャルメディアとディープフェイク検出プラットフォームユーザから収集されたワイヤ内ディープフェイクからなる新しいディープフェイク検出ベンチマークであるDeepfake-Eval-2024を紹介する。
ベンチマークには、52の異なる言語で88の異なるウェブサイトからさまざまなメディアコンテンツが含まれている。
その結果,Deepfake-Eval-2024で評価すると,オープンソースのDeepfake検出モデルの性能は急激に低下することがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:46:15 GMT)
Generalization of the Gibbs algorithm with high probability at low temperatures [6.8] 本稿では、Gibsアルゴリズムの一般化誤差にバウンダリを与え、高温領域における既知のデータ非依存境界を復元する。
高い確率で、ギブスの後部から引き出された1つの仮説の一般化誤差は、同様のまたはより小さな経験的誤りを伴う全ての仮説の総容積とともに減少する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:32:59 GMT)
Solving Situation Puzzles with Large Language Model and External Reformulation [6.8] 大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。
本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。
実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:05:55 GMT)
Channel Consistency Prior and Self-Reconstruction Strategy Based Unsupervised Image Deraining [6.7] 本稿では,新しいチャネル整合性優先・自己再構成戦略に基づく教師なし画像評価フレームワークCSUDを提案する。
未ペアデータによるトレーニングでは、CSUDは高品質な擬似クリーンで雨天のイメージペアを生成することができる。
複数の合成および実世界のデータセットの実験により、CSUDの劣化性能が、他の最先端の教師なし手法を上回ることを示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:15:48 GMT)
PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor Scenes [6.7] 高精度深度推定アルゴリズムからの擬似深さ(PD)は、RGB-Dセンサやアライメントプロセスへの依存をなくすことができる。
PDはセマンティックセグメンテーションにおいて有意な潜在性を示した。
PDは複数の擬似深度写像を単一のモードに集約する。
PDは最先端のパフォーマンスを達成し、NYUv2では+6.98 mIoU、SUNRGB-Dでは+2.11 mIoUに勝る。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:05:31 GMT)
Imaginarity measures induced by relative entropy [6.6] 本稿では、虚偽の資源理論に関する2つの測度を紹介する。
1つは $alpha$--$z$--R'enyi 相対エントロピーによって誘導され、もう1つは Tsallis 相対作用素エントロピーによって誘導される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:18:23 GMT)
Generative AI in Knowledge Work: Design Implications for Data Navigation and Decision-Making [6.5] 我々は、知識労働におけるAIの機会と限界の両方を探求するために、AI対応システムであるYodeaiを開発した。
我々は、知識労働におけるジェネレーティブAIの重要な要件として、適応可能なユーザコントロール、透過的な協調メカニズム、背景知識と外部情報を統合する能力の3つを特定した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:02:44 GMT)
Optimal Sharding for Scalable Blockchains with Deconstructed SMR [6.4] Areteは、サイズセキュリティのジレンマを解決するために設計された、最適にスケーラブルなブロックチェーンシャーディングプロトコルである。
Areteの重要なアイデアは、ブロックチェーンのState Machine Replication(SMR)プロセス自体を分割することで、シャードのセキュリティレジリエンス/閾値を改善することだ。
私たちはAreteを実装し、最大500ノードを実行することでAWS環境で評価し、Areteが最先端のシャーディングプロトコルより優れていることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:32:44 GMT)
LLM-Match: An Open-Sourced Patient Matching Model Based on Large Language Models and Retrieval-Augmented Generation [6.4] 患者マッチングとは、患者を適切な臨床試験に結びつけるプロセスであり、医療記録を正確に識別し、治験適格基準と整合させることである。
LLM-Matchは、細調整されたオープンソースの大規模言語モデルを活用する、患者マッチングのための新しいフレームワークである。
我々は、オープンソースモデルを用いて、n2c2、SIGIR、TREC 2021、TREC 2022の4つのオープンデータセットで評価し、TrialGPT、Zero-Shot、GPT-4ベースのクローズドモデルと比較した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:32:25 GMT)
Reinforcement Learning in Switching Non-Stationary Markov Decision Processes: Algorithms and Convergence Analysis [6.4] そこで我々は,背景となるマルコフ連鎖に基づいて,環境が時間とともに切り替わる,スイッチング非定常マルコフ決定プロセス(SNS-MDP)を紹介した。
固定されたポリシーの下では、SNS-MDPの値関数はマルコフ連鎖の統計的性質によって決定される閉形式解を認める。
このフレームワークは、複雑な時間変化の文脈で意思決定を効果的に導くことができるかを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:05:30 GMT)
SoK: How Robust is Audio Watermarking in Generative AI models? [6.2] 有効にするためには、音声透かしは検出を回避するために信号を歪ませる除去攻撃に抵抗しなければならない。
強靭性を主張する最近の透かし方式が広範囲の除去攻撃に耐えられるか検討する。
我々は、オープンソースコードを使用して9つの透かしスキームを再現し、新しい8つの非常に効果的な攻撃を特定し、11つの重要な発見をハイライトする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:57:59 GMT)
A Comprehensive Evaluation of Four End-to-End AI Autopilots Using CCTest and the Carla Leaderboard [6.2] 自動運転システムのためのエンドツーエンドのAIオートパイロットは、従来のモジュラーオートパイロットに代わる有望な選択肢として登場した。
彼らは、非決定性、非説明可能性、異常など、AIシステムのよく知られた問題に悩まされている。
本稿では,4つのオープンなモジュールオートパイロットに適用されたクリティカルな構成テスト手法について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:18:29 GMT)
Construction Identification and Disambiguation Using BERT: A Case Study of NPN [6.2] 構築文法は、ある言語の知識は、主に形式的な意味を持つペアの知識から成り立っていると仮定する。
近年の研究では、トランスフォーマー言語モデルは少なくともいくつかの構造パターンを表すことが示されている。
BERTによる英語の形式と意味の表現について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:59:39 GMT)
Reinforcement Learning: A Comprehensive Overview [6.1] この写本は、(深い)強化学習とシーケンシャルな意思決定の分野を概観している。
価値に基づく方法、ポリシーに基づく方法、モデルに基づく方法など、さまざまなトピックをカバーしています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:54:08 GMT)
AssertionForge: Enhancing Formal Verification Assertion Generation with Structured Representation of Specifications and RTL [6.1] 本稿では,仕様とRTLの両方から知識グラフ(KG)を構築する新しい手法を提案する。
仕様から初期KGを作成し、RTLコードから抽出された情報と体系的に融合し、統合された総合KGとなる。
4つの設計実験により,提案手法は従来手法よりもSVAの品質を著しく向上させることが示された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:53:37 GMT)
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse [5.7] 視覚言語モデル(VLM)における3次元空間推論の強化を目的とした,最初の強化学習ベースのフレームワークであるMetaSpatialを提案する。
我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理認識の制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:18:01 GMT)
Distributionally Robust Federated Learning: An ADMM Algorithm [5.7] Federated Learning (FL)は、分散データを使用して機械学習(ML)モデルを協調的にトレーニングすることを目的としている。
標準FLモデルは、全てのデータが同じ未知の分布から来ていると仮定することが多い。
本稿では,データの不均一性と分散あいまいさによる課題を克服するため,分散ロバスト・フェデレート・ラーニング(DRFL)という新しいFLモデルを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:35:38 GMT)
BitDecoding: Unlocking Tensor Cores for Long-Context LLMs Decoding with Low-Bit KV Cache [5.5] BitDecodingは、Coresをアンロックして、低ビットのKVキャッシュで効率的なデコーディングを行うフレームワークである。
A100では7.5倍、A100では4.8倍、H100では8.9倍のスピードアップを実現している。
また、最先端のロービットKVキャッシュ実装(QServe)を最大4.3倍に向上させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:22:41 GMT)
Scalable architecture for dark photon searches: Superconducting-qubit proof of principle [5.5] 基本的な質量範囲感度ジレンマは、常に暗い光子探索実験を悩ませている。
超伝導量子ビットをサブ波長ハロスコープユニットとして用いる新しいアーキテクチャを提案し,実証する。
原理実証実験として、我々は3量子ビットチップを設計、製造し、スケーラブルな暗光子探索を成功させた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:43:27 GMT)
Characterizing GPU Resilience and Impact on AI/HPC Systems [5.5] 現在600ペタプロビジョン以上のピーク計算スループットを持つ大規模AIシステムであるDeltaのGPU障害を特徴付ける。
この研究はGPUエラーに関する2年半のデータを用いている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:52:43 GMT)
Glivenko-Cantelli for $f$-divergence [5.5] 有名なグリヴェンコ・カンテッリの定理を拡張し、統計学の基本定理と呼ばれることもある。
鍵となる障害は、$sigma$-algebraという$pi$-systemを形成するが$sigma$-subalgebraではないサブコレクションに$f$-divergenceを定義することである。
レイの$pi$-systemにおける$f$-divergenceというこの概念が、標準$f$-divergenceのほとんどすべての既知の性質を保存することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:10:28 GMT)
Neuro-symbolic Weak Supervision: Theory and Semantics [5.5] 帰納的論理プログラミング(ILP)を統合したニューロシンボリック・フレームワークのセマンティクスを提案する。
ILPは、ラベル遷移のための論理仮説空間を定義し、意味論を明確にし、解釈可能なパフォーマンス標準を確立する。
このハイブリッドアプローチは、弱教師付き設定における堅牢性、透明性、説明責任を改善する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:02:51 GMT)
Quantifying Climate Change Impacts on Renewable Energy Generation: A Super-Resolution Recurrent Diffusion Model [5.4] 超解像リカレント拡散モデル(SRDM)は、気候データの時間分解能を高めるために開発された。
メカニズムモデルを用いた高分解能気候データから電力値に変換する。
中国内モンゴル・江名地方における事例研究
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:22:46 GMT)
Accelerating Langevin Monte Carlo Sampling: A Large Deviations Analysis [5.3] 最も古典的なランゲヴィンモンテカルロアルゴリズムは、過度に破壊されたランゲヴィン力学に基づいている。
ランゲヴィン力学には多くの変種があり、実際は優れた性能を示すことが多い。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:52:45 GMT)
Adapter Merging with Centroid Prototype Mapping for Scalable Class-Incremental Learning [5.3] ACMapはタスク固有のアダプタを単一のアダプタに統合し、精度を犠牲にすることなくタスク間で一定の推論時間を実現する。
このフレームワークは、タスク表現を整列させ、忘れを緩和する共有サブスペースを構築するために、アダプタマージを採用している。
5つのベンチマークデータセットの実験は、ACMapが最先端の精度と一致し、最も高速な既存のメソッドに匹敵する推論時間を維持していることを示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:20:08 GMT)
Offline Meteorology-Pollution Coupling Global Air Pollution Forecasting Model with Bilinear Pooling [5.2] 伝統的な物理学に基づくモデルでは、気象学と大気汚染プロセスの結合によって地球規模の大気汚染を予測する。
既存のディープラーニング(DL)ソリューションでは,グローバル大気汚染予測にオンライン結合戦略を採用している。
本研究は,気象分野と汚染物質間のオフライン結合を実現するために,双線形プールを用いたDLベースのオフライン結合フレームワークを開拓した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:24:31 GMT)
AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text [5.1] 様々なソースから構築された事前訓練言語モデル(PLM)は、今日のNLP進歩の基盤となっている。
低リソースアフリカ言語に対するドメインおよびタスク適応型継続事前学習手法の徹底的な分析について検討する。
AfriSocialは、ドメイン適応的な微調整用に設計されたコーパスで、高品質な前処理ステップを通過します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:06:33 GMT)
Gradient-Guided Annealing for Domain Generalization [5.1] ドメインの一般化効率を向上させるため,GGAアルゴリズムを提案する。
GGAの有効性は、広く受け入れられ、困難な画像分類領域の一般化ベンチマークで評価される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:49:54 GMT)
Public-Key Quantum Money and Fast Real Transforms [5.1] グループアクションとハートレー変換に基づく公開鍵量子マネースキームを提案する。
本研究では、連続時間量子ウォークに基づく新しいアルゴリズムを用いて、マネー状態に関連するシリアル数を効率的に計算する方法を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:03:37 GMT)
PAD: Towards Efficient Data Generation for Transfer Learning Using Phrase Alignment [5.1] 本稿では, 韓国語の構文特性とPhrase Aligned Data (PAD) の相乗効果について述べる。
この革新的なアプローチは、モデルの性能を向上するだけでなく、リソースを浪費する言語に対するコスト効率の高いソリューションも示唆している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:29:05 GMT)
Energy-Efficient Dynamic Training and Inference for GNN-Based Network Modeling [5.0] 本稿では,文脈認識型ネットワークモデリングと予測のためのモデルトレーニングと推論フレームワークを提案する。
我々は、多くの計算ノードを持つマルチアプリケーションシステムを表現するために、三部グラフモデルを利用する。
本稿では、QAOを用いた制約付きグラフカットを適用し、GNNベースモデルの実現可能なエネルギー効率構成を見つけ、利用可能な計算ノードに配置し、ネットワークモデリングアプリケーション要求を満たす。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:17:57 GMT)
On Symmetries in Convolutional Weights [5.0] 内部層における平均核は、特定の方向を好むのではなく、中心に対して対称である傾向がある。
我々は、対称性がシフトやフリップの整合性などの望ましい性質とどのように相関し、畳み込みニューラルネットワークにおいて固有の帰納バイアスを構成するかを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:41:37 GMT)
Exploring the Finite-Temperature Behavior of Rydberg Atom Arrays: A Tensor Network Approach [4.9] ライドバーグ原子配列は実験研究のための強力なプラットフォームとして登場した。
本研究では,2次元2次元格子Rydberg原子配列の有限温度特性について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:45:22 GMT)
Adventurer: Exploration with BiGAN for Deep Reinforcement Learning [4.9] 複雑な観測のために, 状態の新規性を推定する上で, BiGANは良好に機能することを示す。
この結果から,Adventureは,様々なベンチマークタスクにおいて,競争力のある結果をもたらすことがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:13:24 GMT)
Teaching an Old Dog New Tricks: Verifiable FHE Using Commodity Hardware [4.9] Argosは、信頼できるハードウェアを使用した完全同型暗号化スキームに検証可能性を追加するための単純なアプローチである。
Argosは専用のハードウェア拡張を必要とせず、2008年以降はコモディティプロセッサでサポートされている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:19:50 GMT)
Efficient Magic State Cultivation on $\mathbb{RP}^2$ [4.8] 本稿では,回転した曲面コード上で論理的な$mathrmT$状態を生成する,新しいマジックステート培養プロトコルを提案する。
小さな$mathbbRP2$コードは論理情報を保持するために使われ、シンドローム抽出回路でチェックされる。
我々のプロトコルは、元のMSCプロトコルと比較して10~9ドル程度の目標論理誤差率に達するために、約1桁の時空ボリュームを必要とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:20:57 GMT)
Quantum Complex-Valued Self-Attention Model [4.8] 現在の量子自己アテンションモデルは、量子システムに固有の必要不可欠な位相情報を無視することで制限を示す。
本稿では、量子状態間の複素値類似性を明示的に活用する最初のフレームワークである量子複素値自己保持モデル(QCSAM)を提案する。
本稿では,QKSAN,QSAN,GQHANを含む近年の量子自己アテンションアーキテクチャよりもモデルの方が優れていることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:39:43 GMT)
Coding Malware in Fancy Programming Languages for Fun and Profit [4.8] 抗ウイルスソリューションで使われている最先端の手法が、マルウェアの痕跡を発見できない可能性があることを示す。
この結果から,マルウェア作者はコードベースをあまり使われていないプログラミング言語に変換することで,検出を大幅に削減できる可能性が示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:27:41 GMT)
UniPCGC: Towards Practical Point Cloud Geometry Compression via an Efficient Unified Approach [4.8] 我々は,UniPCGCと呼ばれる効率的な統合ポイントクラウド幾何圧縮フレームワークを提案する。
可逆圧縮、無損失圧縮、可変レート、可変複雑性をサポートする。
損失圧縮ではCR比が8.1%、損失圧縮ではBjontegaard Delta Rate(BD-Rate)が14.02%向上した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:51:28 GMT)
SIT-FER: Integration of Semantic-, Instance-, Text-level Information for Semi-supervised Facial Expression Recognition [4.7] セマンティック、インスタンス、テキストレベルの情報を同時に組み込んで高品質な擬似ラベルを生成する新しいSS-DFERフレームワークを提案する。
提案手法は現状のSS-DFER法を著しく上回り, 完全に教師付きベースラインを超えている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:08:14 GMT)
VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric [4.6] We propose VeriMind, a agentic LLM framework for Verilog code generation。
本稿では,従来のpass@k測度とARC(Average Refinement Cycles)を組み合わせた新しい評価手法を提案する。
様々なハードウェア設計タスクの実験結果によると、我々のアプローチはpass@kメトリックで最大8.3%、pass@ARCメトリックで最大8.1%向上した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:14:06 GMT)
Modeling speech emotion with label variance and analyzing performance across speakers and unseen acoustic conditions [4.5] 本研究では,感情グレードの確率密度関数を目標として,ベンチマーク評価セットの性能向上を実証する。
本研究では,現在最先端の音声感情モデルを訓練する上で,FM(Salliency driven foundation model)の表現選択が有効であることを示す。
複数のテストセットにまたがる性能評価と、性別や話者による性能分析は、感情モデルの有用性を評価するのに有用であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:13:27 GMT)
SKDU at De-Factify 4.0: Vision Transformer with Data Augmentation for AI-Generated Image Detection [4.3] この研究の目的は、AI生成画像の検出のための高度なデータ拡張戦略によって強化されたビジョントランスフォーマー(ViT)のような、事前訓練された視覚言語モデルの可能性を探ることである。
このアプローチでは、Defactify-4.0データセットに基づいてトレーニングされた微調整されたViTモデルを活用する。
実験結果から,我々のViTベースのパイプラインは最先端のパフォーマンスを実現し,検証とテストの両方で競合する手法よりも優れていた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:53:54 GMT)
AutoTRIZ: Automating Engineering Innovation with TRIZ and Large Language Models [4.3] AutoTRIZは、大規模言語モデル(LLM)を統合して、発明問題解決理論(TRIZ)方法論を自動化し、拡張する人工的な概念体系である。
LLMの膨大な事前訓練された知識と高度な推論能力を活用することで、AutoTRIZは技術革新に対する新しい、生成的で解釈可能なアプローチを提供する。
教科書ケースとの比較実験と電池熱管理システム(BTMS)設計における実世界の応用によるAutoTRIZの有効性の実証と評価を行った。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:10:38 GMT)
Fact-checking AI-generated news reports: Can LLMs catch their own lies? [4.2] 我々は,Large Language Models (LLMs) が自らのコンテンツを効果的にファクトチェックできるかどうかを評価する。
LLMは、地方ニュースよりも、全国ニュースや国際ニュースの主張を評価するのに効果的である。
LLMが評価できないクレームの数を大幅に減らすことができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:32:02 GMT)
On the Optimality of Single-label and Multi-label Neural Network Decoders [4.1] SLNN と MLNN のアーキテクチャは,コードに関係なく,常に最適な復号化を実現可能であることを示す。
提案したアーキテクチャは実際にはNNではなく、最大極大復号法を実装する別の方法である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:07:15 GMT)
Optimistic Q-learning for average reward and episodic reinforcement learning [4.0] 平均報酬強化学習における後悔最小化のための楽観的なQ-ラーニングアルゴリズムを提案する。
提案手法は,提案手法を厳密に一般化し,平均報酬設定におけるモデルフリーアルゴリズムに関する過去の文献のすべての状態に対する有界ヒット時間テキストの仮定よりもはるかに制約が小さい。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:42:56 GMT)
MVCTrack: Boosting 3D Point Cloud Tracking via Multimodal-Guided Virtual Cues [4.0] 3Dオブジェクトトラッキングは、自律走行とロボット工学において不可欠である。
既存の方法は、しばしばスパースと不完全なポイントクラウドのシナリオで苦労する。
疎点雲を豊かにする仮想キューを生成するマルチモーダル誘導仮想キュー投影方式を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:48:06 GMT)
k-NN as a Simple and Effective Estimator of Transferability [4.0] ドメインがシフトし、タスクが異なる、そしてアーキテクチャが変わるような新しい環境で、トランスファーラーニングがうまくいくと期待できるだろうか?
16のデータセットから23の転送可能性指標を比較して42,000以上の実験を行い,転送性能の予測能力について検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:35:11 GMT)
FlowDock: Geometric Flow Matching for Generative Protein-Ligand Docking and Affinity Prediction [3.8] FlowDockは、非有界(アポ)構造をそれらの有界(ホロ)構造にマッピングすることを学ぶ最初の深部幾何学的生成モデルである。
FlowDockは、予測された構造的信頼度スコアと、生成したタンパク質-リガンド複合体構造とのアフィニティ値を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:50:30 GMT)
Activation Functions Considered Harmful: Recovering Neural Network Weights through Controlled Channels [3.8] ハードウェアを分離したエンクレーブ、特にIntel SGXの最近の進歩は、機械学習アプリケーションの内部状態をセキュアにするという約束を守っている。
本稿では,SGXエンクレーブから秘密の重みとバイアスを抽出するために,入力依存型メモリアクセスパターンを活用可能であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:55:18 GMT)
Self-Supervised Learning based on Transformed Image Reconstruction for Equivariance-Coherent Feature Representation [3.8] コンピュータビジョンの特徴を学習するための自己教師付き学習手法を提案する。
このシステムは、これまで見つからなかった変換を行ったイメージを再構成することで、変換を独立に学習する。
私たちのアプローチは、リッチな現実的なコンピュータビジョンの下流タスクで強く機能し、ほぼ常にすべてのベースラインを改善しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:01:50 GMT)
PRECTR: A Synergistic Framework for Integrating Personalized Search Relevance Matching and CTR Prediction [3.8] 統一されたtextbfPersonalized Search Relevance Matching と CTR Prediction Fusion Model (PRECTR) を提案する。
PreCTRはCTR予測と検索関連性マッチングを一つのフレームワークに統合し、2つのモジュールの相互作用と一貫性を強化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:07:04 GMT)
CompMarkGS: Robust Watermarking for Compression 3D Gaussian Splatting [3.7] 3DGSは数百万のガウシアンに依存しており、ギガバイトのストレージ、効率的な転送とストレージは圧縮を必要とする。
既存の3DGS透かし法は量子化に基づく圧縮に弱いため、しばしば埋め込み透かしが失われる。
本研究では,モデル圧縮後の透かしの堅牢性を保証し,高いレンダリング品質を維持しつつ,新しい透かし方式を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:44:55 GMT)
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning [3.6] CLEAR(Contrasting Textual Feedback with Experts and Amateurs for Reasoning)は、言語モデル推論の新しいアプローチである。
エキスパートモデルとアマチュアモデルはそれぞれ、モデルの初期出力に対するフィードバックを提供し、互いに対比して洗練されたフィードバックを与えます。
CLEARは、いくつかの困難な推論タスクにおいて最先端の手法より優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:22:16 GMT)
The case for delegated AI autonomy for Human AI teaming in healthcare [3.4] 本稿では、人工知能(AI)を医療に組み込むための高度なアプローチとして、自律的な意思決定支援を提案する。
このアプローチにより、AIアルゴリズムは、定義された委任基準に基づいて、患者の他のサブセットで支援的な役割を担いながら、患者のサブセットに対して自律的に行動することができる。
患者を安全に扱えるようにし、AIツールの制限に注意しながら臨床レビュー時間を短縮する可能性がある。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:26:54 GMT)
Using Anomaly Detection to Detect Poisoning Attacks in Federated Learning Applications [3.4] 毒殺などの敵対的な攻撃は多くの機械学習研究者の注目を集めている。
伝統的に、毒殺攻撃は訓練されたモデルを操作するために敵の訓練データを注入しようとする。
フェデレートラーニング(FL)において、データ中毒攻撃は、検出器による局所的な訓練データにアクセスできないため、より単純な方法では検出できない毒攻撃をモデル化するために一般化することができる。
本研究では,FLにおける有害な攻撃を検出するための新しい枠組みを提案する。このフレームワークは,公開データセットと監査者モデルに基づく参照モデルを用いて,悪意のある更新を検知する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:43:43 GMT)
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.4] 本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:16:17 GMT)
Multi-objective Pseudo Boolean Functions in Runtime Analysis: A Review [3.3] 理論領域でよく用いられる多目的関数について調査し,その特徴,限界,実用性への影響を体系的に検討した。
パレートフロントの局所最適性や非線形性など、より現実的な特徴を持ついくつかの新しい関数を、古典的単目的関数を単純に混合しマッチングすることによって提示する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:42:33 GMT)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.3] 本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:39:41 GMT)
APLA: A Simple Adaptation Method for Vision Transformers [3.3] Intention Projection Layer Adaptation (APLA)は、アーキテクチャの変更やパラメータの追加なしに視覚変換器(ViT)を適応するためのシンプルなアプローチである。
APLAは最先端のパフォーマンスを実現し、GPUメモリ使用量を52.63%削減し、トレーニング時間を最大43.0%削減する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:10:38 GMT)
Towards Human-Understandable Multi-Dimensional Concept Discovery [3.2] コンセプトベースのAI(C-XAI)は、ピクセルを人間の理解可能な概念に変換することによって、従来の唾液マップの限界を克服することを目的としている。
概念理解性を高めるために,Human-Understandable Multi-dimensional Concept Discovery (HU-MCD)を提案する。
HU-MCDが既存のC-XAI法よりも正確で信頼性の高い説明を提供することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:45:52 GMT)
Distribution and Purification of Entanglement States in Quantum Networks [3.2] 量子ネットワークのノード間で高忠実な絡み合った状態を分散する問題を考察する。
本稿では,高忠実度EP分布問題に対する最適解のアルゴリズムを提案する。
我々は,量子ネットワークシミュレータであるNetSquid上でのシミュレーションによる手法の評価を行った。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:08:54 GMT)
Large deviations of density fluctuations in the boundary driven Quantum Symmetric Simple Inclusion Process [3.2] 量子対称性簡易包摂プロセスは、最近傍のホッピングを持つボゾン粒子の1次元系を記述する。
パラドックス的には、2点関数の行列のダイナミクスと全てのゆらぎが一致していることが示される。
我々はQSSIPにおける密度変動の大きな偏差関数を正確に導出し、その結果、量子定式化を利用して古典的包摂過程(SSIP)において導出する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:12:11 GMT)
IRGS: Inter-Reflective Gaussian Splatting with 2D Gaussian Ray Tracing [3.1] 逆レンダリングのための反射型ガウススプラッティング(IRGS)を導入する。
本研究では, 簡易化を伴わず, 入射放射率を計算し, フルレンダリング式を適用した。
さらに、最適化されたシーンをリライトする際、入射光の間接放射率を問い合わせる新しい手法を導入する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:38:01 GMT)
Using deep neural networks to detect non-analytically defined expert event labels in canoe sprint force sensor signals [3.1] 本稿では、パドルストロークイベントを自動的に予測する能力の観点から、畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)について検討する。
以上の結果から,双方向ゲート再帰単位(BGRU)に基づくRNNがパドルストローク検出に最も適したモデルであることが判明した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:59:34 GMT)
Entanglement Witnesses Mediated Via Axion-Like Particles [3.1] 絡み合いは単に量子的性質であり、卓上実験において標準模型を超えて物理学をテストするのに非常に役立つ。
我々は、近い将来の絡み合い駆動実験において、どのパラメータを探索できるかを示すために、デコヒーレンス率とともに結合を制限します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:00:03 GMT)
Geometric Preference Elicitation for Minimax Regret Optimization in Uncertainty Matroids [3.1] 本稿では,不確実なマトロイド最適化のための効率的な選好抽出フレームワークを提案する。
このアプローチの中核的なイノベーションは、ユーザの好みを体系的に引き出す能力にあります。
本手法は,数ラウンドで後悔を減らし,正確な最適化を実現することを目的としている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:35:34 GMT)
Exploring and Enhancing Placement of IDS in RPL: A Federated Learning-based Approach [3.1] 本研究は, 有効性, コスト, プライバシ, セキュリティなど, 様々な基準において, 中央および分散配置を考慮した3つの侵入検知アーキテクチャを評価することを目的とする。
この結果から,攻撃者の位置と攻撃者へのIDSの近接が検出結果に与える影響が示唆された。
本研究では、RPLネットワーク内の侵入検知を改善するために、FL(Federated Learning)の使用について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:15:26 GMT)
Efficient Self-Supervised Adaptation for Medical Image Analysis [3.0] 自己監督適応(SSA)は、基礎モデルの医療領域への移行を改善するが、計算的に禁止されている。
本研究では,パラメータ効率のよい微調整手法をSSAに適用した,効率的な自己教師付き適応(ESSA)を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:48:42 GMT)
Near-optimal Active Reconstruction [3.0] アクティブオブジェクト再構成の文脈において,Next Best View(NBV)問題に対するアルゴリズムを設計する。
我々はアルゴリズムの累積的後悔のために線形境界を厳格に導き、ほぼ最適性を保証する。
シミュレーションフレームワークにおいて,アルゴリズムの性能を実証的に評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:17:53 GMT)
AIM2PC: Aerial Image to 3D Building Point Cloud Reconstruction [3.0] 最近の手法は主に空中画像からの屋上に焦点を当てており、しばしば重要な幾何学的詳細を見下ろしている。
建物全体のための完全な3Dポイントクラウドを含むデータセットの欠如と、航空画像の信頼性の高いカメラポーズ情報を取得するという課題がある。
本稿では,全3次元点群決定カメラのポーズを含む,我々の生成したデータセットを利用する新しい手法であるAIM2PCを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:34:07 GMT)
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [3.0] マルチモーダル微調整により,OoDDの性能が向上することを示す。
本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:00:21 GMT)
Severing Spurious Correlations with Data Pruning [2.9] 深層ニューラルネットワークは、トレーニングされているデータに現れる刺激的な相関を学習し、依存することが示されている。
このような相関関係は、これらの相関関係がもはや保たない実世界において、これらのネットワークが機能不全を引き起こす可能性がある。
我々はこれらのサンプルを含むトレーニングデータの小さなサブセットを識別し、プーンする新しいデータプルーニング手法を開発した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:57:32 GMT)
Understanding the Impact of Domain Term Explanation on Duplicate Bug Report Detection [2.9] 重複バグレポートはバグトラッキングシステム(例えばBugzilla)の全レポートの42%を占める。
伝統的な技法は、しばしばテキストに類似した複製を検出することに重点を置いている。
オープンソースプロジェクトのバグレポートの約78%は非常に短い(例:100語未満)。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:09:37 GMT)
A Multilevel Framework for Partitioning Quantum Circuits [2.9] 本稿では、量子回路分割のための既存の構成を定式化し、拡張する。
複数レベルの粒度でハイパーグラフや分割を粗くする多層手法について検討する。
各種回路において,次の最良動作法に比べて平均35%の改善を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:13:55 GMT)
What Constitutes a Less Discriminatory Algorithm? [2.8] 形式的なLDA定義は、保持データがない場合に予測モデルを評価し、比較しようとすると、根本的な問題に直面します。
当社は、企業と原告の両方が、社会的目標に合う代替モデルを検索できる枠組みを提唱した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:25:45 GMT)
Entropy annealing for policy mirror descent in continuous time and space [2.8] 本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。
本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:37:48 GMT)
Fourier State Tomography of Polarization-Encoded Qubits [2.8] 量子状態トモグラフィーは、量子システムのキャラクタリゼーションと検証のための中心的な技術である。
標準トモグラフィーは低次元システムでは広く用いられているが、大規模システムでは、量子ビット数による実験的な複雑さの指数的スケーリングにより実用的ではない。
ここでは、偏光符号化されたフォトニック状態に対するフーリエ変換量子状態トモグラフィーの実験的実現について述べる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:21:37 GMT)
Anchor-based oversampling for imbalanced tabular data via contrastive and adversarial learning [2.7] 不均衡データは、一方のクラス(マイノリティ)が他方(マイノリティ)よりも多く処理された周波数の分布を表す。
不均衡学習では、分類アルゴリズムは通常、多数派を正確に分類する傾向があり、結果として人工的に高い精度が得られる。
本研究では,不均衡学習課題に取り組むために,境界アンカーサンプルに基づくフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:25:21 GMT)
PNN: A Novel Progressive Neural Network for Fault Classification in Rotating Machinery under Small Dataset Constraint [2.7] 本研究では,新しいプログレッシブニューラルネットワークアーキテクチャ(PNN)を活用した統合フレームワークを提案する。
PNNは、以前見積もっていた全ての特徴の助けを借りて、上位の固定サイズの精細な特徴を逐次推定し、特徴セットに付加する。
このフレームワークの有効性は、オープンソースデータセット6つ、社内障害シミュレータ1つ、実世界の産業データセット1つを含む8つのデータセットで検証されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:12:23 GMT)
Dense Retrieval for Low Resource Languages -- the Case of Amharic Language [2.7] 本報告では,アムハラ語で高密度レトリバーを用いた場合,いくつかの問題点と結果について報告する。
アディスアベバ大学によるアムハラ情報検索への取り組みと課題は、プレゼンテーション中に展開される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:26:40 GMT)
Optimal Approximation of Zonoids and Uniform Approximation by Shallow Neural Networks [2.7] 以下の2つの問題について検討する。
1つ目は、$mathbbRd+1$の任意のソノイドがハウスドルフ距離で$n$の線分で近似できる誤差を決定することである。
2つ目は、変動空間上の浅いReLU$k$ニューラルネットワークの均一ノルムにおける最適近似率を決定することである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:08:55 GMT)
Improving RAG for Personalization with Author Features and Contrastive Examples [2.7] 検索強化世代(RAG)によるパーソナライゼーションは、しばしば著者の細かい特徴を捉えるのに失敗する。
コントラスト例を紹介する: 他の著者の文書は、LLMが著者のスタイルを他と比較してユニークなものにしているかを特定するのに役立ちます。
以上の結果から,RAGと相補的なコントラスト例を含む新たな研究領域を開拓しつつ,パーソナライゼーション向上のための細粒度機能の価値が示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:41:22 GMT)
A Deep Learning Model for Coronary Artery Segmentation and Quantitative Stenosis Detection in Angiographic Images [2.7] 血管造影画像における冠状動脈の自動分画のための新しい深層学習法を提案する。
このモデルは、MedSAMとVM-UNetアーキテクチャを組み合わせて高性能な結果を得る。
狭窄検出アルゴリズムは真正率(TPR)が0.5867、正の予測値(PPV)が0.5911に達した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:17:05 GMT)
How to Capture and Study Conversations Between Research Participants and ChatGPT: GPT for Researchers (g4r.org) [2.7] GPT for researchers(G4R)は、研究者が簡単にGPTインターフェースを作成・統合できる無料ウェブサイトである。
g4r.orgでは、研究参加者がGPT(ChatGPTなど)と対話できるようにしている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:10:12 GMT)
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance [2.6] マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。
提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。
このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:53:08 GMT)
Universally applicable and tunable graph-based coarse-graining for Machine learning force fields [2.6] 本報告では, トランスファー可能な DL ベースの CG 力場アプローチを, 幅広いバイオシステムに対して提案する。
我々のCGアルゴリズムは、ハードコードされた規則に頼らず、最小の統計的雑音に最適化された粗粒度のシステムを出力するように調整されている。
我々の力場モデルは、MACEアーキテクチャに基づく最初のCG変種であり、カスタムデータセットで訓練されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:55:53 GMT)
Analyzing Islamophobic Discourse Using Semi-Coded Terms and LLMs [2.5] 本稿では,過激主義の社会プラットフォームに浮かぶイスラム教の専門用語(ムズラト,ピスラム,泥スリム,モハメダン,ムジー)を大規模に分析する。
Google Perspective APIを使えば、他の種類のヘイトスピーチに比べて、イスラム主義的なテキストの方が有害であることもわかりました。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:41:24 GMT)
Robust Lane Detection with Wavelet-Enhanced Context Modeling and Adaptive Sampling [2.5] 車線検出は、自動運転と運転支援システムにとって重要である。
本稿では,これらの課題に対処するため,ウェーブレット強化機能ピラミッドネットワークを提案する。
CULaneとTuSimpleの実験は、我々のアプローチが挑戦的なシナリオでベースラインを著しく上回っていることを示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:49:47 GMT)
TrackRAD2025 challenge dataset: Real-time tumor tracking for MRI-guided radiotherapy [2.5] このデータセットは、6つのセンターから585人の患者に2D cine MRIの矢状画像から作成されている。
より正確な運動管理と適応的な治療戦略を可能にすることにより、このデータセットは放射線治療の分野を著しく前進させる可能性がある。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:14:42 GMT)
RouTEE: A Secure Payment Network Routing Hub using Trusted Execution Environments [2.3] RouTEEはセキュアな支払いルーティングハブであり、ハブの預金なしで完全に実現可能である。
既存の決済ネットワークとは異なり、Routeeは高いバランスの流動性を提供する。
支払いの詳細は、信頼できる実行環境を活用することでホストから隠蔽される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:45:36 GMT)
Enhancing Recommender Systems Using Textual Embeddings from Pre-trained Language Models [2.3] 本稿では,事前学習した言語モデルからのテキスト埋め込みを用いたレコメンデータシステムの強化について検討する。
本実験は,提案手法が推奨精度と妥当性を著しく向上し,よりパーソナライズされ,コンテキスト対応のレコメンデーションが実現されることを実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:03:12 GMT)
Embedding computational neurorehabilitation in clinical practice using a modular intelligent health system [2.3] 神経リハビリテーションは、神経疾患患者の機能と自立を回復することを目的としている。
現在の神経リハビリテーションの実践は、デジタル化の低レベルとデータ相互運用性の低さによって制限されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:40:17 GMT)
CoRLD: Contrastive Representation Learning Of Deformable Shapes In Images [2.3] 変形空間における変形可能な形状のコントラスト表現学習(CoRLD)を提案する。
実脳MRI(Real Brain MRI)やCT(Computed Tomography)スキャンから得られた副腎形状など,さまざまなデータセットを用いてCoRLDを検証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:43:07 GMT)
Tensor-Network Study of the Roughening Transition in (2 + 1)D lattice gauge theories [2.3] 2+1)D格子ゲージ理論の中で、粗い遷移はフロッピー弦励起を持つ弱閉じ込めされた状態と固い弦励起を持つ強閉じ込めされた状態の間に生じる。
無限密度行列再正規化群アルゴリズムを用いて、制限弦の性質を定量的に特徴づける。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:00:04 GMT)
GI-SLAM: Gaussian-Inertial SLAM [2.2] 3D Gaussian Splatting(3DGS)は、高密度局所化マッピング(SLAM)のための幾何学と外観の強力な表現として登場した。
GI-SLAMは,IMU強化カメラトラッキングモジュールと現実的な3Dガウスベース地図表現からなるガウス慣性SLAMシステムである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:45:40 GMT)
The Files are in the Computer: Copyright, Memorization, and Generative AI [2.1] ニューヨーク・タイムズのOpenAIとマイクロソフトに対する著作権訴訟は、OpenAIのGPTモデルがNYTの記事を「記憶している」と主張している。
これらの議論は「記憶」の性質に関する曖昧さによって曇っている。
我々は、記憶の正確な定義を提供するために、技術的な文献を描きます。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:58:54 GMT)
Zero-Shot Low Light Image Enhancement with Diffusion Prior [2.1] 低照度画像強調(LLIE)のための「フリーランチ」ソリューション
我々は、事前訓練されたテキスト・画像の拡散を利用して、大量の自然画像の収集とモデル自体に存在する特徴を学習し、推論を導出する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:01:58 GMT)
Risk-Based Thresholding for Reliable Anomaly Detection in Concentrated Solar Power Plants [2.0] 高温のソーラーレシーバーは、凍結、変形、腐食といった深刻な運転上のリスクに直面している。
太陽光受信機に搭載されたカメラは、日中1分から5分にわたる不規則な間隔で赤外線画像を記録する。
異常画像は異常スコアをしきい値にすることで検出でき、しきい値を選択してF1スコアなどのメトリクスを最適化する。
本研究は、選択されたリスク関数に対して有限サンプルカバレッジを保証することにより、より信頼性の高い決定しきい値を生成するためのフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:02:20 GMT)
HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications [2.0] HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:49:55 GMT)
ELM: Ensemble of Language Models for Predicting Tumor Group from Pathology Reports [2.0] 人口ベースがん登録所(PBCR)は、非構造的病理報告から手動でデータを抽出する際、重大なボトルネックに直面している。
我々は,小言語モデル (SLM) と大言語モデル (LLM) の両方を活用する,新しいアンサンブルベースのアプローチであるEMMを紹介する。
ELMは0.94の平均精度とリコールを達成し、シングルモデルとアンサンブルを伴わないアプローチより優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:21:53 GMT)
strideSEA: A STRIDE-centric Security Evaluation Approach [2.0] strideSEAはSTRIDEを中央分類体系として統合し、脅威モデリング、攻撃シナリオ分析、リスク分析、対策レコメンデーションのセキュリティ活動に統合する。
strideSEAの応用は、実世界のオンライン免疫システムケーススタディで実証されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:00:17 GMT)
Survival Analysis with Machine Learning for Predicting Li-ion Battery Remaining Useful Life [2.0] 本稿では,リチウムイオン電池のRULを予測するために,ディープラーニングモデルと組み合わせた生存分析に基づくフレームワークを提案する。
これらのモデルは、生の時系列バッテリーデータを、電圧、電流、内部抵抗などの重要な劣化指標を含む生存データに変換する。
我々のモデルは10倍のクロスバリデーションを用いてテストされ、一般化可能性を確保し、オーバーフィッティングを最小限に抑える。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:57:18 GMT)
Fine-tuning machine-learned particle-flow reconstruction for new detector geometries in future colliders [2.0] 本研究では,高エネルギー粒子衝突装置における粒子流再構成を訓練した機械学習アルゴリズムにおいて,伝達学習能力を実証する。
我々の知る限り、これは粒子-流れ再構成のための完全なクロス・ディテクター・トランスファー学習研究としては初めてのものである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:21:04 GMT)
Towards Responsible AI Music: an Investigation of Trustworthy Features for Creative Systems [2.0] 創造的なAIは、創造的な芸術を根本的に変える。
この技術はまた、倫理的、社会的、法的懸念を提起する。
中でも重要なのは、人間の創造性の潜在的な逸脱、膨大なトレーニングデータセットに起因する著作権侵害、透明性の欠如、説明可能性、公正性のメカニズムである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:54:47 GMT)
Forecasting Labor Demand: Predicting JOLT Job Openings using Deep Learning Model [2.0] 本論文は,米国における雇用創出と労働ターンオーバー調査データの予測における長期記憶モデルの有効性について考察する。
LSTMモデルは、ARIMA、SARIMA、Holt-Wintersなど、従来の自己回帰アプローチよりも優れていることが示唆されている。
これらの結果は、経済データにおける複雑な時間的依存関係を捉え、データ駆動型労働市場戦略の開発において政策立案者や利害関係者に貴重な洞察を提供するためのディープラーニング技術の可能性を浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:19:33 GMT)
Quantum Computing for Automotive Applications [1.9] この章では、自動車のバリューチェーンにおける効率性、正確性、スケーラビリティを高めるために、最先端の量子アルゴリズムを調査します。
我々は, 短期および耐故障性アルゴリズムにおける鍵となる課題と, 産業応用におけるその実践的利用について論じる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:46:12 GMT)
Learning a Class of Mixed Linear Regressions: Global Convergence under General Data Conditions [1.9] 線形回帰モデル(MLR)は線形回帰モデル(英語版)の混合を利用して非線形関係における理論的および実践的重要性から注目されている。
このようなシステムの学習問題に多大な努力が注がれているが、既存のほとんどの調査では、厳密な独立性と同一に分散された(d.d.)あるいは分散PE条件が課されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:57:39 GMT)
Visualizing Quantum States: A Pilot Study on Problem Solving in Quantum Information Science Education [1.9] 本稿では,課題解決時の生徒のパフォーマンスと認知負荷を評価するためのテスト項目と完全な方法論を提案する。
これは、仮説を導き、より大規模な、より具体的な研究を導くことを目的とした、膨大な疑問を伴うパイロット調査である。
特に興味深いのは、アダマール門、CNOT門、マルチビットシステムの絡み合いのさらなる調査である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:46:05 GMT)
What is Business Process Automation Anyway? [1.8] このタイプの自動化は一般的にビジネスプロセス自動化と呼ばれ、多くの側面がある。
ビジネスプロセス自動化ソリューションの18の主要なベンダーについて、構造化された市場分析を行います。
どのタイプの自動化があり、どの側面が将来有望な方向を示すかを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:21:07 GMT)
Locating Rydberg Decay Error in SWAP-LRU [1.8] Rydbergによるリークは、マルチキュービットゲートの実装中に2キュービットのエラー連鎖を誘導する。
SWAP-LRUを用いてレイドバーグの減衰誤差に対処するハードウェア効率のよい手法を提案する。
本研究は, 位置誤差に関する新たな知見を提供し, 中性原子配列を用いた耐故障性量子計算を実現するための資源効率の高い戦略を開拓するものである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:27:11 GMT)
GranQ: Granular Zero-Shot Quantization with Unified Layer-Channel Awareness [1.8] GranQは、層チャネル認識を利用して量子化エラーを最小限に抑える新しいZSQアプローチである。
GranQは、量子化学習を用いた最先端のZSQ手法と比較して、優れた性能を実現している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 04:44:21 GMT)
The (Un)suitability of Passwords and Password Managers in Virtual Reality [1.8] パスワードマネージャ(PM)は、セキュアなVR認証のための潜在的なソリューションである。
認知ウォークスルー91例から, PMはユーザビリティを向上するが, プライムタイムにはまだ準備が整っていないことが明らかとなった。
アプリ間オートフィルのような重要な機能は欠落しており、ユーザーエクスペリエンスはより良いソリューションの必要性を強調している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:02:11 GMT)
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7] 既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。
外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。
データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:12:43 GMT)
Random quantum Ising model with three-spin couplings [1.7] マルチスピン相互作用を持つランダム横場イジングスピン鎖の臨界特性について検討する。
3スピン結合を持つモデルに対し、臨界点を計算し、位相遷移が無限乱数固定点によって制御されることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:59:09 GMT)
MODIS: Multi-Omics Data Integration for Small and Unpaired Datasets [1.5] MODISは、小または未成熟のデータセットのためのマルチオミクスデータ統合の略である。
私たちは、モダリティの正確なアライメントにどの程度の監督が必要かを調査するために、制御された実験を構築します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:33:11 GMT)
Truncated Kernel Stochastic Gradient Descent on Spheres [1.5] 球面高調波の構造に着想を得て,T-カーネルSGDアルゴリズムを提案する。
TカーネルSGDは、球面データフィッティングのための最小二乗損失関数を有する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:20:40 GMT)
Toward a method for LLM-enabled Indoor Navigation [1.4] 屋内地図画像から自然にコンテキストを意識したナビゲーション命令を生成するためのLarge Language Model(LLM)の可能性を探る。
以上の結果から,パーソナライズされた屋内ナビゲーションを支援するLLMが,平均50.54%,最大77.78%の正答率を持つ可能性が示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:42:16 GMT)
Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects [1.4] 自己クロース拡散誘導(Self-Cross Diffusion Guidance)は、クロスアテンションマップとアグリゲートされた自己アテンションマップの重複を罰する。
各被験者に対して、より高い横断的な値を持つパッチの自己注意マップを集約する。
提案手法は,Unetベースの拡散モデルとTransformerベースの拡散モデルの両方の性能を向上させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:58:03 GMT)
Analytical Modeling of Real-World Photonic Quantum Teleportation [1.4] 我々は,時間ビン量子ビットを用いた実時間光量子テレポーテーション実験のための解析モデルを開発した。
我々の表現は、Valivarthiらによって報告された香港・オ・マンデル干渉の可視性とテレポーテーションの信条に一致する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:11:19 GMT)
Out-of-distribution evaluations of channel agnostic masked autoencoders in fluorescence microscopy [1.4] 分布シフトの異なる源の影響は、伝達学習に基づくモデルの典型的な評価にまとめられる。
JUMP-CPデータセットを用いて分布シフト源を分離する評価手法を提案する。
次に、チャネルに依存しないマスキングオートエンコーダ $mathbfCampfire$ を、すべてのチャネルの共有デコーダを介して、多くの異なる蛍光マーカーを含むデータセットに効果的にスケールする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:07:58 GMT)
Low-overhead magic state distillation with color codes [1.4] 非クリフォードゲートのフォールトトレラント実装は、普遍的なフォールトトレラント量子コンピューティングを実現する上で大きな課題である。
本研究では,15-to-1蒸留回路と格子手術に基づく2種類の蒸留方式を提案する。
与えられた目標不確実性に到達するためには、我々のスキームは、カラーコードに対する以前の最高のマジック状態蒸留スキームよりも、およそ2桁少ないリソースを必要とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:38:57 GMT)
Entanglement swapping systems toward a quantum internet [1.3] 電気通信波長が1536.4nmで87%の時間ビン量子ビット間の条件エンタングルメントスワップを実証した。
我々のシステムは、モジュール式、オフザシェルフ、ファイバカップリング、電気光学変調器などの電気制御部品を利用して、展開可能である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:18:02 GMT)
Characterizing User Behavior: The Interplay Between Mobility Patterns and Mobile Traffic [1.3] 本稿では,ユーザレベルでの交通行動と移動行動の依存性を探求する新しいアプローチを提案する。
チリのいくつかの州で1,337,719人の1週間のXDRデータセットを用いて、我々のアプローチを検証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:19:27 GMT)
Knowledge Transfer from LLMs to Provenance Analysis: A Semantic-Augmented Method for APT Detection [1.3] 本稿では,大規模言語モデル (LLM) をプロビタンスに基づく脅威検出に活用するための新しい戦略を提案する。
LLMは、証明データの解釈、システムコールの知識、ソフトウェアアイデンティティ、アプリケーション実行コンテキストの高レベルな理解など、さらなる詳細を提供する。
本評価では,教師付き脅威検出の精度は99.0%であり,半教師付き異常検出の精度は96.9%である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:51:09 GMT)
Adaptive Machine Learning for Resource-Constrained Environments [1.2] この研究は、時間とともに動的に利用できることによる、小さなゲートウェイでのオフロードの課題に取り組みます。
ゲートウェイの可用性を予測するために,オンラインおよび継続的機械学習技術を用いたCPU利用メトリクスを活用するアプローチを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:52:26 GMT)
HingeRLC-GAN: Combating Mode Collapse with Hinge Loss and RLC Regularization [1.2] RLC正規化とヒンジ損失関数を組み合わせた新しい手法であるHingeRLC-GANを導入する。
FIDスコアは18で、KIDスコアは0.001であり、トレーニング安定性と多様性の増大を効果的にバランスさせることで既存の手法よりも優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:00:28 GMT)
Data Traceability for Privacy Alignment [1.2] 個人とサードパーティ間の個人データ共有に依存するサービスのエコシステムが成長する中で、新たなプライバシアプローチを提供しています。
我々は,不正に行動する可能性のある敵からのリスクに対処する隠蔽責任の概念を導入するが,その一方で,潜在的な識別と法的結果に直面している。
我々は、サードパーティのデータ共有エコシステムにおいて、トレース可能で説明可能なコンシューマ制御を提供するために設計されたOTraceプロトコルを提示する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:48:39 GMT)
Building Blocks for Robust and Effective Semi-Supervised Real-World Object Detection [1.2] 擬似ラベルに基づく半教師付きオブジェクト検出(SSOD)は、大規模ラベル付きデータセットへの依存を著しく低減する。
しかし、SSODの現実世界の応用は、クラス不均衡、ラベルノイズ、ラベルエラーなど、しばしば重大な課題に直面している。
実世界の条件下でのSSODの詳細な分析を行い, ラベルの品質と量とのトレードオフと, 準最適擬似ラベル化の原因を明らかにする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:15:24 GMT)
Local Interference: Removing Interference Bias in Semi-Parametric Causal Models [1.2] 干渉バイアスは、現実世界の設定における因果関係を識別する主要な障害である。
局所的干渉を伴う因果モデルの新たな定義を開発する。
我々は, 正平均因果効果がある種の半パラメトリックモデルで同定可能であることを証明した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:06:05 GMT)
Identifying and Characterising Higher Order Interactions in Mobility Networks Using Hypergraphs [1.1] 本研究では,時間的観測窓を利用したグループ間相互作用抽出モデルであるコビジュエーションハイパーグラフを提案する。
パターンマイニングを頻繁に行うことで,異なる空間的・時間的スケールにわたる動的移動挙動を捉えたハイパーグラフを構築した。
我々のハイパーグラフに基づくモビリティ分析フレームワークは,様々な分野に適用可能なツールとして有用であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:29:06 GMT)
Masks and Mimicry: Strategic Obfuscation and Impersonation Attacks on Authorship Verification [1.0] 著者モデル(特に著者検証モデル)の強力なLSM攻撃に対する対角的堅牢性を評価する。
どちらの攻撃も、原文の意味を保ちながら著者の執筆スタイルを隠蔽または模倣することが目的である。
難読化攻撃と偽装攻撃の両方で最大92%と78%の攻撃成功率を達成した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:36:22 GMT)
Verbal Process Supervision Elicits Better Coding Agents [1.0] この研究は、言語プロセス監視(VPS)によって強化されたコード理解・推論エージェントであるCURAを導入している。
CURAはBigCodeBenchのような挑戦的なベンチマークでベースラインモデルよりも3.65%改善されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:48:59 GMT)
Discriminative protein sequence modelling with Latent Space Diffusion [0.9] 本稿では, タンパク質配列表現学習の枠組みを考察し, 多様体学習と分布モデリングの課題を分解する。
本稿では,タンパク質配列自動エンコーダと遅延空間で動作する縮退拡散モデルを組み合わせた潜時空間拡散アーキテクチャを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:03:57 GMT)
Food Recommendation With Balancing Comfort and Curiosity [0.8] 本研究では,旅行先の利用者に未知の食品の快適さと好奇心を推定するための新しい手法を提案する。
また,味覚と食材による快適さと好奇心のバランスを測るランキング手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:32:37 GMT)
IID-Based QPP-RNG: A Random Number Generator Utilizing Random Permutation Sorting Driven by System Jitter [0.8] 本研究では,一様,独立,同一分布(IID)のランダム性を実現する暗号乱数生成器を提案する。
システムジッタを用いて、短命なQPPパッドを生成し、置換数から直接8ビット出力を導出し、後処理の必要性をなくす。
IIDベースのQPP-RNGは1バイト当たり7.18ビットのエントロピーを達成し、ID QuantiqueのQRNG (7.157042ビット/バイト)を抜いた。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:52:46 GMT)
Fault-tolerant Quantum Error Correction Using a Linear Array of Emitters [0.8] 線形エミッタアレイと遅延線からなる耐故障性量子誤り訂正アーキテクチャを提案する。
遅延線誤差の影響について検討する:$n_e$が順序ユニティの小さな定数である場合と,$n_e$が符号距離とともにスケールする場合である。
これらの研究は, 最先端遅延線を用いたマルチエミッタアーキテクチャを用いて, 誤りの抑制を実証できることを示唆している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:13:18 GMT)
An Identity and Interaction Based Network Forensic Analysis [0.8] 本稿では,ユーザを特定し,ネットワークベースのアプリケーションの利用方法を理解する新しいNFATアプローチを構築するために設計された実験について述べる。
27人のユーザーを対象にした実験では、平均93.3%の正正の識別率(TPIR)が得られた。
Skype、Wikipedia、Hotmailは、非常に高いレベルの認識性能を達成した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:52:23 GMT)
A New Stochastic Approximation Method for Gradient-based Simulated Parameter Estimation [0.8] 本稿では,マルチ時間スケール近似アルゴリズムを用いた勾配に基づくシミュレーションパラメータ推定フレームワークを提案する。
提案手法は,最大推定問題と後続密度推定問題の両方で生じる比バイアスを効果的に解決する。
我々の研究はGSPEフレームワークを拡張し、マルコフモデルや変分推論に基づく問題のような複雑なモデルを扱う。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:54:50 GMT)
A Survey of Large Language Model Agents for Question Answering [0.7] 本稿では,大規模言語モデル(LLM)に基づく質問応答エージェント(QA)の開発について検討する。
従来のエージェントは、大量のデータ要件や、新しい環境への一般化の難しさなど、重大な制限に直面している。
LLMベースのエージェントは、LLMをコア推論エンジンとして活用することで、これらの課題に対処する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:39:44 GMT)
Phase transitions in a non-Hermitian Su-Schrieffer-Heeger model via Krylov spread complexity [0.6] 非エルミート的なSu-Schrieffer-Heeger (SSH) の相転移を, 想像上の化学的ポテンシャルで検討した。
この拡散は、SSHハミルトニアンの非エルミート的ボゴリューボフ真空のPT遷移を目撃する。
純粋に想像的なスペクトルに対して、クリロフ拡散忠実度は、これまで検出されていなかった動的相転移のプローブとして機能する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:56:56 GMT)
Jahn-Teller Effect for Controlling Quantum Correlations in Hexanuclear Fe$^{3+}$ Magnets [0.6] 我々は、Jann-Teller歪みによって引き起こされる交換相互作用とその対称性が錯体の量子的性質に与える影響について研究する。
この結果から,量子情報処理や分子量子ビットにも応用可能な,可変量子相関のための有望なプラットフォームとしてFe$3+_6$複合体が注目されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:02:01 GMT)
NextStop: An Improved Tracker For Panoptic LIDAR Segmentation Data [0.6] 4DパノプティカルLiDARセグメンテーションは、自律走行とロボット工学におけるシーン理解に不可欠である。
4D-PLSや4D-STOPのような現在の手法では、トラッキング・バイ・検出方式を採用している。
NextStop1トラッカーは、カルマンフィルタに基づくモーション推定、データアソシエーション管理、トラックレット状態の概念を統合している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:19:49 GMT)
Transversal Clifford and T-gate codes of short length and high distance [0.6] 我々は1つの論理量子ビットを最大31ドルまでの距離で符号化する3種類のコードを構築した。
我々の知る限り、これらはそれぞれの距離について知られている最小の直交符号である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:37:45 GMT)
Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings [0.6] 本稿では, GPT-4を, 21種類の評価評価の読み手として, 異なるプロンプト設定で検討する。
その結果, GPT-4はヒトのアノテータに近づいたり, わずかに良く機能する効果的なリーダ・アノテータであることがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:38:36 GMT)
Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.6] 本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。
我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。
デモと実験のためのオープンソース実装を提供しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:52:36 GMT)
Simulation of Fermionic circuits using Majorana Propagation [0.6] Majorana Propagationは、フェルミオン回路の古典的なシミュレーションのためのアルゴリズムフレームワークである。
観測可能なハイゼンベルクの進化を通して連続的なトランケーションを適用することで機能する。
量子化学や凝縮物質に関連するフェルミオン系をシミュレートするために用いられる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:58:38 GMT)
PALATE: Peculiar Application of the Law of Total Expectation to Enhance the Evaluation of Deep Generative Models [0.5] 深層生成モデル(DGM)は機械学習の分野でパラダイムシフトを引き起こしている。
これらのモデルに対する包括的評価は、生成したサンプルの忠実さ、多様性、新規性の間の三分法を考慮に入れている。
本稿では,既存の指標の限界に対処するDGMの評価を新たに強化したPALATEを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:06:45 GMT)
On Using Secure Aggregation in Differentially Private Federated Learning with Multiple Local Steps [0.5] フェデレーション学習(Federated Learning)とは、生データを共有せずに機械学習モデルをトレーニングする分散学習環境である。
我々は、シンプルな新しい分析によって、セキュアなアグリゲーションの使用の恩恵を受けながら、パーティが複数のローカル最適化ステップを実行できることを示します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:30:12 GMT)
Bayesian Semi-Parametric Spatial Dispersed Count Model for Precipitation Analysis [0.5] 非パラメトリック手法と、更新理論に基づく分散カウントモデルを組み合わせる方法である。
アイオワ州の肺がんと気管支がんの死亡データに適用し、環境と人口統計の要因を強調している。
この応用は、公衆衛生研究における方法論の重要性を強調するものである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:13:55 GMT)
ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP [0.5] ClinText-SPと最新の臨床エンコーダ言語モデルであるRigoBERTa Clinicalをリリースする。
本研究のコーパスは,医療雑誌の症例や共有タスクからの注釈付きコーパスなど,様々なオープンソースから慎重にキュレートされた。
RigoBERTa Clinicalは、ドメイン適応型事前トレーニングによって開発され、複数のNLPベンチマークで既存のモデルよりも大幅に優れています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:52:17 GMT)
Recursive Cartan decompositions for unitary synthesis [0.5] 再帰的カルタン分解(CD)は、量子回路をより小さな成分に分解する方法を提供する。
本稿では,CDの詳細な概要を述べるとともに,その数学的構造を解明し,アルゴリズムの有用性を実証し,大規模に数値的に実装する。
アプリケーションとして、高速フォワード可能なハミルトン時間進化を固定深度回路に効率よくコンパイルし、横フィールドXYモデルを103ドルキュービットで22秒で2時間106ドルゲートにコンパイルする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:00:00 GMT)
A Universal Circuit Set Using the $S_3$ Quantum Double [0.5] 我々は、すべての非自明な電子を生成、移動、測定するための回路を明示的に構成する。
我々は$mathcalD(S_3)$の物理自由度を、新しい量子的誤り訂正符号にエンコードする。
我々の提案は, NISQ時代の強健な普遍的位相量子計算を実現するための有望な経路を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:49:09 GMT)
Foundation Model for Whole-Heart Segmentation: Leveraging Student-Teacher Learning in Multi-Modal Medical Imaging [0.5] 心血管疾患の診断にはCTとMRIによる全肝分画が不可欠である。
既存の方法は、モダリティ固有のバイアスと、広範なラベル付きデータセットの必要性に苦慮している。
学生-教師アーキテクチャに基づく自己指導型学習フレームワークを用いて,全音節セグメンテーションのための基礎モデルを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:47:54 GMT)
Optimizing Generative AI's Accuracy and Transparency in Inductive Thematic Analysis: A Human-AI Comparison [0.5] 本研究は,GenAIの帰納的テーマ分析の透明性と正確性を強調した。
GPT-4 Turbo APIを段階的にプロンプトベースのPythonスクリプトに統合して開発された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:57:01 GMT)
Hardware-level Interfaces for Hybrid Quantum-Classical Computing Systems [0.5] ハイブリッド量子古典計算システムは、QCの本当の可能性を解き明かす上では、単純でも標準化でもない。
本研究は、効率的なハイブリッド量子古典演算を実現するハードウェアアプローチに焦点を当てる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:43:42 GMT)
Witnessing Magic with Bell inequalities [0.4] 非安定化性(英: non-stabilizerness)またはマジック(英: magic)は、量子計算の基本的なリソースである。
我々は、調整されたベルの不平等が魔法の証人として振る舞うことを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:41:37 GMT)
3D Structural Phenotype of the Optic Nerve Head at the Intersection of Glaucoma and Myopia - A Key to Improving Glaucoma Diagnosis in Myopic Populations [0.4] 緑内障、高近視、同時性高近視、緑内障患者の視神経頭の構造的表現型(ONH)を特徴付ける。
3D点雲をH、HM、G、HMGの4つのONH条件に分類するために、特殊なアンサンブルネットワークを開発した。
分類ネットワークは、H、HM、G、HMGのクラスを、独立したテストセットで平均0.92$pm$0.03のAUCで区別し、高い精度を達成した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:14:22 GMT)
A Comprehensive Review on Hashtag Recommendation: From Traditional to Deep Learning and Beyond [0.4] ハッシュタグは、基本的な分類メカニズムとして、コンテンツの可視性とユーザエンゲージメントを高める上で重要な役割を果たす。
正確で堅牢なハッシュタグレコメンデーションシステムの開発は、依然として複雑で進化中の研究課題である。
本稿では,ハッシュタグレコメンデーションシステムの体系的解析を行い,近年のいくつかの側面にわたる進歩について検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:40:36 GMT)
Autoregressive Language Models for Knowledge Base Population: A case study in the space mission domain [0.3] 知識ベース人口KBPは、組織における知識ベースを最新のものにし、維持する上で重要な役割を担っている。
大規模言語モデルがサポートするコンテキストウィンドウの増大に動機づけられ, エンド・ツー・エンド KPB のための自己回帰型言語モデルを微調整することを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:58:44 GMT)
Application of Physics-Informed Neural Networks for Solving the Inverse Advection-Diffusion Problem to Localize Pollution Sources [0.3] 本稿では,逆対流拡散問題に対する物理情報ニューラルネットワーク(PINN)の適用について検討する。
本研究は,様々な条件下での汚染物質分散動態を正確にモデル化するためのPINNの最適化に焦点をあてる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:27:34 GMT)
Image-to-Text for Medical Reports Using Adaptive Co-Attention and Triple-LSTM Module [0.3] 医療報告の生成には、一般的な大型モデルが正確に把握できないような専門的な専門知識が必要である。
本稿では、トランスフォーマーアーキテクチャとマルチLSTMネットワークを組み合わせたディープラーニングモデルであるマルチモーダルモデル、コアテンショントリプルLSTMネットワーク(CA-TriNet)を提案する。
私たちのディープラーニングモデルは、包括的能力の観点から最先端のモデルよりも優れています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:02:11 GMT)
Simulation-Driven Balancing of Competitive Game Levels with Reinforcement Learning [0.3] そこで本研究では,PCGRLフレームワーク内でタイルベースのレベルを自動的にバランスするアーキテクチャを提案する。
アーキテクチャは,(1)レベルジェネレータ,(2)バランスエージェント,(3)報酬モデリングシミュレーションの3つの部分に分けられる。
提案手法の適用性について検討し,提案手法の適用性について検討し,その性能を他の検索手法と比較し,既存のフェアネス指標をゲームバランスに適用する方法について考察する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:57:17 GMT)
Efficient Continual Adaptation of Pretrained Robotic Policy with Online Meta-Learned Adapters [0.2] 一般の自律型エージェントには継続的適応が不可欠である。
オンラインメタラーニングアダプタ(OMLA)は、以前に学習したタスクから現在の学習タスクへの知識伝達を容易にする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:55:47 GMT)
Chirp Localization via Fine-Tuned Transformer Model: A Proof-of-Concept Study [0.2] 脳波スペクトログラムのチャープ様パターンは発作ダイナミクスの鍵となるバイオマーカーである。
本研究では、視覚変換器(ViT)モデルとローランド適応(LoRA)を微調整することで、このギャップを埋める。
我々は、チャープパラメータを持つ10万のスペクトログラムを生成し、チャープローカライゼーションのための最初の大規模ベンチマークを作成した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:27:07 GMT)
LLM-Based Insight Extraction for Contact Center Analytics and Cost-Efficient Deployment [0.2] 大規模言語モデルはコンタクトセンター産業を変革し、自己サービスツールの強化、管理プロセスの合理化、エージェントの生産性の向上を図っている。
本稿では,話題モデリング,着信呼分類,トレンド検出,FAQ生成などのタスクの基盤となるコールドライバ生成を自動化するシステムについて述べる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:22:32 GMT)
Fast and Error-Correctable Quantum RAM [0.2] 量子デバイスは、従来のコンピュータと根本的に異なる方法でデータを処理できる。
多くのアルゴリズムは量子ランダムアクセスメモリ(QRAM)の助けを必要とする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:51:49 GMT)
GroundCap: A Visually Grounded Image Captioning Dataset [0.2] 本稿では,一貫したオブジェクト参照追跡とアクションオブジェクトリンクを可能にする新しいIDベースグラウンドシステムを提案する。
77本の映画から52,016枚の画像を含むデータセットであるGroundCapについて,344個の人称注釈と52,016個の字幕を自動生成する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:51:52 GMT)
Slopaganda: The interaction between propaganda and generative AI [0.2] 本稿では、意図的に、設計上、集団の意思決定能力に影響を及ぼす戦略に焦点を当てる。
この論文がもたらす現象は,スロパガンダと呼ばれる比較的新しい戦略である。
今後数年で、このような「ジェネレーティブAIスロープ」は、複数の知識関連の(目覚しい)課題をもたらすだろう。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:07:21 GMT)
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.2] 本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。
コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。
以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:46:14 GMT)
The role of antisymmetric orbitals and electron-electron interactions on the two-particle spin and valley blockade in graphene double quantum dots [0.2] 二電子二層グラフェン(BLG)二重量子ドット(DQD)におけるスピン・バレー遮断の実験的研究
2電子BLG DQDの磁気輸送測定の結果、共鳴トンネル輸送は軌道対称状態と反対称な2粒子状態の両方を伴い、豊富なレベルスペクトルを示す。
我々は、軌道分割、電子-電子相互作用の強さ、および対称と反対称の2粒子軌道状態の間の谷のg因子の差によって制限される磁場可変スピンと谷の閉塞を観察する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:44:58 GMT)
SciClaims: An End-to-End Generative System for Biomedical Claim Analysis [0.1] SciClaimsは最先端の大規模言語モデル(LLM)を利用した高度なシステムである。
科学的なクレーム分析プロセス全体をシームレスに統合します。
SciClaimsは、追加の微調整を必要とせず、クレーム抽出と検証の両方において、以前のアプローチより優れている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:31:31 GMT)
Current and quantum transport factor of fermionic system in fermionic bath [0.1] システム密度行列のマスター方程式を導出し, システムと貯水池のエネルギー交換を考慮した。
量子輸送係数は古典システムと異なり、高温ではカルノット効率に近づくが、低温では異なる。
この研究はフェルミオン系における量子輸送の理解を深め、将来の量子熱力学の研究の基礎となる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:39:12 GMT)
Artificial Intelligence Can Emulate Human Normative Judgments on Emotional Visual Scenes [0.1] 現状のマルチモーダルシステムは、標準化された画像に対して人間の感情評価をエミュレートできるかどうかを検討する。
AIの判断は、平均的な人間の評価と驚くほどよく相関している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:41:23 GMT)
From Trust to Truth: Actionable policies for the use of AI in fact-checking in Germany and Ukraine [0.1] 人工知能(AI)の台頭は、ジャーナリズム、ファクトチェック、メディア規制に対する前例のない機会と課題を提示している。
AIは偽情報と闘い、メディアの実践を強化するツールを提供しているが、その規制されていない使用と関連するリスクは明確なポリシーと協力的な努力を必要としている。
この政策論文は、偽情報に対処し、責任あるAI統合を促進することに焦点を当て、ジャーナリズムとファクトチェックにおけるAIの影響について考察する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:34:00 GMT)
EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments [0.1] 我々は,未知の環境下で行動し,学習し,戦略を立てるLLMエージェントのベンチマークを開発する。
また, LLM および LLM エージェントの新しい定量尺度であるlitmus test も提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:06:04 GMT)
Optimization under uncertainty [0.0] 最適化における最もユビキタスな問題の1つは、関数がその集合上で最小(または最大)に達する有限集合のすべての元を見つけることである。
しかし、もし$f$が不確実性に影響されたら?
1$f$以上の最小値を求める場合や、$f$が単一の結果を返すのではなく、可能な結果のセットを返す場合、あるいは、可能な結果に対する確率分布を求める場合はどうでしょう?
関数型プログラミングがこのような質問の定式化にどう役立つかを示し、最適化が2つの概念的に異なる種類の問題によって影響を受ける場合の解法を特定およびテストするためにそれを適用した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:14:52 GMT)
Are Anxiety Detection Models Generalizable? A Cross-Activity and Cross-Population Study Using Wearables [0.0] 公言のような不安を引き起こす活動は、不安障害を持つ人の不安反応を高める可能性がある。
近年の研究では、心電図(ECG)や心電図活動(EDA)などの生理学的信号を用いて、機械学習モデルを用いて、そのような状況における不安を検出することが示唆されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:43:34 GMT)
p-SWAP: A Generic Cost-Effective Quantum Boolean-Phase SWAP Gate Using Two CNOT Gates and the Bloch Sphere Approach [0.0] p は交換された量子ビットの集合に対するカスタマイズ可能な位相差であり、0 = p = $pm pi$ radians である。
p-SWAPゲートの一般性は、交換された量子ビットの集合に対して望ましいpを必要とする量子相オラクルに対して提案される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:28:33 GMT)
When is dataset cartography ineffective? Using training dynamics does not improve robustness against Adversarial SQuAD [0.0] 私はSQuADを読みやすく、曖昧で、読みにくいサブセットに分割します。
次に、これらのサブセットでトレーニングされたモデルと、同じサイズのランダムに選択されたサンプルでトレーニングされたモデルのパフォーマンスを比較します。
その結果、カルトグラフィーに基づくサブセットのトレーニングでは、SQuAD検証セットやAddSent逆数セットへの一般化は改善されないことがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:24:18 GMT)
Weight distribution of a class of $p$-ary codes [0.0] 我々は、$mathcalC_alpha,beta,beta$のコードワードの全ての重みを証明し、最大で$p+1$の非ゼロ重みを持つことを示す。
また、二重符号 $mathcalC_alpha,beta$ が球パッキングバウンドに対して最適であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:53:04 GMT)
Unsupervised Acquisition of Discrete Grammatical Categories [0.0] 本稿では,言語習得実験のための計算実験環境を用いて実施した実験について述べる。
成人言語モデルと娘言語モデルという2つのエージェントからなるマルチエージェントシステムを実装している。
本稿では, 文法カテゴリに対応する入力データにおけるパターンの統計的解析が, 個別の文法規則をいかに生み出すかを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:15:08 GMT)
Understanding Model Calibration -- A gentle introduction and visual exploration of calibration and the expected calibration error (ECE) [0.0] このブログ記事では、キャリブレーションの最もよく使われる定義を見ていきます。
次に、この尺度の欠点と、これらがどのようにキャリブレーションのさらなる概念の必要性を表面化したかを取り上げる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:38:27 GMT)
Uncloneable Encryption from Decoupling [0.0] security $widetildeOleft(tfrac1lambdaright)$ in the security parameter $lambda$。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:20:42 GMT)
Two Types of Data Privacy Controls [0.0] ユーザが自分のデータをWeb上でコントロールできなくなったと感じているのを聞くのは珍しいことではない。
この記事では、コントロールの観点から、主に見過ごされる2つのプライバシの相違について、光を当てることを目的としています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:37:57 GMT)
Twin Transition or Competing Interests? Validation of the Artificial Intelligence and Sustainability Perceptions Inventory (AISPI) [0.0] 本稿では,人工知能と持続可能性知覚インベントリ(AISPI)の開発と検証について述べる。
この13イテムは、個人がAIの進歩と環境の持続可能性の関係をどう見ているかを測定する。
本研究は,AIと持続可能性の関係において,個人がシナジーと緊張の両方を同時に認識できることを示唆する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:33:47 GMT)
Transitionless Quantum Driving of the Tomonaga-Luttinger Liquid [0.0] 友長・ラッティンガー液体中の相互作用状態を生成するための高速なSTAプロトコルを,反断熱駆動により提案する。
反断熱制御のクローズドフォーム表現を規定し,その効率性を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:58:47 GMT)
Tractable downfall of basis pursuit in structured sparse optimization [0.0] 本稿では,線形下決定方程式系における最短解を求める問題について検討する。
特に、発見不可能な非ゼロ成分を解の最も小さい特異性に対応することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:27:54 GMT)
Towards Terminology Management Automation for Arabic [0.0] 本稿ではアラビア語の用語管理を自動化するための方法と支援ツールを提案する。
このツールは、フィールド固有のテキストから、外国語のパラレルな用語マッチング用語のリストをアラビア語に抽出する。
これはアラビア語の学術書において、一貫した翻訳と用語の使用を改善するために用いられるため、重要な意味を持つ。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:35:00 GMT)
Towards Classical Software Verification using Quantum Computers [0.0] 量子コンピュータを用いた古典的プログラムの形式的検証を高速化する可能性を探る。
アウトオブバウンドやオーバーフローのような一般的なエラーの最小例は、異なるソルバでテストされ、量子デバイスで試される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:23:20 GMT)
Three Kinds of AI Ethics [0.0] 私は、AIと倫理の関係が少なくとも3つの方法で特徴づけられることを示した。
これらの3種類のAI倫理の特徴を解明し、彼らの研究課題を特徴づけ、各種類の専門知識の種類を特定します。
また、AI倫理に対する批判が、ある種類のAI倫理の観点から、異なる目標を持つ別の種類のものへと、どのようにずれているかを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:15:03 GMT)
ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain [0.0] 本稿では,ThreatCrawlと呼ばれる新しいクローラを提案する。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:14:21 GMT)
The Role of Artificial Intelligence in Enhancing Insulin Recommendations and Therapy Outcomes [0.0] インスリンデリバリーシステムは大幅に進歩し、人工知能は精度と適応性を向上させる上で重要な役割を担っている。
これらの進歩にもかかわらず、データのプライバシ、アルゴリズムの透明性、アクセシビリティといった課題に対処する必要がある。
本稿では,現在の戦略,課題,今後の方向性について概説する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:50:14 GMT)
The Quantum Technology Job Market: A Quantitative Investigation [0.0] 量子技術(QT)は、学術と産業にまたがる専門的な労働力への需要を増大させてきた。
本研究では、世界中の何千もの求職者を体系的に抽出し、分類することで、QT求職市場を定量的に分析する。
本研究は, 地域雇用分布, 学位, 技能要件, およびQT関連職種に対する需要の進展における重要な傾向を明らかにする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:41:16 GMT)
The Human-Machine Identity Blur: A Unified Framework for Cybersecurity Risk Management in 2025 [0.0] 現代の企業は、デジタルアイデンティティが前例のない急激な増加に直面している。
人間と機械のアイデンティティが交差し、権限を委譲し、新たな攻撃面を作成する。
4つの基本原則に基づく統一アイデンティティガバナンスフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:37:14 GMT)
The Born rule -- 100 years ago and today [0.0] 100年前のボルン・ルールの初期の歴史、約50年前のPOVMへの一般化、量子検出器の概念の直観的な定義からの現代的な導出を辿っている。
A. Neumaier の最近の著書 "Coherent Quantum Physics" と A. Neumaier と D. Westra の著書 "Algebraic Quantum Physics, Vol. 1" (2024) のほとんど知られていない結果に基づいている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:39:54 GMT)
Study of the EPR-type entanglement characteristics of a NDPA with time-delayed coherent feedback [0.0] 非縮退型パラメトリック発振器(NDPO)を時間遅れコヒーレントフィードバック(TDCF)を用いて非減算ポンプ状態のしきい値以下で研究する。
実測値として, 連続値のアインシュタイン-ポドルスキー-ローゼン型(EPR型)エンタングルメント(EPR型)の強度を, 出力場におけるダウンコンバートモード間の2モードスキューズスペクトルで測定した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:14:26 GMT)
Stochastic neighborhood embedding and the gradient flow of relative entropy [0.0] 次元減少は科学で広く用いられ、高次元データを低次元空間にマッピングする。
本研究では,近傍埋め込み(SNE)技術の基礎となる基本的な数学的モデルと,その一般的な変種であるt-SNEについて検討する。
目的は、これらの点を最適な方法で低次元にマッピングし、類似点がより近いようにすることである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:29:07 GMT)
Statistical Proof of Execution (SPEX) [0.0] ML/AI推論を計画とガイダンスに広く採用することにより、現実のアプリケーションはますます自動化された意思決定を取り入れている。
本研究では,自律的意思決定における検証可能なコンピューティングの必要性の増大について検討する。
我々は,既存の手法よりもはるかに高速で,コスト効率が高く,簡易なサンプリングベースプロトコルを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:13:25 GMT)
Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models [0.0] 最高性能のモデル(GPT-o1プレビュー、GPT-4o、Claude-3.5-Sonnet)はBrierスコアが0.15-0.2、AUROCが0.6だった。
新しいモデルでは性能が向上したが、すべては自信過剰な傾向を示した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:16:41 GMT)
Self-Organizing Graph Reasoning Evolves into a Critical State for Continuous Discovery Through Structural-Semantic Dynamics [0.0] エージェントグラフ推論システムは,連続的な意味的発見を持続する臨界状態に向かって自然に進化することを示す。
意味的エントロピーが構造的エントロピーよりも支配的な微妙で頑健な体制を同定する。
本研究は,工学的知能システムにおいて,長期的発見と適応のための本質的な能力を持つ実践的戦略を提供する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:30:37 GMT)
Secure Edge Computing Reference Architecture for Data-driven Structural Health Monitoring: Lessons Learned from Implementation and Benchmarking [0.0] 本稿では,データ駆動型構造健康モニタリング(SHM)に適した,スケーラブルでセキュアなエッジ計算参照アーキテクチャを提案する。
当社のソリューションでは,商用データ取得システムと,オープンソースエッジコンピューティングプラットフォームを運用する既製のハードウェアを統合して,クラウドサービスを通じてリモートで管理およびスケールする。
本研究では,2つのエッジコンピューティングハードウェアプラットフォーム上でSHMアプリケーションで一般的に使用される機械学習モデルの資源利用データを収集することにより,この枠組みを考察する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:33:25 GMT)
Scaling Laws for Emulation of Stellar Spectra [0.0] 最適な性能を達成するために、トランスフォーマーベースのスペクトルエミュレータをスケーリングするためのトレーニングガイドラインを提供する。
この結果から,最適計算資源割り当てにはバランスの取れたスケーリングが必要であることが示唆された。
本研究は、拡張されたドメイン転送機能を持つスペクトル基底モデルを開発するための基盤を確立する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:20:24 GMT)
Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection [0.0] 並列コンピューティングにおいてよく使われる「分割と征服」フレームワークを,相関に基づくクラスタリングのステップを追加して修正する。
この一見単純な修正は、広く使われている大規模R&Sプロシージャの効率的なクラスに対して最適なサンプル複雑性の低減を実現する。
ニューラルネットワーク探索のような大規模AIアプリケーションでは,本手法は優れた性能を示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:41:41 GMT)
Role of AI Innovation, Clean Energy and Digital Economy towards Net Zero Emission in the United States: An ARDL Approach [0.0] 本稿は,1990年から2022年までの米国における,AIイノベーション,GDP成長,再生可能エネルギー利用,デジタル経済,産業化がCO2排出量に与える影響について検討する。
その結果、AIの革新、再生可能エネルギー利用、デジタル経済はCO2排出量を削減し、GDPの拡大と工業化は生態系の被害を増大させる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:32:24 GMT)
Robust face recognition based on the wing loss and the $\ell_1$ regularization [0.0] Wing-Constrained sparse code model(WCSC)とその重み付きバージョン(WWCSC)を紹介する。
WWCSCは、顔画像が高い閉塞性または高い損傷を有する複雑な状況であっても、非常に高い認識率を有する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:17:41 GMT)
Robust Tube-based Control Strategy for Vision-guided Autonomous Vehicles [0.0] このアルゴリズムの目的は、タイトなターンでの高速コーナーングにおけるロバスト性を高めることである。
提案アルゴリズムはCILQR法やモデル予測制御(MPC)手法よりも車線維持に適している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:01:00 GMT)
Risk-Calibrated Affective Speech Recognition via Conformal Coverage Guarantees: A Stochastic Calibrative Framework for Emergent Uncertainty Quantification [0.0] 極端なドライバーの感情から生じる交通安全上の課題は、信頼できる感情認識システムに対する緊急の必要性を浮き彫りにする。
音声の感情認識における従来のディープラーニングアプローチは、過度に適合し、不適格な信頼推定に苦しむ。
本稿では,Mel-spectrogram 機能を利用したコンフォーマル予測(CP)とリスク制御を統合したフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:26:28 GMT)
Risk Management for Distributed Arbitrage Systems: Integrating Artificial Intelligence [0.0] 本研究では,分散仲裁システムにおけるリスク管理における人工知能の統合に関する調査と比較分析を行う。
本稿では、メモリキャッシュ、分散キャッシュ、プロキシキャッシュなど、現代のキャッシュ技術について検討し、分散化環境での性能向上に寄与する機能について述べる。
この比較研究は、遅延低減、ロードバランシング、システムのレジリエンスといった重要なパフォーマンス指標を強調し、著名なDeFi技術からさまざまなケーススタディを評価する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:15:43 GMT)
RESCQ: Realtime Scheduling for Continuous Angle Quantum Error Correction Architectures [0.0] 連続角度システムにコンパイルされたプログラムのリアルタイムスケジューラであるRESCQを提案する。
本手法は,生産率の予測に基づいて,資源のオンデマンド再分配により,生産サイクル数を積極的に最小化する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:21:14 GMT)
Quantum many-body simulations with PauliStrings.jl [0.0] We present the Julia package PauliStrings for quantum many-body Simulations。
パウリ群上の高速な演算は、パウリ弦をバイナリで符号化することで行う。
この表現は任意の幾何を容易に符号化できることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:14:59 GMT)
Quantum Memory Enhanced Multipoint Correlation Spectroscopy for Statistically Polarized NMR [0.0] スピンアンサンブルを用いたナノスケールにおける統計的偏光試料の時間的測定を可能にするため,多点相関分光法を提案する。
推定信号周波数における単一ヘルツの不確実性を実現し,ナノスケール核磁気共鳴技術の可能性を強調した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:51:43 GMT)
Quantum Arithmetic-based on Quantum Signal Processing [0.0] 本稿では、量子コンピューティングにおける量子算術について説明する別のアプローチを提案する。
組込み量子信号処理の枠組みを用いて量子算術を構築するための新しい手法を考案した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:11:13 GMT)
Quantum Advantage in Testing (Local) Convexity and Monotonicity of Function [0.0] 量子コンピュータは、与えられた関数の凸性と単調性を古典的コンピュータよりも指数関数的に効率的にテストできることが示されている。
これは、関数に関連した問題における量子コンピュータの可能性を示す別の顕著な例である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:06:12 GMT)
Partial Quantum Shadow Tomography for Structured Operators and its Experimental Demonstration using NMR [0.0] 本稿では,密度行列要素のサブセットを推定できる部分量子シャドウトモグラフィープロトコルを提案する。
広範囲の2量子状態に対する部分影推定方式を実験的に実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:10:49 GMT)
Parametric Dynamic Mode Decomposition with multi-linear interpolation for prediction of thermal fields of Al2O3-water nanofluid flows at unseen parameters [0.0] この研究では、Al$O$_3$-waterナノフローの熱場を予測するために、社内ベースのソルバを用いている。
1次元と2次元のパラメトリック空間で動作する2つのモデルの性能について検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:27:34 GMT)
Optomechanical quantum bus for donor spins in silicon [0.0] 我々は、シリコンドナースピンを光機械構造に結合させることにより、これらすべての発展をまとめることを提案する。
理論的、数値的には、これはスピン量子ビットのテレコム波長光可読化を可能にすることを示している。
また,ユニバーサルゲートセットのための2ビットゲートのゲート忠実性について検討し,今後の展開について議論する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:12:40 GMT)
On-device Federated Learning in Smartphones for Detecting Depression from Reddit Posts [0.0] ソーシャルメディアの投稿は個人の精神状態に関する貴重な情報を提供している。
本研究では,スマートフォン上での分散学習を容易にするために,フェデレートラーニング(FL)を採用した。
トレーニングプロセスを最適化するために、すべてのクライアントデバイスで共通のトークン化ツールを活用します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:38:17 GMT)
Notes on Quantum Computing for Thermal Science [0.0] 本論文は熱科学における量子コンピューティングの可能性について考察する。
実験により、最も効果的なアルゴリズムの探索と実際の量子ハードウェアの性能について言及する。
工学的な問題に対する新しいアルゴリズムの開発は、量子コンピューティングのユニークな強みを活用することを目的としている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:56:50 GMT)
Non-perturbative formulation of resonances in quantum mechanics based on exact WKB method [0.0] 量子力学における準定常状態は、正確な WKB 解析を非摂動的枠組みとして用いた。
バリア共鳴を呈する逆ローゼン電位を解析する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:50:21 GMT)
Non-Markovian dynamics of a qubit due to accelerated light in a lattice [0.0] 本研究では, 1バンド結合キャビティアレイに弱結合した量子ビットの放出について検討し, キャビティの工学的勾配により, 合成力Fにより光子が効果的に加速されることを示した。
強いFに対しては、有効なJaynes-Cummingsモデルによって記述された可逆放出が発生し、配列の広い領域のカイラル時間周期励起を引き起こす。
代わりに、F の弱値に対して、復活を伴う複素非マルコフ崩壊が現れる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:00:01 GMT)
Mechanistic Interpretability of Fine-Tuned Vision Transformers on Distorted Images: Decoding Attention Head Behavior for Transparent and Trustworthy AI [0.0] 機械的解釈可能性により、大きなAIモデルの安全性、信頼性、堅牢性が向上する。
本研究では、歪みした2次元分光画像に微調整された視覚変換器(ViT)の個々の注意ヘッドについて検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:11:24 GMT)
Mechanical Sensors for Ultraheavy Dark Matter Searches via Long-range Forces [0.0] メカニカルセンサを用いたプランクスケール周辺での暗黒物質候補探索の道を探る。
これらのダークマター粒子は、機械的センサーアレイの符号として軌道を残すことが期待されている。
統計的手法を用いて,このようなトラックを効果的に探索できることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:43:51 GMT)
Manipulation and the AI Act: Large Language Model Chatbots and the Danger of Mirrors [0.0] AIチャットボットのパーソナライズは、ユーザーとの信頼を高めることができる。
しかし、人工的な実体との密接な密接な関係の錯覚を作り出すことで、それらがより操作できるようにすることもできる。
欧州委員会は、AI法を確定し、EU議会は、ユーザーに大きな害を与えるマニピュティブで詐欺的なAIシステムを禁止している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 06:56:29 GMT)
Long-range multipartite entanglement near measurement-induced transitions [0.0] 我々は、ユニタリーと測定を含むハイブリッド量子回路に現れるマルチパーティント絡み構造について検討する。
本研究では,分散グラフに基づくグラフィカル表現を導入し,一般的な部分領域に対する真のマルチパート・エンタングルメントの進化を推測する。
我々のデータは、二部類対数ネガティビティよりも厳密に大きい三部類指数のパワー-ロー崩壊と一致している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:20:34 GMT)
Limits to Analog Reservoir Learning [0.0] アナログ貯水池コンピュータの学習能力に及ぼす雑音の影響について検討する。
情報処理能力(IPC)はノイズによる性能劣化の定量化に有用な指標であることを示す。
ノイズに晒された物理的アナログ貯水池コンピュータは、学習量の増加にのみ利用できると結論付けている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:58:02 GMT)
Leveraging VAE-Derived Latent Spaces for Enhanced Malware Detection with Machine Learning Classifiers [0.0] 本稿では,決定木,ナイーブベイズ,ライトGBM,ロジスティック回帰,ランダムフォレストという5つの機械学習分類器の性能を評価する。
異なるランダムシードで異なるトレーニングテストスプリットで実施された実験の結果、すべてのモデルがマルウェアの検出において良好に機能していることが判明した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:44:55 GMT)
Leveraging Quantum Computing for Accelerated Classical Algorithms in Power Systems Optimization [0.0] この研究は、量子コンピューティングと古典コンピューティングを活用して、ユニットコミット(UC)問題を解決する新しいハイブリッドアルゴリズムを提案する。
そこで我々は,UCのための新しいBenders-cut生成技術を導入し,カット品質の向上,高価な量子古典的ハードウェアインタラクションの低減,量子ビット要求の低減を実現した。
擬似アニーラーと実QAHの両方の結果を比較し,QAHの量子ビット要求の低減と準最適解の生成において,このアルゴリズムの有効性を実証した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:59:36 GMT)
LGI-DETR: Local-Global Interaction for UAV Object Detection [0.0] 既存のエンド・ツー・エンドのオブジェクト検出器の多くは自然のシーン用に設計されている。
それらを直接UAV画像に適用するのは理想的ではない。
UAVのためのローカル・グローバル情報対話型DETRを設計する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:32:49 GMT)
Isoenergetic model for optical downconversion and error-specific limits of the parametric approximation [0.0] 光ダウンコンバージョンでは、ポンプ振幅はモデルの固定パラメータである。
この近似は、非枯渇した非絡み合ったポンプを仮定するため、有効領域が限られている。
ダウンコンバージョン過程のシュル「オーディンガー方程式」の近似解を見つけることにより、パラメトリック式を超えて改良された解析モデルが得られる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:07:04 GMT)
Information-Seeking Decision Strategies Mitigate Risk in Dynamic, Uncertain Environments [0.0] 採餌作業における規範的報酬・情報探索戦略の性能を比較した。
彼らの行動には微妙な相違があり、結果として意味のあるパフォーマンスの違いが生じます。
本研究は,報酬損失を最小限に抑えつつリスクを軽減できる情報探索行動の適応的価値を支持する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:55:41 GMT)
Implementing Fairness in AI Classification: The Role of Explainability [0.0] AI分類における公平性の実装には、公正度測定を単に運用すること以上の作業が必要だ、と我々は主張する。
トレーニングプロセスを透過化し、フェアネス基準が実際に生み出す成果を判断し、トレードオフを評価する。
これらの説明的なステップがAIモデルを信頼できるものにする方法に関する結論を導きます。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:27:33 GMT)
Implementing An Artificial Quantum Perceptron [0.0] パーセプトロン(Perceptron)は、ニューラルネットワークの基本的な構成要素である。
研究により、単一のニューロンが知的決定を下す効果が示されている。
我々はこれらのパーセプトロンの1つの量子バージョンを開発する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 14:54:27 GMT)
Implementation of Support Vector Machines using Reaction Networks [0.0] サポートベクターマシン(SVM)はデータ分類の強力なツールであり、VC理論を利用して高次元のデータと小さなデータセットを効果的に処理する。
本稿では,SVM の重要な計算面をモデル化するために,反応ネットワークダイナミクスの定常挙動を利用して,SVM の実装のための反応ネットワークスキームを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:09:14 GMT)
GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0] 本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。
このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:33:36 GMT)
Gaussianity and Simulability of Cliffords and Matchgates [0.0] クリフォードとマッチゲートはどちらも古典的にシミュレート可能な回路の例であるが、異なる理由からシミュレートできると考えられている。
Clifford-Matchgateハイブリッド回路の研究により、既知のシミュラブル回路の集合を拡張することができる。
積状態に作用するクリフォード回路のパウリ期待値の既知のシミュラビリティは、任意の整合回路の後に作用するクリフォード回路に一般化可能であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:33:53 GMT)
From a quantum world to our classical Universe [0.0] 現代の宇宙論の理論は、宇宙の全ての構造は量子ゆらぎに由来するという考え方を呼び起こす。
これらのゆらぎに対する量子-古典的遷移を理解することは、量子理論の基礎だけでなく、観測天文学にも重要である。
私はこの移行の本質的な特徴についてレビューし、特にアレクセイ・スタロビンスキーの役割を強調します。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:57:20 GMT)
Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model [0.0] 幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:02:52 GMT)
First Computation of Entanglement Dynamics in the SYK Model on Quantum Computers [0.0] 我々は、IBMの超伝導量子コンピュータを用いて、SYKハミルトニアンの下での絡み合いエントロピー成長を初めて測定した。
我々は、スワップベースの多体干渉プロトコルの最適化版を実装し、IBMの限られた量子ビット接続による課題を軽減する。
量子マルチプログラミングによってこれらの量子回路を並列化することで、この課題に初めて取り組む。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:37:26 GMT)
Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation [0.0] KV Transformerは、合成、NLP、画像分類タスクにおいて有望な結果を示す。
これは特に、局所的な推論が必要な場合(例えば、医療スクリーニングなど)に起因している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:38:31 GMT)
Evidencing Unauthorized Training Data from AI Generated Content using Information Isotopes [0.0] 競争力を維持するために、一部の機関は必然的に、または故意に、AIトレーニングのための不正なデータを含めるかもしれない。
我々は情報同位体の概念を導入し、不透明なAIシステム内のトレーニングデータの追跡においてそれらの特性を解明する。
本研究では,不正なデータ使用の証拠を同定し,提示するための情報同位体追跡手法を提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 07:35:59 GMT)
Enhancing Symbolic Regression with Quality-Diversity and Physics-Inspired Constraints [0.0] 本稿では、遺伝的プログラミング(GP)、品質多様性(QD)アルゴリズム、次元解析(DA)エンジンを統合した高度なシンボル回帰(SR)システムQDSRを提案する。
提案手法は,Feynman-AIベンチマークを中心に,データセットからの既知の表現の正確なシンボリックリカバリに焦点を当てている。
この広く使われている117の物理方程式の集まりにおいて、QDSRは91.6$%の正確な回復率を達成し、以前のSR法を20パーセント以上上回っている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:13:49 GMT)
EVOLVE: a Value-Added Services Platform for Electric Vehicle Charging Stations [0.0] 電気自動車(EV)の充電で注目すべき課題は、バッテリーを完全に充電するのに要する時間だ。
このアイドル期間は、車載ソフトウェアアップデートのような、時間を要する、あるいはデータ集約的なサービスを提供する機会を提供する。
acronymは、セキュアなオンチャージャーユニバーサルアプリケーションをサポートする最初のEVチャージャーコンピューティングアーキテクチャである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:57:04 GMT)
EIT in V+ inverted $Ξ$ system using Rydberg state in thermal Rb atoms [0.0] 青色および赤外転移を用いたリドバーグ励起はアルカリ元素の量子計算に有利な経路である。
V+逆Xi$系におけるRydberg状態を用いた電磁誘導透過(EIT)スペクトルについて検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:40:49 GMT)
Dynamics of Insect Paraintelligence: How a Mindless Colony of Ants Meaningfully Moves a Beetle [0.0] VDR(Vector Dissipation of Randomness)と呼ばれる新しい概念が開発されている。
VDRは、複雑な多成分系がカオスから秩序へと遷移するメカニズムを記述している。
パラインテリジェンスという概念が初めて導入された。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:33:42 GMT)
Design and Implementation of an FPGA-Based Tiled Matrix Multiplication Accelerator for Transformer Self-Attention on the Xilinx KV260 SoM [0.0] トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:20:54 GMT)
Degree of simplicity of Floquet states of a periodically driven Bose-Hubbard dimer [0.0] 本研究では, 時間周期の強いボース・ハバード・ダイマーの数値計算による浮き上がり状態について検討する。
十分に大きな粒子数に対して、安定な周期平均場軌道を囲む内部の量子化不変管と半古典的に結びついた正確なN粒子フロケ状態は、マクロ的に占有された単一粒子状態、すなわちフロケ凝縮状態を表すことが示されている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:11:23 GMT)
Deep learning-based identification of precipitation clouds from all-sky camera data for observatory safety [0.0] 我々は,全天球カメラデータにおける降雨雲の識別をクラウド警告システムとして自動化するために,ディープラーニングアプローチを適用した。
我々はイラン国立天文台のオールスキーカメラ画像アーカイブを用いて、最初のトレーニングとテストセットを構築した。
トレーニングされたモデルはリアルタイム分析のためにデプロイすることができ、潜在的な脅威を迅速に識別することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:40:51 GMT)
Critical quantum metrology in a stabilized two-photon Rabi model [0.0] 2光と4光の項を持つ一般化量子ラビモデル(QRM)を導入する。
4光子項は標準の2光子 QRM よりもはるかに高い測定精度を持つことがわかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:50:41 GMT)
Correlation versus dissipation in a non-Hermitian Anderson impurity model [0.0] 非エルミート・アンダーソン不純物モデルに対する1体損失のスレーブボソン理論を開発する。
我々は、この再正規化効果に基づいて、近藤状態の散逸性量子相転移のメカニズムを明らかにする。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 05:43:01 GMT)
Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning [0.0] ビッグデータによってDeep Reinforcement Learning (DRL)のようなデータ駆動型メソッドが実現された
モデルに基づく強化学習フレームワークを導入し、Hypernetworkを使用して、異なるアクション空間を持つタスク間の環境ダイナミクスを継続的に学習する。
本手法は,第2タスクのトレーニング後の連続学習環境において,第1タスクの微調整が最小限に抑えられ,わずか5エピソード以内の迅速な収束が可能となることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 23:38:04 GMT)
Connecting Gravity and Quantum Physics: Primordial Black Holes and Accelerated Evolution of the Universe [0.0] 本研究では、重力と量子力学の基本的な関係を探求する新しい枠組みを提案する。
具体的には、宇宙論における原始ブラックホール(PBH)の基本的な役割に焦点を当てている。
実験によって発見された量子光子ボース=アインシュタイン凝縮体(英語版)の形で自己重力凝縮光の概念を通じて、この研究はPBHの量子化された重力、情報、熱力学、伝統的、その他の属性を調べる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:21:36 GMT)
Computational Thinking with Computer Vision: Developing AI Competency in an Introductory Computer Science Course [0.0] 本稿では,学生がコンピュータビジョンでコンピュータ思考を学ぶための入門的なコンピュータサイエンスコースを紹介する。
このコースは、学生にAIアプローチと社会的意味を暴露する批判的思考結果と共に、計算的思考結果を達成することを目的としている。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:49:37 GMT)
Clustering data by reordering them [0.0] 要素を別々に分析するために家族にグループ化することは、科学の多くの分野において標準的な分析手順である。
本研究では,家族同士が互いに似ており,家族以外の要素に似ていないという単純な考え方に基づく新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 18:54:00 GMT)
Characterization of a quantum bus between two driven qubits [0.0] 我々は、$sqrtimathrmSWAP$-gateを実装するために、駆動量子ビットを高調波発振器に結合する。
我々は、高調波発振器の共振周波数のシフトを検出することにより、量子ビット読み出し機構を解析する。
本研究は,実験装置における高忠実度量子ゲートの実現を導くものである。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:20:22 GMT)
Causal Links Between Anthropogenic Emissions and Air Pollution Dynamics in Delhi [0.0] デリー・ナショナル・キャピタル地域は、人為的放出と気象条件の間の複雑な相互作用により大気汚染のエピソードを経験している。
本研究では,予測モデルと因果推論手法を用いて,PM_2.5$および$O_3$濃度における人為的放出の因果関係について検討した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:25:44 GMT)
Calibration Bands for Mean Estimates within the Exponential Dispersion Family [0.0] 自動校正のためのテストは、最近になって文献でのみ検討されている。
得られたキャリブレーションバンドは、キャリブレーションと自動キャリブレーションのための様々なテストを構築することができることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:09:19 GMT)
COFO: COdeFOrces dataset for Program Classification, Recognition and Tagging [0.0] COFOは809のクラス/アウトプットからなるデータセットで、C、C++、Java、Pythonで書かれた合計369Kのソースコードを持つ。
このデータセットは、プログラム分類/プロブレム、タグ付け、プログラム特性の予測、コード理解といった機械学習ベースの問題を解決するのに有用であると考えています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 00:29:43 GMT)
Bridging the Early Science Gap with Artificial Intelligence: Evaluating Large Language Models as Tools for Early Childhood Science Education [0.0] 幼少期の科学教育は科学リテラシーの発展に不可欠である。
複雑な科学概念を年齢に合った内容に翻訳することは、教育者にとって依然として困難である。
本研究は,4つの主要なLarge Language Model (LLM) について,就学前に適した科学的説明を生成する能力について評価した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:40:02 GMT)
Bridging Emotions and Architecture: Sentiment Analysis in Modern Distributed Systems [0.0] センチメント分析は、ソーシャルメディアの監視、顧客のフィードバック評価、市場調査など、様々な分野に適用されている。
本稿では、様々なアプローチ、課題、今後の研究に集中して、感情分析が分散システムにどのように収束するかを検討する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:01:19 GMT)
Bounding fidelity in quantum feedback control: Theory and applications to Dicke state preparation [0.0] 連続的なモニタリングとフィードバック制御によって達成可能な定常平均忠実度に究極の境界を導出する。
次に, 集団減衰と分散結合を考慮した原子アンサンブルにおけるDicke状態の調製に着目する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:09:37 GMT)
Blockwise Optimization for Projective Variational Quantum Dynamics (BLOP-VQD): Algorithm and Implementation for Lattice Systems [0.0] 本稿では,予測変動量子ダイナミクスを用いたリアルタイム量子力学の効率的なシミュレーション手法を提案する。
提案手法は,一方のブロックを1回に選択的に最適化し,他方のブロックを固定し,計算オーバーヘッドを大幅に削減する。
提案手法の性能を,サイズや複雑さの異なる一連のスピン格子モデルで実証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 01:48:37 GMT)
Benchmarking Post-Hoc Unknown-Category Detection in Food Recognition [0.0] 食品認識モデルは、しばしば非流通(ID)ラベルを割り当てることで、目に見えないサンプルを誤って分類する。
この誤分類は、これらのモデルを現実世界のアプリケーションにデプロイする際の大きな課題である。
本研究は, 食品の粒度認識のための様々なポストホックアウト・オブ・ディストリビューション(OOD)検出法を実証分析する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 11:00:00 GMT)
BI-RADS prediction of mammographic masses using uncertainty information extracted from a Bayesian Deep Learning model [0.0] ベイズ深層学習モデルにより抽出された不確実性情報を用いてBI_RADSスコアを予測する。
このモデルは良性検体を75.86%の精度で識別し、すべての悪性検体をBI_RADS 5と正しく識別することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:24:58 GMT)
AutoBayes: A Compositional Framework for Generalized Variational Inference [0.0] 一般化された変分推論のための新しい構成フレームワークを提案する。
本稿では, 逆モード自動微分と同様の連鎖則を, 偏差推論に典型的なベイズ推定と損失関数が満足することを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 12:05:45 GMT)
Asymmetry Amplification by a Nonadiabatic Passage through a Critical Point [0.0] 我々は、Painleve'-2方程式のハミルトン力学を、多くの自由度を持つケースに一般化する。
この進化は最終的に、ハミルトニアンの対称性の破れパラメータがどれほど弱いとしても、高度に非対称状態をもたらす。
このことは、ほぼ同じ性質を持つ準粒子の生成における強い非対称性のポテンシャル機構を示唆している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 02:30:56 GMT)
Anomaly Detection Using Computer Vision: A Comparative Analysis of Class Distinction and Performance Metrics [0.0] 本研究は,OpenCVとディープラーニング技術を組み合わせたクラス区別と性能評価に焦点を当てた。
この制度は、権限のある人(管理者)、侵入者、非人間的存在の3つの階級を効果的に区別する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 19:36:47 GMT)
An End-to-End GSM/SMS Encrypted Approach for Smartphone Employing Advanced Encryption Standard(AES) [0.0] 携帯電話ネットワーク上でセキュアな送信を行うために,テキストメッセージを暗号化する手法を提案する。
このアプローチは、暗号化と復号化のためのプロトコルの提案に従って、AESアルゴリズムを利用する。
セキュアなテキスト暗号化を保証し、送信者の端でキーを使用して暗号化され、受信者の端で復号化されるメッセージを入力することができる。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 16:33:45 GMT)
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning [0.0] 本稿では,3次元空間ナビゲーションのための大規模言語モデル(LLM)の空間推論能力を向上する手法を提案する。
AlphaSpaceはセマンティックスベースのトークン化戦略を採用し、特定のセマンティックトークンを通じて高度情報を符号化し、主にシンボリックな合成推論データを統合する。
実験の結果、AlphaSpaceは操作サブタスクで既存のモデルよりも大幅に優れており、総精度は66.67%である。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:16:51 GMT)
Almost device-independent calibration beyond Born's rule: Bell tests for cross-talk detection [0.0] デバイスに依存しないプロトコルは、情報処理タスクに対する新しいアプローチを提供する。
私たちは、(ほぼ)デバイスに依存しない設定でオンプレミスをテストする方法を示します。
IBMの量子コンピューティングクラウドサービスでは、予測ベースの比率プロトコルを実装しています。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 17:59:58 GMT)
Achilles, Neural Network to Predict the Gold Vs US Dollar Integration with Trading Bot for Automatic Trading [0.0] アキレスはLSTM(Long Short Term Memory)ニューラルネットワークの古典的なアーキテクチャで、ゴールド対USDのコモディティを予測することができる。
テスト期間の終わりに、使用する方法論で1623.52の利益を上げました。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 20:14:03 GMT)
About testing Bell locality at colliders [0.0] 衝突子における量子トモグラフィーにより、絡み合いの量を測定し、ベルの不等式を検査することができる。
本稿では, 局所的な隠れ変数モデルの実現可能性について, 新たな角度から検討できる可能性について解説する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 10:42:29 GMT)
A relativistic continuous matrix product state study of field theories with defects [0.0] 本稿では,ライン欠陥を伴う大規模量子場理論における期待値を計算する手法を提案する。
我々は、(想像上の)時間が欠陥に垂直に実行される量子化スキームを用いる。
局所バルクおよび欠陥演算子の相関関数を,磁束欠陥を持つ$phi4$理論で計算することで,この機械の有効性を実証する。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 09:08:57 GMT)
A quantum neural network framework for scalable quantum circuit approximation of unitary matrices [0.0] 我々は,マルチキュービットユニタリゲートの量子回路近似のための量子ニューラルネットワークフレームワークを開発した。
ニューラルネットワークの層は、Standard Recursive Block Basisの特定の要素の積によって定義される。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 22:23:20 GMT)
A non-degeneracy theorem for interacting electrons in one dimension [0.0] H_N(v,w) = -Delta + sum_ineq jN w(x_i,x_j) + sum_j=1N v(x_i)$ という形のシュリンガー作用素を考える。
フェルミ統計と局所境界条件を持つ系の基底状態は非退化的であることを示す。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 08:41:37 GMT)
A Mechanistic Explanatory Strategy for XAI [0.0] 本稿では,ディープラーニングシステムの機能的構造を説明するためのメカニズム的戦略を概説する。
モデル組織を研究するためのこのような体系的なアプローチは、個々の説明可能性技術が見逃す可能性のある要素を明らかにすることを示唆している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 03:51:49 GMT)
A Matrix Quantum Kinetic Treatment of Impact Ionization in Avalanche Photodiodes [0.0] フォノンや電子からの非弾性散乱は一般に高次過程として扱われる。
アバランシェ・フォトダイオード(APD)のキャリア乗算は、強い非弾性衝撃イオン化に完全に依存している。
複数のグリーン関数の積を含む衝撃電離のための行列ベースの量子力学理論を開発した。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 21:43:21 GMT)
10 Questions to Fall in Love with ChatGPT: An Experimental Study on Interpersonal Closeness with Large Language Models (LLMs) [0.0] この研究は、個人がデートプロフィールに近づき、ロマンチックな関心を体験する方法を探る。
驚いたことに、認識されたソース(人間またはAI)は、近さやロマンチックな関心に顕著な影響を与えなかった。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 13:00:36 GMT)
(FAPP) Infinity Does Macroscopic Irreversibility From Microscopic Reversibility [0.0] 統計力学において、マクロ状態は同一のマクロ的な性質を共有するマイクロ状態の同値類として現れる。
これらの例は、無限性と等価性が顕微鏡可視性から創発的なマクロな振る舞いを導く統一的な枠組みを示している。
論文参考訳(メタデータ) (Mon, 24 Mar 2025 15:22:59 GMT)