JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.8] JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:40:42 GMT)
Building Machine Learning Challenges for Anomaly Detection in Science [94.2] 本稿では,異なる科学領域を対象とした機械学習による異常検出を目的とした3つのデータセットを提案する。
3つのデータセットを検索可能、アクセス可能、相互運用可能、再利用可能なものにするために、機械学習の課題を提起する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:05:46 GMT)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.6] 後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:18:35 GMT)
Towards Physically Plausible Video Generation via VLM Planning [88.5] 近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を明示的に組み込んだ新しい2段階画像・ビデオ生成フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:03:09 GMT)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.6] Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:31:41 GMT)
StreamChat: Chatting with Streaming Video [85.0] StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 05:25:58 GMT)
SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.8] SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計されたフレームワークである。
学習したセマンティックな概念から透かし情報を切り離すようモデルに誘導する。
各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:36:19 GMT)
Re-Aligning Language to Visual Objects with an Agentic Workflow [73.7] 言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:41:12 GMT)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7] 視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:54:36 GMT)
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4] Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:40:35 GMT)
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5] 既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:51:19 GMT)
Video Prediction Transformers without Recurrence or Convolution [65.9] 我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:41:20 GMT)
Towards Trustworthy GUI Agents: A Survey [64.6] 本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:26:00 GMT)
Language Prompt for Autonomous Driving [63.6] 我々は,3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットであるNuPromptを提案する。
nuScenesデータセットを拡張し、40,147の言語記述を構築し、それぞれが平均7.4のオブジェクトトラックレットを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスク、すなわち、言語プロンプトを用いて、ビューやフレーム間で記述されたオブジェクトの軌跡を予測する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:11:24 GMT)
Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.4] カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:24:22 GMT)
Understanding Visual Saliency of Outlier Items in Product Search [62.1] 両面のマーケットプレースでは、アイテムはユーザーの注意を競う。
最近の研究は、ランキングのアウトリーチアイテムのような、イテム間の依存関係もアイテムの露出に影響を与えることを示唆している。
リアルなオンラインショッピングシナリオにおいて,トップダウン要因がアイテムのアウトリーネスに対するユーザの認識にどのように影響するかを検討する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:22:23 GMT)
Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.1] 継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:41:55 GMT)
MoCha: Towards Movie-Grade Talking Character Synthesis [62.0] 本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:22:09 GMT)
HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.3] そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。
具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。
2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:15:36 GMT)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.8] トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:23:18 GMT)
OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.5] MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 07:22:46 GMT)
ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts [59.0] 現在の画像融合法は、現実の撮像シナリオで発生する複合劣化に対処するのに苦労している。
複合劣化を適応的に中和する制御フュージョンを提案する。
実験では、制御フュージョンは、融合品質と劣化処理においてSOTA融合法より優れている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:18:53 GMT)
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.2] o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:48:59 GMT)
Partial Transportability for Domain Generalization [56.4] 本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。
我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。
本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:06:37 GMT)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8] 大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:50:57 GMT)
From Panels to Prose: Generating Literary Narratives from Comics [55.5] 漫画からテキストベースの文芸物語を自動生成するシステムを開発した。
提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 07:18:10 GMT)
Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring [55.2] 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出することができる。
組織化されたコホート内の参加者数を見積もることができます。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:21:45 GMT)
$p$-Adic Polynomial Regression as Alternative to Neural Network for Approximating $p$-Adic Functions of Many Variables [55.2] 任意の精度で連続関数を近似できる回帰モデルを構築している。
提案モデルは、ニューラルネットワークアーキテクチャに基づく$p$-adicモデルの簡単な代替と見なすことができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:42:08 GMT)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.9] 現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:21:19 GMT)
VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.7] ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:12:21 GMT)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5] CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:03:36 GMT)
AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos [52.7] 我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:22:11 GMT)
SketchVideo: Sketch-based Video Generation and Editing [52.0] 本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。
DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。
スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:44:09 GMT)
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models [51.5] 本稿では,問合せをGNNアグリゲーションに組み込んでKG関連性を動的に評価するQAP(QA-Aware Knowledge Graph Prompting)を提案する。
実験の結果、QAPは複数のデータセットで最先端の手法よりも優れており、その有効性を強調している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:09:11 GMT)
GMapLatent: Geometric Mapping in Latent Space [51.3] エンコーダ-デコーダAIアーキテクチャに基づくドメイン間の生成モデルは、現実的な画像の生成に大きな注目を集めている。
幾何学的マッピングに基づく正準潜在空間表現を導入し、領域間潜在空間を厳密かつ正確に整列する。
グレースケールおよびカラー画像の実験は、GMapLatentの有効性、有効性および適用性を検証する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:02:36 GMT)
MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.6] 本稿では,タスクを論理的なサブタスクとサブモジュールに分解するためのMoT命令チューニングフレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:32:03 GMT)
Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.5] 本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:33:14 GMT)
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models [50.2] 極端に短いトークンの削減という新しいタスクを導入し、最小限のトークン数で広範囲なビデオシーケンスを表現することを目的としている。
空間的時間的コヒーレンスを保ちながらトークン数を動的に削減する新しいビデオ表現フレームワークであるToken Dynamicsを提案する。
実験では、トークンの数を0.07%に減らし、小さなパフォーマンス低下は1.13%に過ぎなかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:08:31 GMT)
DSPFusion: Image Fusion via Degradation and Semantic Dual-Prior Guidance [48.8] 既存の融合法は高品質な画像に向いているが、厳しい状況下で撮影された劣化画像に苦慮している。
この研究は、textbfDegradation と textbfSemantic textbfPrior による劣化画像 textbfFusion (textbfDSPFusion) のための二重誘導フレームワークを提示する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:18:50 GMT)
Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts [48.2] 本稿では,機械が直接計算し,シミュレートできる数学的記号に基づいて手続き的に定義された解析概念を紹介する。
我々は、物体の構造や機能に関する知識を物理情報表現で把握し、その知識を用いてロボット制御ポリシーを指示することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:12:43 GMT)
EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing [48.1] 本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。
実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:14:17 GMT)
Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics [46.8] 実世界のデータのリッチでマルチモーダルな性質を考えると、これは大きな制限であると言えるでしょう。
GRモデルが特に異なるモダリティに敏感であることを明らかにするとともに,有効なGRを実現する上での課題について検討する。
MGR-LF++は、異なるモダリティを表すために、対照的なモダリティアライメントと特別なトークンを利用する拡張レイトフュージョンフレームワークである。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:24:43 GMT)
NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction [46.8] 我々は,ニューラルラジアンス場を符号付き距離場を学習するための先行として採用したNeRFPriorを提案する。
われわれのNeRFは、幾何学的手がかりと色覚的手がかりの両方を提供することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:43:37 GMT)
In-silico biological discovery with large perturbation models [46.4] 本稿では,摂動,読み出し,コンテキストをアンタングル次元として表現することで摂動実験を統合するディープラーニングモデルであるLarge Perturbation Model(LPM)を提案する。
LPMは、未確認実験の摂動後のトランスクリプトームを予測することを含む、様々な生物学的発見タスクで既存の方法より優れている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:41:25 GMT)
YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction [45.8] YOLO-LLTSは、低照度環境向けに設計されたエンドツーエンドのリアルタイム信号検出アルゴリズムである。
我々は、低照度シナリオにおける不特定小物体の特徴に対処するために、HRFM-TOD(High-Resolution Feature Map for Small Object Detection)モジュールを導入する。
次に,マルチブランチ・フィーチャーインタラクション・アテンション(MFIA)モジュールを開発した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:16:14 GMT)
MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction [45.7] 単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。
モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:42:06 GMT)
A Large Scale Analysis of Gender Biases in Text-to-Image Generative Models [45.6] 本稿では,テキスト・ツー・イメージ(T2I)モデルにおける性別バイアスに関する大規模な研究について述べる。
我々は3,217のジェンダーニュートラルプロンプトのデータセットを作成し、5つの主要なT2Iモデルから1プロンプトあたり200画像を生成する。
生成した画像中の知覚された人物の性別を自動的に検出し、性別の異なる人物や複数の人物の像をフィルタリングする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:11:51 GMT)
Optical lattice quantum simulator of dynamics beyond Born-Oppenheimer [45.3] 我々は,光学格子に閉じ込められた超低温フェルミオン分子を基盤として,非断熱効果をシミュレートするプラットフォームを提案する。
我々は、電子や陽子の水素原子への散乱を研究することで、我々の提案をベンチマークする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:46:26 GMT)
A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.1] Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。
LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:15:44 GMT)
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.4] 大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。
この現象は知識集約型NLPタスクにおける精度を制限する。
近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:18:21 GMT)
Demystifying Private Transactions and Their Impact in PoW and PoS Ethereum [43.5] パブリックピアツーピア(P2P)ネットワークブロードキャストを回避するために使用される特別なトランザクションタイプであるプライベートトランザクションは、ほとんど探索されていない。
我々は15.5ヶ月のProof-of-Work(PoW)データセットで14,810,392のプライベートトランザクションと15.5ヶ月のProof-of-Stake(PoS)データセットで30,062,232のプライベートトランザクションからなる大規模データセットを分析した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:45:18 GMT)
Advancing Sentiment Analysis in Tamil-English Code-Mixed Texts: Challenges and Transformer-Based Solutions [42.9] 先進的なトランスフォーマーモデルを用いて,タミル・イングリッシュ・コード・ミックステキストにおける感情分析タスクについて検討した。
既存のデータセットとアノテーションギャップの制限について検討し、より大きく多様なコーパスの必要性を強調した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:27:41 GMT)
DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution [42.3] DiT4SRは、Real-ISRの大規模DiTモデルを模倣する先駆的な研究の1つである。
ControlNetのような低解像度(LR)画像から抽出した埋め込みを直接注入する代わりに、LR埋め込みをDiTの本来の注意機構に統合する。
LRガイダンスは、ローカル情報をキャプチャするDiTの制限された能力を補う、ストリーム間の畳み込み層を介して生成された潜水器に注入される。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:27:22 GMT)
StructVPR++: Distill Structural and Semantic Knowledge with Weighting Samples for Visual Place Recognition [42.1] StructVPR++は、構造的および意味的知識をセグメント化誘導蒸留を通じてRGBグローバル表現に組み込むフレームワークである。
私たちの重要なイノベーションは、ラベル固有の機能をグローバルな記述子から切り離すことで、イメージペア間の明確なセマンティックアライメントを可能にします。
4つのベンチマークの実験によると、StructVPR++はRecall@1.1で最先端のグローバルメソッドを5~23%上回っている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 07:53:14 GMT)
OnSiteVRU: A High-Resolution Trajectory Dataset for High-Density Vulnerable Road Users [41.6] 本研究は,交差点,道路セグメント,都市村など,様々なシナリオをカバーするOnSiteVRUデータセットを開発した。
データセットは、自動車、電動自転車、人力自転車の軌道データを提供し、約17,429の軌道を0.04秒精度で収集する。
その結果、VRU_DataはVRU密度とシーンカバレッジの点で従来のデータセットよりも優れており、VRUの行動特性をより包括的に表現できることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:44:55 GMT)
Progressive Human Motion Generation Based on Text and Few Motion Frames [41.0] Text-Frame-to-Motion (TF2M) の生成タスクは、テキストから動きを生成することを目的としており、与えられたフレームはほとんどない。
本稿では,不確実性の低いフレームから動きを段階的に生成する新しいプログレッシブモーション生成法を提案する。
我々のPMGは、既存のT2M生成方法よりも、1フレームでも大きなマージンで優れています。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:29:58 GMT)
Beyond Academic Benchmarks: Critical Analysis and Best Practices for Visual Industrial Anomaly Detection [40.2] 製造における視覚検査の自動化には,異常検出(AD)が不可欠である。
本稿では,(1)実世界のデータセットの重要性を実証し,実際の生産データを用いたベンチマークを確立すること,(2)実践的応用に有用な指標を用いて,既存のSOTA手法を公平に比較すること,(3)学術と産業のギャップを埋めるための重要な課題と新たな視点を論じることで,この分野の最近の進歩を包括的に分析すること,の3つの主要な貢献を行う。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:11:46 GMT)
CoRanking: Collaborative Ranking with Small and Large Ranking Agents [40.0] 大規模言語モデル(LLM)は、優れたリストワイドランキング性能を示している。
CoRankingは、小規模と大規模なランキングモデルを組み合わせて、効率的かつ効果的なランク付けを行う。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:00:52 GMT)
ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.5] 視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:35:24 GMT)
Generative Semantic Communication for Joint Image Transmission and Segmentation [39.4] 画像再構成とセグメンテーションタスクの両方をサポートする新しい生成意味コミュニケーションシステムを提案する。
提案手法は,送信側と受信側の両方で意味知識ベース(KB)を構築する。
実験の結果,マルチタスク生成型セマンティック・コミュニケーション・システムは従来の単一タスク・コミュニケーション・システムよりも優れていた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:54:39 GMT)
Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters [38.4] 本稿では,Adaptive Value Decomposer (AdaVD) という,高精度で高速かつ低コストな概念消去手法を提案する。
AdaVDはシングルとマルチのコンセプト消去に優れており、保存前の2倍から10倍の改善が見られた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:46:18 GMT)
Quantum-enabled Rydberg atomic polarimetry of radio-frequency fields [37.7] ライドバーグ原子は、高周波(RF)と光ドメインの間で効率的に光子を結合する。
原子状態の角運動量量子化による分光シグネチャについて検討する。
本研究は、量子気象電場評価のためのRydberg原子偏光度測定の展望について重要な知見を与える。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:35:37 GMT)
MMAD: Multi-label Micro-Action Detection in Videos [37.0] 本稿では、微妙で低強度な身体運動であるマイクロアクションとして知られる身体動作のサブセットに焦点を当てる。
現実のシナリオでは、人間のマイクロアクションはしばしば時間的に共起し、複数のマイクロアクションが時間内に重複する。
本稿では,ビデオ中のすべてのマイクロアクションを識別する,MMAD(Multi-label Micro-Action Detection)というタスクを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:25:39 GMT)
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [37.0] ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。
効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。
提案手法は,オンラインのゼロショット3Dインスタンスセグメンテーションにおける最先端の性能と効率を両立させる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 07:15:48 GMT)
OpenSDI: Spotting Diffusion-Generated Images in the Open World [37.0] 本稿では,オープンワールド設定における拡散生成画像の発見に挑戦するOpenTrainingについて述べる。
オープンデータセット(OpenSDID)と呼ばれる新しいベンチマークを定義した。
Masked Autoencoder (MAE) と Contrastive Language- Image Pretrained (CLIP) を組み合わせた SPM ベースのモデルである MaskCLIP を導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:48:54 GMT)
Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning [36.8] 本稿では,視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を紹介する。
MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供する。
本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:11:30 GMT)
Not All LoRA Parameters Are Essential: Insights on Inference Necessity [36.7] そこで本研究では,各LoRA層がモデルの性能に与える影響について検討する。
本稿では,LoRAで微調整された大規模言語モデルの性能を向上させるための,シンプルで効果的な手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:33:04 GMT)
Any-Resolution AI-Generated Image Detection by Spectral Learning [36.6] 我々は、実画像のスペクトル分布が、AI生成画像検出のための不変パターンと高識別パターンの両方を構成するというキーとなる考え方を構築した。
提案手法は, これまでの13の世代的アプローチと比較して, AUCの絶対的な改善を5.5%達成している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:41:30 GMT)
RuleAgent: Discovering Rules for Recommendation Denoising with Autonomous Language Agents [36.3] RuleAgentは、現実世界のデータエキスパートを模倣して、レコメンデーションのルールを自律的に発見する。
LossEraser-非学習戦略は、パフォーマンスを損なうことなく、トレーニングを合理化する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:19:03 GMT)
Developing a Reliable, Fast, General-Purpose Hallucination Detection and Mitigation Service [36.2] 大型言語モデル(LLM)における幻覚の発見と修正を目的とした信頼性の高い高速生産システムを提案する。
本システムでは,名前付きエンティティ認識(NER),自然言語推論(NLI),スパンベース検出(SBD),および最適精度,応答時間,費用対効果の混合を維持する書き換え機構を備える。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:06:19 GMT)
DASH: Detection and Assessment of Systematic Hallucinations of VLMs [35.5] 視覚言語モデル(VLM)は、画像中の特定の物体の存在を誤って示す物体幻覚の傾向にある。
本研究では,実世界の画像上でのVLMの系統的幻覚を特定するための大規模自動パイプラインであるDASHを提案する。
DASHをPaliGemmaに適用し、380のオブジェクトクラスに2つのLLaVA-NeXTモデルを適用する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:45:09 GMT)
NRC VAD Lexicon v2: Norms for Valence, Arousal, and Dominance for over 55k English Terms [35.1] 学会の信頼性は高い。
この辞書は心理学、NLP、公衆衛生、デジタル人文科学、社会科学の幅広い研究を可能にする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:07:09 GMT)
Rethinking Technological Solutions for Community-Based Older Adult Care: Insights from 'Older Partners' in China [34.8] 我々は、高齢化のための人間と技術主導のケアインフラについて検討する。
テクノロジーは、高齢者のケアインフラにおいて、代替的な役割ではなく、支援的な役割をとるべきである。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:22:05 GMT)
TouchUp-G: Improving Feature Representation through Graph-Centric Finetuning [34.8] グラフニューラルネットワーク(GNN)は、多くのハイインパクトな実世界のグラフアプリケーションにおいて最先端のアプローチとなっている。
機能豊富なグラフでは、PMを直接利用して機能を生成するのが一般的である。
PMから抽出されたノード特徴がグラフに依存しず、GNNがグラフ構造とノード特徴の間の潜在的な相関を十分に活用できないため、このプラクティスは準最適である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 05:32:14 GMT)
Configurable Holography: Towards Display and Scene Adaptation [33.5] 多様なディスプレイシーンパラメータをサポートしながら、3次元ホログラムをインタラクティブに合成し、高度に学習されたモデル構造を導入する。
学習領域における深度推定とホログラム合成の相関関係について検討した。
シミュレーションにおいて,高品質な3次元ホログラムを合成してモデルを検証するとともに,2種類のホログラム表示プロトタイプを用いて実験結果を検証する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:32:17 GMT)
The Impact of Code-switched Synthetic Data Quality is Task Dependent: Insights from MT and ASR [33.4] 言語間の交互化を行うコードスイッチングは、ユーザフレンドリーな言語技術を構築するために対処する必要がある、一般的なグローバルな現象として登場した。
現在の文献では、合成データの品質とNLPタスクの改善の関係を理解するための包括的な研究が欠如している。
我々は、自動音声認識(ASR)とカスケード音声翻訳(ST)による機械翻訳について、この方向で行われた以前の研究を拡張した。
我々の実験には、語彙置換、言語理論、後方翻訳など、幅広い拡張技術が含まれています。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:55:28 GMT)
FM2S: Towards Spatially-Correlated Noise Modeling in Zero-Shot Fluorescence Microscopy Image Denoising [33.4] 蛍光マイクログラフ・トゥ・セルフ (FM2S) は、3つの重要な革新を通じて効率的な蛍光マイクログラフ・トゥ・セルフ (FM2S) を実現するゼロショットデノイザーである。
FM2Sは平均1.4dBPSNRでCVF-SIDを上回り、AP-BSNの0.1%のパラメータを必要とする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:44:34 GMT)
A Multi-Agent Framework with Automated Decision Rule Optimization for Cross-Domain Misinformation Detection [32.3] 誤報は様々なドメインにまたがるが、特定のドメインで訓練された検出方法は、他のドメインに適用されると性能が悪くなることが多い。
自動決定規則最適化(MARO)を用いたクロスドメイン誤情報検出のためのマルチエージェントフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:08:33 GMT)
Deriving Representative Structure from Music Corpora [32.2] 構造時間グラフ(STG)と呼ばれる音楽構造の統一的階層的メタ表現を提案する。
シングルピースの場合、STGは、より微細な構造的音楽的特徴の階層構造とそれらの間の時間的関係を定義するデータ構造である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:09:45 GMT)
Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models [31.3] Finedeficsは、トレーニングフェーズにオブジェクトの情報属性記述を組み込むことで、モデルのFGVR能力を向上するMLLMである。
我々は、オブジェクト-属性対と属性-カテゴリ対を同時に比較学習し、類似しているが誤ったカテゴリの例をハードネガティブとして利用する。
複数の人気のあるFGVRデータセットに対する広範囲な評価は、Finedeficsが既存のMLLMを同等のパラメータサイズで上回っていることを示している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:12:34 GMT)
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning [31.0] ルールベースの強化学習は、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力を高めることができる。
我々はルールベースのアクション報酬を導入し、ポリシーベースのアルゴリズムによるモデル最適化を可能にした。
実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:05:16 GMT)
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes [30.9] 複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。
InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。
我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:36:55 GMT)
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base [30.7] 大きな言語モデル(LLM)は印象的な言語能力を持っているが、しばしば事実の知識を忠実に保持することができない。
本稿では,LLMにおける知識不足(エラー)を発見するための,スケーラブルで効率的なフレームワークであるSEAを提案する。
SEAは自動能力発見の40.7倍、AutoBencherの26.7%以上の知識エラーを明らかにしている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:33:56 GMT)
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 [30.7] Referring Video Object (RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメントすることを目的としている。
ReferDINOは、オブジェクトレベルの視覚言語知識を適用することで、このタスクで有望なパフォーマンスを示した。
本稿では,ReferDINOとSAM2のマスクを適応的に融合させる条件付きマスク融合戦略を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:43:04 GMT)
Optimal vintage factor analysis with deflation varimax [30.2] 回転行列の各行を逐次解決するデフレ・ヴァリマックス法を提案する。
計算のゲインと柔軟性に加えて,提案手法をより広い文脈で完全に保証することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:31:30 GMT)
Hyper-RAG: Combating LLM Hallucinations using Hypergraph-Driven Retrieval-Augmented Generation [29.9] 大規模言語モデル(LLM)は、コンテンツ生成と意思決定のプロセスを強化することで、教育、金融、医療など様々な分野を変革してきた。
しかし、それらの医療分野への統合は幻覚のため慎重であり、生成したコンテンツが事実の正確性から逸脱し、有害な結果をもたらす可能性がある。
本稿では,ハイパーグラフ駆動型Retrieval-Augmented Generation法であるHyper-RAGを紹介する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:39:14 GMT)
Learning in Quantum Common-Interest Games and the Separability Problem [29.8] 我々は,プレイヤーが戦略として密度行列を持ち,その興味が完全に一致している量子共通関心ゲーム(CIG)を導入する。
我々は、最適分離状態問題(BSS)のインスタンスのKKT(一階定常)点と対応する量子CIGのナッシュ平衡との等価性を確立することにより、最適化とゲーム理論のギャップを埋める。
ゲームにおける学習の観点から、連続時間複製子ダイナミクスの非可換拡張と離散時間最適応答ダイナミクス/線形乗法重み更新を導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:13:11 GMT)
Localized Graph-Based Neural Dynamics Models for Terrain Manipulation [29.6] 本稿では,地形力学モデリングと操作のための学習に基づくアプローチを提案する。
我々は、グラフベースのニューラルダイナミクスフレームワークを利用して、粒子のグラフの運動として地形の変形を表現する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:24:10 GMT)
Graph-Structured Driven Dual Adaptation for Mitigating Popularity Bias [29.5] 人気バイアスは、不均一なレコメンデーションパフォーマンスを引き起こし、マシュー効果を増幅することによってレコメンデーションシステムに挑戦する。
既存の教師付きアライメントと再重み付け手法は、このバイアスを軽減するが、重要な制限がある。
これらの問題に対処するためのグラフ構造化デュアル適応フレームワーク(GSDA)を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:26:29 GMT)
Enhancing Creative Generation on Stable Diffusion-based Models [28.4] C3は、安定拡散モデルにおける創造性を高めるために設計されたトレーニング不要のアプローチである。
より創造的なアウトプットを育むために、Denoisingプロセス中の機能を選択的に増幅する。
大規模な計算コストを伴わずに拡散モデルの創造性を向上する最初の研究である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:46:20 GMT)
Enhancing Adversarial Transferability via Component-Wise Transformation [28.2] 本稿では,CWT(Component-Wise Transformation)と呼ばれる新しい入力ベースの攻撃手法を提案する。
CWTは個々の画像ブロックに選択的回転を適用し、変換された各画像が異なるターゲット領域をハイライトすることを保証する。
標準のImageNetデータセットの実験では、CWTは攻撃成功率と安定性の両方において、最先端の手法を一貫して上回っている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:07:14 GMT)
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization [27.9] 大規模言語モデルの微調整における注意機構に関連する2つの現象について検討する。
注意行列の不等式」と呼ばれる最初の現象は、微調整された異なる重量行列の影響を浮き彫りにする。
第2の現象である"Attention Matrices with Customized Learning Rates to Better Convergence"は、異なる学習率を割り当てることの重要性を強調している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:16:02 GMT)
Representational Similarity via Interpretable Visual Concepts [27.7] 本稿では,2つのネットワークを比較するための解釈可能な表現類似性手法を提案する。
モデルの違いのいくつかの側面は、一方のモデルがもう一方のモデルでうまく表現されていないというユニークな概念に起因していることが示される。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:02:15 GMT)
PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.5] Key-Value Cache (KVCache) は、大規模言語モデル(LLM)内のトークンの中間表現である。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
PQCacheは有効性と効率の両方を実現しており、InfiniteBenchの既存のメソッドよりも4.60%のスコアが向上している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:13:50 GMT)
A Survey on Unlearnable Data [27.3] Unlearnable Data(ULD)は、機械学習モデルが特定のデータから意味のあるパターンを学ぶのを防ぐ革新的な防御技術として登場した。
我々は、異なるUDLアプローチを比較し、比較し、その強み、制限、および非学習性、不受容性、効率、堅牢性に関連するトレードオフを分析します。
本稿では, モデル劣化に伴う摂動不感のバランスや, ULD生成の計算複雑性など, 重要な課題について論じる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:41:30 GMT)
VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration [26.6] 既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:27:18 GMT)
PhysPose: Refining 6D Object Poses with Physical Constraints [26.5] ポーズ推定に物理推論を統合する新しいアプローチであるPhysPoseを紹介する。
シーンジオメトリを活用することで、PhysPoseは物理的妥当性を確保するために推定値を取得する。
我々は、ロボット工学におけるその影響を、挑戦的なピック・アンド・プレイス・タスクの成功率を大幅に向上させることで実証する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:52:17 GMT)
On the Impact of Fine-Tuning on Chain-of-Thought Reasoning [26.1] 本研究では,大規模言語モデルの推論能力に及ぼす微調整の影響について検討した。
タスク固有の微調整が全体的な推論能力に与える影響、微調整がCoT推論性能に及ぼす影響、そしてCoT推論の忠実性に与える影響に関する疑問に対処する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:56:09 GMT)
Pareto Continual Learning: Preference-Conditioned Learning and Adaption for Dynamic Stability-Plasticity Trade-off [25.3] 連続学習における安定性と塑性のトレードオフを再構築する新しい枠組みを提案する。
ParetoCLは、安定性と可塑性の異なる目的の組み合わせから学習する客観的拡張アプローチと見なすことができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:38:36 GMT)
OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model [24.9] エンド・ツー・エンドの自動運転用に設計されたビジョン・ランゲージ・アクション(VLA)モデルであるOpenDriveVLAを提案する。
OpenDriveVLAは、オープンソースのトレーニング済みの大型ビジョンランゲージモデル(VLM)上に構築され、信頼性の高い駆動アクションを生成する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:45:54 GMT)
Handling Delay in Real-Time Reinforcement Learning [24.9] 本稿では,時間的スキップ接続と履歴付加観測を併用した理論的動機付けソリューションを提案する。
並列ニューロン計算により,標準ハードウェア上での推論を6~350%高速化できることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:30:27 GMT)
AI Agents in Engineering Design: A Multi-Agent Framework for Aesthetic and Aerodynamic Car Design [24.3] 本稿では,工学的応用,特に自動車設計プロセスに焦点をあてた「設計エージェント」の概念を紹介する。
私たちのフレームワークは、AI駆動設計エージェントを従来のエンジニアリングワークフローに統合し、創造性を高め、効率を高め、全体的な設計サイクルを大幅に加速します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:57:17 GMT)
LaViC: Adapting Large Vision-Language Models to Visually-Aware Conversational Recommendation [24.2] LaViCは、コンパクトな画像表現を対話ベースのレコメンデーションシステムに統合する。
Redditの会話をAmazonの商品リストに合わせることで、新しいデータセットを構築します。
LaViCはテキストのみの会話レコメンデーション手法とオープンソースのビジョン言語ベースラインを著しく上回っている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:44:13 GMT)
Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.2] CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。
チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。
Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:20:34 GMT)
Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.1] Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:33:55 GMT)
Enhancing 3D Gaussian Splatting Compression via Spatial Condition-based Prediction [24.1] 我々は、ビットレートを効果的に低減するために、アンカーベースガウス表現に予測手法を導入する。
私たちのフレームワークは依然として24.22%のビットレートの節約を実現しています。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:41:43 GMT)
Blind Baselines Beat Membership Inference Attacks for Foundation Models [24.0] メンバーシップ推論(MI)攻撃は、データサンプルが機械学習モデルのトレーニングに使用されたかどうかを判断しようとする。
未知のWebデータに基づいてトレーニングされた基礎モデルでは、MI攻撃は著作権のあるトレーニング材料の検出、テストセットの汚染の測定、監査マシンのアンラーニングにしばしば使用される。
基礎モデルに対するMI攻撃の評価は, 異なる分布からメンバーや非メンバーをサンプリングするため, 欠陥があることが判明した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:39:32 GMT)
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference [23.8] 生成品質を維持しながら推論効率を向上させる訓練不要な方法であるPromptDistillを提案する。
PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:47:23 GMT)
Beyond Local Sharpness: Communication-Efficient Global Sharpness-aware Minimization for Federated Learning [23.7] フェデレートラーニング(FL)は、プライバシ保護と協調的なモデルトレーニングを可能にする。
近年のアプローチでは、クライアント側シャープネス認識最小化(SAM)を用いて、フラットな最小化を促進する。
この研究は、サーバ上のグローバルシャープネスの最適化を優先する、新しいFLアプローチであるFedGloSSを導入している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:09:13 GMT)
MiZero: The Shadowy Defender Against Text Style Infringements [23.6] 本稿では, 暗黙的なゼロ透かし方式であるMiZeroを紹介する。
このスキームは、伝統的な透かし法を超越して、著作権のあるスタイルを保護するための正確な透かし領域を確立する。
実験により、MiZeroはテキストスタイルの著作権所有権をAI模倣に対して有効に検証している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:19:12 GMT)
SpeechPrune: Context-aware Token Pruning for Speech Information Retrieval [23.1] 音声大言語モデルのための新しい長文タスクである音声情報検索(SIR)を導入する。
我々は90秒音声入力から重要な詳細を抽出するベンチマークテストモデルであるSPIRALを提案する。
SpeechPruneは、無関係なトークンを効率的に破棄するために、音声テキストの類似性と注意スコアを近似したトレーニング不要なトークン刈り取り戦略である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:39:14 GMT)
Learning Coordinated Bimanual Manipulation Policies using State Diffusion and Inverse Dynamics Models [22.8] 我々は人間の操作戦略の予測的性質をロボット模倣学習に注入する。
我々は,将来の状態を予測し,予測状態を達成するロボット動作を計算するために拡散モデルを訓練する。
我々のフレームワークは、常に最先端のステート・ツー・アクション・マッピングポリシーを上回ります。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:25:35 GMT)
A Lightweight Image Super-Resolution Transformer Trained on Low-Resolution Images Only [22.1] トランスフォーマーアーキテクチャは、高解像度(HR)イメージを低解像度(LR)画像から再構成し、シングルイメージのスーパー解像度(SISR)ベンチマークを顕著にリードする。
しかし、彼らの強力な代表力は、畳み込みニューラルネットワーク(CNN)と比較して、トレーニングデータの需要が高い。
本研究では,非教師付きSISR LRのみのベンチマークに対処するLRのみのトレーニング手法を用いた軽量ビジョントランスフォーマーモデルを初めて活用する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:52:26 GMT)
TraceMark-LDM: Authenticatable Watermarking for Latent Diffusion Models via Binary-Guided Rearrangement [21.9] 我々は,非破壊的な性能を保証しつつ,画像の属性付けに透かしを統合するアルゴリズムであるTraceMark-LDMを紹介する。
TraceMark-LDMを用いて合成された画像は、最先端技術(SOTA)と比較して品質と属性の精度が優れている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:23:53 GMT)
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7] 3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。
3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。
本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:24:42 GMT)
Diffusion Meets Few-shot Class Incremental Learning [20.4] FSCIL(Few-shot class-incremental Learning)は、非常に限られたトレーニングデータのために困難である。
本研究では,テキスト・画像拡散モデルを冷凍バックボーンとして利用する新しい手法であるDiffusion-FSCILを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:20:08 GMT)
D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance [19.8] AI-Natural Image Discrepancy accessing benchmark(textitD-Judge)を導入する。
我々は、テキスト・トゥ・イメージ(T2I)、画像・トゥ・イメージ(I2I)、テキスト・アンド・イメージ(TI2I)プロンプトを用いて、5000の自然画像と4万以上のAIGIを9つのモデルで生成したデータセットであるtextitD-ANIを構築した。
本フレームワークは, 画像品質, セマンティックアライメント, 美的魅力, 下流適用性, 人間の検証の5次元にわたる相違性を評価する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:52:12 GMT)
VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.3] VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:07:22 GMT)
Enhancing Human Motion Prediction via Multi-range Decoupling Decoding with Gating-adjusting Aggregation [19.1] ポーズ列の表現は、人間の動き予測における正確な動きモデリングに不可欠である。
近年の深層学習に基づく手法は、歴史的情報と将来の瞬間の間の様々な関連性や依存関係を見落としている傾向にある。
ゲーティング調整アグリゲーションを用いたマルチレンジデカップリングデコーディング手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:10:31 GMT)
OwlSight: A Robust Illumination Adaptation Framework for Dark Video Human Action Recognition [19.0] OwlSightはバイオミメティクスにインスパイアされたフレームワークで、全ステージ照明を増強し、正確な暗ビデオ人間の行動認識のための分類アクションと対話する。
Dark-101は101のアクションカテゴリにまたがる18,310のダークビデオからなる大規模なデータセットです。
特に、ARID1.5では5.36%、Dark-101では1.72%、ダーク環境では1.72%、従来のベストアプローチでは5.36%を上回っている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:54:22 GMT)
Libertas: Privacy-Preserving Collective Computation for Decentralised Personal Data Stores [18.9] モジュールアーキテクチャであるLibertasを導入し、MPCとSolidのようなPSDを統合する。
我々は、全知的な視点から、個人ベースの、ユーザ中心の信頼とセキュリティへのパラダイムシフトを紹介します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:35:47 GMT)
CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation [18.7] 既存のRRSIS法は通常、多モード特徴を得るために粗い一方向アライメントアプローチを用いる。
RRSISのための細粒度なクロスモーダルアライメントとデコードトランスフォーマーCADFormerを提案する。
CADFormerの性能を徹底的に評価するために、より高解像度のRS画像パッチと意味的にリッチな言語表現を含む新しいRRSISデータセットRRSIS-HRを構築した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:24:30 GMT)
AU-TTT: Vision Test-Time Training model for Facial Action Unit Detection [18.5] 顔行動ユニット(英: Facial Action Units, AUs)の検出は、客観的な表情分析の基盤であり、感情コンピューティングにおける重要な焦点である。
AU検出は、AUアノテーションの高コストやデータセットの可用性の制限など、大きな課題に直面している。
本稿では、AU検出に適した新しい視覚バックボーンを提案し、AU-TTTと呼ばれる双方向TTTブロックを組み込んだ。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:09:13 GMT)
Trojan Cleansing with Neural Collapse [18.2] トロイの木馬攻撃は、バックドアトリガーを埋め込んだニューラルネットワークに対する高度な訓練時間攻撃である。
トロイの木馬攻撃が様々なデータセットやアーキテクチャのこの収束を阻害する実験的な証拠を提供する。
次に、この破壊を利用して、トロイの木馬攻撃を浄化するための軽量で広く一般化可能なメカニズムを設計する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:04:11 GMT)
SCORE: Story Coherence and Retrieval Enhancement for AI Narratives [18.1] 大きな言語モデル(LLM)は創造的な物語を生み出すのに優れているが、長期的な一貫性と感情的な一貫性に苦しむ。
本稿では,動的状態追跡,コンテキスト認識の要約,ハイブリッド検索という3つのコンポーネントを統合するフレームワークであるSCOREを提案する。
SCOREは23.6%高いコヒーレンス(NCI-2.0ベンチマーク)、89.7%の感情的一貫性(EASMメトリック)、41.8%の幻覚をベースラインのGPTモデルと比較した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:48:27 GMT)
Machine-generated text detection prevents language model collapse [17.3] 本研究では,デコード戦略がモデル崩壊に与える影響について検討する。
我々は,機械生成テキスト検出器を訓練し,モデル崩壊を緩和するための重要なサンプリング手法を提案する。
モデル崩壊を防止できるだけでなく、十分な人為的なサンプルが存在する場合に性能を向上させることができることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:15:15 GMT)
Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks [16.8] 有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。
ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:28:40 GMT)
Object Isolated Attention for Consistent Story Visualization [16.7] オープンエンドのストーリービジュアライゼーションは、与えられたストーリーラインからコヒーレントなイメージシーケンスを生成することを伴う、困難なタスクである。
主な課題の1つは、自然でコンテキストに適合したシーンを作成しながら、文字の一貫性を維持することである。
本稿では,異なる自己注意と相互注意機構を用いたトランスフォーマーモジュールを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:16:52 GMT)
Verifiably Following Complex Robot Instructions with Foundation Models [16.6] 動作計画のための言語指導基盤(LIMP)は、ロボットが事前に構築されたセマンティックマップを使わずに、現実の環境で複雑なオープンエンドの指示に従うことができるアプローチである。
LIMPは、インストラクターの意図したモチベーションとロボットのアライメントを明らかにする象徴的な指示表現を構築する。
5つの実環境における150の命令に対してLIMPを大規模に評価し、その汎用性とデプロイの容易さを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:37:48 GMT)
RWKV-7 "Goose" with Expressive Dynamic State Evolution [16.3] RWKV-7"Goose"は,メモリ使用量とトークン当たりの推論時間を一定とした新しいシーケンスモデリングアーキテクチャである。
他のトップモデルよりも大幅に少ないトークンでトレーニングされているにもかかわらず、29億のパラメータ言語モデルは、多言語タスクで新しい3B SoTAを達成する。
RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:46:44 GMT)
A Scalable Framework for Evaluating Health Language Models [16.3] 大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。
オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。
この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:47:57 GMT)
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.9] 本稿では,RAGの知識データベースを対象としたデータ抽出攻撃について検討する。
従来のインジェクションベース抽出攻撃はLLMの命令追従能力に大きく依存していた。
筆者らは, LLM内のバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:49:11 GMT)
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models [15.6] 大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,関係合成の体系的推論を必要とするタスクに焦点をあてる。
その結果,LLM と LRM の総合的な性能は,ランダムな確率よりも優れていた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:41:55 GMT)
POINT$^{2}$: A Polymer Informatics Training and Testing Database [15.5] POINT$2$ (Polymer Informatics Training and Testing) は、高分子情報学における重要な課題に対処するために設計されたベンチマークデータベースとプロトコルである。
我々は、量子ランダムフォレスト、ドロップアウト付き多層パーセプトロン、グラフニューラルネットワーク、事前訓練された大規模言語モデルを含むMLモデルのアンサンブルを開発する。
これらのモデルは、Morgan、MACCS、RDKit、Topological、Atom Pairの指紋、グラフベースの記述子といった多様なポリマー表現と結合している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:46:01 GMT)
Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval [15.4] ZS-CIRタスクの鍵となる課題は、対象の画像を正確に検索するために、操作テキストに従って参照画像を変更することである。
そこで我々はPrediCIRという新しい予測型マッピングネットワークを提案する。
本モデルでは、6つのZS-CIRタスクに対して強い一般化能力を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:19:03 GMT)
GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs [15.1] 本稿では,RPM生成プロセス全体をモデル化するための生成的ビジュアルパズル (GenVP) を提案する。
私たちのモデルの能力は、1つの特定の問題に対して複数のソリューションを生成することから、望ましいルールセットから完全な新しいパズルを生成することまで、多岐にわたっています。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:35:26 GMT)
SINE: SINgle Image Editing with Text-to-Image Diffusion Models [15.1] 本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:04:15 GMT)
Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval [15.0] ゼロショット合成画像検索(ZS-CIR)は、テキスト修正と参照画像をクエリとして行い、トリプルトラベルなしでターゲット画像を取得する。
現在のZS-CIRの研究は、主に事前訓練された視覚言語モデルの一般化能力に依存している。
本稿では,事前学習された視覚言語モデルと下流CIRタスクとのギャップを小さくする,未ラベルで事前学習されたマスク付きチューニング手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:28:42 GMT)
Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques [14.7] 大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。
文脈長が大きくなるにつれて、トークンの数が増えるにつれて、注意の計算コストは2次的に増加する。
本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行う。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:45:00 GMT)
LIRA: A Learning-based Query-aware Partition Framework for Large-scale ANN Search [14.4] クエリフェーズでは、クエリの距離ランクに基づいてパーティションを探索し、セントロイドをパーティションする方法が一般的である。
パーティション構築フェーズでは、すべてのパーティションベースのメソッドは、クエリの最も近い隣人を複数のパーティションに分離する境界問題に直面します。
我々はLearnIngベースのqueRy-aware pArtitionフレームワークであるLIRAを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:03:57 GMT)
Improving underwater semantic segmentation with underwater image quality attention and muti-scale aggregation attention [13.7] UnderWater SegFormer (UWSegFormer) は、低品質水中画像のセマンティックセグメンテーションのためのトランスフォーマーベースのフレームワークである。
提案手法は,SOTA法と比較した場合,分割完全性,境界明細度,主観的知覚的詳細性の点で有利である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:47:56 GMT)
Focus Directions Make Your Language Models Pay More Attention to Relevant Contexts [13.5] 長文大言語モデル(LLM)は、無関係な文脈によって邪魔される傾向がある。
本稿では,コンテキストヘッドが関連するコンテキストに十分な注意を払っていない場合に,注意散らしが発生することを示す。
我々は、これらのヘッドのキーとクエリのアクティベーションに位置するフォーカス方向を特定し、関連するコンテキストにより多くの注意を割り当てることを可能にする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:18:28 GMT)
MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context [13.3] FSDMC(Few-shot defect multi-classification)は、製造業における品質管理の新たなトレンドである。
本稿では、欠陥インスタンスの一般的な特徴を抽出するMVRECと呼ばれる一般的なFSDMCフレームワークを提案する。
また、MVTec ADに基づく新しいFSDMCベンチマークであるMVTec-FSを導入し、インスタンスレベルのマスクアノテーションを備えた1228の欠陥画像を含む。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:19:53 GMT)
Distill-C: Enhanced NL2SQL via Distilled Customization with LLMs [13.0] NL2タスク用にカスタマイズされたフレームワークであるDistill-Cを紹介する。
これらの結果から,Distill-Cは軽量で強力なNL2モデルをデプロイする上で,効果的で高性能で一般化可能なアプローチであることが示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:23:21 GMT)
EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.7] 人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:44:43 GMT)
Two Heads Are Better than One: Model-Weight and Latent-Space Analysis for Federated Learning on Non-iid Data against Poisoning Attacks [12.3] Federated Learning(FL)は、リモートクライアントが生データを共有せずにグローバルモデルを共同でトレーニングできる一般的なパラダイムである。
FLは、その分散した性質のため、モデル中毒攻撃に対して脆弱であることが示されている。
我々は,GeminiGuardを軽量で汎用的で教師なしで,そのような防御を配備する実践的な要件に適合するように提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:56:05 GMT)
Buffer is All You Need: Defending Federated Learning against Backdoor Attacks under Non-iids via Buffering [12.3] 非イドでもバックドア攻撃に対処するためのFLBuffを提案する。
FLBuffは、非イドは表現空間における全方向展開としてモデル化できるという私たちの洞察にインスパイアされている。
包括的評価は、FLBuffが最先端の防御を一貫して上回っていることを示している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:46:14 GMT)
On the Diagram of Thought [12.3] 現在の大規模言語モデル(LLM)は印象的な能力を示しているが、複雑な多段階推論タスクに苦労している。
1つの自己回帰型LCMが内部で構成し、DAG(Directed Acyclic Graph)をナビゲートするフレームワークとして、Diagram of Thought(DoT)を紹介した。
本研究は,適切なトポ内の図式として推論DAGを定式化し,検証された情報を集約する最終段階が関連するサブダイアグラムのコリミットの計算に意味的に対応していることを証明する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:31:29 GMT)
Efficient Dynamic Attention 3D Convolution for Hyperspectral Image Classification [12.2] 本稿では,改良された3D-DenseNetモデルに基づく動的アテンション畳み込み設計を提案する。
この設計では、単一のカーネルの代わりに複数の並列畳み込みカーネルを使用し、これらの並列畳み込みに動的注意重みを割り当てる。
提案手法は、IN, UP, KSCデータセットにおいて、主流のハイパースペクトル画像分類法よりも優れた性能を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:12:23 GMT)
Mask-informed Deep Contrastive Incomplete Multi-view Clustering [12.2] マルチビュークラスタリング(MvC)は、複数のビューからの情報を利用して、基礎となるデータ構造を明らかにする。
本稿では,新しいMask-informed Deep Contrastive Incomplete Multi-view Clustering (Mask-IMvC)法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:05:43 GMT)
Multimodal Feature-Driven Deep Learning for the Prediction of Duck Body Dimensions and Weight [12.1] 本研究では、異なるビュー、深度画像、および3D点雲からのマルチモーダルデータ2D RGB画像を活用する革新的な深層学習モデルを提案する。
姿勢や条件の異なる5,000以上のサンプルからなる1,023羽のLinwuアヒルのデータセットを収集し、モデルトレーニングを支援した。
このモデルは平均絶対パーセンテージ誤差(MAPE)が6.33%、R2が0.953で8つの形態パラメータで達成され、強い予測能力を示した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:10:48 GMT)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.9] LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:59:47 GMT)
A Qualitative Study of User Perception of M365 AI Copilot [11.7] 2024年に当社で実施したM365 Copilotの6ヶ月の試験結果について報告する。
この研究は、M365 Copilotの有効性、生産性への影響、期待の進化、倫理的懸念、全体的な満足度に対するユーザーの認識を調査した。
M365 コパイロットは特定の運用領域の価値を示したが、その広範な影響はユーザビリティの制限と人間の監視の必要性によって制限されたままであった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:08:08 GMT)
Alternating Iteratively Reweighted $\ell_1$ and Subspace Newton Algorithms for Nonconvex Sparse Optimization [11.6] 本稿では,可微分損失関数と非滑らか正規化関数の和を最小化する新しいハイブリッドアルゴリズムを提案する。
臨界点へのグローバル収束を証明し、適切な条件下では、アルゴリズムが既存の手法より優れていることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:19:55 GMT)
Krait: A Backdoor Attack Against Graph Prompt Tuning [11.5] グラフプロンプトチューニングは、事前訓練されたモデルから下流タスクへグラフの知識を効果的に伝達する、有望なパラダイムとして登場した。
このような脆弱性を調査するための最初の研究を行い、バックドアが良性グラフのプロンプトを偽装し、検出を回避できることを示した。
本稿では,新しいグラフプロンプトであるKraitについて紹介する。具体的には,選択候補に準同型であるラベル非一様性という,単純で効果的なモデルに依存しない指標を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:08:37 GMT)
Visual Acuity Consistent Foveated Rendering towards Retinal Resolution [11.2] 本稿では、網膜レベルの解像度で異常なレンダリング性能を実現することを目的とした、視力に一貫性のあるフェーベレートレンダリング(VaFR)を提案する。
本稿では,視覚系の自然な帯域幅に対応する,人間の視覚力モデルから導出した新しい対数極性マッピング関数を提案する。
本手法は2眼8Kパスの描画性能を大幅に向上させ,スムーズなフレームレートを実現する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:09:12 GMT)
Speculative End-Turn Detector for Efficient Speech Chatbot Assistant [11.1] エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。
また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。
実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:34:23 GMT)
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models [11.1] RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:08:23 GMT)
Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning [11.0] 本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。
提案手法は,生成した記述の質を著しく向上させる。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:14:41 GMT)
The Geometry of Concepts: Sparse Autoencoder Feature Structure [11.0] 宇宙は3つのレベルで興味深い構造を持つ。
ブレイン」中間スケール構造は、空間的モジュラリティが著しく高い。
特徴点雲の「ガラクシー」スケールの大規模構造は等方性ではなく、中層で最も急勾配の固有値のパワー則を持つ。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:55:03 GMT)
Interpretable Machine Learning in Physics: A Review [10.8] 我々は、科学における中核研究として解釈可能な機械学習を確立することを目指している。
我々は、解釈可能性の異なる側面を分類し、解釈可能性と性能の両方の観点から機械学習モデルについて議論する。
我々は、物理学の多くのサブフィールドにまたがる、解釈可能な機械学習の最近の進歩を強調した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:44:40 GMT)
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models [10.3] 画像を生成する前に空間配置条件を事前に計画できる統合レイアウト計画と画像生成モデルPlanGenを提案する。
PlanGenは、ローカルキャプションとバウンディングボックス座標の特別なエンコーディングを必要とせずに、レイアウト条件をコンテキストとしてモデルに統合する。
さらに、よく設計されたモデリングのおかげで、PlanGenはレイアウト誘導の画像操作にシームレスに拡張できる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:24:33 GMT)
Beyond the Reported Cutoff: Where Large Language Models Fall Short on Financial Knowledge [10.3] 我々は、米国上場企業の財務データを用いて、Large Language Modelsの知識の広さを評価する。
以上の結果から,LLMは過去の業績についてはあまり知られていなかったが,大企業や最近の情報に対する認識が強くなっていることが明らかとなった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:43:20 GMT)
Fixing Outside the Box: Uncovering Tactics for Open-Source Security Issue Management [10.0] 我々はOSSプロジェクトにおける脆弱性修復戦術(RT)の分類に関する総合的研究を行う。
44個の異なるRTの階層型分類法を開発し,その有効性とコストを評価した。
私たちの発見は、代替ライブラリの使用や脆弱性の回避など、コミュニティ主導の戦略に大きく依存していることを強調しています。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:24:58 GMT)
Scaling Auditory Cognition via Test-Time Compute in Audio Language Models [9.9] 大規模言語モデル (LLM) は自然言語処理において極めて多目的性を示している。
音声LLMは音声認識や合成といったタスクに優れる。
現実の環境がもたらす聴覚的認知的課題に直面するとき、どのように機能するかは、まだ不明である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:04:18 GMT)
Blurry-Edges: Photon-Limited Depth Estimation from Defocused Boundaries [9.7] 本稿では,光子制限画像から被写体深度を非集束境界に沿って頑健に測定する新しい手法を提案する。
これは新しいイメージパッチ表現であるBlurry-Edgesに基づいており、バウンダリ、色、滑らかさを含む、低レベルのパッチ情報の豊富なセットを明示的に保存し視覚化する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:17:00 GMT)
SOAF: Scene Occlusion-aware Neural Acoustic Field [9.7] そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いて,音場に対する大域的先行を導出する。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心とする局所音場から特徴を抽出し、新しいビューのための音声を生成する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:07:49 GMT)
JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community [9.5] 本稿では,大規模言語モデルによる自己破壊的コンテンツ検出の有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
我々は,薬物過剰摂取,摂食障害,自傷など多種の自己破壊行動を含む,全国的な地雷オンラインサブカルチャーに注目した。
本データセットは,3つの行動カテゴリーに沿って,多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:02:48 GMT)
BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.3] BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:34:39 GMT)
A Survey on Large Language Model-Based Game Agents [9.1] ゲームエージェントの開発は、人工知能に向けた重要な役割を担っている。
LLM(Large Language Models)の進歩は、ゲームエージェントを進化させ、強化する前例のない機会を提供する。
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:42:36 GMT)
Simple Feedfoward Neural Networks are Almost All You Need for Time Series Forecasting [9.1] 単純なフィードフォワードニューラルネットワーク(SFNN)は、最先端のモデルと同等、あるいはそれ以上のパフォーマンスを達成可能であることを示す。
また、重要な設計選択についても検討し、インフォームドな意思決定に関するガイドラインを提供します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:56:23 GMT)
Using Source-Side Confidence Estimation for Reliable Translation into Unfamiliar Languages [8.9] 対象言語に精通していないユーザを対象とした対話型機械翻訳(MT)システムを提案する。
誤訳の可能性のある単語を識別し、ユーザーが誤訳を修正できるようにすることで、信頼性と説明可能性を向上させることを目的としている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:03:42 GMT)
F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics [8.6] 微調整において最も重要なVLM層を選択するクライアント固有の層重み付けスコアであるtextitviz. が与える影響について述べる。
本稿では,F$3$OCUSと呼ばれる新しいレイヤ更新戦略を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:30:03 GMT)
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition [8.0] 音声・空間・時間におけるクロスアテンション(Cross-Attention in Audio, Space, and Time, CA2ST)は、総合的ビデオ認識のためのトランスフォーマーベースの手法である。
全体的ビデオ理解のために、私たちはCASTを拡張して、音声専門家を統合し、視覚とオーディオにおけるクロスアテンション(CAVA)を形成する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:57:58 GMT)
A Hybrid Reinforcement Learning Framework for Hard Latency Constrained Resource Scheduling [7.6] ハードレイテンシ制約付きリソーススケジューリングのための新しい強化学習フレームワーク(HRL-RSHLC)を提案する。
HRL-RSHLCは,ベースラインアルゴリズムと比較して収束速度が速く,優れた性能が得られることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:39:13 GMT)
ROVER: A Multi-Season Dataset for Visual SLAM [7.3] ROVERは、様々な環境条件下で視覚SLAMアルゴリズムを評価するためのベンチマークデータセットである。
5つの屋外に39の録音があり、季節ごとの収集と様々な照明のシナリオがある。
その結果, ステレオ慣性・RGBD構成は, 照明条件下では良好であるが, SLAMシステムの多くは低照度・高植生環境では不十分であることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:53:06 GMT)
InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models [7.2] プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:39:15 GMT)
Machine Learning Analysis of Anomalous Diffusion [7.1] 異常拡散解析のための機械学習技術の統合を体系的に紹介する。
拡散パラメータと軌道分割の推論に使用される古典的機械学習とディープラーニングの両方を含む機械学習手法を広範囲に比較する。
一方,ニューラルネットワークの垂直層からの特徴ベクトルとオートエンコーダからの潜在表現の組合せを含む,異常拡散を表現するための3つの主要な戦略を概説する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:37:48 GMT)
Finite-round quantum error correction on symmetric quantum sensors [7.1] ハイゼンベルク極限は、標準量子極限よりも二次的な改善を与える。
この限界は、ノイズデコヒーリング量子センサーが必然的に存在するため、解明され続けている。
我々は、量子誤り訂正の最適有限個のラウンドを用いて、このノーゴー結果をサイドステップする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:08:30 GMT)
CCUP: A Controllable Synthetic Data Generation Pipeline for Pretraining Cloth-Changing Person Re-Identification Models [6.9] 衣服交換者再識別(CC-ReID)はコンピュータビジョンにおいて重要かつ困難な研究課題である。
CC-ReIDデータの構築コストが高いため、既存のデータ駆動モデルは、限られたデータで効率的にトレーニングするのは難しい。
制御可能かつ高品質な合成データを生成するための低コストで効率的なパイプラインを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:17:31 GMT)
FedCAPrivacy: Privacy-Preserving Heterogeneous Federated Learning with Anonymous Adaptive Clustering [6.4] Federated Learning(FL)は、複数のクライアントがローカルデータを公開せずに、協調的にモデルをトレーニングできる分散機械学習パラダイムである。
本稿では、プライバシー保護を同時に強化し、トレーニング効率を向上する新しいアプローチである匿名適応クラスタリングを導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:16:54 GMT)
Nonlinear classification of neural manifolds with contextual information [6.3] 本稿では,入力空間における遅延方向を文脈情報に関連付ける理論フレームワークを提案する。
我々は、多様体幾何学と文脈相関に依存する文脈依存多様体容量の正確な公式を導出する。
我々のフレームワークの表現性の向上は、階層階層の初期段階のディープネットワークにおける表現再構成を捉えるが、以前は分析にはアクセスできない。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:32:47 GMT)
BoundMatch: Boundary detection applied to semi-supervised segmentation for urban-driving scenes [6.2] 半教師付きセマンティックセマンティックセグメンテーション(SS-SS)は、高密度ピクセルラベリングの重いアノテーション負担を軽減することを目的としている。
セマンティック境界検出を一貫性正規化パイプラインに統合する,新しいマルチタスクSS-SSフレームワークであるBoundMatchを提案する。
我々の中核的なメカニズムである境界一貫性規則化マルチタスク学習は、教師と生徒のモデル間の予測合意を強制する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:02:26 GMT)
Improved Ear Verification with Vision Transformers and Overlapping Patches [6.1] 視覚変換器(ViT)は画像認識タスクで広く用いられているが、その認識効率は、重複するパッチに対する注意の欠如によって妨げられている。
本研究では,ViT-Tiny (ViT-T), ViT-Small (ViT-S), ViT-Base (ViT-B), ViT-Large (ViT-L) の構成を多様なデータセットで評価する。
その結果,48実験中44実験において,重なり合うパッチの重要性が示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:50:21 GMT)
Measuring AI Ability to Complete Long Tasks [6.0] 人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。
Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。
AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:53:28 GMT)
Punctuation Restoration Improves Structure Understanding Without Supervision [5.9] 学習目的としての句読点復元が構造関連タスクの性能を向上させることを示す。
その結果,句読点復元は構造理解を向上する効果的な学習目標であることが示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:35:33 GMT)
Carbon Footprint Evaluation of Code Generation through LLM as a Service [5.8] グリーンコーディングとAIモデルはエネルギー効率を向上させることができると主張している。
本稿では,AIモデルの持続可能性意識を測定するためのグリーンコーディングとメトリクスの概要を紹介する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:27:04 GMT)
Is Algorithmic Stability Testable? A Unified Framework under Computational Constraints [5.7] ブラックボックスアルゴリズムの安定性をテストすることは、データが数えきれないほど無限の空間にあるような環境では不可能であることを示す。
アルゴリズム安定性テストの難易度を定量化するための統一的なフレームワークを開発し,全ての設定において,利用可能なデータが制限されている場合,網羅的探索がアルゴリズム安定性を証明するための唯一の普遍的なメカニズムであることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:58:43 GMT)
Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning [5.5] 既存の強化学習ナビゲーションアルゴリズムは、しばしば潜在的に危険な衝突を引き起こす。
RDEの安全性を高めるために専門家の知識を取り入れたHI-PPOと呼ばれるHuman Intervention(HI)ベースのプロキシポリシー最適化フレームワークを提案する。
その結果、HI-PPO は平均 ATE (8.02 textmm) とセキュリティスコア (0.862) を達成し、人間の専門家に匹敵する性能を示した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:42:35 GMT)
Advanced Deep Learning and Large Language Models: Comprehensive Insights for Cancer Detection [5.4] 深層学習(DL)は、特にがんの検出と診断において医療を変革した。
医療におけるDLに関する多くのレビューにもかかわらず、がん検出におけるその役割に関する包括的な分析は依然として限られている。
本稿では、トランスファーラーニング(TL)、強化学習(RL)、フェデレーションラーニング(FL)、トランスフォーマー(Transformer)、大規模言語モデル(LLMs)などの先進的なDL手法を見直し、これらのギャップに対処する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:17:40 GMT)
Spatiotemporal Learning of Brain Dynamics from fMRI Using Frequency-Specific Multi-Band Attention for Cognitive and Psychiatric Applications [5.2] 我々は、fMRIから周波数特異的脳波をモデル化するトランスフォーマーベースのフレームワークであるMulti-Band Brain Net(MBBN)を紹介する。
MBBNは3つの大規模なニューロイメージングコホートで45,951人の個人を訓練し、これまで検出できなかった周波数依存性のネットワーク相互作用を明らかにした。
MBBNは最先端の手法よりも予測精度が30.59%高い。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:56:50 GMT)
Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions [5.2] Model Context Protocol(MCP)は、AIモデルと外部ツールとリソースのシームレスな相互作用を可能にするために設計された標準化されたインターフェースである。
本稿では,MPP サーバのコアコンポーネント,ワークフロー,ライフサイクルに焦点をあてた総合的な MCP の概要について述べる。
我々は、各フェーズに関連するセキュリティとプライバシのリスクを分析し、潜在的な脅威を軽減するための戦略を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:58:22 GMT)
Reinforcement Learning-based Token Pruning in Vision Transformers: A Markov Game Approach [5.2] ビジョントランスフォーマー(ViT)は、トークンの数と2次スケールの計算コストを持ち、効果的なトークンプルーニングポリシーを要求する。
強化学習(Reinforcement Learning, RL)を用いて, プルーニングポリシーをデータ適応的に学習する。
また,これらのエージェントの協調と競争を同時に行うことで,効率と精度のバランスをとることができる報酬関数を開発した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:34:28 GMT)
Measuring Online Hate on 4chan using Pre-trained Deep Learning Models [5.0] 本研究は,4chanの政治的不正確なボード(/pol/)上でのオンライン憎悪の頻度を分析し,測定することに焦点を当てる。
我々は、最先端自然言語処理(NLP)モデル、特にRoBERTaやDetoxifyのようなトランスフォーマーベースのモデルを使用します。
結果は、このデータセットの11.20%が、異なるカテゴリのヘイトを含むと認識されていることを示している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:47:11 GMT)
BounTCHA: A CAPTCHA Utilizing Boundary Identification in Guided AI-extended Videos [4.9] ボットは、既存のCAPTCHAシステムの多くをバイパスし、Webアプリケーションに重大なセキュリティ上の脅威を生じさせている。
ビデオのトランジションやディスラプションにおける境界に対する人間の認識を活用するCAPTCHA機構であるBounTCHAの設計と実装を行う。
我々は,境界同定における人間の時間偏差データ収集のためのプロトタイプを開発し,実験を行った。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:57:20 GMT)
Joint Source-Environment Adaptation for Deep Learning-Based Underwater Acoustic Source Ranging [4.8] 本研究では,水中音像定位のための事前学習型深層学習モデルを提案する。
教師なし領域適応を用いてモデルの一般化性能を向上させる。
SWellEx-96実験と同様の環境下でのベルホップ生成データに対するこのアプローチの有効性を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:32:51 GMT)
Multi-Dimensional AGV Path Planning in 3D Warehouses Using Ant Colony Optimization and Advanced Neural Networks [4.5] 本稿では,ACOとディープラーニングモデルを組み合わせたハイブリッドフレームワークを活用した3次元倉庫環境のための新しいAGV経路計画手法を提案する。
NAHACOは経路計画の効率を大幅に向上させ、より高速な計算時間とバニラおよび最先端の手法よりも優れた性能を得る。
倉庫試験では、NAHACOはコストを41.5%まで削減し、渋滞を56.1%まで削減した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:09:21 GMT)
Efficient Sampling for Pauli Measurement-Based Shadow Tomography in Direct Fidelity Estimation [4.5] ランダムなクリフォード測定の定数により、古典的なシャドウプロトコルは高精度で直接忠実度推定(DFE)を行うことができる。
同様の戦略は古典的な影から導き出すことができる。
具体的には,GHZ,W,Dicke状態を用いてDFEを行うために,局所的なパウリ測定のみを用いた効率的な手法について述べる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:46:32 GMT)
Redundant feature screening method for human activity recognition based on attention purification mechanism [4.4] マルチスケールネットワークに適したMSAPと呼ばれる汎用的な特徴浄化機構を提案する。
この機構は、マルチスケール特徴の重ね合わせによる特徴冗長性を効果的に解決する。
さらに,各ネットワークモジュールの層間をシームレスに統合するネットワーク補正モジュールを設計した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:44:12 GMT)
KernelDNA: Dynamic Kernel Sharing via Decoupled Naive Adapters [4.3] 本稿では,カーネルDNAという軽量なコンボリューションカーネルプラグインを提案する。
カーネル適応を入力依存の動的ルーティングと事前訓練された静的変調に分離する。
画像分類と高密度予測タスクの実験により、カーネルDNAは動的畳み込み変種間の最先端の精度と効率のバランスを達成できることを示した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:54:07 GMT)
Mismatch-Robust Underwater Acoustic Localization Using A Differentiable Modular Forward Model [4.3] 我々は、勾配に基づくフレームワークにおける音波伝搬の事前学習ニューラルネットワークを用いて、音源位置を推定する。
物理に着想を得たモジュラリティをフォワードモデルに導入し,マルチパス構造のパス長をエンドツーエンドの学習方法で学習する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:12:20 GMT)
Joint Source-Environment Adaptation of Data-Driven Underwater Acoustic Source Ranging Based on Model Uncertainty [4.3] 事前学習されたディープラーニングモデルを新しい未知の環境に適用することは、水中の音像定位において難しい課題である。
事前トレーニングされたモデルは、トレーニングデータとテストデータのミスマッチに苦しむパフォーマンスを持つが、一般的に、ミスマッチがより多い環境では、より高いインプリード不確実性を示す'。
本研究では,モデル予測の不確かさの定量化に有効な手法と,事前学習したモデルがテスト時に見つからない水中環境に適応するための革新的なアプローチを用いる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:00:17 GMT)
Mixture of Routers [4.2] 我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:39:09 GMT)
Diffusion-based subsurface CO$_2$ multiphysics monitoring and forecasting [4.2] 本稿では,ビデオ拡散モデルを用いた新しい地下マルチ物理モニタリングおよび予測フレームワークを提案する。
このアプローチは、CO$2$進化の高品質な表現と、それに伴う地下弾性特性の変化を生成することができる。
コンパスモデルに基づく実験では,CO$モニタリングに関連する本質的に複雑な物理現象を,提案手法がうまく捉えることができた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:25:22 GMT)
Codehacks: A Dataset of Adversarial Tests for Competitive Programming Problems Obtained from Codeforces [3.8] プログラム問題のデータセット(Codehacks)とそれに対応するエラー発生テストケースをキュレートする。
データセットは5,578のプログラミング問題に対して288,617のハックで構成されている。
これらの問題に対する2,196件のソリューションのソースコードは、対応するハックで壊れる可能性がある。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:50:03 GMT)
Federated Self-Supervised Learning for One-Shot Cross-Modal and Cross-Imaging Technique Segmentation [3.6] 我々は、よりデータ・スカースなシナリオを表す、フェデレーション付きセルフ教師付きワンショットセグメンテーションタスクについて検討する。
我々の知る限りでは、この研究は、フェデレートされた学習領域において、自己監督された数発のセグメンテーションタスクを試みる最初の試みである。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:40:12 GMT)
Exploring Explainable Multi-player MCTS-minimax Hybrids in Board Game Using Process Mining [3.5] 本稿では,モンテカルロ木探索(MCTS)の意思決定と行動に関する潜在的説明について検討する。
MCTSの弱点は、非常に選択的な木を構築し、結果として決定的な動きを見逃し、戦術的な罠に陥ることである。
我々は,マルチプレイヤーMCTSのロールアウトフェーズに浅いミニマックス探索を統合し,プロセスマイニング技術を用いて3v3チェッカーにおけるエージェントの戦略を説明する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 05:48:53 GMT)
Self-Supervised Masked Mesh Learning for Unsupervised Anomaly Detection on 3D Cortical Surfaces [3.5] 脳画像における教師なし異常検出は困難である。
3次元皮質表面における異常検出のための自己教師付きマスクメッシュ学習を提案する。
本フレームワークは,アルツハイマー病のバイオマーカーとして知られ,皮質厚,皮質容積,皮質粘液特性の異常を検出することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:19:40 GMT)
Teams of LLM Agents can Exploit Zero-Day Vulnerabilities [3.5] LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示します。
我々は,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。
私たちは14の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前のエージェントフレームワークよりも4.3Xまで改善していることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 00:26:48 GMT)
What Makes an Evaluation Useful? Common Pitfalls and Best Practices [3.5] 本稿では、脅威モデリングと評価設計を結びつける初期思考プロセスのステップについて論じる。
評価に有用な特徴とパラメータを提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:51:47 GMT)
Comprehensive Survey towards Security Authentication Methods for Satellite Communication Systems [3.5] セキュリティ認証は、衛星通信システムの安定した運用と広範な適用において重要な意味を持つ。
本稿では,既存のSatCom認証手法を,暗号,衛星軌道情報,akaプロトコル,物理ハードウェアの5つのカテゴリにまとめる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:57:15 GMT)
Bridging conformal prediction and scenario optimization [3.4] 制約違反の確率について,適切なスコア関数と予測器マップを選択して,よく知られた境界を回復する方法を示す。
この結果は,共形予測とシナリオ最適化の理論的橋渡しとなる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:51:20 GMT)
Semantic-Preserving Transformations as Mutation Operators: A Study on Their Effectiveness in Defect Detection [3.4] 意味保存変換を実装した既存の出版物を収集し,その実装を共有する。
欠陥検出ツールの強化のための3つの異なるアンサンブル戦略の有効性を実証的に検討した。
この結果から,共有セマンティック保存変換の再利用は困難であり,時には意味論に悪影響を及ぼすことさえあることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:00:22 GMT)
EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3] EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。
EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。
EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:13:13 GMT)
Reinforcement Learning for Active Matter [3.2] 強化学習(RL)は,活動物質の複雑さに対処するための,有望な枠組みとして登場した。
本稿では,活性物質系の誘導制御のためのRLの統合を体系的に紹介する。
本稿では, 個々の活性粒子の航法, 採餌, 移動戦略の最適化にRLを用いることについて論じる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:27:17 GMT)
Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1] 本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:00:56 GMT)
Tool or Tutor? Experimental evidence from AI deployment in cancer diagnosis [3.1] 我々は、AIによるトレーニングとAIによるタスク完了が、人間の能力に共同で影響を与えることを提案する。
336人の医学生によるフィールド実験で、トレーニング、実践、そしてその両方においてAIの展開を操作した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:36:10 GMT)
Design and Experimental Validation of an Autonomous USV for Sensor Fusion-Based Navigation in GNSS-Denied Environments [2.9] MARVEL(MARVEL)は、センサーフュージョンに基づくナビゲーションアルゴリズムの現実的なテストのために開発された無人表面車両である。
電磁ログ、ドップラー速度ログ、慣性センサー、リアルタイムキネマティック位置決めを統合している。
MARVELは、冗長な同期センサーを使用して、高度なナビゲーションとAI駆動アルゴリズムのリアルタイム、その場検証を可能にする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:50:46 GMT)
Data Spatial Programming [2.8] オブジェクト指向プログラミング(OOP)のセマンティクスを拡張する新しいプログラミングモデルであるデータ空間プログラミングを導入する。
このトポロジカル空間におけるデータ要素間の関係を形式化することにより、我々のアプローチは複雑なシステムのより直感的なモデリングを可能にする。
このパラダイムは、エージェントベースのシステム、ソーシャルネットワーク、リレーショナルデータ処理、ニューラルネットワーク、分散システム、有限状態マシン、その他の空間指向の計算問題など、コンピュータ科学における幅広い問題を表現する際に、従来のOOPの制限に対処する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:07:29 GMT)
Security Analysis of Chain-FS service [2.7] 我々は,クラウドストレージサービスのセキュリティについて検討する。
保存されたファイルはエンドツーエンドで暗号化されているが、パスワードが必要最小限の長さにしか満たさない場合に、悪意のあるサーバによる効果的な辞書攻撃を可能にする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:32:45 GMT)
FeRG-LLM : Feature Engineering by Reason Generation Large Language Models [2.7] FeRG-LLMは機能エンジニアリングを自動実行するように設計された大きな言語モデルである。
我々は、言語モデルで機械学習タスクを解析できる2段階の会話対話を構築した。
実験の結果、FeRG-LLMはほとんどのデータセットでLlama 3.1 70Bと同等かそれ以上に動作することが示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:07:21 GMT)
When LLM Therapists Become Salespeople: Evaluating Large Language Models for Ethical Motivational Interviewing [2.5] 本研究では、動機づけ面接(MI)における大規模言語モデル(LLM)の倫理的意識について検討する。
以上の結果から, LLM は MI において中等度から強大な知識を持つが,その倫理基準は MI の精神と一致していないことが示唆された。
リスクを軽減し、安全性を向上させるためのチェーン・オブ・エシック・プロンプトを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:20:32 GMT)
Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation, and Goal-Aware Prompt Formulation [2.4] 本研究は,論理的誤り検出のための新規かつ効果的な高速な定式化手法を提案する。
提案手法は暗黙の文脈情報を含む入力テキストを豊かにすることで,議論の文脈内での妥当性を問う。
5つのドメインから複数のデータセットにまたがるアプローチを評価する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:41:09 GMT)
A Multi-agent Onboarding Assistant based on Large Language Models, Retrieval Augmented Generation, and Chain-of-Thought [2.4] ソフトウェア工学の実践は不可欠だが、技術の急激な発展のために難しい。
本稿では,大規模言語モデル,検索拡張生成,および自動チェーン・オブ・思想アプローチを活用するOnboarding Buddyシステムを提案する。
我々のソリューションはエージェントベースであり、最小限の人的介入でカスタマイズされた支援を提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:40:09 GMT)
Map Feature Perception Metric for Map Generation Quality Assessment and Loss Optimization [2.3] 本研究では,合成地図と対象地図のグローバルな特徴と空間的整合性を評価するために考案された新しいマップ特徴量について紹介する。
本手法は、地図構造的整合性とトポロジ的関係を包括的にエンコードする要素レベルの深い特徴を抽出する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 09:07:09 GMT)
From Content Creation to Citation Inflation: A GenAI Case Study [2.3] 本稿では,AIによる疑わしい学術論文がプレプリントレポジトリに与える影響について検討する。
GenAIによるサイバーセキュリティの研究に関する出版物で観察された疑わしいパターンに触発され、疑わしい論文やプロファイルの集合を識別する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:17:26 GMT)
Prototyping with Prompts: Emerging Approaches and Challenges in Generative AI Design for Collaborative Software Teams [2.2] 生成型AIモデルは、人間のタスクに統合され、表現力のあるコンテンツの制作が可能になっている。
従来のヒューマンAI設計手法とは異なり、生成能力を設計するための新しいアプローチは、迅速なエンジニアリング戦略に重点を置いている。
我々の発見は、マルチステークホルダーチーム間のAIシステムのプロトタイピングにおける新たなプラクティスと役割シフトを浮き彫りにしている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:02:53 GMT)
Internal Organ Localization Using Depth Images [1.9] 本稿では,体表面から内臓器の位置を近似的に推定する学習基盤の実現可能性について検討する。
深層画像だけで臓器の位置や形状を正確に予測できる深層学習モデルを訓練する。
以上の結果から,MRIに内蔵されたRGB-Dカメラベースのシステムは,スキャン手順の合理化と患者体験の向上につながる可能性が示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:55:23 GMT)
Optimal Invariant Bases for Atomistic Machine Learning [1.9] 多くの機械学習モデルは原子の局所環境を記述するが、その多くは不完全または機能的依存である。
我々は、パターン認識文学から既存の原子論的な表現に至るまでの技法を用いて、完全性を満たす最小の集合を生成する。
これにより、各ニューロンに最大5体パターンを認識可能な、メッセージパッシングネットワークアーキテクチャが新たに構築されることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:52:29 GMT)
EAP4EMSIG -- Enhancing Event-Driven Microscopy for Microfluidic Single-Cell Analysis [1.8] イベント駆動顕微鏡のための実験自動化パイプラインの3つのコンポーネントをスマートマイクロ流体単セル分析に導入する。
我々のオートフォーカスは50ms以下の推測時間を持つ0.0226mutext mの平均絶対誤差を達成する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:16:23 GMT)
Multi-Stakeholder Disaster Insights from Social Media Using Large Language Models [1.7] ソーシャルメディアは、災害や緊急時にユーザーがフィードバックや問題を迅速に共有するための主要なチャンネルとして現れてきた。
本稿では, LLMの能力を活用して災害対応と管理を強化する手法を提案する。
提案手法は,生のユーザフィードバックと利害関係者固有のレポートのギャップを埋めるために,分類手法と生成AIを組み合わせる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:53:52 GMT)
Accelerating Task Generalisation with Multi-Level Skill Hierarchies [1.7] フラクチャクラスタオプション(FraCOs)は、難解な一般化タスクにおける最先端のパフォーマンスを達成する階層的な強化学習手法である。
いくつかの複雑な手続き的に生成された環境で、最先端の深層強化学習アルゴリズムに対してFraCOを評価した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:36:39 GMT)
Coupled Input-Output Dimension Reduction: Application to Goal-oriented Bayesian Experimental Design and Global Sensitivity Analysis [1.5] 本研究では,高次元空間間の関数の入力空間と出力空間の次元を共同で削減する手法を提案する。
提案手法は,入力量と出力量のどちらかが規定される目標方向の次元減少を自然に支援する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:19:54 GMT)
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias [1.4] 5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
我々のデバイアス法は公平さを向上し,ベースラインよりも5~15ポイントの性能向上を実現した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:59:15 GMT)
Revisiting the Relationship between Adversarial and Clean Training: Why Clean Training Can Make Adversarial Training Better [1.2] 逆行訓練(AT)は、対向的堅牢性を高める効果的な手法であるが、一般化能力の低下によるコストがかかる。
近年の研究では、清潔な訓練を敵の訓練に役立てようと試みているが、結論には矛盾がある。
そこで我々は,AT法の性能向上のためにクリーントレーニングを活用する新しいアイデアを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:58:41 GMT)
To See or Not to See: A Privacy Threat Model for Digital Forensics in Crime Investigation [1.1] 本稿では,プライバシ指向の脅威モデリングをディジタル法医学に取り入れることを目的として,脅威モデリングのためのSPADA手法を適用した。
犯罪捜査を通じて、デジタル法医学に影響を及ぼす可能性のある、合計298件のプライバシー上の脅威を特定します。
次に,犯罪調査におけるディジタル法医学の包括的かつ体系的なプライバシー脅威モデルを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:34:35 GMT)
SPIO: Ensemble and Selective Strategies via LLM-Based Multi-Agent Planning in Automated Data Science [1.1] 大規模言語モデル(LLM)は、動的推論と適応性を有効にすることで、自動データ分析と機械学習に革命をもたらした。
4つの主要なモジュールをまたいだマルチエージェントプランニングを編成する新しいフレームワークであるSPIOを提案する。
各モジュールでは、専用の計画エージェントが独立して、後続のステージにカスケードする候補戦略を生成し、包括的な探索を促進する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:45:32 GMT)
Local Concept Embeddings for Analysis of Concept Distributions in Vision DNN Feature Spaces [1.1] 学習した潜伏表現に対する洞察は、コンピュータビジョンタスクのディープニューラルネットワーク(DNN)を検証する上で不可欠である。
本稿では,学習した概念分布の探索を可能にする新しいローカル概念分析フレームワークを提案する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:12:08 GMT)
Hierarchical graph sampling based minibatch learning with chain preservation and variance reduction [1.0] グラフサンプリングに基づくグラフ畳み込みネットワーク(GCN)は、ミニバッチトレーニング中に前と後ろの伝播からサンプリングを分離する。
階層的なグラフサンプリングに基づく学習手法であるHIS_GCNsを提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:35:44 GMT)
ViLAaD: Enhancing "Attracting and Dispersing'' Source-Free Domain Adaptation with Vision-and-Language Model [1.0] Source-Free Domain Adaptation (SFDA)は、トレーニング済みのソースモデルを、ソースデータにアクセスすることなく、異なるドメインからターゲットデータセットに適応することを目的としている。
視覚と言語(ViL)モデルを用いて既存のFDAフレームワークを拡張して補助情報を組み込む新しい手法を提案する。
我々のアプローチは ViL-enhanced AaD (ViLAaD) と呼ばれ、AaD フレームワークのシンプルさと柔軟性を保ちながら、適応性能を大幅に向上させるために ViL モデルを活用している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:22:55 GMT)
Quantum-Assisted Machine Learning Models for Enhanced Weather Prediction [0.8] 量子機械学習(QML)は、予測モデリング能力を改善するために量子コンピューティングを使用することで、天気予報に対する革命的なアプローチとして提示される。
本研究では,量子ゲート型リカレントユニット(QGRU),量子ニューラルネットワーク(QNN),量子長短期記憶(QLSTM),変分量子回路(VQC),量子支援ベクトルマシン(QSVM)などのQMLモデルを適用する。
その結果、QMLモデルは予測と分類の両方において、特に二項分類において妥当な精度を達成できることを示した。
本研究は、天気予報・舗装におけるQMLの実現可能性に関する知見を提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:03:27 GMT)
Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation [0.8] 医用画像データセットに微調整を施した事前学習型視覚言語基礎モデルの能力について, 潜時無拘束化を行うための第1報を提示する。
言語誘導の安定拡散は、本質的に画像生成のキー属性を分解することを学ぶことを実証する。
生成モデルの潜在空間軌跡を識別し,分離し,操作するための枠組みを考案し,医用画像合成の精密制御を容易にする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:15:52 GMT)
Dynamic hashtag recommendation in social media with trend shift detection and adaptation [0.8] 本稿では,BERTに基づくハッシュタグ推薦手法であるH-ADAPTS(Hashtag recommendAtion by Detecting and adAPting to Trend Shifts)を提案する。
提案手法では,ハッシュタグの使用状況の変化を識別するトレンド認識検出機構を導入し,最近の記事の(小さな)集合に対する効率的なモデル適応を誘導する。
新型コロナウイルス(COVID-19)のパンデミックや2020年の米大統領選挙を含む2つの実世界のケーススタディの実験結果は、高いレコメンデーション精度を維持する能力を示している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:04:14 GMT)
Filtering with Time-frequency Analysis: An Adaptive and Lightweight Model for Sequential Recommender Systems Based on Discrete Wavelet Transform [0.8] ユーザの興味を異なる周波数と時間で複数の信号に分解し、これらの信号の重みを自動的に学習するDWT方式の適応時間周波数フィルタを設計する。
また,適応時間周波数フィルタに基づく逐次レコメンデーションモデルDWTRecを開発した。
実験により,各領域,空間レベル,平均シーケンス長の異なるデータセットにおいて,我々のモデルが最先端のベースラインモデルより優れていることが示された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:28:42 GMT)
Leveraging Vision-Language Foundation Models to Reveal Hidden Image-Attribute Relationships in Medical Imaging [0.8] 視覚言語基礎モデル (VLM) は, テキストによる画像生成の指導において, 優れた性能を示した。
この研究において、我々は最初に「微調整された基礎モデルは、重要で、おそらく未知のデータ特性を特定するのに役立つか?」という疑問を調査する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:49:26 GMT)
What is Reproducibility in Artificial Intelligence and Machine Learning Research? [0.7] 重要な検証作業の役割と定義を明らかにするためのフレームワークを紹介します。
この構造化フレームワークは、AI/ML研究者にこれらの本質的な概念を明確化することを目的としている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:44:17 GMT)
Quantitative imaging of nonlinear spin-wave propagation using diamond quantum sensors [0.7] スピン波減衰率の異なる2つのイットリウム鉄ガーネット薄膜の非線形スピン波伝播を画像化した。
スピン波の振幅が増加するにつれて、視野全体で波数の変化が観測される。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 05:27:45 GMT)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.7] VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:19:52 GMT)
Multi-Objective Optimization and Hyperparameter Tuning With Desirability Functions [0.5] Pythonパッケージススポットデアビリティは、シーケンシャルパラメータ最適化フレームワークの一部として利用できる。
古典的最適化にデザーラビリティ関数を使う方法を示す3つの例が提示される。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:16:41 GMT)
Quantum Methods for Managing Ambiguity in Natural Language Processing [0.5] カテゴリー構成分布(DisCoCat)フレームワークは、自然言語で意味を持つ。
DisCoCatダイアグラムはテンソルネットワークや量子回路に関連付けられる。
文の意味を表す量子回路上で確率分布を生成する方法を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:10:37 GMT)
GRASP: Municipal Budget AI Chatbots for Enhancing Civic Engagement [0.5] 本稿では、検索とプロンプトのためのアクションシステム生成のためのカスタムAIフレームワークGRASPを提案する。
GRASPは、従来の情報検索システムよりも、ユーザ予算のクエリに対して、より誠実で根拠のある応答を提供します。
テストの結果, GRASPは自治体予算の78%に対して, 正確かつ正確な回答を提供することがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:46:06 GMT)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.4] 本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:03:52 GMT)
Generalized Reputation Computation Ontology and Temporal Graph Architecture [0.3] 我々は「流動民主主義」の原則を支持する高度な評価システムの利用を検討している。
システムの実装に使用される"インクリメンタルな評価"の設計とグラフデータベースを提案する。
このフレームワークは、あらゆるマルチエージェントAIフレームワークの基礎となることが期待されている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:03:43 GMT)
Quantum-enhanced sensing of photonic modes with cat states [0.3] ボソニック干渉計はハードウェア効果の利点があり、ボソニックモードの高次元ヒルベルト空間を利用することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:29:24 GMT)
SpINR: Neural Volumetric Reconstruction for FMCW Radars [0.2] 本稿では、周波数変調連続波(FMCW)レーダデータを用いたボリューム再構成のための新しいフレームワークSpINRを紹介する。
従来のバックプロジェクション手法や既存の学習ベースアプローチよりも,SpINRの方が優れていることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:44:57 GMT)
Violation of LGtI inequalities in the light of NO$ν$A and T2K anomaly [0.0] 3自由度ニュートリノ振動の文脈におけるLeggett-Garg型不等式(LGtI)の違反について検討した。
我々の分析は、複雑なNSIと$epsilon_emu$または$epsilon_etau$の結合を含むシナリオにおけるLGtI違反に焦点を当てている。
逆順序付け (IO) では、DUNE の実験セットが 8.5 ドルGeV を超える場合、LGtI の違反は、新しい物理シナリオの指標として$epsilon_etau$ が現れる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:43:43 GMT)
Towards practical non-Markovianity measures: Normalization and regularization techniques [0.0] 量子力学の非マルコビアン度を特徴づける尺度は、実デバイスに適用した場合にいくつかの欠点がある。
本研究は,超伝導トランスモンおよび捕捉イオン量子ビット上で実験により得られた知見を検証し,その有効性を高めるためのいくつかの手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:20:10 GMT)
Topological excitations at time vortices in periodically driven systems [0.0] タイムボルテックスと呼ばれる運転するハミルトンの時空欠陥が、$pi$Majoranaモードに結合できることが示される。
クリフォードゲートを用いて時間渦を作成することができ、その実現を短期量子シミュレーターで単純化する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:55:13 GMT)
The Processing goes far beyond "the app" -- Privacy issues of decentralized Digital Contact Tracing using the example of the German Corona-Warn-App (CWA) [0.0] ドイツにおけるコロナ・ワーン・アプリ(Corona-Warn-App)の科学的,方法論的に明確なDPIAの結果を報告する。
分散アーキテクチャでさえ、深刻な弱点やリスクを数多く抱えていることが示されています。
また、提案された設計はいずれも匿名データや適切な匿名化を保証していないことも判明した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:48:15 GMT)
TaMPERing with Large Language Models: A Field Guide for using Generative AI in Public Administration Research [0.0] 大規模言語モデル(LLM)の社会科学研究への統合は、科学的調査を進めるための変革的な機会を提示する。
この原稿では、タスク、モデル、プロンプト、評価、レポートの5つの決定ポイントに基づいて構成された、TaMPERフレームワークの方法論を紹介します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:38:11 GMT)
Strongly coupled photonic molecules as doubly-coupled oscillators [0.0] 相互作用する空洞からなる強結合フォトニック分子の第一原理理論モデルを提案する。
強結合キャビティモードは2重結合と呼ばれる高調波発振器に類似しており、独立座標座標および運動量-運動量結合として現れる電場と磁場による相互作用を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:05:53 GMT)
Space of Data through the Lens of Multilevel Graph [0.0] この研究は、新しいデータ構造を導入することで、データ空間の本質的な複雑さに取り組むことを目指している。
本稿では,そのトポロジの縮小と拡張という,2つの基本的な操作を備えたマルチレベルグラフの概念を提案する。
我々は、このグラフ構造を操作するための包括的な方法スイートを提供し、データ分析のための堅牢なフレームワークを確立します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:54:07 GMT)
Solve sparse PCA problem by employing Hamiltonian system and leapfrog method [0.0] そこで本研究では,スムーズなL1ペナルティを通したスパースPCAアルゴリズムを提案する。
k-アネレスト近傍とカーネルリッジ回帰の両方を用いた顔認識データセットの実験的評価-提案したスパースPCA法は従来のPCA法よりも高い分類精度を一貫して達成している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:39:11 GMT)
Scaling Session-Based Transformer Recommendations using Optimized Negative Sampling and Loss Functions [0.0] TRONはセッションベースのTransformer Recommenderで、最適化されたネガティブサンプリングを使用している。
TRONは、SASRecと同様のトレーニング速度を維持しながら、現在のメソッドの推奨品質を改善している。
ライブA/Bテストでは、SASRecよりもクリックスルー率が18.14%上昇した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:18:02 GMT)
SalesRLAgent: A Reinforcement Learning Approach for Real-Time Sales Conversion Prediction and Optimization [0.0] SalesRlagentは、特別な強化学習を活用して営業会話全体の変換確率を予測する新しいフレームワークである。
システムには、Azure OpenAI組み込み(3072次元)、ターンバイターン状態追跡、メタ学習機能が含まれて、自身の知識境界を理解する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:56:26 GMT)
Robust Self-testing for Synchronous Correlations and Games [0.0] 同期相関は、適切な$C*$-algebra上に一意な状態が存在する場合に限り、堅牢な自己テストであることを示す。
有限次元戦略の可換作用素自己テストとして機能するすべての同期相関やゲームも頑健な自己テストであることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:19:14 GMT)
Quasi-cyclic Linear Error-Block Code-based Post-quantum Signature [0.0] 代数的特性の強い線形誤りブロック符号(LEB)の族に基づくシグネチャを導入する。
この研究の間に代数的に定義する準巡回LEB符号の族である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:36:05 GMT)
Quantum Generative Models for Image Generation: Insights from MNIST and MedMNIST [0.0] 画像生成タスクのための変分量子回路に基づく新しいハイブリッド量子生成モデルを提案する。
提案手法は,量子回路固有の量子生成ノイズと,新たに開発されたノイズスケジューリング手法の2つの特徴的ノイズ戦略を利用する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:36:22 GMT)
Quantum Computation with Quantum Batteries [0.0] 低温量子コンピュータは室温制御エレクトロニクスからの連続的なエネルギー供給を必要とする。
我々は、全てのユニタリ論理を容易にする量子計算の本質的なエネルギー源として量子電池を提案する。
このアーキテクチャは、各量子ビットの駆動線の必要性をなくすことで、読み出しのみのエネルギー消費を減らし、低温系当たりの量子ビットのポテンシャルを4倍に増やす。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:23:00 GMT)
Quantum Causal Inference with Extremely Light Touch [0.0] 本稿では,時間的相関と空間的相関の場合にのみ量子観測を用いた因果推論手法を提案する。
このプロトコルは、因果影響の方向によって区別される5つの因果構造との整合性を決定する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:06:45 GMT)
Probing the localization effects in Krylov basis [0.0] クリロフ複雑性(Krylov complexity、K-complexity)は、全ての可能な基底に広がる波動関数を最小化する量子状態複雑性の尺度である。
本研究では、量子キックローター系における様々な局在化現象を探索するために、K-複素性とアルノルディ係数を適用した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:29:12 GMT)
Piquasso: A Photonic Quantum Computer Simulation Software Platform [0.0] 我々は、フォトニック量子コンピュータのシミュレーションとプログラミングのためのフルスタックのオープンソースソフトウェアプラットフォームであるPiquasso量子プログラミングフレームワークを紹介した。
PiquassoはハイレベルなPythonプログラミングインタフェースでプログラムでき、ユーザーは離散変数と連続変数で効率的な量子コンピューティングを実行できる。
Piquassoフレームワークは直感的なWebベースのグラフィカルユーザインターフェースによってサポートされており、ユーザは量子回路を設計し、計算を実行し、結果を視覚化することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:04:19 GMT)
Perspectives on Quantum Friction, Self-Propulsion, and Self-Torque [0.0] 我々は、通常の静的カシミール・ポルダーとカシミールの力とトルクを超えた力とトルクを考える。
運動体にとって、リターディング力は量子摩擦(英語版)またはカシミール摩擦(英語版)と呼ばれ、これは1910年にアインシュタインとホップによって初めて真空で予測された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:54:53 GMT)
Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems [0.0] MultiTRONは、マルチオブジェクトセッションベースのレコメンデータシステムに近似技術を適用するアプローチである。
提案手法は,選好ベクトルの学習によるクリックスルーや変換率といった重要な指標間のトレードオフを最適化する。
大規模なオフラインおよびオンライン評価を通じて、モデルの性能を検証する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:29:24 GMT)
Order Independence With Finetuning [0.0] 大規模言語モデル(LLM)は多くのNLPタスクにおいて顕著な性能を示すが、しばしば順序依存を示す。
最近の研究は、指定されたトークンサブセットから注文情報を除去する手段として、SBP(Set-Based Prompting)を提案する。
我々は,SBPをトレーニングプロセスに統合し,これらの設定されたプロンプトをモデルのトレーニング多様体に"推進する"微調整戦略を導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:38:43 GMT)
Online Convex Optimization and Integral Quadratic Constraints: A new approach to regret analysis [0.0] 我々は,厳密な凸とリプシッツ・スムース目的に対する一階制約付きオンライン凸最適化アルゴリズムの動的後悔を分析した。
我々は、オンラインアルゴリズムに対する後悔の保証を提供する半確定的なプログラムを導出する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:48:11 GMT)
Novel sparse PCA method via Runge Kutta numerical method(s) for face recognition [0.0] 本稿では,Sparse principal Component Analysis (PCA) の実装について,近似勾配法とルンゲ・クッタ数値法を用いて検討する。
実験結果から,Sparse PCA-solved by the Proximal Gradient method, and the Runge-Kutta numerical approach with a classification systemは標準PCAよりも高精度であることがわかった。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:34:06 GMT)
Nesterov acceleration in benignly non-convex landscapes [0.0] 本研究では, モーメントに基づく最適化アルゴリズムが, 深層学習問題の非凸設定に応用可能であることを示す。
本稿では、加速理論と実践設定のこのギャップを部分的に埋める。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:50:19 GMT)
Multi-image quantum encryption scheme using blocks of bit planes and images [0.0] ビットプレーンと画像のブロックに基づくマルチイメージ量子暗号化/復号方式を提案する。
量子ベーカーマップのための量子回路を提供する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:14:58 GMT)
Measurement-induced back-action and spin-to-polarization mapping in a quantum dot-based receiver [0.0] 偏光符号化されたスピン光子インタフェースは、光子受信機として用いられる定常ノードの開発に有望な候補となる。
本稿では,半導体量子ドット内の電子スピンのダイナミクスを観察できる時間分解トモグラフィー手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:15:11 GMT)
Measurement-Induced Entanglement Phase Transition in Free Fermion Systems [0.0] 測定誘起絡み合い相転移(MIET)は、局所的な測定が量子システムをいかに駆動するかを示す。
本総説では, 単体ホッピングが測定による非ユニタリ性とどのように競合するかに着目し, 自由フェルミオンモデルにおけるMIETについて検討する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:08:12 GMT)
Many body quantum chaos and time reversal symmetry [0.0] 汎用多体量子カオス系(gMBQC)における時間反転対称性(TRS)の存在下での量子カオスの普遍的シグネチャについて検討する。
我々は、Thouless time $t_mathrmTh$の2倍のスペクトル形成因子(SFF)におけるランダム行列理論(RMT)普遍性の出現を導出した。
本稿では,SFFを古典強磁性イジングモデルの分割関数にマッピングする。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:20:53 GMT)
Make Autoregressive Great Again: Diffusion-Free Graph Generation with Next-Scale Prediction [0.0] 次世代の予測に基づく新しい拡散自由グラフ生成フレームワークMAGを提案する。
潜在表現の階層化を活用することで、モデルは明示的なノード順序付けを必要とせずに、グラフ全体のスケールを段階的に生成する。
汎用グラフデータセットと分子グラフデータセットの両方の実験により、MAGは最先端の手法と比較して競争力を発揮することを示した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:30:34 GMT)
Macroscopic "Lola/Mola" Cat State [0.0] 問題のシステムは、ローラとして知られるシャム猫である。
約12時間の時間スケールで、"Mola"と呼ばれる別の状態に振動する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:22:06 GMT)
Linguistic Loops and Geometric Invariants as a Way to Pre-Verbal Thought? [0.0] 本稿では,言語変換,言語ループ,意味障害の概念を紹介する。
リー群の理論的および幾何学的手法を利用して、全言語ループの構造的性質を捉える不変量を定義する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 04:38:36 GMT)
Improved Quantum Algorithms for Eigenvalues Finding and Gradient Descent [0.0] ブロック符号化は、最近開発された量子特異値変換(QSVT)フレームワークにおいて重要な要素である。
本稿では、ブロック符号化を利用して、2つの従来提案されていた量子アルゴリズムを大幅に強化することで、この視点を裏付ける。
この結果から,単位ブロック符号化フレームワークの基本的な操作だけでも,大きなスケーリング要因を排除できることが示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:49:14 GMT)
Imbalanced malware classification: an approach based on dynamic classifier selection [0.0] マルウェア検出における重要な課題は、ほとんどのアプリケーションが良心的であり、脅威を呈するわずかな部分しか存在しないデータセットの不均衡である。
本研究は,Androidアプリケーションにおけるマルウェア検出のための各種機械学習戦略を評価することにより,マルウェア検出におけるクラス不均衡の問題に対処する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 19:12:16 GMT)
Graph-Eq: Discovering Mathematical Equations using Graph Generative Models [0.0] 本稿では,効率的な方程式探索を目的としたグラフ生成モデルであるGraph-EQを提案する。
Graph-Eqのエンコーダ・デコーダアーキテクチャは入力方程式を正確に再構築できることを示す。
また、学習した潜在表現をサンプル化し、新しい未知の方程式を含む有効な方程式に復号できることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:47:57 GMT)
Genuine four-partite Bell nonlocality in the curved spacetime [0.0] 量子ベル非局所性は、量子情報処理において重要な役割を果たす。
まず、4ビット量子状態の真の4部ベル非局所性の定量的解析式を得る。
我々は、ホーキング効果がシュワルツシルトブラックホールのフェルミオン場に対して物理的に到達不能な真の4粒子非局所性を生成することを観察した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 03:48:23 GMT)
Gauged cooling of topological excitations and emergent fermions on quantum simulators [0.0] 領域壁を励起する量子イジングモデルの強磁性相を効率的に冷却する方法を示す。
本プロトコルは強磁性相と常磁性相の基底状態を等しく効率的に作成できることを示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:13:19 GMT)
Exploring GPT-4 for Robotic Agent Strategy with Real-Time State Feedback and a Reactive Behaviour Framework [0.0] 我々は,新しい大規模言語モデル(LLM)駆動行動法の概念実証として,ヒューマノイドロボットと実世界におけるGPT-4の利用について検討する。
問題は、LLMに目標を与え、LLMはその目標を達成するためにサブタスクを出力することである。
本稿では,安全性,タスク間の遷移,タスクの時間的地平線,状態フィードバックに関する現実的な懸念に対処する手法を提案する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:53:28 GMT)
Evaluating Gender, Racial, and Age Biases in Large Language Models: A Comparative Analysis of Occupational and Crime Scenarios [0.0] 本稿では,Large Language Models(LLMs)におけるバイアスについて検討する。
LLMは、様々な職業において、男性よりも頻繁に女性キャラクターを描いていることが判明した。
性別と人種の偏見を減らそうとする努力は、しばしば1つのサブクラスを超越する結果をもたらす。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:41:39 GMT)
Error analysis of quantum operators written as a linear combination of permutations [0.0] 我々は、置換の線形結合として与えられる行列を考慮し、固有値の摂動に対するビットと位相フリップの影響を分析する。
線形結合の係数が正となると、行列の固有値が量子ビットフリップ誤差に対するレジリエンスを示すことが観察される。
混合符号係数を持つ行列はビットフリップと位相フリップの誤差に対するレジリエンスが低いが、数値的な証拠は固有スペクトルの摂動が小さい場合に非常に小さいことを示している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:12:29 GMT)
Entropy functionals and equilibrium states in mixed quantum-classical dynamics [0.0] 我々は、通常の R'enyi と Shannon のエントロピーを恒常的に専門とするハイブリッドエントロピー函数の族を提案する。
単純なハミルトニアンに対する平衡配置を特徴付けるためにハイブリッドシャノンエントロピーを適用する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 10:56:02 GMT)
Entanglement detection with quantum support vector machine(QSVM) on near-term quantum devices [0.0] 本稿では,IBM量子デバイス上での量子支援ベクトルマシン(QSVM)の実装について述べる。
ハードウェアノイズにもかかわらず, 絡み合った状態の識別において, QSVM フレームワークは90%以上の精度を実現していることを示す。
この研究は、エンタングルメント検出のための量子機械学習の大幅な進歩を示す。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 13:48:05 GMT)
Enhancing Physics-Informed Neural Networks with a Hybrid Parallel Kolmogorov-Arnold and MLP Architecture [0.0] 並列化されたkanとブランチを統一されたPINNフレームワークに統合する新しいアーキテクチャを提案する。
HPKM-PINNは、カンの解釈可能な関数近似と数値の非線形学習の相補的強度を最適にバランスさせるためのスケーリング係数xiを導入した。
これらの結果は、HPKM-PINNがKanの解釈可能性と堅牢性を活用できる能力を強調し、複雑なPDE駆動の問題を解決する汎用的でスケーラブルなツールとして位置づけている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 02:59:32 GMT)
Embedding Shift Dissection on CLIP: Effects of Augmentations on VLM's Representation Learning [0.0] ここでは,CLIPの埋め込みにおける9つの一般的な拡張手法の変遷を示す。
我々は,注目マップ,パッチ,エッジ,ディテール保存,コサイン類似性,L2距離,対距離,デンドログラムクラスタの類似性に基づく埋め込みシフトについて検討した。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 16:04:05 GMT)
Efficiently preparing chiral states via fermionic cooling on bosonic quantum hardware [0.0] 本稿では, 強磁性体量子シミュレータ上でのフェルミオンハミルトニアンの低エネルギー状態を生成するための効率的なプロトコルを提案する。
我々のプロトコルはノイズの存在下で良好に動作し、短期量子デバイス上での実行に適している。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 12:59:45 GMT)
Efficient simulation of non-trivial dissipative spin chains via stochastic unraveling [0.0] 我々は、多くのリンドブラッドマスター方程式が、ガウスフェルミオン状態として進化する個々の軌道と正確に一致しないことを示す。
これにより、符号問題や有界サンプリング複雑性を伴わずに、任意の可観測関数を効率的に計算することができる。
本手法は, 局所損失の存在下での反強磁性秩序の融解, 相関損失を有する系における多体サブラジアント現象, 1次元散逸性横磁場イジングモデルの非平衡定常状態の3つのパラダイム的散逸効果について検討する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:56:03 GMT)
Dynamics in an emergent quantum-like state space generated by a nonlinear classical network [0.0] この作業は、グラフが古典的なシステムと私たちが量子ライク(QL)と呼ぶ状態空間を接続するのに役立つフレームワークを活用する。
グラフを介してQL状態空間にマップする,大規模でダイナミックな古典システムの具体例について検討する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 14:26:08 GMT)
Deformations of the symmetric subspace of qubit chains [0.0] 対称部分空間の変形を群構造 $mathcalU_q(mathfraksu(2))$ の変形として提示する。
対称部分空間の変形は、各スピンの内積の局所的な変形に対応し、対称性からの離脱を位置依存的な内積に符号化することができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:38:50 GMT)
Decoding Human Preferences in Alignment: An Improved Approach to Inverse Constitutional AI [0.0] 大規模言語モデル(LLM)を整合させるルールベースのフレームワークを開発する。
Inverse Constitutional AI (ICAI)アルゴリズムを改良し、好みのデータセットから構成を抽出する。
我々の結果は、これらの原則がより透明で適応可能なアライメント手法を促進する可能性を強調します。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 17:39:07 GMT)
Critical Mathematical Economics and Progressive Data Science [0.0] 本稿では,経済政策における論争の数学的・モデル論的基礎に焦点をあてる。
「我々の見方では、数学は規制されていない市場を正当化するために主流の経済学で部分的に誤用されている。」
第2部の目的は、現代数学や計算機科学の材料を用いたヘテロドックスモデルの改良と拡張である。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 20:54:00 GMT)
Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0] 本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:13:00 GMT)
Autonomous Learning with High-Dimensional Computing Architecture Similar to von Neumann's [0.0] 我々は高次元ベクトルによる計算による人間と動物の学習をモデル化する(例:H = 10,000)。
このアーキテクチャは、数を持つ伝統的な(フォン・ノイマン)計算に似ているが、命令はベクトルを参照し、重ね合わせでそれらを操作する。
データから学習するモデルの能力は、深層学習を連想させるが、生物学に近いアーキテクチャを持つ。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:20:08 GMT)
Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0] 本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。
読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。
自発音声では,平均MERは0.063。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 01:34:21 GMT)
Artificial intelligence and democracy: Towards digital authoritarianism or a democratic upgrade? [0.0] 人工知能が民主主義に与える影響は、徹底的な研究と慎重な規制を必要とする複雑な問題である。
AIアプリケーションによって推進される新しいタイプのオンラインキャンペーンが、従来のものを置き換える。
有権者を操り、間接的に選挙結果に影響を与える可能性は過小評価されるべきではない。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 06:43:54 GMT)
An Organizationally-Oriented Approach to Enhancing Explainability and Control in Multi-Agent Reinforcement Learning [0.0] マルチエージェント強化学習(Multi-Agent Reinforcement Learning)は、組織概念と類似性を示す協調エージェント行動の開発につながる可能性がある。
MARLプロセスに$mathcalMOISE+$モデルから組織の役割と目標を明確に組み込む新しいフレームワークを導入する。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 22:43:01 GMT)
An Implementation of the Finite Element Method in Hybrid Classical/Quantum Computers [0.0] この原稿は、ノイズの多い中間スケール量子コンピュータで使用されるために開発された量子有限要素法(Q-FEM)を提示する。
Q-FEMは有限要素の離散化の構造をそのまま保持し、可変要素の長さと材料係数をFEMの離散化に用いることができる。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 21:22:05 GMT)
Addressing Model Overcomplexity in Drug-Drug Interaction Prediction With Molecular Fingerprints [0.0] 薬物と薬物の相互作用(DDI)の正確な予測は、医薬品研究と臨床安全性に不可欠である。
最近のディープラーニングモデルは、しばしば高い計算コストとデータセット間の限定的な一般化に悩まされる。
本研究では,Morgan fingerprints (S), graph-based embeddings from graph convolutional network (GCNs), transformer- derived embeddings from MoLFormer integrated into a straight neural network。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 18:27:01 GMT)
AEJIM: A Real-Time AI Framework for Crowdsourced, Transparent, and Ethical Environmental Hazard Detection and Reporting [0.0] 本稿では,AI環境ジャーナリズム統合モデル(AEJIM)を紹介する。
リアルタイムのハザード検出、自動レポート、クラウドソースによるバリデーション、エキスパートレビュー、透過的な普及が組み合わさっている。
AEJIMは従来の手法に比べて、環境リスクレポートのスピード、正確性、透明性を著しく向上させた。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 11:33:03 GMT)
A simple algorithm to reflect through eigenspaces of unitaries [0.0] 実装可能なユニタリの固有空間を反映する作業を考える。
このアルゴリズムはユニタリの固有空間を反映する参照手法として期待されている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 08:30:09 GMT)
A Systematic Decade Review of Trip Route Planning with Travel Time Estimation based on User Preferences and Behavior [0.0] 本稿では,人工知能(AI)を用いた適応旅行経路計画と旅行時間推定の進歩を体系的に検討する。
機械学習(ML)、強化学習(RL)、グラフニューラルネットワーク(GNN)を含む確立されたAI技術
論文は、AIを活用して効率的で透明で持続可能なナビゲーションシステムを構築するための推奨事項で締めくくっている。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 15:41:44 GMT)
A Constrained Multi-Agent Reinforcement Learning Approach to Autonomous Traffic Signal Control [0.0] 本稿では,Lagrange Cost Estimator (MAPPO-LCE) を用いたMulti-Agent Proximal Policy Optimization というアルゴリズムを提案する。
MAPPO-LCEは,すべての環境および交通制約に対して,3つのベースラインMARLアルゴリズムより優れていることを示す。
この結果から,制約付きMARLは,現実の交通ネットワークにスケーラブルで効率的なATSC手法をデプロイする上で,トラヒックプランナにとって貴重なツールであることが示唆された。
論文参考訳(メタデータ) (Sun, 30 Mar 2025 23:29:48 GMT)