PICASO: Permutation-Invariant Context Composition with State Space Models [98.9] State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:12:20 GMT)
Cross-Modal Consistency Learning for Sign Language Recognition [90.8] 孤立手話認識のためのクロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
優れたパフォーマンスを達成し、その効果を実証します。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:34:07 GMT)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [88.4] マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:39:13 GMT)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.3] SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:43:15 GMT)
Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs [86.2] MLLM(Multimodal Large Language Models)は、微粒な認識と複雑な推論を伴う課題に直面する。
一般的な事前学習アプローチは、高品質な画像キャプションのトレーニングによる知覚の向上に焦点を当てている。
本稿では,次世代MLLMを構築するための自己学習フレームワークである自己改善認知(SIcog)を紹介する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 00:25:13 GMT)
DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.0] Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:01:34 GMT)
STEVE: AStep Verification Pipeline for Computer-use Agent Training [84.2] STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:53:43 GMT)
How compositional generalization and creativity improve as diffusion models are trained [82.1] 構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:57:35 GMT)
EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis [79.3] 交通現場における交通事故予測(TAA)は, 今後ゼロ死亡率を達成する上で, 課題となる。
本稿では,追加の事故ビデオクリップを合成するAVDモデルを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:56:38 GMT)
Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [75.0] 自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:23:12 GMT)
A3D: Does Diffusion Dream about 3D Alignment? [74.0] 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
我々は、これらのオブジェクトを共通の潜在空間に埋め込み、これらのオブジェクト間の連続的な遷移を最適化することを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:45:57 GMT)
Human-like conceptual representations emerge from language prediction [72.6] 大型言語モデル(LLM)における人間に似た概念表現の出現について検討した。
その結果、LLMは定義記述から概念を推論し、共有された文脈に依存しない構造に収束する表現空間を構築することができた。
我々の研究は、LLMが複雑な人間の認知を理解するための貴重なツールであり、人工知能と人間の知能の整合性を高めるための道を開くという見解を支持している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:25:03 GMT)
Structural and Statistical Texture Knowledge Distillation for Semantic Segmentation [72.2] セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
構造的テクスチャ知識のために,低レベルの特徴を分解するContourlet Decomposition Module (CDM)を導入する。
本稿では, 統計的テクスチャ知識を適応的に抽出し, 強化するDenoized Texture Intensity Equalization Module (DTIEM)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:07:28 GMT)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [72.0] 我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:43:31 GMT)
Structural and Statistical Texture Knowledge Distillation and Learning for Segmentation [70.2] セマンティックセグメンテーションと関連する知識蒸留タスクのためのディープネットワークにおける低レベルのテクスチャ情報を再強調する。
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
特に、低レベルの特徴を分解するためにContourlet Decomposition Module (CDM)が導入されている。
テクスチャ強度等化モジュール(TIEM)は、統計テクスチャ知識を抽出し、強化するために設計されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:26:26 GMT)
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [68.5] 汎用的なゼロショットゴール指向ナビゲーションのための一般的なフレームワークを提案する。
本稿では,オブジェクトカテゴリ,インスタンスイメージ,テキスト記述など,異なる目標を統一する一様グラフ表現を提案する。
我々のUniGoalは、3つの研究されたナビゲーションタスクに対して1つのモデルで最先端のゼロショット性能を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:11:27 GMT)
A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.3] 完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。
完全解剖を分割できる連続学習駆動CTモデルを提案する。
単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:55:02 GMT)
Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.5] 拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:05:51 GMT)
Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.4] Mamba、RWKV、GLA、mLSTM、DeltaNetは、長いシーケンスでTransformerの効率的な代替手段として登場した。
しかし、TransformerとLRNNはどちらも状態追跡に苦労しており、コード評価などのタスクではパフォーマンスを損なう可能性がある。
本研究では,Mamba と DeltaNet の固有値範囲を負の値を含むように拡張することで,状態追跡タスクの性能が向上することを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:35:24 GMT)
Performance Characterization of a Multi-Module Quantum Processor with Static Inter-Chip Couplers [63.4] フリップチップボンディングのような3次元統合技術は、大規模超伝導量子プロセッサを実現するための鍵となる前提条件である。
1つのキャリアチップと4つのキュービットモジュールからなるマルチチップモジュールの設計を提案する。
2つのキュービットを測定し,平均3レベル状態割当誤差を200 nsで9倍10~3ドルとした。
ランダム化ベンチマークから抽出した7×10〜3$の誤差で100 nsの制御Z2量子ゲートを実演する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:32:44 GMT)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.3] ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:43:03 GMT)
Composable Interventions for Language Models [60.3] 言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。
しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。
複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:22:35 GMT)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.6] テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:11:25 GMT)
Logistic-beta processes for dependent random probabilities with beta marginals [58.9] 本稿では,ロジスティック・ベータプロセスと呼ばれる新しいプロセスを提案する。
本稿では,提案したロジスティックベータプロセスを用いて,計算処理可能な非パラメトリックモデルの設計を行う方法について述べる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:13:58 GMT)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.8] ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:28:10 GMT)
Deblur Gaussian Splatting SLAM [57.4] Deblur-SLAMは、モーションブルーの入力から鋭い復元を回復するために設計された堅牢なRGB SLAMパイプラインである。
我々は、動きブル画像の物理画像形成過程をモデル化し、観察されたぼやけた画像とぼやけた画像との誤差を最小化する。
我々は,合成および実世界のぼやけた入力データを用いて,シャープマップ推定とサブフレームトラジェクトリ回復のための最先端結果を得る。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:59:51 GMT)
Causal Representation Learning from Multimodal Biomedical Observations [57.0] バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:07:14 GMT)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.3] ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:25:31 GMT)
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.3] MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:14:52 GMT)
MambaIC: State Space Models for High-Performance Learned Image Compression [54.0] 多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:32:34 GMT)
Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.4] コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:27:04 GMT)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.4] 近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:32:11 GMT)
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [51.7] 本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:50:51 GMT)
Grasping Partially Occluded Objects Using Autoencoder-Based Point Cloud Inpainting [50.5] 実世界のアプリケーションには、シミュレーションや実験室の設定でテストされたソリューションを把握できないような課題が伴うことが多い。
本稿では,欠落した情報を再構成するアルゴリズムを提案する。
本手法は,ロバストなオブジェクトマッチング手法を現実に活用し,点計算の把握に役立てる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:38:08 GMT)
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.5] この研究は、より効率的なByT5の変種であるMrT5(MergeT5)を導入し、トークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
MrT5は、削除されたトークンから重要な情報をよりコンパクトなシーケンスに"マージ"し、残りのトークンからコンテキスト情報を活用する。
MrT5は、XNLI、TyDi QA、文字レベルのタスクなどの下流評価ではByT5に匹敵する精度を示し、シーケンス長を最大75%削減する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:22:10 GMT)
Multi Activity Sequence Alignment via Implicit Clustering [50.3] 暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:28:46 GMT)
Towards Learnable Anchor for Deep Multi-View Clustering [49.8] 本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:38:11 GMT)
ViLLa: Video Reasoning Segmentation with Large Language Model [48.8] ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:39:54 GMT)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.6] h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:42:00 GMT)
TopoGaussian: Inferring Internal Topology Structures from Visual Clues [47.9] TopoGaussianは、不透明な物体の内部構造を、簡単にアクセス可能な写真やビデオからインプットとして推定するための、全体論的、粒子ベースのパイプラインである。
従来のメッシュ方式と比較して,パイプラインの速度は平均5.26倍に向上し,形状品質が向上した。
これらの結果は、3Dビジョン、ソフトロボティクス、製造アプリケーションにおけるパイプラインの可能性を強調します。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:47:42 GMT)
L3Ms -- Lagrange Large Language Models [47.2] Supervised Fine-tuning (SFT) と Large Language Model (LLM) のアライメントは、優れたユーザエクスペリエンスを提供するための重要なステップである。
制約を強制するために対数障壁を用いるラグランジュ大言語モデル(L3Ms)を提案する。
各種用途に適したアライメントを実現するためのL3Mの汎用性と有効性について実験的に検証した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:12:08 GMT)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.0] 画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:45:45 GMT)
MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification [46.9] Whole Slide Image (WSI) の分類は、画像サイズと多数の非表現領域が原因で、ユニークな課題を生んでいる。
本稿では,Mixture-of-Experts(MoE)機構の強度と拡張分類のための拡散モデルを組み合わせたエキスパート拡散モデルMExDを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:04:17 GMT)
A Token-level Text Image Foundation Model for Document Understanding [46.3] TokenOCRは、テキストイメージ関連のタスクに特化して設計された、トークンレベルの視覚基盤モデルである。
TokenOCRの事前トレーニングを容易にするために、トークンレベルの最初の画像テキストデータセットであるTokenITを構築する高品質なデータ生成パイプラインも考案した。
また,従来のVFMをTokenOCRにシームレスに置き換えて,VQAベースの文書理解タスクのための文書レベルのMLLMであるTokenVLを構築する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:35:21 GMT)
Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View [45.4] Niagaraは、単一入力画像から挑戦的な屋外シーンを忠実に再構築することのできる、新しいワンビュー3Dシーン再構築フレームワークである。
幾何的アフィン場(GAF)と3次元自己アテンションを幾何学制約として導入し、明示的幾何学の構造的性質と暗黙的特徴場の適応性を組み合わせた。
そこでは,3次元ガウスパラメータを予測するために,奥行きに基づく3次元ガウスデコーダを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:50:18 GMT)
The Conditional Cauchy-Schwarz Divergence with Applications to Time-Series Data and Sequential Decision Making [44.4] コーシー=シュワルツの発散は2000年にPr'incipeらによって開発された。
2つの条件分布間の近接性を定量化するために、古典的なCS分岐を拡張した。
提案手法は, カーネル密度推定器を用いて, 提案した条件付きCSの偏差を簡易に推定できることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:34:07 GMT)
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? [44.3] 反社会的相互作用における推論と戦略的行動は知性の目印である。
SPIN-Benchは,エフェストレージック計画とエフェストレージック推論の知性を測定するために設計された,新しいマルチドメイン評価である。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:10:53 GMT)
TuneNSearch: a hybrid transfer learning and local search approach for solving vehicle routing problems [43.9] TuneNSearchは、異なる車両ルーティング問題(VRP)に対処するためのハイブリッドトランスファー学習とローカル検索アプローチである。
われわれはまず,多目的VRP上で強化学習モデルを事前訓練し,その後,異なる変種に適応するための簡単な微調整を施した。
結果は、TuneNSearchが各VRPでトレーニングされた既存の最先端モデルよりも優れており、トレーニングエポックの5分の1しか必要としていないことを示している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:34:11 GMT)
Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma? [43.3] 低密度サンプリングは臨界情報を欠くリスクを負うが、高密度サンプリングは冗長性をもたらす。
LSDBenchは、LVLM(Large Vision-Language Models)を長時間ビデオ上で評価するための最初のベンチマークである。
本稿では,質問関連キューのグローバルな局在化と局所的な高密度サンプリングを組み合わせ,高精度な推論を行うReasoning-Driven Hierarchical Smplingフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:12:45 GMT)
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era [41.1] 6000以上のペアワイドなキャプションバトルと高品質な人間の選好投票を備えたプラットフォームを構築します。
私たちのアリーナスタイルの評価はマイルストーンであり、GPT-4oのような主要なモデルが人間のパフォーマンスを達成または上回っていることを示している。
CapArena-Autoは詳細なキャプションのための正確で効率的な自動ベンチマークで、人間のランキングと94.3%の相関をテストあたり4ドルで達成しています。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:56:09 GMT)
SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.4] マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:12:23 GMT)
ProbDiffFlow: An Efficient Learning-Free Framework for Probabilistic Single-Image Optical Flow Estimation [39.9] 文献には単一フレーム光フロー推定法が登場している。
本稿では,単一画像から光学的流れを推定するトレーニングフリーフレームワークProbDiffFlowを提案する。
ProbDiffFlowは精度、多様性、効率性を向上し、既存のシングルイメージと2フレームのベースラインを上回っている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:07:51 GMT)
SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [39.0] 我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。
具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。
生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:09:27 GMT)
USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s [38.9] USTC-TDは4K空間解像度で40の画像と1080p空間解像度で10の動画シーケンスを含む。
画像/映像の特徴(空間,時間,色,明度)に基づいてUTC-TDを定量的に評価し,以前の画像/ビデオテストデータセットと比較した。
また,USTC-TDにおける画像/映像の符号化方式を,客観的な品質指標を用いて評価した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:09:46 GMT)
Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine Hesitancy [38.6] 大規模言語モデル(LLM)を利用した100個の生成エージェントを備えたVacSimフレームワークについて紹介する。
VacSim ワクチンは,1) 人口統計データに基づくエージェントの集団のインスタンス化,2) ソーシャル・ネットワークを介してエージェントを接続し,社会的ダイナミクスと疾患関連情報の関数としてワクチンの態度をモデル化すること,3) ワクチンの根絶を緩和するための様々な公衆衛生介入の設計と評価を行う。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:03:01 GMT)
DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness [38.3] 汎用的なエンボディロボットの開発には,任意の物体をつかむことのできる器用な手が不可欠である。
DexGrasp Anythingは拡散型生成モデルのトレーニングおよびサンプリングフェーズに物理的制約を統合する手法である。
我々は、15k以上の異なるオブジェクトに対して340万以上の多様なグルーピングポーズを含む、新しいデクスタラスなグルーピングデータセットを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:05:46 GMT)
BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries [37.4] マルチモーダル大言語モデル(MLLM)は、言語モデルの前に画像トークンを直接処理することで、よく訓練された視覚エンコーダの必要性をなくす。
視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。
この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:43:14 GMT)
PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.2] カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:40:29 GMT)
CAKE: Cascading and Adaptive KV Cache Eviction with Layer Preferences [36.1] 大きな言語モデル(LLM)は長いシーケンスの処理に優れ、キーバリュー(KV)キャッシングの需要が増大する。
我々は、KVキャッシュ消去を「ケーキスライシング問題」とみなす新しいアプローチであるCascading and Adaptive KV cache Eviction (CAKE)を導入する。
CAKEは、空間次元と時間次元の両方の注意ダイナミクスを考慮して層固有の好みを評価し、それに応じて合理的なキャッシュサイズを割り当て、カスケード方式でメモリ制約を管理する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:49:44 GMT)
Restructuring Vector Quantization with the Rotation Trick [36.0] ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。
ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。
本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝搬する方法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:30:10 GMT)
EXAONE Deep: Reasoning Enhanced Language Models [35.3] 本稿では,様々な推論タスクにおいて優れた機能を示すEXAONE Deepシリーズについて述べる。
我々は、思考プロセスの長いストリームを含む推論特化データセットに基づいてモデルをトレーニングする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:39:33 GMT)
MLLM4PUE: Toward Universal Embeddings in Digital Pathology through Multimodal LLMs [34.1] 複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調した。
以前のアプローチでは、イメージとテキストを別々に扱うCLIPベースのモデルを微調整する必要があった。
MLLM4PUE は,MLLM を利用して下流の様々な病態に対する埋め込みを生成する新しいフレームワークである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:05:51 GMT)
KDSelector: A Knowledge-Enhanced and Data-Efficient Model Selector Learning Framework for Time Series Anomaly Detection [33.7] 現実世界のアプリケーションでは、高度に異質な時系列に対して最高のTSADモデルは存在しない。
KDSセレクタを内部としたTSADモデル選択システムを開発し、ユーザがセレクタの精度とトレーニング速度をどのように向上するかを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:13:19 GMT)
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.5] Process Reward Model (PRM) は報酬のハッキングに悩まされており、最良の中間ステップを特定することは不可能である。
個人と連続的な推論のステップを評価する新しい報酬モデル手法である階層リワードモデル(HRM)を提案する。
HRMは、特に前の推論ステップが間違っていた場合に、推論コヒーレンスと自己回帰を評価するのに優れる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:18:40 GMT)
BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.5] より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。
本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:13:11 GMT)
When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [33.4] 我々は、新しい暗号で悪意あるクエリをエンコードするジェイルブレイク技術である、カスタム暗号化(ACE)を用いたアタックを導入する。
また、攻撃の複雑さを増幅するために多層暗号を適用したLACE(Layered Attacks using Custom Encryptions)を導入する。
暗号を復号化できるLLMは、これらのジェイルブレイク攻撃に対してより脆弱である。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:45:21 GMT)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.2] リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:48:17 GMT)
Transformers Struggle to Learn to Search [32.2] 基礎的なグラフ接続問題をテストベッドとして使用し、最小限の高被覆データを効果的に生成し、小型変圧器を訓練する。
適切なトレーニング分布が与えられると、トランスフォーマーは検索を学ぶことができる。
また、文脈内で検索を行うこと(すなわち、チェーン・オブ・シント)は、より大きなグラフで検索することを学ぶことができないことを解決しない。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:57:25 GMT)
Learning Privacy from Visual Entities [31.9] 畳み込みニューラルネットワーク(CNN)と組み合わせたグラフニューラルネットワークは、視覚エンティティの機能を生成する。
転送学習とCNNを組み合わせることで、シーンタイプとプライバシを関連付けることで、732のパラメータのみを最適化できることが示される。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:39:08 GMT)
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills [31.8] 現実の具体的タスクにおいて人間レベルのパフォーマンスを達成することができる自律ロボットエージェントを構築することは、ヒューマノイドロボット研究の究極の目標である。
近年の進歩は、ファンデーションモデル(FM)によるハイレベル認知と、ヒューマノイドロボットの低レベルスキル開発に大きな進歩をもたらした。
本稿では,FMとモジュール型スキルライブラリを統合する階層型エージェントフレームワークであるBeat-0を紹介する。
being-0は、器用な手とアクティブなビジョンを備えたフルサイズのヒューマノイドロボット上で、効率的でリアルタイムなパフォーマンスを実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:53:53 GMT)
VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility [31.5] VISO-Graspは視覚言語によるインフォームドシステムで、厳しい環境下での把握のための可視性制約に対処する。
VISO-Graspは、目標指向のグリップにおいて87.5%の成功率を達成し、ベースラインを上回る最少のグリップの試みを達成している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:46:54 GMT)
Tell Me What You See: Text-Guided Real-World Image Denoising [31.4] 画像キャプション情報を追加することで、合成画像と実画像の両方のデノナイズと再構成が大幅に向上することを示す。
画像生成におけるテキスト誘導拡散モデルの顕著な成功に触発されて、画像キャプション情報の追加は、合成画像と実画像の両方において、画像の復調と再構成を著しく改善することを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:57:07 GMT)
PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [30.9] MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な進歩を見せている。
しかし、この驚くべき進歩は、インターネットから収集された膨大な量のデータに依存し、プライバシーとセキュリティに関する重大な懸念を引き起こしている。
機械学習(MU)は有望なソリューションとして登場し、スクラッチからトレーニングを必要とせずに、すでにトレーニング済みのモデルから特定の知識を取り除くことができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:26:20 GMT)
RENO: Real-Time Neural Compression for 3D LiDAR Point Clouds [30.5] 本稿では,3次元LiDAR点雲のための初のリアルタイムニューラルネットワークRENOを提案する。
実験の結果,提案したRENOは,デスクトッププラットフォーム上で14ビット深度で10fpsのリアルタイム符号化速度を実現することがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:03:12 GMT)
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.3] LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:51:13 GMT)
CorpusStudio: Surfacing Emergent Patterns in a Corpus of Prior Work while Writing [30.2] 科学コミュニティを含む多くのコミュニティが暗黙の書記規範を発達させている。
この知識を外部化し、自分自身の著作に適用することは困難である。
テキストコーパスにおける文書と文レベルのパターンを整理する2つの新しい記述支援概念を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:16:21 GMT)
MDiff-FMT: Morphology-aware Diffusion Model for Fluorescence Molecular Tomography with Small-scale Datasets [29.9] 蛍光分子トモグラフィー (FMT) は、生体医学研究に広く用いられている感度光学イメージング技術である。
逆問題により、FMT再建に大きな課題が生じる。
拡散確率モデル(DDPM)に基づくMDiff-FMT(MDiff-FMT)を初めて報告し,高忠実な形態的再構成を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:47:18 GMT)
ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory [29.2] 限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。
我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:58:29 GMT)
Co-learning Single-Step Diffusion Upsampler and Downsampler with Two Discriminators and Distillation [28.2] 超解像度(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
単段階拡散に基づくアップサンプラーと学習可能なダウンサンプラーを協調的に最適化するコラーニングフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:39:51 GMT)
Consistent-Point: Consistent Pseudo-Points for Semi-Supervised Crowd Counting and Localization [28.0] そこで本研究では,コンシスタントポイント(Consistent-Point)と呼ばれる,ポイントローカライズに基づく半教師付きクラウドカウントとローカライズ手法を提案する。
適切な調査が行われていない2つの疑似点の矛盾を特定し,対処する。
提案手法は,群集定位における最先端のパフォーマンスを達成し,また,群集計数の結果も得られた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:31:52 GMT)
Exploring Contextual Attribute Density in Referring Expression Counting [27.7] Referring Expression counting (REC) アルゴリズムは、様々な微粒なテキスト表現に対して、より柔軟でインタラクティブなカウント機能を実現する。
これらのアルゴリズムは属性情報を正確な視覚パターンと正確に整合させるのに苦労する。
本稿では,文脈属性密度(CAD)推定のためのフレームワークを提案する。
我々のフレームワークは最先端のREC手法を著しく上回り、メトリクスのカウントで30%の誤差削減、ローカライズ精度で10%の改善を実現している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:28:55 GMT)
General Table Question Answering via Answer-Formula Joint Generation [27.6] テーブル質問応答(TableQA)メソッドは、大きな言語モデル(LLM)に応答テキストを生成する。
これらの方法には、特定の質問タイプやテーブル構造を扱うための汎用性がない。
複数種類のテーブル上で複数のタスクを同時に解決する汎用テーブル応答フレームワークである textttTabAF を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:51:06 GMT)
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification [27.6] 推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力である。
プロセスレベルの報酬モデル(PRM)は、強化学習とデータ生産を容易にする段階的な報酬を提供するために提案された。
PRMの既存のベンチマークはテキストベースで、エラー検出に重点を置いており、推論検索のような他のシナリオを無視している。
MPBenchは、様々なシナリオにおけるPRMの有効性を体系的に評価するために設計された、総合的でマルチタスクのマルチモーダルベンチマークである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:50:38 GMT)
LLM-Driven Multi-step Translation from C to Rust using Static Analysis [27.1] レガシー言語で書かれたソフトウェアをCからRustなどのモダン言語に翻訳することは、メモリ安全性を改善する上で大きなメリットがある。
LLM駆動型C-to-Rustゼロショット変換ツールであるSACTORを2段階の翻訳手法を用いて提案する。
SACTORは、既存の方法と比較して、より自然でRustに準拠した翻訳を生成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:05:26 GMT)
Sequential Kernel Embedding for Mediated and Time-Varying Dose Response Curves [26.7] 本稿では,カーネルリッジ回帰に基づく媒介および時間変化量応答曲線に対する簡易な非パラメトリック推定器を提案する。
我々の重要な革新は、シーケンシャルカーネル埋め込みと呼ばれるヒルベルト空間の再現技術である。
我々は、米国職業部隊の経時的および経時的な服用反応曲線と、将来の作業におけるベンチマークとして機能するクリーンなデータを推定する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:43:54 GMT)
Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior [26.2] 我々はtextbfUncertainty-aware Blur Prior (UBP) と呼ばれるシンプルで効果的な手法を提案する。
これは、脳信号と視覚刺激のミスマッチを反映して、ペアデータ内の不確実性を推定する。
本手法は,ゼロショット脳画像検索タスクにおいて,textbf50.9%のTop-1精度とtextbf79.7%のTop-5精度を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:57:48 GMT)
Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.9] 大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:36:12 GMT)
Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.4] EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:05:12 GMT)
Contextual Self-paced Learning for Weakly Supervised Spatio-Temporal Video Grounding [24.7] Weakly Supervised S-Temporal Video Grounding (WSTVG) に注目した。
まず、WSTVGの最先端オブジェクト検出モデルの可能性について検討する。
頑丈なゼロショット機能にもかかわらず、我々の適応には大きな制限がある。
本稿では,これらの制約を克服するための新しいアプローチであるCoSPaLを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:26:59 GMT)
Optimizing Product Provenance Verification using Data Valuation Methods [24.6] 安定同位体比分析(SIRA)に適用された機械学習モデルのトレーニングデータの選択と活用を促進するために設計された新しいデータ評価フレームワークを提案する。
我々は,その方法論を広範な実験で検証し,証明の検証を著しく強化し,不正取引を緩和し,グローバルサプライチェーンの規制執行を強化する可能性を実証した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:20:56 GMT)
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization [24.4] ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。
実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:15:09 GMT)
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.8] VocADTは、既存の埋め込みの最適線形結合を学ぶために訓練されたアダプタモジュールを用いた語彙適応の新しい手法である。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:56:11 GMT)
A Hierarchical Compression Technique for 3D Gaussian Splatting Compression [23.8] 3D Gaussian Splatting (GS) は、新規なビュー合成において優れたレンダリング品質と生成速度を示す。
現在の3D GS圧縮研究は主によりコンパクトなシーン表現の開発に焦点を当てている。
本稿では,このギャップに対処する階層型GS圧縮(HGSC)手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:12:03 GMT)
M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery [23.6] M$3$-20Mは、既存の最大のデータセットの71倍の分子数である。
このデータセットは、一次元SMILES、二次元分子グラフ、三次元分子構造、物理化学的性質、テキスト記述を統合している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:37:49 GMT)
Privacy Bills of Materials: A Transparent Privacy Information Inventory for Collaborative Privacy Notice Generation in Mobile App Development [23.4] モバイルアプリのプライバシ情報をキャプチャしてコーディネートするための,システマティックなソフトウェアエンジニアリングアプローチであるPriBOMを紹介します。
PriBOMは、透明性中心のプライバシドキュメントと特定のプライバシ通知の作成を促進し、プライバシプラクティスのトレーサビリティと追跡性を可能にする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:46:46 GMT)
VMBench: A Benchmark for Perception-Aligned Video Motion Generation [22.9] 包括的なビデオモーションベンチマークであるVMBenchを紹介する。
VMBenchは知覚対応のモーションメトリクスを持ち、最も多様なモーションを特徴としている。
人間の知覚的アライメントの観点から動画における動きの質が評価されたのはこれが初めてである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:50:16 GMT)
Improving Diffusion-based Inverse Algorithms under Few-Step Constraint via Learnable Linear Extrapolation [22.7] Learnable Linear Extrapolation (LLE) は、任意の拡散ベースの逆アルゴリズムの性能を普遍的に向上させる軽量なアプローチである。
提案手法を複数のアルゴリズムとタスクで一貫した改良を行った。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:31:50 GMT)
Learning under Temporal Label Noise [22.1] まず、時系列の逐次分類のための未検討問題である時間ラベルノイズを提案し、定式化する。
提案手法は,実世界のデータセット上での時間的ラベルノイズの多種多様さ下での最先端性能に導かれることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:14:36 GMT)
Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.8] 離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:13:20 GMT)
Understanding Common Ground Misalignment in Goal-Oriented Dialog: A Case-Study with Ubuntu Chat Logs [21.0] 参加者は、テキストのみの通信を使用して技術的な問題を解決するUbuntu IRCデータセットのグラウンディングの失敗を調査します。
会話の流れの混乱は、しばしば、参加者が抱く信念や仮定の相違によって引き起こされる、共通の場における不一致から生じる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:19:44 GMT)
Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs [20.8] そこで本稿では,広範囲なプロンプトエンジニアリングや数十億規模の微調整を伴わずに,プライバシ保護型合成データを生成する新しいフレームワークを提案する。
CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。
さらにプライベートドメインに適応するために、トピックモデルがDPヒストグラムを抽出する間、作成したジェネレータは、詳細なテキスト情報のためにプライベートデータに対してDP微調整される。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:00:32 GMT)
Personalize Anything for Free with Diffusion Transformer [20.4] 最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している
既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。
本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:51:16 GMT)
Hybrid Learners Do Not Forget: A Brain-Inspired Neuro-Symbolic Approach to Continual Learning [20.2] 継続的な学習は、自律的に学習し、改善できるAIエージェントを作成するために不可欠である。
ヒト脳の2つの異なるシステムにインスパイアされた我々は、ニューロシンボリック脳誘発連続学習フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:09:19 GMT)
Understanding Driver Cognition and Decision-Making Behaviors in High-Risk Scenarios: A Drift Diffusion Perspective [20.2] 本稿では,運転行動の個人差と共通点を統合する認知決定フレームワークを提案する。
ドリフト拡散モデルに基づく認知的意思決定モデルを導入し、リスクの高い環境での一般的な意思決定メカニズムを捉える。
提案モデルでは,緊急時の認知反応と意思決定行動を正確に予測する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:11:22 GMT)
Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.2] 生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:19:05 GMT)
Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization [19.6] 本稿では,動機付け行列の直交化に関する理論的解析を行う。
モーメントを持つ信頼領域勾配法は,特別の場合としてムオン(Jordan et al., 2024)を回復させることを示す。
以上の結果から,TuddenhamらのOrthogonal---------SGDMと比較して,Muonの実用上の優位性について解説した(2022年)。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:49:34 GMT)
Budgeted Online Continual Learning by Adaptive Layer Freezing and Frequency-based Sampling [19.4] 本稿では,演算およびメモリ予算の指標として,Byteにおける浮動小数点演算と総メモリサイズを提案する。
CL法を限定的な全予算で改善するために,より少ない情報バッチのために層を更新しない適応層凍結を提案する。
さらに,より少ないイテレーションでランダム検索を使用することで,モデルが同じ量の知識を学習できるメモリ検索手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:18:42 GMT)
Towards Vector Optimization on Low-Dimensional Vector Symbolic Architecture [19.4] ベクトルアーキテクチャ(VSA)は、その効率性から機械学習に登場しているが、超次元性と精度の問題によって妨げられている。
有望な緩和法として、勾配に基づく最適化を用いることで、低次元計算(LDC)法は、精度を維持しながらベクトル次元を100倍削減する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:06:09 GMT)
Provable and Practical Online Learning Rate Adaptation with Hypergradient Descent [19.2] 本稿では,過勾配降下法(HDM)の収束特性について検討する。
本研究では, 実験的, 理論的支援を伴う最新の適応勾配法の開発に本手法を適用した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:17:53 GMT)
A Comparative Study of Invariance-Aware Loss Functions for Deep Learning-based Gridless Direction-of-Arrival Estimation [19.1] 行列のスケーリングに不変な新たな損失関数を提案する。
スケール不変損失は、その非不変損失よりも優れるが、最近提案された部分空間損失よりも劣ることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:15:16 GMT)
Camera-aware Label Refinement for Unsupervised Person Re-identification [19.1] 教師なしの人物再識別は、特定人物のイメージを識別ラベルなしで検索することを目的としている。
最近の教師なしRe-IDアプローチでは、クラスタリングをベースとして、クロスカメラの特徴的類似性を測定する手法が採用されている。
我々は、カメラ内類似性をクラスタリングすることで、カメラの差を小さくするtextbfCamera-textbfAware textbfLabel textbfRefinement(CALR)フレームワークを導入する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:24:43 GMT)
Versatile Multimodal Controls for Whole-Body Talking Human Animation [18.8] VersaAnimator(ヴァーサアニメーター)は、任意のポートレート画像から全身の会話人間を生成する多目的人体アニメーション手法である。
自然なスムーズな動作を促進するために,テンプレートビデオから抽出した2次元DWposesとVAEコードブックをリンクするコードプレイス翻訳モジュールを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:09:52 GMT)
Car-1000: A New Large Scale Fine-Grained Visual Categorization Dataset [18.3] 本稿では,多種多様な自動車モデルの細粒度視覚分類に特化して設計された大規模データセットであるCar-1000を紹介する。
カー1000は165の異なる自動車メーカーの車両を包含しており、1000種類の異なる車種にまたがっている。
我々は、Car-1000データセット上でいくつかの最先端FGVC手法を再現し、この分野の研究のための新しいベンチマークを確立した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:14:58 GMT)
Compositional Causal Reasoning Evaluation in Language Models [18.1] 因果推論と構成推論は、生成的AIにおける2つの中核的な願望である。
コンポジション因果推論(CCR)と呼ばれる,両方の行動を同時に考える統一的な視点を探求する。
我々は,CCRのシステム的評価のためのフレームワークを,平均的治療効果と必要十分性および十分性の可能性のためにインスタンス化する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:22:47 GMT)
TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [18.0] TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:22:00 GMT)
VRsketch2Gaussian: 3D VR Sketch Guided 3D Object Generation with Gaussian Splatting [17.9] 我々はVRスケッチ誘導型マルチモーダルネイティブ3Dオブジェクト生成フレームワークであるVRSketch2Gaussianを提案する。
VRSSはVRスケッチ、テキスト、画像、および3DGSを含む最初の大規模ペアデータセットである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:03:13 GMT)
Defense Against Model Stealing Based on Account-Aware Distribution Discrepancy [17.9] 悪意のあるユーザは、クエリ応答を持つクローンモデルをトレーニングすることで、商用モデルを低コストで機能的に複製しようとする。
このようなモデルステアリング攻撃をタイムリーに防ぎ、強力な保護と実用性を維持することは困難である。
本稿では,悪意のあるユーザからのクエリを認識するために,ADD(Account-aware Distribution Discrepancy)と呼ばれる新しい非パラメトリック検出器を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:22:53 GMT)
Does Training on Synthetic Data Make Models Less Robust? [17.7] 我々はLlama-2-7B-hfモデルを用いて自然言語推論(NLI)タスクのシミュレーション実験を行った。
以上の結果から,人工的なデータは期待通りに盲点を補強するものではないことが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:45:42 GMT)
Swift4D:Adaptive divide-and-conquer Gaussian Splatting for compact and efficient reconstruction of dynamic scene [17.5] 静的プリミティブと動的プリミティブを別々に扱える3Dガウススプラッティング法であるSwift4Dを提案する。
本手法は,従来のSOTA法よりも20倍高速で,最先端のレンダリング品質を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:13:11 GMT)
Convergence Analysis of alpha-SVRG under Strong Convexity [17.4] 分散還元技術であるα-SVRGは、学習力学における残留雑音のきめ細かい制御を可能にする。
その結果,α-SVRGはα選択条件下でのSGDとSVRGと比較して収束速度が速いことがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:17:35 GMT)
Segment Any-Quality Images with Generative Latent Space Enhancement [17.3] 低画質画像のロバスト性を高めるため,GleSAMを提案する。
潜伏拡散の概念をSAMベースのセグメンテーションフレームワークに適用する。
また,事前学習した拡散モデルとセグメンテーションフレームワークとの互換性を改善するための2つの手法を導入する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:58:13 GMT)
EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.3] 本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみを含む不均一試験において62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:08:02 GMT)
Range Membership Inference Attacks [17.3] 本研究では,RaMIA(Ra Range Membering Inference attack)のクラスを導入し,モデルが特定の範囲の任意のデータに対してトレーニングされたかどうかを検証した。
各種データ上でのMIAよりも,プライバシ損失をより正確に,包括的に捉えることができることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:46:09 GMT)
History-Aware Transformation of ReID Features for Multiple Object Tracking [17.2] 本稿では,ReID特徴量に対する履歴認識変換を用いて,より識別的な外観表現を実現することを提案する。
実験の結果,このトレーニングフリープロジェクションにより,機能のみのトラッカーが大幅に向上し,より優れたトラッカー性能が達成できることがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:34:40 GMT)
Imitation Learning of Correlated Policies in Stackelberg Games [17.0] Stackelbergゲームは、リーダーの戦略がフォロワーの反応を駆動する非対称な相互作用を含む。
多エージェントシステムではエージェントの動作は相互依存的であり、従来のマルチエージェント・イミテーション・ラーニング(MAIL)手法は複雑な相互作用を捉えるのに失敗することが多い。
そこで本稿では,Stackelbergゲーム用に特別に設計されたポリシ占有率の相関式を提案し,それに対応するためにLatent Stackelberg Differential Network (LSDN)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:42:42 GMT)
Skill Expansion and Composition in Parameter Space [17.0] Parametric Skill Expansion and Composition (PSEC)はエージェントの能力を反復的に進化させるように設計された新しいフレームワークである。
PSECは、事前知識を活用して、新しい課題に効果的に取り組む能力が優れている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:57:19 GMT)
Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism [17.0] PyTorch Fully Shard Data Parallel を用いた実用的な実装を開発した。
提案手法が一定のバッチサイズより優れていることを示す。
また、このような適応型バッチサイズスケジュールについても理論的に保証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:10:15 GMT)
SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs [16.8] 3Dガウススプラッティングを用いた屋内自由世界自由視合成法は,高密度入力画像で顕著な性能を示した。
スパース入力を用いたオープンワールド自由視点合成のためのシーンベースガウス初期化(SGI)とセマンティックプロンプト一貫性(SPC)正規化を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:59:00 GMT)
A Survey on the Optimization of Large Language Model-based Agents [16.7] 大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:09:10 GMT)
Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model [16.7] 一般化ビデオに基づくDeepfake検出のためのサイドネットワークベースのデコーダを提案する。
また、空間学習の一般化性を高めるために、FCG(Facial Component Guidance)を導入する。
提案手法は,Deepfakeデータセットに挑戦する上で有望な一般化性を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:10:58 GMT)
Systematic Categorization, Construction and Evaluation of New Attacks against Multi-modal Mobile GUI Agents [16.6] 本稿では,マルチモーダルなモバイルGUIエージェントのセキュリティを体系的に調査し,既存の文献におけるこの重大なギャップに対処する。
我々は,(1)新たな脅威モデリング手法を提案し,34件の未報告攻撃の発見・実現可能性分析を行い,(2)これらの脅威を体系的に構築・評価するアタック・フレームワークを設計する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:13:53 GMT)
SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders [16.6] 本稿では,視覚言語モデルにおいて,より微細で選択的な概念学習のための新しい手法であるSAUCEを紹介する。
まずSAEを訓練し、高次元、意味的に豊かなスパースの特徴を捉えます。
次に、未学習のターゲット概念に最も関連する機能を特定する。
推論中は、これらの特徴を選択的に修正し、関係のない情報を保存しながら特定の概念を抑圧する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:32:23 GMT)
Using LLMs for Automated Privacy Policy Analysis: Prompt Engineering, Fine-Tuning and Explainability [16.5] 機械学習ベースの分類器は、特定のプライバシポリシにおける異なる概念の検出を自動化するために開発された。
大規模言語モデル(LLM)を多くのNLPタスクに適用することは成功したが、自動プライバシポリシ分析にLLMを使うことを研究する研究はほとんどない。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:50:31 GMT)
$T^5Score$: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets [16.5] 本稿では,トピックの品質を定量的な側面に分解する評価手法である$T5Scoreを紹介する。
このフレーミングは、強力なアノテーション間合意スコアをもたらす便利な、手動または自動的な評価手順を可能にする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:21:34 GMT)
FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization [16.4] 本稿では,FW-Merging(FW-Merging)を制約付き最適化問題として紹介する。
FW-Mergingは、目的関数の線形近似を最小限に抑えるために、プール内の最も関連性の高いモデルを反復的に選択する。
実験の結果、FW-Mergingスケールは様々なモデルソースにまたがっており、16の無関係モデルでは安定であり、20のCVタスクでは16の関連モデルでは15.3%改善されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:07:05 GMT)
L2COcc: Lightweight Camera-Centric Semantic Scene Completion via Distillation of LiDAR Model [16.2] 本稿では,軽量カメラ中心のセマンティックシーンコンプリートフレームワークであるL2COccを提案する。
精度を保ちながら計算負担を大幅に削減する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:09:36 GMT)
CARNet: Collaborative Adversarial Resilience for Robust Underwater Image Enhancement and Perception [16.1] 我々は,CARNetと呼ばれる協調対向レジリエンスネットワークを導入し,水中画像の強調とそれに続く検出を行う。
本研究ではまず,水中画像から攻撃を分離する強力な知覚能力を持つ可逆ネットワークを導入する。
また,異なるタイプの攻撃に対するネットワークの堅牢性を高めるために,二段階攻撃最適化手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:52:07 GMT)
A Plug-and-Play Learning-based IMU Bias Factor for Robust Visual-Inertial Odometry [15.7] 低コスト慣性計測装置(IMU)のバイアスは、視覚慣性オドメトリー(VIO)の性能に影響を及ぼす重要な要因である。
Inertial Prior Network (IPNet) を特徴とする新しいプラグイン・アンド・プレイ・フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:45:19 GMT)
CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells [15.7] CRScoreは、簡潔さ、包括性、関連性といったレビュー品質の次元を測定するための基準のないメトリクスである。
我々は、CRScoreが、オープンソースメトリクスの人間の判断に最も適した、正確できめ細かいレビュー品質のスコアを生成できることを実証した。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.9kの人手によるレビュー品質スコアのコーパスもリリースしました。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:22:15 GMT)
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.5] 本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:23:30 GMT)
MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification [15.4] 大規模言語モデル(LLM)はコード生成において大きな可能性を証明している。
現在のAI支援モーションコントロールプログラミングの取り組みは、高レベル言語や関数ライブラリにはほとんど関心を示さず、PLCに重点を置いている。
動作制御コードを生成するためのLCMシステムであるMCCoderをソフトモーションコントローラと統合した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:03:20 GMT)
RViDeformer: Efficient Raw Video Denoising Transformer with a Larger Benchmark Dataset [15.3] 教師付き生ビデオのデノベーションのためのリアルな動きを持つ大規模なデータセットは存在しない。
ノイズクリーンな120グループからなるビデオデノケーションデータセット(ReCRVDと名づけられた)を構築した。
短距離・長距離の相関関係を探索するRViDeformer(RViDeformer)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:07:37 GMT)
Chasing the Timber Trail: Machine Learning to Reveal Harvest Location Misrepresentation [15.2] 不法伐採は、世界の生物多様性、気候安定に重大な脅威をもたらし、合法的な木材の収穫と責任ある森林製品貿易の国際価格を抑えている。
安定同位体比分析 (SIRA) は, 貿易品, 有機品の収穫場所を決定する重要なツールとして急速になってきている。
ここでは,木材の収穫場所を決定するために,同位体値と大気変数を併用した機械学習パイプラインの結果について述べる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:46:45 GMT)
SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression [14.8] Singular Value Decomposition (SVD)は、LLM(Large Language Models)圧縮のための有望なソリューションを提供する。
しかし、より小さな特異値の切り抜きは、圧縮損失が増加し、SVD切り込み後の圧縮重量の更新が欠如する可能性がある。
本稿では,既存の手法の限界に対処するSVD-LLM法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:27:33 GMT)
Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs [14.8] マルチモーダル大言語モデル (EMLLM) は、Chain-of-Thought (CoT) 推論により性能を向上させることができる。
CoT推論プロセスの自己評価能力は貧弱です。
これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:28:32 GMT)
A Causality-Inspired Model for Intima-Media Thickening Assessment in Ultrasound Videos [14.7] フレームワイド超音波ビデオにおける頸動脈内膜肥厚評価のための新しい因果インスピレーション法を提案する。
術中頸動脈超音波画像データセットの精度は86.93%であり, 提案手法の優れた性能を示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:07:20 GMT)
ICODE: Modeling Dynamical Systems with Extrinsic Input Information [14.5] 本稿では,モデルの学習過程に,正確なリアルタイム入力情報を組み込んだEmphInput Concomitant Neural ODE(ICODE)を紹介する。
いくつかの代表的実動力学の実験を通して本手法を検証する。
この研究は、明示的な外部入力情報で物理的システムを理解するための貴重なニューラルネットワークODEモデルのクラスを提供する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:59:15 GMT)
FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts [14.0] 本稿では,時系列データを周波数帯域に分解する周波数分解混合(FreqMoE)モデルを提案する。
ゲーティング機構は、周波数特性に基づいて専門家の各出力の重要度を調整する。
FreqMoEは最先端のモデルよりも優れています。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:34:59 GMT)
Online Misinformation Detection in Live Streaming Videos [13.6] 我々は、まだ研究されていない現実的な誤情報検出設定は、ライブストリーミングビデオにおけるオンライン誤情報検出であると主張している。
問題に対する潜在的な解決策だけでなく、AI課題に問題を開発するための実現可能な方法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:43:25 GMT)
Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera [13.5] 本稿では,強力なゼロショット距離深度推定フレームワークであるDepth Any Camera (DAC)について述べる。
このフレームワークは、新しいアプリケーションで使用される特定のカメラタイプに関係なく、既存の3Dデータをすべて活用できるように設計されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:28:32 GMT)
Bio-Inspired Plastic Neural Networks for Zero-Shot Out-of-Distribution Generalization in Complex Animal-Inspired Robots [13.3] ヘビアン学習は局所的な神経活動に基づいて動的に重みを調整することができる。
We improve the Hebbian network with a weight normalization mechanism for prevent weight divergence。
ヘビアンをベースとしたプラスチックネットワークは,ゼロショット・シム・トゥ・リアル・アダプティブ・ロコモーションを実行することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:13:53 GMT)
Pathology Image Restoration via Mixture of Prompts [13.3] 変圧器と拡散模型をカスケードする2段階修復法を考案する。
提案手法にプロンプト混合物を供給することにより,単焦点平面スキャンから高品質な病理像を復元できることを実証した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:58:30 GMT)
Enhancing Visual Representation with Textual Semantics: Textual Semantics-Powered Prototypes for Heterogeneous Federated Learning [12.9] フェデレート・プロトタイプ・ラーニング(FedPL)は、フェデレート・ラーニング(FL)におけるデータ不均一性を扱う効果的な戦略として登場した。
テキストのモダリティから意味に富んだプロトタイプを構築するために,PLMを利用する新しい手法であるFedTSPを提案する。
クライアントイメージモデルとPLM間のモダリティギャップに対処するため、トレーニング可能なプロンプトを導入し、プロトタイプがクライアントタスクに適応できるようにする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:35:06 GMT)
IVCA: Inter-Relation-Aware Video Complexity Analyzer [12.9] 本稿では、既存のビデオ複雑性分析器(VCA)を強化するために、IVCA(inter-relation-aware video complexity analysisr)を提案する。
IVCAはフレーム間の関係を組み込むことでVCAの限界を克服し、フレーム間の動きと参照構造に焦点をあてる。
実験の結果,IVCAにより達成された複雑性推定精度は著しく向上した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:49:47 GMT)
GraphEval: A Lightweight Graph-Based LLM Framework for Idea Evaluation [12.9] アイデア評価のためのグラフベース大規模言語モデルフレームワークであるGraphEvalを提案する。
複雑なアイデアは、小さなLLMからのプロンプトを使用して、理解可能な視点ノードに分解することができる。
作成した視点グラフは、ビューノード間のスコアを便利に伝播させ、アイデア評価の堅牢性を改善するために使用することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:24:10 GMT)
CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.5] CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 00:07:06 GMT)
EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.2] テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:41:30 GMT)
Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation [12.1] ファインチューニングに基づく概念消去は,テキスト・画像拡散モデルから有害なコンテンツの発生を防止する上で有望な結果を示した。
画像中の対象概念を含む特定領域のみを削除可能な,局所的概念消去というフレームワークを導入する。
本稿では,Gated Low-rank adaptation for Concept Erasure (GLoCE) と呼ばれる,軽量モジュールを拡散モデルに注入する学習自由アプローチを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:53:20 GMT)
From Guessing to Asking: An Approach to Resolving the Persona Knowledge Gap in LLMs during Multi-Turn Conversations [12.0] 本研究では,ペルソナの知識ギャップ,モデルの内的理解と一貫性とパーソナライズされた会話に必要な知識との相違について紹介する。
本稿では,ペルソナの知識ギャップを動的に検出・解決する新しいフレームワークであるCPER(Conversation Preference Elicitation and Recommendation)を提案する。
CPERは、嗜好抽出のためのコンテキスト理解モジュール、不確実性を計測し、ペルソナアライメントを精製する動的フィードバックモジュール、蓄積されたユーザコンテキストに基づいて応答を適応するペルソナ駆動応答生成モジュールの3つの主要なモジュールで構成されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:55:29 GMT)
EmoBipedNav: Emotion-aware Social Navigation for Bipedal Robots with Deep Reinforcement Learning [11.6] 本研究では、社会的に対話的な環境を歩行する二足歩行ロボットのための感情認識ナビゲーションフレームワーク、BipedNavを提案する。
提案フレームワークは、トレーニング中の全順序ダイナミクスとロコモーション制約を組み込んだもので、ロコモーションコントローラのエラーや制限のトラッキングを効果的に行う。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:11:57 GMT)
Advancing Human-Machine Teaming: Concepts, Challenges, and Applications [11.6] HMT(Human-Machine Teaming)は、AIによる意思決定、信頼キャリブレーション、適応的なチーム編成を統合することで、防衛、医療、自律システムといったドメイン間のコラボレーションに革命をもたらしている。
本調査では,HMTの包括的分類法を示し,強化学習,インスタンスベース学習,相互依存理論などの理論モデルを学際的方法論とともに分析した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:32:17 GMT)
Unequal Opportunities: Examining the Bias in Geographical Recommendations by Large Language Models [11.6] 本研究では,米国の都市・都市におけるLarge Language Models(LLMs)勧告におけるバイアスについて検討した。
我々は, LLMs応答の一貫性と, 過度に表現されたり, あるいは過度に表現されたりする傾向に注目した。
以上の結果から,従来の経済格差を拡大するリッチ・ゲット・リッチ・エフェクトが持続する可能性が示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:59:00 GMT)
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications [11.6] 本稿では,応用分野別に分類した,最近のプロンプト工学の進歩について概説する。
本稿では、プロンプト手法、その応用、関連するモデル、利用したデータセットについて詳述する。
この体系的な分析は、この急速に発展している分野をよりよく理解し、オープンな課題と迅速なエンジニアリングの機会を照明することによって将来の研究を促進する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:23:34 GMT)
SVD-LLM V2: Optimizing Singular Value Truncation for Large Language Model Compression [11.0] Singular Value Decomposition (SVD) はLarge Language Models (LLM) のための有望な圧縮手法である
既存のSVDベースの圧縮手法は、トラクション損失の低減に不足しており、圧縮されたモデルでは競争性能が低下する。
SVD圧縮における特異値切り込みを2つの手法で最適化するSVD-LLM V2を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:27:12 GMT)
Time-EAPCR-T: A Universal Deep Learning Approach for Anomaly Detection in Industrial Equipment [11.0] 産業データは、マルチソースの不均一性、非線形性、強い結合、時間的相互作用などの特性を示す。
従来の機械学習アプローチは、処理能力と一般化能力の制限により、このような複雑なデータに苦しむことが多い。
本研究では,Transformer が Time-EAPCR の時系列処理コンポーネントである LSTM モジュールを置き換える新しいモデル Time-EAPCR-T を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:54:34 GMT)
Modality-Composable Diffusion Policy via Inference-Time Distribution-level Composition [10.8] 拡散政策(DP)は政策表現の効果的な方法として注目されている。
個別の視覚的モダリティに基づいて,複数の事前学習DPを活用できる新しいポリシー構成法を提案する。
適応性と性能を両立させるMCDPの可能性を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:40:10 GMT)
Simulating Nighttime Visible Satellite Imagery of Tropical Cyclones Using Conditional Generative Adversarial Networks [10.8] 可視光(VIS)画像は熱帯サイクロン(TC)の監視に重要であるが、夜間は利用できない。
本研究では,夜間のVIS画像を生成するために,CGAN(Conditional Generative Adversarial Networks)モデルを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:26:52 GMT)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.7] 大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:21:09 GMT)
Automated Planning for Optimal Data Pipeline Instantiation [10.5] 我々は、最適なデータパイプライン配置の問題を、アクションコストによる計画としてモデル化する。
本稿では,全実行時間を最小化する戦略を提案する。
実験結果から, 戦略がベースライン展開より優れていることが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:43:12 GMT)
CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention [10.5] 自動運転車では、下流作業には正確な3次元車線検出が重要である。
最近のCNNとTransformerのアプローチは通常、2段階のモデル設計を適用する。
ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:40:20 GMT)
qReduMIS: A Quantum-Informed Reduction Algorithm for the Maximum Independent Set Problem [10.2] 本稿では,最大独立集合問題に対する量子インフォームド還元アルゴリズムの提案と実装を行う。
我々は、qReduMISが、Rydberg量子デバイスを含む幅広い問題解決者の直面する基本的な性能制限に対処するのに役立つことを示す。
超伝導量子ビットやトラップイオンなどの代替プラットフォームを用いたqReduMISの実装について概説する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:41:42 GMT)
Modularization is Better: Effective Code Generation with Modular Prompting [10.0] 本稿では,大規模言語モデルのコード生成性能を向上させるため,MoTと呼ばれる新しいプロンプト手法を提案する。
MoTはモジュール化の原則を利用して、複雑なプログラミング問題をより小さく独立した推論ステップに分解する。
MLRグラフを使用して推論プロセスを構築し、階層的に推論ステップを編成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:23:23 GMT)
ResLPR: A LiDAR Data Restoration Network and Benchmark for Robust Place Recognition Against Weather Corruptions [9.9] ResLPRは, 積雪, 霧, 降雨条件によって誘導される広範囲なLiDAR歪みの下でSOTA LPR法を検証した新しいベンチマークである。
気象シナリオに対する複数のLPR手法を用いて, 回復法を用いて, レジリエンスと顕著な利得を実証した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:14:20 GMT)
EXPRESS: An LLM-Generated Explainable Property Valuation System with Neighbor Imputation [9.7] 提案手法は,SyStem と EXPRESS を併用した LLM- Generated Explainable PRopErty valuation SyStem を提案する。
カスタマイズ可能な欠落値計算技術を提供し、予測の不透明さに対処する。
ユーザに対して予測結果をより直感的に理解するための機能的説明を生成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:49:52 GMT)
SINET: Sparsity-driven Interpretable Neural Network for Underwater Image Enhancement [9.7] この研究は、水中画像強調(UIE)タスクのための空間駆動型解釈型ニューラルネットワーク(SINET)を導入する。
純粋深層学習とは異なり、我々のネットワークアーキテクチャは、新しいチャネル固有の畳み込みスパース符号化(CCSC)モデルに基づいている。
我々の実験によると、SINETは最先端のPSNRの値を$1.05$dB、計算複雑性を$3873$で上回っている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:11:54 GMT)
A new graph-based surrogate model for rapid prediction of crashworthiness performance of vehicle panel components [9.7] グラフニューラルネットワーク(GNN)は、複雑な構造を持つデータを処理するための有望なソリューションとして登場した。
本稿では,車両パネル部品の耐クラッシュ性解析のためのグラフに基づく新しいサロゲートモデルであるRecurrent Graph U-Netを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:55:40 GMT)
Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.3] PhysFlowは、マルチモーダル基礎モデルとビデオ拡散を利用して、強化された4次元ダイナミックシーンシミュレーションを実現する新しいアプローチである。
この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:25:30 GMT)
AnyCalib: On-Manifold Learning for Model-Agnostic Single-View Camera Calibration [9.2] 我々は,カメラの内在パラメータを単一の内在画像からキャリブレーションする方法であるAnyCalibを提案する。
この中間表現は,広い範囲のカメラモデルにおいて,内在性の閉形式回復を可能にすることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:59:21 GMT)
LLMSeR: Enhancing Sequential Recommendation via LLM-based Data Augmentation [9.2] SRS(Sequential Recommender Systems)がオンラインプラットフォームの基礎となり、ユーザの過去のインタラクションデータを活用して、次の潜在的なエンゲージメントを予測する。
現在の手法では、協調的な信号の欠如や幻覚現象の出現など、障害に遭遇している。
LLMSeRは,Large Language Models (LLMs) を用いて擬似プライオリティアイテムを生成する,革新的なフレームワークである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:32:30 GMT)
INN-PAR: Invertible Neural Network for PPG to ABP Reconstruction [9.1] ABP再建のための可逆ニューラルネットワーク(INN-PAR)を提案する。
INN-PARは、フォワードマッピングと逆マッピングの両方を同時に捕捉し、情報損失を防止する。
本稿では,可逆ブロック内のマルチスケール畳み込みモジュール(MSCM)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:28:15 GMT)
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.1] 拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:10:37 GMT)
LMC: Fast Training of GNNs via Subgraph Sampling with Provable Convergence [8.6] 収束保証,すなわちローカルメッセージ補償(LMC)を用いた新しいサブグラフワイズサンプリング手法を提案する。
LMCは、後方パスのメッセージパスの定式化に基づいて、後方パスで破棄されたメッセージを検索する。
LMCは、効率の点で最先端のサブグラフワイドサンプリング法を著しく上回っている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:45:55 GMT)
Numerical Investigations of Electron Dynamics in a Linear Paul Trap [8.5] 我々は、電子はポールトラップに閉じ込められ、スピン状態は量子ビットであると考えている。
このアプローチでは、2つの電子が同じポテンシャル井戸に閉じ込められている場合、ウィグナー結晶を形成する必要がある。
結晶化しきい値に達するために必要な冷却法を数値的に検証した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:58:42 GMT)
HyperKAN: Hypergraph Representation Learning with Kolmogorov-Arnold Networks [8.5] HyperKANは、メッセージパッシング技術の限界を超越したハイパーグラフ表現学習のための新しいフレームワークである。
実世界のデータセットで実施された実験は、HyperKANが最先端のHNNメソッドよりも大幅に優れていることを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:39:52 GMT)
DVP-MVS: Synergize Depth-Edge and Visibility Prior for Multi-View Stereo [8.3] そこで我々は,DVP-MVSを提案する。DVP-MVSは,より堅牢で可視性の高いパッチ変形に先立って,奥行き整合とクロスビューを相乗化できる。
本手法は, 頑健さと一般化性に優れ, 最先端の性能を実現することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:07:48 GMT)
C2PD: Continuity-Constrained Pixelwise Deformation for Guided Depth Super-Resolution [8.2] 本研究では,空間特性の空間的利用を最大化し,実世界の物質を抽象的に認識する手法を提案する。
我々はガイド深度超解像問題を,連続物体のような力で変形できる理想的な塑性を有する粗流の変形に変換する。
特に本手法は,GDSRの4つの広く採用されているベンチマークにおいて,大規模タスクと一般化可能性に大きな利点があることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:12:16 GMT)
Distributed Random Reshuffling Methods with Improved Convergence [8.1] 本稿では,GT-RR(Gdient Tracking with Random Reshuffling)とED-RR(Exact Diffusion with Random Reshuffling)の2つの分散ランダムリシャッフル手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:20:57 GMT)
AI-Powered Automated Model Construction for Patient-Specific CFD Simulations of Aortic Flows [8.1] 本研究では,医用画像からシミュレーション可能な血管モデルを作成するためのディープラーニングフレームワークを提案する。
提案手法は,手作業や処理時間を著しく削減しつつ,セグメンテーションとメッシュ品質の最先端性能を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:18:25 GMT)
MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.1] 人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。
MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。
MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:50:27 GMT)
AI Rules? Characterizing Reddit Community Policies Towards AI-Generated Content [8.0] メタデータとコミュニティルールを30万ドル以上の公開サブレディットで収集しました。
既存の文献と、AIルールに特有の新しい分類基準に基づいて、サブレディットとAIルールをラベル付けしました。
我々の研究結果は、AIに関する様々な懸念が、異なるコミュニティの文脈で出現したことを示している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:30:03 GMT)
Diffusion on Graph: Augmentation of Graph Structure for Node Classification [7.9] グラフニューラルネットワーク(GNN)の性能を高めるために合成グラフ構造を生成するグラフ拡散(DoG)を提案する。
DoGによって生成された合成グラフ構造は、元のグラフと組み合わせて、ノードレベルの学習タスクのトレーニングのための拡張グラフを形成する。
合成グラフ構造によるノイズの悪影響を軽減するために,低ランク正規化法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:39:25 GMT)
ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos [7.7] 人間は自我中心的な視点から多モーダル時間的推論に優れる。
本稿では,言語モデル(ML)に人間的な推論能力を持たせることを目的とする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:24:11 GMT)
Facilitating Automated Online Consensus Building through Parallel Thinking [7.5] 本稿では,オンライン・テキスト・コンセンサス構築プロセスを支援する並列思考型Six Agent(PTFA)を提案する。
PTFAはテキストの投稿を自動的に収集し、大きな言語モデル(LLM)を利用して、確立されたThinking Hatsテクニックの6つの異なる役割すべてを実行する。
パイロット実験を行い、PTFAのアイデア生成、感情探索、思考のより深い分析能力を示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:32:35 GMT)
Feasibility study for reconstruction of knee MRI from one corresponding X-ray via CNN [7.5] 本稿では,1つの対応するX線からMRIを生成するためのディープラーニングに基づくアプローチを提案する。
提案手法では,X線画像再構成のために訓練された畳み込みオートエンコーダ(CAE)モデルの隠れ変数を,ジェネレータモデルの入力として使用し,3次元MRIを提供する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:09:17 GMT)
MSCMHMST: A traffic flow prediction model based on Transformer [7.4] 本研究では,交通流予測における重要な課題に対処することを目的とした,MSCMHMSTというトランスフォーマーに基づくハイブリッドモデルを提案する。
MSCMHMSTモデルはマルチヘッド・マルチスケールアテンション機構を導入し、モデルがデータの異なる部分を並列処理し、その固有表現を複数の視点から学習できるようにする。
特定の実験環境を持つPeMS04/08データセットの実験により、MSCMHMSTモデルは、長期・中期・短期の交通流予測において、優れた堅牢性と正確性を示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:40:32 GMT)
IPCGRL: Language-Instructed Reinforcement Learning for Procedural Level Generation [6.6] IPCGRLは、強化学習による指示に基づく手続き的コンテンツ生成手法である。
IPCGRL ゲームレベル条件を効果的に圧縮するためのタスク固有の埋め込み表現。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:53:38 GMT)
AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality [6.5] 3次元空間の回転を理解するには、言葉による記述や視覚的、インタラクティブな例が伴う。
近年の研究では、言語と視覚能力を備えた人工知能は、空間推論の限界に直面している。
我々は,その画像と言語処理機能を利用してオブジェクトの回転を理解する,生成AIの空間的能力について検討した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:24:05 GMT)
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.3] MAVENは、感情の次元モデリングによる動的感情認識のための新しいアーキテクチャである。
提案手法では,映像フレーム,音声セグメント,テキストからリッチな特徴表現を抽出するために,モダリティ固有エンコーダを用いる。
MAVENは感情を極座標で予測し、感情周囲の心理的モデルと一致させる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:32:32 GMT)
Integrating mobile and fixed monitoring data for high-resolution PM2.5 mapping using machine learning [6.3] 本研究は,320台のタクシー搭載移動体低コストセンサと52台の固定監視ステーションからPM2.5データを統合した。
その結果,500mの空間分解能と5分間の時間分解能が得られた。
これらの結果は,高解像度空気質マッピングのための大規模移動型低コストセンサネットワークの可能性を示している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:49:35 GMT)
ModeTv2: GPU-accelerated Motion Decomposition Transformer for Pairwise Optimization in Medical Image Registration [6.2] 変形可能な画像登録は、疾患の診断と画像誘導の介入を支援する医療画像において重要な役割を担っている。
従来の反復的手法は遅いが、ディープラーニング(DL)はソリューションを加速するが、ユーザビリティと精度の課題に直面している。
本研究では,従来の手法に類似した優れたペアワイズ最適化(PO)を示す改良型モーショントランスフォーマー(ModeTv2)演算子を用いたピラミッドネットワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:56:29 GMT)
Learning response functions of analog quantum computers: analysis of neutral-atom and superconducting platforms [6.2] 本稿では,任意のユーザ入力からアナログ量子コンピュータの応答関数を学習するためのストリーミングアルゴリズムを提案する。
本研究では,超伝導および中性原子プログラム可能なアレイに基づいて,数世代にわたるアナログ量子シミュレータの応答関数の学習と比較を行う。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:31:00 GMT)
RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems [6.2] タスクレプリケーションは、タスクの実行を重複させて一時的な障害と永続的な障害を処理することで、信頼性を向上させることができる。
既存の設計時メソッドは通常、最悪のケース条件に基づいてレプリカの数を選択する。
実システム条件に応じてレプリカ数を動的に決定する強化学習に基づくRL-TIMEを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:31:25 GMT)
Sprite Sheet Diffusion: Generate Game Character for Animation [6.2] 拡散モデルのような生成モデルはスプライトシートの自動生成によってこのプロセスに革命をもたらす可能性がある。
拡散モデルは多様な画像を生成する能力で知られており、キャラクターアニメーションを作成するために適応することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:42:15 GMT)
A Transformer-based survival model for prediction of all-cause mortality in heart failure patients: a multi-cohort study [5.8] 心不全患者の36カ月の死亡を予測できるトランスフォーマーベースのAIモデルであるTRiskを開発した。
英国では1,418例の心不全403,534例(40~90歳)について検討した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:53:50 GMT)
Semantic Matters: Multimodal Features for Affective Analysis [5.7] 本研究は,行動共生/ヘシタシー(BAH)認識チャレンジと情緒的ミミリティ・インテンシティ(EMI)推定チャレンジの2つの課題について提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:30:44 GMT)
Semi-supervised Anomaly Detection with Extremely Limited Labels in Dynamic Graphs [5.4] ラベルが極端に制限された動的グラフにおける異常検出問題に対処する新しいGADフレームワーク(EL$2-DGAD)を提案する。
具体的には、変圧器をベースとしたグラフエンコーダモデルにより、局所的な近傍を超えて進化するグラフ構造をより効果的に保存するように設計されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:43:25 GMT)
Algebraic Adversarial Attacks on Explainability Models [5.3] 代数的対数例は、対数例に対する数学的に抽出可能なアプローチを提供する。
我々は、よく知られた2つの実世界データセットと1つの実世界データセットに対するアプローチを検証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:55:02 GMT)
Analytically Solvable Robust Single-Qubit Gates for Multi-Qubit Systems with Unwanted Couplings [5.2] キュービット間の結合は、単一キュービットゲートの忠実度を低下させるクロストークエラーを引き起こす。
不要結合の存在下で高忠実度単一量子ゲートを構築するための新しい非摂動的枠組みを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 09:33:23 GMT)
Learning Diffeomorphism for Image Registration with Time-Continuous Networks using Semigroup Regularization [5.0] 微分型3次元画像登録のための学習に基づく手法を提案する。
フローマップの基本特性である半群特性を正規化の唯一の形式として活用する。
この結果から, 連続的に微分同相をモデル化することで, 登録性能が向上することが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:22:43 GMT)
Nonlinear Principal Component Analysis with Random Bernoulli Features for Process Monitoring [4.9] 本稿では,その過程における非線形パターンを効率的に捉えるために,ランダムなBernoulli主成分分析法を提案する。
ランダムなベルヌーイ主成分分析に基づく4つの高速プロセス監視手法を設計し,その非線形特性を拡張した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:20:27 GMT)
Fast filtering of non-Gaussian models using Amortized Optimal Transport Maps [4.7] 本稿では、最適輸送フィルタ(OTF)のリアルタイムトレーニングに伴う計算負担を軽減するために設計された、償却最適輸送フィルタ(A-OTF)を提案する。
A-OTFは、オンライン計算における推論コストを低減するために、初期/オフラインのトレーニング段階におけるOTFマップ間の類似性を利用する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:05:26 GMT)
A Reservoir-based Model for Human-like Perception of Complex Rhythm Pattern [4.7] 生体系における複雑な音楽リズムの知覚をよりよく理解するための階層型発振器モデルを提案する。
人間の音楽知覚における上・中・下界にまたがる複数の代表的なリズムパターンを用いて,そのモデルを評価する。
本研究は,高次同期精度を維持しながら,人間のリズム行動を示すことを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:02:42 GMT)
A General Close-loop Predictive Coding Framework for Auditory Working Memory [4.7] 本稿では,短い聴覚信号メモリタスクを実行するために,クローズループ予測符号化パラダイムに基づく汎用フレームワークを提案する。
このフレームワークは、環境音と音声のための2つの広く使われているベンチマークデータセットで評価される。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:57:37 GMT)
Ensemble and Mixture-of-Experts DeepONets For Operator Learning [4.6] 本稿では,演算子学習のための新しいディープ演算子ネットワーク(DeepONet)アーキテクチャを提案する。
アンサンブルのDeepONetは、1つのDeepONetのトランクネットワークを複数の異なるトランクネットワークで強化することを可能にする。
また,DeepONetトランクネットワークアーキテクチャの空間混合(MoE)について述べる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:43:14 GMT)
Diffusion-based Synthetic Data Generation for Visible-Infrared Person Re-Identification [4.4] Visible-Infrared Person Re-IDentification (VI-ReID) タスクでは、様々なカメラやモダリティの下で各個人の大規模な画像を収集、注釈付けすることは、退屈で、時間的、費用がかかり、データ保護法に従わなければならない。
現在の研究では、現場での実際のデータ収集に代わる、効率的かつプライバシー保護の代替として、合成データの生成について検討している。
本稿では,Diffusion-based VI-ReID data Expansion (DiVE) と呼ばれる新しいデータ生成フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:54:37 GMT)
HAR-DoReMi: Optimizing Data Mixture for Self-Supervised Human Activity Recognition Across Heterogeneous IMU Datasets [4.3] クロスデータセットのヒューマンアクティビティ認識(HAR)は、限られたモデル一般化に悩まされており、その実践的な展開を妨げている。
異種データセット間の認識性能の向上を目的とした,HARモデルの事前学習のためのデータ混合最適化手法を提案する。
Har-DoReMiは、現在の最先端の手法に比べて平均6.51%精度が向上し、データ使用量の約30%から50%しかありません。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:31:58 GMT)
Shape Bias and Robustness Evaluation via Cue Decomposition for Image Classification and Segmentation [4.3] 深層ニューラルネットワークは、テクスチャや形状などの異なる画像の手がかりに対するバイアスの観点から、画像の内容をどのように知覚するかを検討する。
1) 形状とテクスチャの手がかりを抽出する2つのAIフリーデータ前処理方法からなるキュー分解法からなる新しい評価手順を提案する。
アプリケーション目的のために、DNN w.r.t.画像破損のロバスト性を推定できる対応するキュー分解ロバスト性指標を導入する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:17:03 GMT)
Simulation-based Bayesian inference under model misspecification [4.2] 本研究は,SBI法が抱える課題を,モデル不特定の下での課題に焦点をあてる。
誤特定の影響を緩和することを目的とした最近の研究を集約する。
一般的なSBI手法の脆弱性と,誤特定・不正な代替手段の有効性を両立させるため,実証実験を行った。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:47:19 GMT)
How Scientists Use Jupyter Notebooks: Goals, Quality Attributes, and Opportunities [4.2] 我々はJupyterのノートブックを日々のタスクに利用した20人の科学者の観察的研究を行った。
その結果,(1)科学者がJupyterノートブックで追求する目標の集合体,(2)ソフトウェア作成時に科学者が評価する品質特性の集合体,(3)科学者が品質を促進するために活用する戦術の集合体を定性的に分析した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:18:46 GMT)
Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift [4.1] 我々はクラスタ内の依存を示す独立したグループから生じるランダムなデータに対するランダムなフォレストアルゴリズムであるClustered Random Forestsを開発した。
集団化されたランダム林を構成する各決定木の葉回り予測は、重み付き最小二乗推定器の形を取る。
伐採された無作為林は、特定の樹木分割基準に対して、ポイントワイド条件の平均推定に最適なミニマックスレートを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:07:23 GMT)
Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [4.1] 大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
トップトークンの確率に応じてスケールすることでモデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション法である min-p サンプリングを提案する。
我々はGPQA、GSM8K、AlpacaEval Creative Writingなどのベンチマーク実験を行い、min-pサンプリングが生成したテキストの品質と多様性を特に高温で改善することを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:12:44 GMT)
Attention-Guided Perturbation for Unsupervised Image Anomaly Detection [4.1] 本稿では,注意誘導摂動ネットワーク(AGPNet)という再構成フレームワークを提案する。
AGPNetは、トレーニング中に注意マスクで案内された摂動を追加することを学ぶ。
MVTec-AD、VisA、MVTec-3Dをカバーするいくつかの人気のあるベンチマークで実験が行われた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:23:25 GMT)
Noisy dynamics of Gaussian entanglement: a transient bound entangled phase before separability [4.1] 4モード連続変数系のガウス有界絡み状態の新しいクラスを見つける。
これらの状態は、ある NPT が絡み合ったガウス状態がノイズ環境下で進化する時、過渡相として現れる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:41:10 GMT)
CNCast: Leveraging 3D Swin Transformer and DiT for Enhanced Regional Weather Forecasting [4.0] 本研究では,SwinTransformer 3Dアーキテクチャに基づく最先端の地域天気予報モデルを提案する。
このモデルは、正確に1時間から5日間の天気予報を提供するように設計されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:52:48 GMT)
Standardized test of many-body coherence in gate-based quantum platforms [4.0] 本稿では,スピンチェーン構成における干渉効果を用いて,多体量子コヒーレンス長スケールを定義する手法を提案する。
ゲートベースの量子プラットフォーム上で、現在のデバイスの量子コヒーレンスを推定し、比較するために、このアプローチをどのように実装できるかを実証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:01:14 GMT)
TERL: Large-Scale Multi-Target Encirclement Using Transformer-Enhanced Reinforcement Learning [3.8] 本稿では,大規模マルチターゲット囲いに対するトランスフォーマー強化型強化学習フレームワークを提案する。
変換器ベースのポリシーネットワークとターゲット選択を統合することで、TERLはロボットがターゲットを適応的に優先順位付けし、ロボットを安全に調整することを可能にする。
その結果,TERLは大規模シナリオにおいて良好な性能を維持しつつ,既存のRL法よりも円周成功率やタスク完了時間に優れていた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:49:11 GMT)
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.8] アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:05:04 GMT)
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation [3.7] 不確実性検出メトリクスは、質問応答精度をわずかに低下させるだけで、検索呼び出し数をほぼ半分に減らすことができる。
以上の結果から,Degree Matrix Jaccard や Eccentricity などの不確実性検出指標は,質問応答精度をわずかに低下させることなく,検索回数をほぼ半分に抑えることが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:21:57 GMT)
LLM-Mediated Guidance of MARL Systems [3.5] 複雑なマルチエージェント環境では、効率的な学習と望ましい行動を達成することが、マルチエージェント強化学習システムの課題である。
この研究は、MARLとLLM(Large Language Model)による介入を組み合わせ、より望ましい行動へエージェントを誘導する可能性を探る。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:16:13 GMT)
Negotiative Alignment: Embracing Disagreement to Achieve Fairer Outcomes -- Insights from Urban Studies [3.5] 本研究はモントリオール市における住民35名を対象にした地域調査から得られた知見である。
我々は、不一致を保存、分析、対処に必要な入力として扱うAIフレームワークである、交渉的アライメントを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:55:54 GMT)
GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch Attack [3.3] 知覚モジュールは敵攻撃に対して脆弱であり、その精度と信頼性を損なう可能性がある。
そのような攻撃の1つは、敵のパッチ攻撃 (APA) であり、敵がオブジェクトに特別に製作されたステッカーを戦略的に配置し、オブジェクトの分類を欺く物理的攻撃である。
本研究では,GAN(Generative Adversarial Network)に基づく交通標識分類のための単一段階防衛戦略を開発する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:47:44 GMT)
XAI-Driven Client Selection for Federated Learning in Scalable 6G Network Slicing [3.3] ネットワークスライシングは、通信ネットワークの複雑さの増加を管理するために、人工知能(AI)モデルを採用している。
このような状況下では、AI駆動のゼロタッチネットワーク自動化は、高い柔軟性と生存性を示すべきである。
本稿では,XAI手法を利用して,フェデレート学習に基づく解析エンジンのスケーラブルかつ高速な動作を保証し,クライアント選択に対する新たなアプローチを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:14:25 GMT)
Point Cloud Based Scene Segmentation: A Survey [3.1] 本稿では、自律運転のためのポイントクラウドセマンティックス分野における最先端手法の概要について述べる。
提案手法はプロジェクションベース,3Dベース,ハイブリッドに分類する。
また,実世界のデータに制限がある場合,研究を支援するための合成データの重要性も強調する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:02:41 GMT)
VeriLA: A Human-Centered Evaluation Framework for Interpretable Verification of LLM Agent Failures [3.1] 複合AIシステムにおける大規模言語モデル(LLM)エージェントは、しばしば人間の基準を満たさないため、システム全体のパフォーマンスを損なうエラーにつながる。
本稿では LLM Agent failures (VeriLA) を検証するための人間中心評価フレームワークを提案する。
VeriLAは、人的労力を減らすためにエージェント障害を体系的に評価し、これらのエージェント障害を人間に解釈できるようにする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:11:18 GMT)
Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable Convolutions [3.0] ビデオスーパーレゾリューション(VSR)は、リソース制約のあるエッジデバイスへのデプロイにおいて、依然として大きな課題である。
本稿では,230万のパラメータで最先端の再現精度を実現する,VSRのための新しい軽量かつパラメータ効率のニューラルアーキテクチャを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:16:00 GMT)
xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [3.0] 本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。
マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:15:20 GMT)
BS-Mamba for Black-Soil Area Detection On the Qinghai-Tibetan Plateau [2.9] 清海・チベット高原(QTP)の過度に荒廃した草原では, 修復作業の指針として, 正確な評価が必要である。
専門家の指導のもと,新たに作成したQTPブラック土壌データセットを注釈付きで提示する。
本稿では,UAVリモートセンシング画像を用いた黒土領域検出のためのニューラルネットワークモデルBS-Mambaを紹介する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:11:48 GMT)
From Fog to Failure: The Unintended Consequences of Dehazing on Object Detection in Clear Images [2.8] 本研究は,人間の視覚的手がかりに基づく脱ハジングを物体検出に組み込むことの課題について考察する。
本稿では,光検出装置が関心領域を検知し,空間的注意に基づくデハージングによって改善する多段階フレームワークを提案する。
霧の環境では有効であるが、この手法は鮮明な画像の性能を予期せず劣化させる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:10:05 GMT)
A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks [2.7] 本研究では,ChatGPT 03-miniとDeepSeek-R1の2つの主要なモデルを評価する。
以上の結果から,どちらのモデルも容易なタスクでも同様に動作するが,ChatGPTは中程度のタスクでDeepSeek-R1より優れていたことが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:35:36 GMT)
Can LLMs Formally Reason as Abstract Interpreters for Program Analysis? [2.5] LLMはコード生成と理解に優れた能力を持っているが、プログラム解析におけるそのポテンシャルは未解明のままである。
LLMが抽象解釈と呼ばれるプログラム分析フレームワークを用いてプログラムを推論できるかどうかを系統的に検討する。
ソフトウェア検証コンペティション(SV-COMP)2019データセットから,22の挑戦的なベンチマークプログラムに対して,最先端のLCMを用いてアプローチを検証する。
本研究の結果から,LLMは論理的誤りの影響を受けやすいが,実験モデルでは抽象的解釈に基づく推論が可能であることが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:05:52 GMT)
SynLlama: Generating Synthesizable Molecules and Their Analogs with Large Language Models [2.5] 我々はSynLlamaを作成するために,MetaのLlama3大言語モデルを微調整した新しいアプローチを提案する。
SynLlamaは、一般的にアクセス可能なエナミンビルディングブロックと堅牢な有機反応テンプレートからなる完全な合成経路を生成する。
我々はSynLlamaを効果的に一般化して、目に見えないが購入不可能なビルディングブロックを構築できることを発見し、その再構築能力はより広い合成可能な化学空間にまで拡張できることを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:30:56 GMT)
Domain Generalization for Improved Human Activity Recognition in Office Space Videos Using Adaptive Pre-processing [2.5] 本稿では,環境変動の中でのオフィス活動の認識に焦点を当てた。
本稿では,ビデオエンコーダに適用可能な3つの前処理手法を提案する。
提案手法は未確認領域における精度,精度,リコール,F1スコアを著しく向上させ,多様なビデオデータソースを用いた実世界のシナリオにおける適応性を強調した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:33:41 GMT)
Learning Partial Graph Matching via Optimal Partial Transport [2.4] 最適部分移動にインスパイアされた部分グラフマッチングのための新しいフレームワークを提案する。
提案手法は, 偏りを取り入れつつ部分的代入を可能にする目的を定式化したものである。
我々の手法は,3次最悪のケースタイムの複雑さの中で,効率的かつ正確な解が得られる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:50:18 GMT)
Probing the hollowing transition of a shell-shaped BEC with collective excitation [2.4] 貝殻状ボース・アインシュタイン凝縮体の集合励起による中空遷移について検討した。
以上の結果から, 2つの縮合体が相内あるいは相外を振動する2つの異なるモノポールモードが明らかとなった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:00:08 GMT)
The FFT Strikes Again: An Efficient Alternative to Self-Attention [2.4] FFTNetは、Fast Fourier Transform (FFT) を用いて(mathcalO(nlog n))時間で大域的なトークン混合を実現する適応スペクトルフィルタリングフレームワークである。
本研究の主な貢献は,(1)有能な周波数成分をハイライトする適応スペクトルフィルタ,(2)局所ウィンドウとグローバルFFTブランチを組み合わせたハイブリッド方式,(3)長距離アリーナとイメージネットの実験により,固定ベースおよび標準アテンションモデルよりも優れた性能を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:17:17 GMT)
Virtual purification complements quantum error correction in quantum metrology [2.2] 仮想浄化(VP)は,現実的なセットアップにおけるノイズの効果を効果的に抑制できることを示す。
VPは、符号化されたプローブ状態とともに、現実的な設定におけるノイズの効果を効果的に抑制することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:56:40 GMT)
Light-induced quantum friction of carbon nanotubes in water [2.2] 量子摩擦は、物質中の電子的に励起された状態から周囲の溶媒へのエネルギーと運動量の移動を表す。
近赤外(NIR)蛍光単層カーボンナノチューブ(SWCNT)が水中に量子摩擦を示すことを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:22:30 GMT)
DPF-Net: Physical Imaging Model Embedded Data-Driven Underwater Image Enhancement [2.2] 本研究では,データ駆動・物理パラメータ融合ネットワーク(DPF-Net)と呼ばれる2段階水中画像強調ネットワークを提案する。
データ駆動方式の一般性と効率性とともに、物理画像モデルの堅牢性を利用する。
提案するDPF-Netは,複数のテストセットにまたがる他のベンチマーク手法と比較して,優れた性能を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:53:18 GMT)
Zero-Shot Low Light Image Enhancement with Diffusion Prior [2.1] 低照度画像拡張(LLIE)のためのフリーランチソリューションを提案し,照明のよい環境で取得したような低照度画像を復元することを目的とした。
我々は、事前訓練されたテキスト・画像の拡散を利用して、大量の自然画像の収集とモデル自体に存在する特徴を学習し、推論を導出する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:41:13 GMT)
Report of the Medical Image De-Identification (MIDI) Task Group -- Best Practices and Recommendations [2.1] 本報告では,ヒトおよび生体試料の医用画像の識別の技術的側面について述べる。
公開データのみの特定が検討されている。
人工知能(AI)モデル開発のためのフェデレーション学習のような、プライバシに対する別のアプローチは、スコープ外である。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:47:00 GMT)
UniBERTs: Adversarial Training for Language-Universal Representations [2.0] UniBERTは大規模モデルの計算要求を減らすように設計されている。
UniBERTは107言語にまたがる厳格にキュレートされたウィキペディアコーパスで事前訓練されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:44:06 GMT)
Uncertainty Quantification for Data-Driven Machine Learning Models in Nuclear Engineering Applications: Where We Are and What Do We Need? [2.0] 機械学習(ML)は、核工学のほとんどすべての分野において、多様なタスクに取り組むために利用されてきた。
重要なが下位評価の領域は、MLの不確実性定量化(UQ)である。
物理モデルとデータ駆動MLモデルの基本概念の違いを解明する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:54:55 GMT)
Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction [2.0] 教育における多重選択質問(MCQ)の設計において、学生の誤解と知識のギャップを識別するためには、妥当な気晴らし器の作成が不可欠である。
本研究は,学生が選択する可能性がより高い気晴らし器を生成するモデルを訓練するためのパイプラインを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:33:02 GMT)
Sakshm AI: Advancing AI-Assisted Coding Education for Engineering Students in India Through Socratic Tutoring and Comprehensive Feedback [2.0] プログラミング教育のための既存のAIツールは、ソクラティックガイダンスの欠如など、重要な課題に直面している。
本研究では,1170名の登録参加者を対象に,プラットフォームログ,エンゲージメント傾向,問題解決行動を分析し,Sakhm AIの効果を評価する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:13:29 GMT)
Development and prospective validation of a prostate cancer detection, grading, and workflow optimization system at an academic medical center [2.0] がん検出, グレーディング, IHC 注文症例のスクリーニングモデルを開発した。
タスク固有前立腺モデルの性能を汎用基礎モデルと比較した。
癌検出におけるタスク特異的モデルと基礎モデルの間に統計的に有意な差は認められなかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:39:29 GMT)
Real-Time Cell Sorting with Scalable In Situ FPGA-Accelerated Deep Learning [2.0] 我々は,光電場顕微鏡画像を用いたラベルなしの細胞分類のための機械学習フレームワークを提案する。
本フレームワークは,T4,T8,Bのセルタイプを,80,000の事前処理画像のデータセットで正確に分類する。
FPGAを高速化した学生モデルは、14.5$mu$sの超低レイテンシと24.7$mu$sの完全なセル検出ソートトリガ時間を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:32:11 GMT)
On the Privacy Risks of Spiking Neural Networks: A Membership Inference Analysis [1.8] スパイキングニューラルネットワーク(SNN)は、現実のアプリケーションにおいて、そのエネルギー効率と堅牢性のためにますます研究されている。
本研究では,SNNのMIAに対する感受性について検討する。
MIAは、あるサンプルがトレーニングデータセットの一部であるかどうかを敵が判断しようとする、大きなプライバシー上の脅威である。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:25:29 GMT)
SAM2-ELNet: Label Enhancement and Automatic Annotation for Remote Sensing Segmentation [1.8] この研究は、ラベリングモジュールとエッジアテンション機構を組み込んだ、SAM2-ELNetと呼ばれるエッジ強化ラベリングネットワークを提案する。
本手法では,事前学習した大規模モデルセグメントのHieraバックボーンをエンコーダとして使用する。
その結果, ラベルの強化によりトレーニングしたモデルの性能が向上し, 最終損失が低くなり, 実際のデータ分布との密接な一致が示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:11:11 GMT)
An FPGA-Based Open-Source Hardware-Software Framework for Side-Channel Security Research [1.8] サイドチャネル分析(SCA)に基づく攻撃は、現代のコンピューティングプラットフォームに深刻なセキュリティ脅威をもたらす。
この原稿は、FPGAターゲットに関するSCA研究を目的としたハードウェア・ソフトウェア・フレームワークを紹介している。
RISC-V CPUを含むIoTクラスのシステムオンチップ(SoC)を提供する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:34:11 GMT)
What is unethical about software? User perceptions in the Netherlands [1.7] 非倫理的で非情報的なソフトウェアプラクティスは ますます多くの倫理的懸念の根源にあります
私たちは、日々のソフトウェアアプリケーションを使用する際の倫理的懸念について、さまざまなユーザグループに尋ねます。
私たちの参加者は、プライバシー、透明性、操作、安全性、不適切なコンテンツについて積極的に心配しています。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:29:25 GMT)
Dynamic Angle Selection in X-Ray CT: A Reinforcement Learning Approach to Optimal Stopping [1.7] 産業用X線CT(Industrial X-ray Computed Tomography)では,高速インライン検査の必要性が重要である。
スパース・アングル・トモグラフィーは、必要な投影数を減らし、処理と資源の保存を加速することで重要な役割を担っている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:09:13 GMT)
Optimality Condition for the Petz Map [1.6] 量子誤差補正において、ペッツ写像はクニル・ラフラム条件を満たすとき、完全回復写像として機能する。
この研究は、初めて、絡み合いの忠実度の観点から、ペッツの最適性に必要な十分条件を紹介し、証明する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:19:52 GMT)
ASD Classification on Dynamic Brain Connectome using Temporal Random Walk with Transformer-based Dynamic Network Embedding [1.6] 我々は、時間とともに脳の接続の時間的進化を捉える新しい動的ネットワーク埋め込み手法であるBrainTWTを提案する。
自閉症脳画像データ交換(ABIDE)データセットを用いた実験的評価は、BrainTWTがASD分類におけるベースライン手法より優れていることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:44:11 GMT)
From G-Factor to A-Factor: Establishing a Psychometric Framework for AI Literacy [1.5] 我々は、AIリテラシーを、教育、労働開発、および社会的エクイティに重要な意味を持つ、一貫性のある測定可能な構造として確立する。
研究1では、AIのインタラクションタスク間で44.16%のばらつきがある、支配的な潜伏因子("A-factor"と呼ばれる)を明らかにした。
研究2は、AIリテラシーの4つの重要な側面を調べることで測定ツールを洗練させた。
回帰分析では、認知能力(IQ)、教育的背景、AI以前の経験、トレーニング履歴など、AIリテラシーのいくつかの重要な予測要因を特定した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:51:48 GMT)
Classification of unitary operators by local generatability [1.5] 浮動小数点系は平衡で得られるもの以上の可能性を示すことができる。
局所的に生成されるユニタリへの同値性はホモトピー同値性と同じであることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:20:00 GMT)
Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escape, and Network Embedding [1.5] 経験的二乗損失を学習したReLU様活性化関数を持つ一層ニューラルネットワークの損失状況について検討した。
トレーニング中の損失減少を著しく抑制するネットワークの定常点を同定する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:13:40 GMT)
A Generative AI-driven Metadata Modelling Approach [1.5] 本稿では,ジェネレーティブなAI駆動型Human-Large Language Model (LLM) を用いたメタデータモデリング手法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:12:51 GMT)
Focusing Robot Open-Ended Reinforcement Learning Through Users' Purposes [1.0] オープンエンドラーニング(OEL)自律ロボットは、環境と直接対話することで、新たなスキルと知識を得ることができる。
目的指向型オープンエンドラーニング(POEL)というソリューションを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:22:11 GMT)
SCOOP: CoSt-effective COngestiOn Attacks in Payment Channel Networks [1.0] SCOOPはPCNに対する2つの新しい混雑攻撃を含むフレームワークである。
第1の攻撃は特定の混雑閾値を達成するために攻撃者の予算を割り当て、第2の攻撃は予算制約下での混雑を最大化する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:41:56 GMT)
SCReedSolo: A Secure and Robust LSB Image Steganography Framework with Randomized Symmetric Encryption and Reed-Solomon Coding [0.9] 我々は、画像内の任意のバイナリデータを隠蔽する新しいフレームワークである$rm SCRsmall EEDSsmall OLO$を紹介した。
本稿では,RGB画像に対して1ピクセルあたり3ビットのデータペイロードを実現し,伝送成功確率を数学的に評価する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:01:05 GMT)
Optimal Kernel Quantile Learning with Random Features [0.9] 本稿では、ランダムな特徴を持つカーネル量子化回帰(KQR-RF)の一般化研究について述べる。
本研究は,KQR-RFの能力依存学習率を,RF数に対する軽度条件下で確立する。
我々の仮定を少し修正することによって、キャパシティに依存した誤差解析が、リプシッツ連続損失のケースにも適用できる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:39:42 GMT)
Efficient Compilation for Shuttling Trapped-Ion Machines via the Position Graph Architectural Abstraction [0.9] この研究は、異なるタイプのハードウェアアーキテクチャのための、位置グラフと呼ばれる新しい統一抽象化を提示している。
我々は、トラップイオン量子電荷結合デバイス(QCCD)アーキテクチャをモデル化し、高品質で超伝導のスケーラブルなコンパイル方法を実現する。
このアプローチは、シャットリングベースの量子コンピュータの物理的制約に従うハードウェア上で、ネイティブで実行可能な回路とイオン命令を生成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:24:08 GMT)
MoECollab: Democratizing LLM Development Through Collaborative Mixture of Experts [0.8] 大規模言語モデル(LLM)開発はますます集中化され、リソースの豊富な組織への参加が制限されている。
本稿では,Mixture of Experts (MoE) アーキテクチャを利用した分散LLM開発のための新しいフレームワークであるMoECollabを紹介する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:52:40 GMT)
Characterization of Tunnel Diode Oscillator for Qubit Readout Applications [0.8] この低温マイクロ波源は、大規模量子ビットリードアウトシステムにおいて大きなスケーラビリティの可能性を示している。
出力周波数は140MHzで、一般に半導体中の電子の量子ビット読み出しに用いられる。
位相ノイズは、市販の電圧源を鉛蓄電池に置き換えることで大幅に改善された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:39:24 GMT)
Low-Energy Test of Quantum Gravity via Angular Momentum Entanglement [0.7] フレーム描画に関する一般相対論的補正を考慮した球対称試験質量の角モータ間の相互作用について検討した。
このアプローチでは、プローブの質量は直接的に関係せず、代わりに角運動量が中心的な役割を果たす。
最適エンタングリング速度は最大で非局在な初期状態で達成されるが、有意な量子相関は2つの回転系の間でも生じうることを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:08:56 GMT)
ODTE -- An ensemble of multi-class SVM-based oblique decision trees [0.7] ODTEは、斜め決定木をベース分類子として使用する新しいアンサンブルである。
斜め決定木を育成するための基本アルゴリズムSTreeを紹介する。
ODTEは一貫してライバルより上位に位置する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:34:32 GMT)
Debiasing Diffusion Model: Enhancing Fairness through Latent Representation Learning in Stable Diffusion Model [0.6] 本稿では,学習中の潜伏表現の学習に指標を活用する脱バイアス拡散モデル(DDM)を提案する。
このアプローチは、従来手法で対処されていたシナリオでの有効性を示すだけでなく、事前定義された機密属性を条件として頼らずに公平性を高める。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:02:52 GMT)
Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene Understanding [0.6] 大規模マルチモーダルモデル(LMM)は、ユーザーインタラクションのための自律運転システムに統合されつつある。
しかし、細粒度空間推論における制限は、システム解釈可能性やユーザ信頼に課題をもたらす。
本稿では,LMMの運転シナリオにおける空間的理解を改善する新フレームワークであるLogic-RAGを紹介する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:36:36 GMT)
IQA-Adapter: Exploring Knowledge Transfer from Image Quality Assessment to Diffusion-based Generative Models [0.5] 画像品質評価(IQA)モデルを拡散型ジェネレータに統合する手法を提案する。
拡散モデルはIQAモデルの出力と内部アクティベーションの両方から複雑な定性的関係を学習できることを示す。
IQA-Adapterは,画像と品質スコアの暗黙的関係を学習することで,目標品質レベルの生成を条件付ける新しいフレームワークである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:10:57 GMT)
MIRACLE3D: Memory-efficient Integrated Robust Approach for Continual Learning on Point Clouds via Shape Model Construction [0.5] 本稿では,3次元オブジェクト分類におけるメモリ効率とプライバシ保護の継続学習のための新しいフレームワークを提案する。
提案手法は各クラスに対してコンパクトな形状モデルを構築し,各クラスの平均形状のみを保持するとともに,いくつかのキーモードの変動も保持する。
我々は、ModelNet40、ShapeNet、ScanNetデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:55:58 GMT)
The Art of Avoiding Constraints: A Penalty-free Approach to Constrained Combinatorial Optimization with QAOA [0.4] 量子近似最適化アルゴリズム(QAOA)は、2次(および高次)非制約二項最適化問題の最適解とほぼ最適解を決定するために設計されている。
制約付き最適化問題を解くために、革新的な利益緩和フレームワークを導入します。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:30:24 GMT)
Learning Contour-Guided 3D Face Reconstruction with Occlusions [0.4] 深層学習に基づく3次元顔再構成法は,品質と効率の面で有望な進歩を示した。
これらの技術は、隠蔽されたシーンを効果的に扱うことの難しさに直面し、複雑な幾何学的な顔の詳細を捉えない。
GANの原則やバンプマッピングにインスパイアされた私たちは,これらの問題に対処することに成功しました。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:05:38 GMT)
Geometry-Aware Face Reconstruction Under Occluded Scenes [0.4] 深層学習に基づく3次元顔再構成法は,品質と効率の面で有望な進歩を示した。
これらの技術は、隠蔽されたシーンを効果的に扱うことの難しさに直面し、複雑な幾何学的な顔の詳細を捉えない。
GANの原則やバンプマッピングにインスパイアされた私たちは,これらの問題に対処することに成功しました。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:01:17 GMT)
Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks [0.4] 微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。
我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。
実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:51:12 GMT)
User Profile with Large Language Models: Construction, Updating, and Benchmarking [0.3] 高品質なオープンソースユーザプロファイルデータセットを2つ提示する。
これらのデータセットは、ユーザープロファイルモデリング技術を評価するための強力な基盤を提供する。
プロファイル構築と更新の両方に対処するために,大規模言語モデルを用いた方法論を示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:20:37 GMT)
Ensemble Kalman-Bucy filtering for nonlinear model predictive control [0.3] 我々は、一般的なアンサンブルカルマンフィルタを拡張し、非線形モデル予測制御の精神における水平最適制御問題を退避させる。
ポントリャーギンの最大原理から生じる前方微分方程式に対する相互作用粒子近似を提供する。
後退水平制御法則は線形として近似され、非線形モデル予測制御のように継続的に更新される。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 12:04:28 GMT)
Quantum Supermaps are Characterized by Locality [0.2] 我々は、逐次合成と並列合成のみを参照する公理の観点から、量子スーパーマップの新たな特徴付けを提供する。
我々は、モノイド圏上で局所適用可能変換の簡単な定義を提供することでそうする。
この図式表現を用いて、量子チャネル上の局所適用可能な変換が決定論的量子スーパーマップとの1対1の対応にあることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:29:12 GMT)
HIVQE: Handover Iterative Variational Quantum Eigensolver for Efficient Quantum Chemistry Calculations [0.2] The Handover Iterative Variational Quantum Eigensolver (HiVQE) は基底状態の波動関数を正確に推定するように設計されている。
コンパクトだが化学的に正確な波動関数を生成することで、HiVQEは量子化学シミュレーションを進め、新しい物質の発見を促進する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:56:06 GMT)
Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.2] 大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。
系統的な文献レビューのためのLLMの性能評価を行った。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 05:52:18 GMT)
Implementing NLPs in industrial process modeling: Addressing Categorical Variables [0.2] 本研究では,自然言語処理モデルを用いて,実際の意味を表す入力の埋め込みを導出する。
これは、分類変数を1と0のシーケンスに置き換えるためにバイナリまたは1ホットエンコーディングを使用する現在の標準的な慣習とは大きく異なる。
提案手法は, 分類変数の符号化における現在の最先端技術と比較して, 顕著な改善となる特徴的重要性を実現する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:44:16 GMT)
Poisoned Source Code Detection in Code Models [0.1] CodeGarrison(CG)は,有毒なコードサンプルを識別するために,コードの埋め込みに依存するハイブリッドディープラーニングモデルである。
その結果、CGは93.5%の精度でONIONを大きく上回った。
また、未知の攻撃に対してCGの堅牢性をテストし、平均精度は85.6%に達した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:05:59 GMT)
Data-Driven Approximation of Binary-State Network Reliability Function: Algorithm Selection and Reliability Thresholds for Large-Scale Systems [0.1] 本研究は,3つの信頼性体制(0.0-1.0),高信頼性(0.9-1.0),超高信頼性(0.99-1.0)にわたる20の機械学習手法を評価する。
本研究では,円弧の信頼性が0.9以下である大規模ネットワークが,ほぼ均一なシステムの信頼性を示し,計算の単純化を実現していることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 13:51:59 GMT)
When neural implant meets multimodal LLM: A dual-loop system for neuromodulation and naturalistic neuralbehavioral research [0.0] 本稿では、応答性神経刺激(RNS)インプラントと人工知能駆動型ウェアラブルデバイスを組み合わせた新しいデュアルループシステムを提案する。
PTSD療法モードでは、移植されたクローズドループニューラルデバイスが扁桃体活動を監視し、病理組織振動を検出するためのオンデマンド刺激を提供する。
神経科学研究モードでは、同じプラットフォームが現実世界の脳活動のキャプチャに適応している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:07:59 GMT)
What Can 240,000 New Credit Transactions Tell Us About the Impact of NGEU Funds? [0.0] パネルデータローカルプロジェクションモデルを用いて、新規融資に対する調達賞の動的効果を推定する。
その結果,NGEU調達プログラムの影響は歴史的調達の影響と密接に一致していることがわかった。
高頻度の財務データと調達記録を統合することは、公共政策設計の洗練におけるビッグデータの可能性を強調している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:50:03 GMT)
Universal Narrative Model: an Author-centric Storytelling Framework for Generative AI [0.0] 著者を将来の物語デザインの中心に配置するオープンスタンダードであるユニバーサル・ナラティブ・モデル(UNM)を提案する。
客観的な物語モデルに従って著者の意図を符号化することにより、UNMは物語の移植性と、生成システムに対する意図に基づく制約を可能にする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:53:10 GMT)
Towards Privacy-Preserving Data-Driven Education: The Potential of Federated Learning [0.0] 本稿では,教育データ予測のためのフェデレーション学習の実験的検討を行った。
その結果,フェデレーション学習が予測精度に匹敵するものであることが示唆された。
敵対的攻撃の下では、フェデレーション学習は非フェデレーション設定よりもレジリエンスが高いことを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:37:32 GMT)
The topological spectrum of high dimensional quantum states [0.0] トポロジーは多くのシステムの基本的な性質として現れ、宇宙論、凝縮物質、高エネルギー物理学、波動に現れている。
ここでは、軌道角運動量の合成次元を利用して、高次元空間における位相写像の豊富なタペストリーを発見する。
トポロジカルスペクトルは、スペクトルの非トポロジカルな(自明な)空間における創発的シグネチャを観測することにより、同時に摂動に頑健で探索できることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:13:24 GMT)
Synthetic Data for Robust AI Model Development in Regulated Enterprises [0.0] 私たちは、高度に規制された産業の組織が、人工データを利用して堅牢なAIソリューションを構築する方法を示します。
我々は、AIモデルがより多様なデータから学べることによって、合成データが2つの大きな利点をもたらすことを実証した。
我々の研究は、人工データは規制産業におけるAIのゲームチェンジャーになり得ると考えている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:46:41 GMT)
Steinhaus Filtration and Stable Paths in the Mapper [0.0] カバーが有限の場合, スタインハウス濾過は安定であることを示す。
次に、スタインハウス濾過における安定経路の言語と理論を開発する。
説明可能な機械学習のために、1つのMapperコンプレックスからフィルタを構築することでモデル誘導にMapperアルゴリズムを適用する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:18:17 GMT)
State Fourier Diffusion Language Model (SFDLM): A Scalable, Novel Iterative Approach to Language Modeling [0.0] 本稿では,変圧器や大きな畳み込みモジュールを使わずに構築した完全拡散駆動離散テキスト生成モデルを提案する。
ローカルな状態空間の更新をグローバルなFourierベースのミキシングと組み合わせることで、このアプローチはショートおよびロングレンジの依存関係を効果的にキャプチャする。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:17:40 GMT)
Stable homotopy theory of invertible gapped quantum spin systems I: Kitaev's $Ω$-spectrum [0.0] 無限量子スピン系の作用素-代数的定式化に基づいて、北エフの提案を実現する。
我々は、ユークリッド空間の任意の部分空間上に置かれる量子系の空間という観点から、$Omega$-spectrum $mathitIP_*$と関連するホモロジー理論のモデルを開発する。
結晶群$Gamma$で与えられる空間対称性を組み込んで、$Omega$-spectrum $mathitIP_*Gamma$ of $を定義する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:21:06 GMT)
Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search [0.0] 木探索の観点から,Large Language Model (LLM) の安全性の段階的侵食をモデル化する多ターン対向フレームワークであるGiegeを紹介した。
GPT-3.5-turboで100%成功率,GPT-4で97%を達成できた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:14:05 GMT)
Semi-Decision-Focused Learning with Deep Ensembles: A Practical Framework for Robust Portfolio Optimization [0.0] 本稿では,ポートフォリオ最適化のための半決定焦点学習を提案する。
私は単純なターゲットポートフォリオ(Max-SortinoやOne-Hot)と凸とクロスエントロピーの損失を持つモデルをトレーニングしています。
2つの宇宙の実験(1つは上向き、もう1つはレンジバウンド)は、ベースラインのポートフォリオよりも一貫したアウトパフォーマンスを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:57:45 GMT)
Scaling Semantic Categories: Investigating the Impact on Vision Transformer Labeling Performance [0.0] 本研究では,視覚変換器(ViT)の画像分類性能に及ぼす意味圏のスケーリングの影響について検討する。
この研究は、基礎的な真実の数と人工的に導入された意味論的等価なカテゴリが増加するにつれて、ViTsのラベル付け精度は理論的な最大値や限界に達するまで向上する、という仮説を立てている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:14:21 GMT)
Robust strong-field theory model for ultrafast electron transport through metal-insulator-metal tunneling nanojunctions [0.0] ジャンクションの限られたサイズの影響を考慮に入れた新しいパラメータ $zeta$ を導入する。
我々は、$zeta 1$ photon-assisted tunnelingが超高速電子輸送を支配していることを発見した。
我々の理論モデルは超高速MIMナノ接合の物理を理解し予測するための豊富なツールボックスを提供する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:01:36 GMT)
Robust Lindbladian Tomography for Cyclic Quantum Gates [0.0] 任意の有限次元系に対するAECにおける環状ゲートのリンドブレディアン誤差に対するERCの効果を解析するための新しい理論ツールを開発した。
また,線形近似に基づく巡回ゲートのリンドブラディアン誤差のトモグラフィープロトコル,Robust Lindbladian Tomography (RLT)を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 00:26:14 GMT)
Realized Volatility Forecasting for New Issues and Spin-Offs using Multi-Source Transfer Learning [0.0] 本稿では,金融資産のボラティリティを予測するためのマルチソース・トランスファー学習手法を提案する。
我々は、実質的な歴史的データ記録を持つ資産の相補的な情報源データを利用する。
予測性能を、対象データにのみトレーニングされた予測と、ソース全体と対象データにトレーニングされたモデルと比較する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:56:44 GMT)
Radiative pumping vs vibrational relaxation of molecular polaritons: a bosonic mapping approach [0.0] 分子の振動子状態のボゾン化に基づく分子偏光子の研究を行う。
この形式は任意の数の分子$N$、励起、内部の振動構造を許容する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:20:29 GMT)
Quantum-Assisted Support Vector Regression [0.0] 我々は、2つのSVRモデルをトレーニングするためのアルゴリズム、すなわちシミュレートと量子古典ハイブリッドを考案した。
顔ランドマーク検出のためのPythonのScikit-LernパッケージのSVR実装と比較した。
我々の研究は、量子支援SVRを教師付き学習タスクに適用するための概念実証の例である。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 19:33:03 GMT)
Plausibility Vaccine: Injecting LLM Knowledge for Event Plausibility [0.0] 我々は12のタスクアダプタを訓練し、様々な物理的特性や関連性について学習する。
予め訓練されたAlBERT埋め込み上で,各タスクから潜在意味知識を構成するためのアダプタ融合を行う。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:55:17 GMT)
Performance Stabilization of High-Coherence Superconducting Qubits [0.0] 超伝導量子ビットは、量子情報処理の最も先進的な実証に使われてきた。
量子ビット品質係数を特徴付ける手法を提案する。
この方法では、測定されたエネルギー緩和時間を安定させるために、キュービット近傍のTLSにゆっくりと変化する電場を印加する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:17:33 GMT)
Optimization on black-box function by parameter-shift rule [0.0] 本稿では,元来パラメータシフト則と呼ばれる量子コンピューティングから得られたゼロ階法を提案する。
本研究では,元来パラメータシフト則と呼ばれる量子コンピューティングから得られたゼロ階法を提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:35:31 GMT)
One Goal, Many Challenges: Robust Preference Optimization Amid Content-Aware and Multi-Source Noise [0.0] 本稿では,CNRPO(Content-Aware Noise-Resilient Preference Optimization)を提案する。
バックドア攻撃機構を利用して、1つのモデル内で様々なノイズ源を効率よく学習し制御する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 00:22:00 GMT)
On the detectability of paraparticles beyond bosons and fermions [0.0] ボソンやフェルミオン以外のパラ粒子の特別なクラスを理論的に検出する技術の現状について述べる。
パラ統計学に従って検討されている粒子は、置換群を介して相互に交換され、任意の空間次元に存在することができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:15:33 GMT)
Numerical Words and Linguistic Loops: The Perpetual Four-Letter Routine [0.0] 本研究では,単語中の文字数とその対応する数値に関する興味深い言語特性を示す。
任意の単語を選択し、その構成要素の文字を数え、その結果の数字を綴り出し、文字を新たに集計することにより、予期せぬパターンが観察される。
注目すべきは、この反復列は必ず数 4 (4) に収束し、言語ループ(LL)定数(Linguistic Loop)と呼ばれる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 04:53:23 GMT)
Navigating the Quantum Divide(s) [0.0] 我々は,科学,技術,国家間,社会内の4つの区分を提案する。
科学における量子ディバイド(Quantum Divide in Science)は、科学者間のギャップと研究コミュニティにおける不平等へのアクセスを強調している。
2つ目の分割である"Quantum Divide in Technologies through Path-dependency"は、技術採用プロセスに注目している。
国間の分断」は、開発水準の異なる国における採用の理由と成果を調査する。
社会における分権(Quantum Divide in Societies)」は、文学で最も議論された社会的な意味について論じている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 11:47:02 GMT)
Multiscale scattered data analysis in samplet coordinates [0.0] グローバルにサポートされたラジアル基底関数に対するマルチスケールデータ分散スキームについて、Mat'ernクラスに着目して検討する。
我々は,対応するマルチスケールシステムの対角ブロックの条件数が,特定のレベルとは独立に有界であることを証明する。
この事実を利用して、マルチスケールシステムの数値近似から発行される一貫性誤差を境界とする一般的な誤差推定を導出する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:05:35 GMT)
Machine-generated text detection prevents language model collapse [0.0] 本研究では,デコード戦略がモデル崩壊に与える影響について検討する。
我々は,機械生成テキスト検出器を訓練し,モデル崩壊を緩和するための重要なサンプリング手法を提案する。
モデル崩壊を防止できるだけでなく、十分な人為的なサンプルが存在する場合に性能を向上させることができることを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:58:25 GMT)
Leveraging Vision Capabilities of Multimodal LLMs for Automated Data Extraction from Plots [0.0] 現在の大規模言語モデルでは,プロットから正確にデータを抽出することが可能であることを示す。
この能力は事前訓練されたモデルに固有のものであり、ゼロショットのプロンプトのチェーン・オブ・シークエンスで達成できる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:41:43 GMT)
LLMs' Leaning in European Elections [0.0] この記事はアメリカ合衆国大統領選挙の分析を拡張し、ジョー・バイデンとドナルド・トランプの間に複数のLLMが投票するよう求められた。
その結果,LLMはジョー・バイデンに対して明確な傾きを示した。
ドイツ、フランス、イタリア、スペイン、ポーランド、ルーマニア、オランダ、ベルギー、チェコ、スウェーデンの10か国で仮想選挙が行われる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:17:11 GMT)
Investigating Human-Aligned Large Language Model Uncertainty [0.0] 我々は,人間のグループレベルの不確実性と相関する指標を特定するために,様々な不確実性対策について検討する。
ベイズ測度とエントロピー測度の変化,トップkエントロピーは,モデルサイズの関数として人間の行動と一致する傾向にある。
モデルサイズと人相似性の強い尺度が減少するが、複数の線形回帰により、複数の不確実性尺度を組み合わせることで、サイズ依存性の低減と同等な人相整合が得られることがわかった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:45:43 GMT)
ISLR101: an Iranian Word-Level Sign Language Recognition Dataset [0.0] ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。
このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:57:01 GMT)
Hydrodynamics and the eigenstate thermalization hypothesis [0.0] 固有状態熱化仮説(ETH)は、固有エネルギー基底における局所作用素の対角行列および対角行列要素の性質を記述する。
本研究では, エネルギー密度の関数として, (i) エネルギー差の小さいETHの対角部分の特異な挙動と (ii) エネルギー密度の関数としてのETHの対角部分の滑らかな形状の関係について述べる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 08:09:16 GMT)
HyConEx: Hypernetwork classifier with counterfactual explanations [0.0] 本稿では,表データに特化して設計されたディープハイパーネットに基づく分類モデルHyConExを紹介する。
ユニークなアーキテクチャのため、HyConExはクラス予測を提供するだけでなく、個々のデータサンプルのローカル解釈も提供する。
HyConExは、分類精度を評価し、適切なカウンターファクト攻撃の基準を満たすいくつかの指標で競合性能を達成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:39:36 GMT)
HKCanto-Eval: A Benchmark for Evaluating Cantonese Language Understanding and Cultural Comprehension in LLMs [0.0] HKCanto-Evalベンチマークは、カントン言語理解タスクにおける大きな言語モデルを評価するために設計されている。
香港固有の文化的・言語的なニュアンスを統合し、現実的なシナリオで言語モデルを評価するための堅牢な枠組みを提供する。
その結果,プロプライエタリなモデルは一般にオープンウェイトモデルより優れているが,カントン固有の言語的・文化的知識を扱う上では,大きな制限が残っていることが示唆された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:26:24 GMT)
GCBLANE: A graph-enhanced convolutional BiLSTM attention network for improved transcription factor binding site prediction [0.0] GCBLANE(GCBLANE)は、Long Short-Term Memory (LSTM)アテンションネットワークである。
畳み込み、マルチヘッド、リカレントレイヤをグラフニューラルネットワークに統合し、TFBS予測の重要な特徴を検出する。
690 ENCODE ChIP-SeqデータセットではGCBLANEは平均0.943のAUCを獲得し、165 ENCODEでは0.9495のAUCに達した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 06:52:03 GMT)
Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models? [0.0] Generalized Edge Model (GEM) は、堅牢性と一般化を調和的にバランスさせることを目的としている。
GEMはSparse Cross-Attention Router (SCAR) を使用して、可変数のコンピューティングリソースに動的に割り当てる。
GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:30:26 GMT)
FlakeRanker: Automated Identification and Prioritization of Flaky Job Failure Categories [0.0] オリジナルの論文では、開発者が遭遇する46の異なる仕事の失敗のカテゴリを特定し分析している。
RFMクラスタリングモデルを使用して、最も無駄で永続的なものを識別し、優先順位付けする。
このアーティファクトは、(1)RQ1のラベル付けプロセスを自動化するために使用されるスクリプト、(2)RQ2のコストによる46のカテゴリのランク付けを含む完全な分析結果、(3)RFMデータセットとRQ4の優先順位付けのためのRAMクラスタリングモデルを作成するために使用されるスクリプトを含む。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:37:31 GMT)
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025:A Comparative Analysis of Clinical Reasoning and Knowledge Application [0.0] 本研究は,2024年と2025年のスペイン医療インターンMIR試験における22大言語モデルLLMの比較評価を行った。
MIR試験は、画像解釈を必要とする210の複数の選択質問からなる。
この結果は、医療AI応用の進展において、ドメイン固有の微調整とマルチモーダル統合の変革の可能性を強調している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 21:05:53 GMT)
Entanglement entropy bounds for pure states of rapid decorrelation [0.0] 量子格子系の純状態に対する比較的低い複雑性の高忠実度近似を構築する。
一般結果の適用性は、逆場における量子イジングモデルで示される。
我々は、モデルの亜臨界基底状態の絡み合いに縛られ、すべての次元で有効であり、モデルの量子相転移まで有効である領域法型を確立する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:12:32 GMT)
Efficient optimization and conceptual barriers in variational finite Projected Entangled-Pair States [0.0] 有限2次元格子上の射影絡み合ったペア状態(PEPS)は、局所多体ハミルトニアンの基底状態を表す自然なアンザッツである。
時間依存変動原理(TDVP)の改良によるPEPSの最適化を提案する。
我々は、長距離相互作用を持つRydberg原子配列の位相図を探索することにより、自然に長距離相互作用を処理できるアプローチの能力を実証する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 16:06:44 GMT)
Dissipative dynamics of an open quantum battery in the BTZ spacetime [0.0] 量子電池の充電性能は、量子場の真空揺らぎの存在によってどのように影響されるかを考える。
量子場の異なる境界条件は、異なる充電性能をもたらす可能性がある。
本研究は,曲面時空における緩和効果を解明するための一般的な枠組みを提案する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:42:33 GMT)
Discovering uncertainty: Gaussian constitutive neural networks with correlated weights [0.0] より少ないパラメータ、よりシンプルなトレーニング、相関重みを見つける能力を備えたより解釈可能なネットワークを導入する。
重要なことに、サンプルの集合にまたがる物質パラメータの分布は、データに制限のある新しいサンプルのより良いモデルを見つけるための先行として役立てることができる。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:34:16 GMT)
DeepGrav: Anomalous Gravitational-Wave Detection Through Deep Latent Features [0.0] この研究は、重力波異常検出のための新しい深層学習に基づくアプローチを導入している。
ResNetにインスパイアされた畳み込みニューラルネットワークアーキテクチャを使用している。
NSF HDR A3D3: Detecting Anomalous Gravitational Wave Signals competition。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 01:37:42 GMT)
Deep Learning based discovery of Integrable Systems [0.0] 統合可能なモデルを発見するための新しい機械学習ベースのフレームワークを提案する。
まず、ニューラルネットワークの同期アンサンブルを用いて、ヤン・バクスター方程式の高精度数値解を求める。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 15:48:53 GMT)
Covariant photon current [0.0] 光子4カレント作用素に対する不均一連続性方程式である$widehatJ_p$は[M. Hawton, Phys. A, 109,062221 (2024) から導出された。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:34:30 GMT)
Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models [0.0] 大規模言語モデルを複数のタスクに適応させることは、クロススキルの干渉を引き起こす可能性がある。
合成部分空間表現ファインチューニング(CS-ReFT)を提案する。
CS-ReFTは複数の正規直交部分空間変換を学習し、それぞれ異なるスキルを習得し、軽量ルータを介して構成する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:15:27 GMT)
Comparing the performance of practical two-qubit gates for individual $^{171}$Yb ions in yttrium orthovanadate [0.0] 個々のイタリウム(Yb)レアアースイオン間で制御Zゲートを実装するための3つのスキームについて検討する。
我々は,各スキームの状態忠実度を計算し,実験実施の可能性を評価する。
我々は、確率的光子干渉に基づくスキームは、協調性を伴う最良の忠実度スケーリングを提供すると結論付けた。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:51:07 GMT)
Central and Central-Parietal EEG Signatures of Parkinson's Disease [0.0] 本研究では,31名(PD15名,健常16名)の安静時脳波記録に対する深層学習手法の適用について検討した。
脳波信号を厳密に前処理して震源を除去し、空間的に隣接した電極を三重項に分類してウェーブレットベースの画像に変換する。
脳の異なる領域と周波数帯で分析したところ、PD関連神経発振の空間スペクトルパターンが異なることが判明した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 07:38:42 GMT)
Causality Model for Semantic Understanding on Videos [0.0] この論文はセマンティックビデオ理解の領域に焦点を当てている。
VidVRD(Video Relation Detection)とVideoQA(Video Question Answering)の2つの基本的なタスクを前進させる因果モデリングの可能性を探る。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:44:11 GMT)
COVID 19 Diagnosis Analysis using Transfer Learning [0.0] コロナウイルス感染症(COVID-19)は2019年12月に中国の武漢で初めて発見された。
主な症例は2019年に中国で診断され、パンデミックは2020年に始まった。
VGG16, VGG19, ResNet50の3つの事前訓練されたニューラルネットワークがコロナウイルス感染患者を検出するために提案されている。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 20:33:39 GMT)
Business Entity Entropy [0.0] 大規模企業コーパスの実証分析により, エントロピー分布の重みが明らかになった。
本稿では,文書間でのエンティティの知識の分布を定量化するために,エンティティエントロピーの尺度を提案する。
より効率的な知識検索システムの設計を導くための実践的含意と理論モデルについて議論する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 18:48:48 GMT)
Boundary Conditions for the Entanglement Cut in 2D Conformal Field Theories [0.0] 量子臨界点に微調整されたスピン鎖のサブシステムの絡み合いスペクトルは、基礎となる量子場理論のシグネチャを含む。
2次元共形場理論によって記述された境界条件を持つ開鎖に対して、系の左右半分の絡み合いスペクトルは境界CFTスペクトルと一致する。
得られた絡み合いスペクトルは、特定の境界CFTスペクトルと良好に一致している。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 22:21:59 GMT)
Basic Category Usage in Vision Language Models [0.0] 心理学の分野は、1976年にロッシュによって造語された視覚刺激のラベル付けに人間が使用する基本的な分類のレベルを長年認識してきた。
本稿では、最近リリースされた2つのオープンソースのビジョン言語モデル(VLM)の基本レベル分類について検討する。
本稿では,Llama 3.2 Vision Instruct (11B) と Molmo 7B-D が共に,人間の行動に整合した基本的なレベル分類を好むことを示す。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 14:50:54 GMT)
AI Agents: Evolution, Architecture, and Real-World Applications [0.0] 本稿は、AIエージェントの進化、アーキテクチャ、実践的応用を、AIエージェントの初期から、認識、計画、ツール使用のための専用のモジュールを備えた大規模言語モデルを統合した近代的なシステムへ移行する。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 23:07:48 GMT)
A novel association and ranking approach identifies factors affecting educational outcomes of STEM majors [0.0] 卒業を成功させる主要な予測要因は、入門STEMコースのパフォーマンス、最初の数学クラスの選択、主要な選択における柔軟性である。
専攻をSTEMから非STEMに切り替えた生徒は、総合成績が高かった。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 02:13:37 GMT)
A new framework for Marketing Mix Modeling: Addressing Channel Influence Bias and Cross-Channel Effects [0.0] 本研究はマーケティングミックスモデリングにおける2つの基本的な課題に対処する: モデルが高投資チャネルに過度に寄与する傾向と、チャネル間効果の定量化の難しさである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 10:01:34 GMT)
A Survey on State-of-the-art Deep Learning Applications and Challenges [0.0] ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい。
本研究の目的は,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることである。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 03:23:46 GMT)
A Modular Quantum Network Architecture for Integrating Network Scheduling with Local Program Execution [0.0] 本稿では,ユーザ要求に応じて,エンドツーエンドの絡み合いの発生を可能にするネットワーク操作スケジューリングアーキテクチャを提案する。
このアーキテクチャの重要な要素は、短期量子ネットワークにおけるアプリケーション要求を満たすために絡み合うパケットを定義することである。
我々は,我々のアーキテクチャが量子ネットワークアプリケーションの実行を促進することを示し,サービス品質を維持するためにはロバストな入場制御が必要であることを示した。
論文参考訳(メタデータ) (Sun, 16 Mar 2025 17:24:25 GMT)