Scaling Laws of Synthetic Data for Language Models [132.7] プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:12 GMT)
Scaling Vision Pre-Training to 4K Resolution [120.3] 視力トレーニングを4K解像度にスケールアップするPS3を,ほぼ一定コストで導入する。
PS3は、ローカル領域を選択的に処理し、それらをローカルの詳細なキャプションと対比することによって事前訓練される。
VILA-HDは、視力事前訓練なしでのベースラインに比べて、高解像度の視覚知覚を著しく改善する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:37 GMT)
DRS: Deep Question Reformulation With Structured Output [114.1] 大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:10:39 GMT)
Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.7] 大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:09:53 GMT)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.7] CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:11:24 GMT)
Language Models May Verbatim Complete Text They Were Not Explicitly Trained On [97.3] 我々は、$n$-gram ベースのメンバシップ定義を効果的にゲームできることを示す。
会員定義に対して$n$の1つの実行可能な選択を見つけることは困難であることを示す。
以上の結果から,n$-gramの会員シップが不十分であることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:43:33 GMT)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.3] BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:12:10 GMT)
In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI [93.3] 我々はシステムの安全性を高めるために3つの介入を要求します。
まず、標準化されたAI欠陥レポートと研究者へのエンゲージメントのルールを用いることを提案する。
第2に,GPAIシステムプロバイダが広視野欠陥開示プログラムを採用することを提案する。
第3に,欠陥報告の分布を調整するための改良されたインフラの開発を提唱する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:12:04 GMT)
DepthSplat: Connecting Gaussian Splatting and Depth [90.1] ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
ガウススプラッティングは、強力な深度モデルを学ぶための教師なし事前学習の目的として機能することを示す。
我々のDepthSplatは、ScanNet、RealEstate10K、DL3DVデータセットの最先端のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:20:52 GMT)
ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.2] テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:18:46 GMT)
A scalable gene network model of regulatory dynamics in single cells [88.5] 本稿では,遺伝子ネットワーク構造を結合微分方程式に組み込んで,遺伝子制御関数をモデル化する機能的学習可能モデルFLeCSを提案する。
FLeCS は (pseudo) 時系列の単一セルデータから, セルの動態を正確に推定する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:19:21 GMT)
Reverse Prompt: Cracking the Recipe Inside Text-to-Image Generation [87.3] 本稿では,自動リバースプロンプト最適化(ARPO)と呼ばれる手法を提案する。
提案手法では,初期プロンプトを反復的に模倣した勾配最適化プロセスにより高品質なプロンプトに洗練する。
これらの逆プロンプトを直接編集することで、多様なスタイルや内容の新規な画像を容易に作成できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:08:05 GMT)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.9] 即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:34:04 GMT)
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers [83.9] 既存の方法は、主に顔の動きを駆動することに焦点を当てており、非コヒーレントな頭と体の動きに繋がる。
本稿では,Diffusion-Transformers(DiT)パラダイムを取り入れた一般的な音声駆動型ヒューマンビデオ生成フレームワークであるAudCastを提案する。
我々のフレームワークは、時間的コヒーレンスときめ細かい顔と手細かな細部を持つ高忠実なオーディオ駆動型人間ビデオを生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:38:23 GMT)
Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.8] 全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:57:14 GMT)
ProtoGS: Efficient and High-Quality Rendering with 3D Gaussian Prototypes [81.5] 3D Gaussian Splatting (3DGS) は、新しいビュー合成において大きな進歩を遂げてきたが、ガウスプリミティブのかなりの数によって制限されている。
近年の手法では、密度の高いガウスの記憶容量を圧縮することでこの問題に対処しているが、レンダリングの品質と効率の維持には失敗している。
本稿では,ガウスの原始体を表現するためにガウスのプロトタイプを学習するProtoGSを提案し,視覚的品質を犠牲にすることなくガウスの総量を大幅に削減する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:03:48 GMT)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.2] ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:10:15 GMT)
Inductive Moment Matching [81.0] Inductive Moment Matching (IMM) は1段階または数段階のサンプリングのための新しい生成モデルである。
IMMはImageNet-256x256上の拡散モデルを8ステップのみを用いて1.99 FIDで上回り、CIFAR-10上で1.98の最先端の2ステップFIDをスクラッチから訓練したモデルで達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:00:02 GMT)
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model [77.9] 本稿では,SPA-VL と呼ばれる視覚言語モデルのための安全優先アライメントデータセットを提案する。
SPA-VLは6つの有害ドメイン、13のカテゴリ、53のサブカテゴリをカバーし、クエクション、画像、選択された応答、拒否された応答)の4倍体の100,788のサンプルを含んでいる。
実験により、SPA-VLデータセット上のアライメント技術でトレーニングされたモデルは、コア機能を維持しながら、無害性と有用性を大幅に向上することが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:01:59 GMT)
Any6D: Model-free 6D Pose Estimation of Novel Objects [76.3] 我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:18:47 GMT)
CoLLM: A Large Language Model for Composed Image Retrieval [76.3] Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:50 GMT)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [74.0] 既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
我々は,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークである textbfEfficientMT を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:51:14 GMT)
Few-Shot Segmentation with Global and Local Contrastive Learning [73.7] 提案するグローバルローカルコントラスト学習を用いて,ラベルのない画像からクエリ情報を学習するための先行抽出器を提案する。
クエリー画像の以前の領域マップを生成し、オブジェクトの位置を判断し、サポート機能とのクロスインタラクションを行うためのガイダンスを作成する。
ベルとホイッスルを使わずに、提案手法は、数発のセグメンテーションタスクに対して、新しい最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:58:53 GMT)
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.9] 本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:12:22 GMT)
AIpparel: A Multimodal Foundation Model for Digital Garments [71.1] 縫製パターンの生成と編集のためのマルチモーダル基礎モデルであるAIpparelを紹介する。
当社のモデルでは,12万以上のユニークな衣服をカスタマイズした大規模データセット上で,最先端の大規模マルチモーダルモデルを微調整する。
本稿では,これらの複雑な縫製パターンを簡潔に符号化し,LLMが効率的に予測できる新しいトークン化手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:59:40 GMT)
BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.2] BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:41:48 GMT)
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.3] 自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:33:41 GMT)
VisionArena: 230K Real World User-VLM Conversations with Preference Labels [68.1] VisionArenaは、ユーザと視覚言語モデル(VLM)間の230万の現実世界会話のデータセット
私たちのデータセットは73Kのユニークなユーザ、45のVLM、138の言語で構成されています。
キャプションやユーモアのようなオープンなタスクは非常にスタイルに依存しており、現在のVLMは空間的推論や計画タスクに苦労している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:17:42 GMT)
COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting [67.0] 3D Gaussian Splatting(3DGS)に基づく3Dセグメンテーションは、オブジェクトの境界を正確に記述するのに苦労する。
セグメンテーション精度の向上を目的とした3DGS(COB-GS)のためのクリアオブジェクト境界を導入する。
意味指導には境界適応型ガウス分割法を導入する。
視覚的最適化のために、3DGSシーンの劣化したテクスチャを補正する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:31:43 GMT)
EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction [66.8] EventMambaは、イベントベースのビデオ再構成タスク用に設計された、特殊なモデルである。
EventMambaは、Transformerベースの方法と比較して、優れた視覚的品質を提供しながら、スピードを著しく向上させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:46:45 GMT)
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators [66.3] 本研究では,長鎖推論を評価対象とする推論モデル-LMの導入について検討する。
実験では,より多くの推論トークンを生成する際に,評価器の性能が単調に向上することが観察された。
評価時により多くの計算を費やすことは、LMの問題解決能力を改善するために、世代毎により多くの計算を使用するのと同じくらい効果的であることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:41:18 GMT)
Thin-Shell-SfT: Fine-Grained Monocular Non-rigid 3D Surface Tracking with Neural Deformation Fields [66.2] RGBビデオから変形可能な表面を3Dで再現することは難しい問題だ。
既存の方法は、統計的、神経的、物理的に先行する変形モデルを使用する。
我々は,非剛性3次元トラッキングメッシュの新しい手法であるThinShell-SfTを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:00:46 GMT)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.9] ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:05:14 GMT)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.9] 画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己教師伝達(PST)と周波数分離融合モジュール(FreDFuse)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFuseは、低周波構造成分から高周波特性を明示的に分離し、物理認識融合によるモダリティ周波数ミスマッチを解消する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:04:53 GMT)
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.1] 視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。
我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。
本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:08:06 GMT)
Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.9] 本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。
より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。
HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:52:46 GMT)
Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation [62.6] Mask$2$DiTは、ビデオセグメントとその対応するテキストアノテーション間の微細で1対1のアライメントを確立する。
このアテンション機構は、正確にセグメントレベルのテキストと視覚のアライメントを可能にする。
Mask$2$DiTはセグメント間の視覚的一貫性を維持しつつ、各セグメントとその対応するテキスト記述間のセマンティックアライメントを保証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:46:50 GMT)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.4] SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:57 GMT)
Computational Analysis of Stress, Depression and Engagement in Mental Health: A Survey [62.3] ストレスと抑うつは相互に関連し、共に日々のタスクにおけるエンゲージメントに影響を与える。
この調査は、ストレス、抑うつ、エンゲージメントを分析する計算手法を同時に探求した最初のものである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:14:57 GMT)
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion [61.9] 我々は、4次元アバター再構成のための空間的・時間的整合性データセットを合成する頑健なZero-1-to-Aを提案する。
実験により、Zero-1-to-Aは既存の拡散法と比較して忠実さ、アニメーション品質、レンダリング速度を改善することが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:56:40 GMT)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8] 本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:00:54 GMT)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.4] 時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:48 GMT)
Capacity-Constrained Online Learning with Delays: Scheduling Frameworks and Regret Trade-offs [60.8] 我々は,遅延フィードバックのために,過去のラウンドを同時に追跡できる回数を制限する新しい「透明度」の下で,目立った損失の遅延を伴ってオンライン学習を研究する。
我々のアルゴリズムは、全てのキャパシティレベルにおいて、最適以下のキャパシティの優雅な性能で、最小最適後悔を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:20:39 GMT)
High-Dimension Human Value Representation in Large Language Models [60.3] 我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:02:36 GMT)
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models [60.3] ICEは、T2Iモデルのみを使用して、単一の画像から固有の概念を自動かつ体系的に抽出する新しいフレームワークである。
本フレームワークは,教師なしの方法で単一画像から本質的な概念抽出を行う上で,優れた性能を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:29 GMT)
END: Early Noise Dropping for Efficient and Effective Context Denoising [60.2] 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:34:56 GMT)
Learning Hazing to Dehazing: Towards Realistic Haze Generation for Real-World Image Dehazing [59.4] 本稿では,現実的なヘイズ画像生成フレームワーク(HazeGen)と拡散に基づくデハズ・フレームワーク(DiffDehaze)からなる,新しいヘイズ・デハズ・パイプラインを紹介する。
HazeGenは、事前訓練されたテキスト-画像拡散モデルに埋め込まれた実世界のハジー画像の堅牢な生成拡散先を利用する。
HazeGenは、特殊なハイブリッドトレーニングと混合サンプリング戦略を採用することで、DiffDehazeの高品質なトレーニングデータとして、現実的で多様なハジーイメージを生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:55:39 GMT)
The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.3] 言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:36:21 GMT)
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.8] VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:08:13 GMT)
RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.1] 完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:21:48 GMT)
DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning [57.3] 構成的視覚的推論アプローチは、エンド・ツー・エンドのVR手法よりも効果的な戦略として期待されている。
DWIM: ツールの使用状況を評価し, より訓練に有効である抽出を行う, 離散性を考慮したトレーニング生成手法を提案する。
Instruct-Masking fine-tuning — モデルに効果的なアクションをクローンすることのみをガイドし、より実用的なソリューションの生成を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:57:59 GMT)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.4] 本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:19:56 GMT)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.4] FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:49:48 GMT)
Efficient Lower Bounding of Single Transferable Vote Election Margins [56.1] STV (Single Transferable vote) は、複数議席の選挙において、優先的な比例投票方式である。
勝利のマージン(英: margin of victory)は、勝利者の集合を変えるために操作される必要のある最小数の投票である。
マージンの低い境界は、正確なマージンを計算するのが難しい場合、この目的のためにも使われる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:17:19 GMT)
MatAnyone: Stable Video Matting with Consistent Memory Propagation [55.9] MatAnyoneは、ターゲットに指定されたビデオマッティングに適した堅牢なフレームワークである。
領域適応型メモリ融合による一貫したメモリ伝搬モジュールを提案する。
堅牢なトレーニングのために、ビデオマッチングのための、より大きく、高品質で多様なデータセットを提示します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:56:38 GMT)
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.8] 合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:52:07 GMT)
A proposal for an incident regime that tracks and counters threats to national security posed by AI systems [55.2] 我々は、AIシステムからの潜在的な国家安全保障上の脅威に対抗することを目的とした、法的に義務付けられたポストデプロイAIインシデントレジーを提案する。
私たちの提案は、AIシステムによって引き起こされる潜在的な国家安全保障上の脅威に対する政策上の関心から、タイムリーに行われます。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:51:50 GMT)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [55.0] 視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:54:37 GMT)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.7] FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:59:42 GMT)
Interpreting Object-level Foundation Models via Visual Precision Search [54.6] より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本研究では,DINO と Florence-2 の SOTA に対するオブジェクトレベルのタスク解釈可能性の向上を,様々な評価指標で示す。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:08:06 GMT)
A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training [53.9] そこで本研究では,時間ステップの近さをベースとして,拡散モデル学習のための新しい高速化手法を提案する。
プラグアンドプレイでアーキテクチャに依存しないアプローチとして、SpeeDは、さまざまな拡散アーキテクチャ、データセット、タスクにわたる3回のアクセラレーションを一貫して達成している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:38:28 GMT)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.7] 大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:52:38 GMT)
An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.7] 近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。
これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。
深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:26:09 GMT)
Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.5] 本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:55:55 GMT)
Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.3] 本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。
翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:42:25 GMT)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.2] アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:08:48 GMT)
MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.6] 本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:50:20 GMT)
SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4] 本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:10:28 GMT)
Probabilistic Shielding for Safe Reinforcement Learning [51.4] 現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:31:43 GMT)
Bokehlicious: Photorealistic Bokeh Rendering with Controllable Apertures [51.2] ボケのレンダリング手法は、プロの写真に見られる視覚的に魅力的で、ソフトにぼやけた背景を作り出す上で重要な役割を果たしている。
本稿では,Aperture-Aware Attention 機構を用いて,ボケの強度を直感的に制御する高効率ネットワークであるBokehliciousを提案する。
プロの写真家が撮影した23,000の高解像度(24-MP)の画像を含む新しいデータセットであるRealBokehを提示する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:43:25 GMT)
Pathological Prior-Guided Multiple Instance Learning For Mitigating Catastrophic Forgetting in Breast Cancer Whole Slide Image Classification [50.9] 乳癌のWSI分類における破滅的忘れを緩和する新しい枠組みであるPaGMILを提案する。
私たちのフレームワークでは、共通のMILモデルアーキテクチャに2つの重要なコンポーネントを導入しています。
複数の乳がんデータセットを対象としたPaGMILの連続学習性能の評価を行った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:58:28 GMT)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.9] 後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:36:13 GMT)
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.9] 大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:12:17 GMT)
DeClotH: Decomposable 3D Cloth and Human Body Reconstruction from a Single Image [49.7] 従来の3次元再構築法では、布と人体を区別することなく、単体として扱う方法がほとんどである。
1枚の画像から3D布と人体を別々に再構成するDeClotHを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:00:15 GMT)
GaussianUDF: Inferring Unsigned Distance Functions through 3D Gaussian Splatting [49.6] 本稿では,3次元ガウスとUDFのギャップを埋める新しい手法を提案する。
私たちのキーとなるアイデアは、表面上の細く平坦な2次元ガウス平面を過度に適合させ、それから自己超越と勾配に基づく推論を活用することである。
我々は, 境界を持つ開放面の精度, 効率, 完全性, シャープ性の観点から, 優位性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:46:55 GMT)
Dynamic Allocation Hypernetwork with Adaptive Model Recalibration for Federated Continual Learning [49.5] 適応型モデル再構成(FedDAH)を用いた動的アロケーション・ハイパーネットワーク(動的アロケーション・ハイパーネットワーク)の医用領域におけるサーバサイドFCLパターンを提案する。
FedDAHは、クライアント間で異なる動的タスクストリームの下での協調学習を容易にするように設計されている。
バイアス最適化のために,従来のモデルの変更候補を現在のサーバ更新に組み込むために,新しい適応モデル再校正(AMR)を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:17:47 GMT)
TrafficLoc: Localizing Traffic Surveillance Cameras in 3D Scenes [49.4] 本稿では,画像間クラウド登録(I2P)手法であるTrafficLocを提案する。
大規模な現実世界の交差点データセットの欠如を克服するため、カルラの75の都市と農村の交差点を持つ新しいシミュレーションデータセットであるCarla Intersectionを紹介した。
我々のTrafficLocは、Carla Intersection上でSOTA I2P法(最大86%)よりも大幅に性能を向上し、実世界のデータに対してよく一般化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:18:04 GMT)
Aether: Geometric-Aware Unified World Modeling [49.3] Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:31:25 GMT)
RelationField: Relate Anything in Radiance Fields [49.3] 本稿では,ニューラルレイディアンス場から直接オブジェクト間関係を抽出する最初の方法であるRelationFieldを提案する。
RelationFieldは、物体間の関係を、神経放射場内の一対の光線として表現する。
RelationFieldの複雑でオープンな語彙関係を教えるために、関係知識はマルチモーダルLLMから蒸留される。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:06:08 GMT)
ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.2] 大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:17:36 GMT)
CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [49.0] セマンティックな一貫性を維持しつつ,サンプル単位のロジットアライメントを実現するコントラッシブな知識蒸留フレームワークを提案する。
提案手法は,教師と教師の対照的アライメントを通じて「暗黒知識」をサンプルレベルで伝達する。
CIFAR-100、ImageNet-1K、MS COCOデータセットを含む3つのベンチマークデータセットの総合的な実験を行う。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:36:10 GMT)
EmoAttack: Emotion-to-Image Diffusion Models for Emotional Backdoor Generation [49.0] 入力テキスト中の感情を利用して、ネガティブなコンテンツを導入し、ユーザの好ましくない感情を誘発する、テキスト・ツー・イメージの拡散モデルに関連する、これまで見過ごされてきたリスクについて検討する。
具体的には,新たなバックドアアタック,すなわち感情認識型バックドアアタック(EmoAttack)を同定する。
従来のパーソナライズ手法とは異なり,感情的な単語群と悪意のある負のコンテンツを含む参照画像とのマッピングを確立することにより,事前学習した拡散モデルを微調整する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:08:20 GMT)
Lost in Time: A New Temporal Benchmark for VideoLLMs [48.7] 現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:46:02 GMT)
SACB-Net: Spatial-awareness Convolutions for Medical Image Registration [48.7] 本研究では,特徴表現における空間情報を強化するために,SACB(Spatial-Awareness Convolution Block)を提案する。
我々のSACBは特徴の類似性を利用して特徴マップ内の空間的クラスタを推定する。
マルチスケールフロー合成を容易にするためにSACBを統合するピラミッドフロー推定器(SACB-Net)を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:14:21 GMT)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.6] h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:51:22 GMT)
Enhancing Graphical Lasso: A Robust Scheme for Non-Stationary Mean Data [48.5] この研究は、時間変化平均に従ってデータからグラフ学習する問題に対処する。
スパース精度行列を推定する標準的な手法であるグラジカル・ラッソは、観測されたデータはゼロ平均ガウス分布に従うと仮定する。
本稿では,適応的適応的重要度サンプリング(GL-ATAIS)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:40:59 GMT)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.1] 本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:05:36 GMT)
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers [47.9] 本研究では,視覚的に完璧な世代が表現の強化に必ずしも最適であるとは限らないことを実証的に見出した。
その本質は、無関係な情報を緩和しながら、生成モデルからきめ細かい知識を効果的に抽出することにある。
本稿では,学習に有用な視覚知識を優先するための2段階の学習戦略を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:15:34 GMT)
IDOL: Instant Photorealistic 3D Human Creation from a Single Image [47.5] この作業は、データセット、モデル、表現の観点からタスクを再考する。
大規模なHUman中心のGEnerated GEnerated データセットであるHuGe100Kを紹介した。
我々は、与えられた人間の画像から一様空間における3次元ガウス表現を予測するスケーラブルなフィードフォワードトランスフォーマーモデルを開発した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:48:17 GMT)
FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis [47.3] FloVDは、カメラ制御可能なビデオ生成のためのビデオ拡散モデルである。
光の流れはビデオから直接推定できます
背景動きを利用した詳細なカメラ制御が可能となる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:18:07 GMT)
Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations [47.0] 本稿では,因果的時間的ダイナミクスと相互視的アライメントを促進するマスク付きエゴエクソモデリングを提案する。
我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:33:32 GMT)
UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation [46.5] UrbanCADは、1つの都市画像から高度に制御可能で光リアルな3D車両のデジタルツインを生成するフレームワークである。
これにより、車両のリアルな360度レンダリング、背景挿入、物質移動、リライト、部品操作が可能になる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:32:37 GMT)
Optimizing Language Models for Inference Time Objectives using Reinforcement Learning [46.5] 推定時間性能の最適化がモデル全体の有効性をいかに改善するかを示す。
一般的な推論時間の目的を$k$サンプルで検討し、pass@$k$と多数決を2つの主要なアプリケーションとして検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:21:26 GMT)
Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System [46.4] 本稿では,カリキュラム学習とメモリ駆動デコーダによる冗長性を緩和する新しいフレームワークであるCLMFormerを紹介する。
CLMFormerはTransformerベースのモデルを最大30%改善し、長距離予測の有効性を示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:17:39 GMT)
LangBridge: Interpreting Image as a Combination of Language Embeddings [46.2] LangBridgeは、ビジュアルトークンをテキスト埋め込みの線形結合に明示的にマッピングする新しいアダプタである。
以上の結果から,LLaMA3-8BやQwen2.5-14Bといった大型モデルに対して,Qwen2-0.5Bで事前訓練したLangBridgeを直接適用できることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:24:27 GMT)
Test-Time Reasoning Through Visual Human Preferences with VLMs and Soft Rewards [45.8] ImageReward や Human Preference Score v2 (HPSv2) のようなデータセットを用いて、われわれのモデルは ImageReward のテストセットで 64.9%、HPSv2で65.4% の精度を達成した。
われわれの発見は、テキスト・ツー・ビジョン・モデルをさらに強化する強力なマイルストーンになり得る。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:30:21 GMT)
Substation Bill of Materials: A Novel Approach to Managing Supply Chain Cyber-risks on IEC 61850 Digital Substations [45.0] Substation Bill of Materials (Subs-BOM) は、DS内のすべてのIEDとそれらの関係をサイバーセキュリティの観点からモデル化することができる。
Subs-BOMは、デバイス、実行中のファームウェア、DSにデプロイされるサービスを正確かつ完全なインベントリとして、エネルギーユーティリティを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:28:36 GMT)
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.5] 視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:24:57 GMT)
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation [44.2] 視覚言語による行動生成による総合的E2E自律運転フレームワークORIONを提案する。
本手法は,Bench2Driveデータセットの課題に対して,77.74 Driving Score (DS) と54.62%の成功率 (SR) の顕著なクローズループ性能を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:18:43 GMT)
Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [44.0] 本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:08:41 GMT)
Burst Image Super-Resolution with Mamba [43.8] バースト超解像(BISR)は、連続して取得した複数の低解像度画像からの情報を活用することにより、画像の解像度を向上させることを目的としている。
本稿では,BISRのためのMambaベースのアーキテクチャであるBurstambaMを紹介する。
提案手法はタスクを,超解像のための空間モジュールと,サブピクセル先行抽出のための時間モジュールの2つに分割する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:22:55 GMT)
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning [43.6] そこで本研究では,コモンセンスビデオ質問応答のためのビデオ接地木推論手法を提案する。
提案手法は,VQAタスクをビデオフラグメントに,包括木構築,ビデオ言語による包括検証,ツリー推論,動的木拡張の4ステップで明示的に適用する。
公平な評価を支援するため,VQAベンチマークの回答セットを書き換える大規模モデルに基づくバイアス除去手法を考案した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:46:09 GMT)
Show and Segment: Universal Medical Image Segmentation via In-Context Learning [43.5] In-context Reference Image Guided framework for medical image segmentation について紹介する。
コアとなるIrisは、参照コンテキストイメージ-ラベルペアからタスク固有の情報を抽出する、軽量なコンテキストタスクエンコーディングモジュールを備えている。
タスクエンコーディングによって、Irisはワンショット推論やコンテキストサンプルアンサンブルからオブジェクトレベルのコンテキストサンプル検索、コンテキスト内検索に至るまで、さまざまな戦略をサポートする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:26:10 GMT)
LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration [43.1] テキスト・ツー・イメージ・ジェネレーション(T2I)は幅広い応用分野において重要な研究領域となっている。
LayerCraftは、構造化手続き生成のための自律エージェントとして、大規模言語モデル(LLM)を活用する自動化フレームワークである。
ユーザーは画像内のオブジェクトをカスタマイズでき、最小限の努力で物語駆動で作成できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:36:55 GMT)
In the Magma chamber: Update and challenges in ground-truth vulnerabilities revival for automatic input generator comparison [43.0] Magma氏は、現在のソフトウェアリリースで脆弱性のあるコードを再導入するフォワードポートの概念を紹介した。
彼らの成果は有望だが、現状では、このアプローチの保守性に対するアップデートが時間とともに欠落している。
我々は,MagmaのCVEの公開から4年後の可搬性を再評価することで,フォワードポーティングの課題を特徴づける。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:27 GMT)
Motion-Boundary-Driven Unsupervised Surgical Instrument Segmentation in Low-Quality Optical Flow [42.8] 教師なしビデオベースの手術器具セグメンテーションは、ロボット支援手順の採用を加速する可能性がある。
内視鏡画像における概して低品質の光学フローは、モーションキューに大きく依存する教師なしの方法にとって大きな課題となる。
本研究では,世界規模で低品質なフローを有するフレームを選択的に破棄しながら,急激なフロー変化を伴う領域の移動境界をピンポイントする手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:18:43 GMT)
Functional Acceleration for Policy Mirror Descent [42.1] 本稿では,PMDアルゴリズムの一般系に関数加速度を適用した。
機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは無関係になり、大規模最適化にも適用できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:30:54 GMT)
Deep learning framework for action prediction reveals multi-timescale locomotor control [42.0] アーキテクチャに依存した試行を組み込んだ深層学習に基づく行動予測フレームワークを開発した。
GRUやTransformerのようなフレキシブルな入力履歴依存性を持つニューラルネットワークアーキテクチャは、全体的なパフォーマンスが良くなっています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:50:17 GMT)
Fundamental Limits of Perfect Concept Erasure [41.8] 概念消去は、公平性を達成するために繊細な概念を取り除くことや、特定の概念がモデルの性能に与える影響を解釈することなど、いくつかのアプリケーションで有用である。
従来の概念消去技術は、結果表現の実用性を維持することよりも、概念の堅牢な消去を優先してきた。
提案手法は,GPT-4表現を用いた合成および実世界のデータセットにおいて,既存の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:36:10 GMT)
How Generative IR Retrieves Documents Mechanistically [41.7] Generative Information Retrieval (GenIR) は、トランスフォーマーエンコーダ-デコーダモデルがクエリに基づいて文書のランキングを予測する新しいパラダイムである。
本研究は、機械的解釈可能性に基づく手法を適用して、GenIRモデルの内部検索過程を研究する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:41:17 GMT)
Analyzing the Synthetic-to-Real Domain Gap in 3D Hand Pose Estimation [41.4] 本稿では,3次元手ポーズ推定における合成と現実のギャップに関する最初の体系的研究について述べる。
分析を容易にするために,高品質なデータを合成するためのデータ合成パイプラインを提案する。
本研究は, 実データと同一の精度で, 同定したコンポーネントを組み込むことで, 実データと同一の精度が得られることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:13:23 GMT)
Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3] 再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。
解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:18:42 GMT)
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization [41.2] TokenHSIは、マルチスキル統一と柔軟な適応が可能なトランスフォーマーベースのポリシーである。
主要な洞察は、ヒューマノイドの受容を別の共有トークンとしてモデル化することである。
我々のポリシーアーキテクチャは可変長入力をサポートし、学習したスキルを新しいシナリオに柔軟に適応できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:57:46 GMT)
Learning Causal Transition Matrix for Instance-dependent Label Noise [40.6] ノイズラベルのデータ生成過程を因果的観点から検討する。
観測不能な潜在変数は、インスタンス自身、ラベルアノテーションのプロシージャ、あるいはその両方に影響を与える可能性がある。
我々は、この因果関係を明示的にモデル化する新しいトレーニングフレームワークを設計した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:23:55 GMT)
Creation of Negatively Charged GeV and SnV centers in Nanodiamonds via Ion Implantation [39.9] 固体量子エミッタ、特にダイヤモンド中のグループIV空孔中心は、量子技術の研究の最前線にある。
イオン注入によるゲルマニウム・スズ空洞センターの創製について述べる。
我々はSnV$-$中心の共鳴励起と強コヒーレント駆動により高純度単一光子放出を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:25:51 GMT)
Knowledge Enhanced Multi-Domain Recommendations in an AI Assistant Application [39.9] マルチドメインレコメンデーションは、以前のドメインでのユーザのインタラクションを活用して、新しいドメインでのレコメンデーションを改善する。
知識グラフの強化は、単一のドメイン内のレコメンデーションを改善するために、外部知識グラフを使用することを目指している。
我々は、数百万のユーザのクエリから得られたデータセットに対して、新しいモデルを開発し、これらのアプローチの付加的な利点を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:54:28 GMT)
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps [39.8] 入力推論チェーンの微妙なエラーに対するモデル推論の脆弱性について検討する。
この脆弱性は、操作された計算結果を含む推論トークンが提示されたモデルが正しい推論ステップを無視し、その代わりに誤った結果を採用する傾向がある。
我々の研究は、推論の堅牢性を理解することを強化し、推論集約アプリケーションに対するセキュリティ上の配慮を強調します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:43:11 GMT)
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.5] 大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:37:22 GMT)
Identity-preserving Distillation Sampling by Fixed-Point Iterator [39.4] アイデンティティ保存蒸留サンプリング(IDS)は、結果に望ましくない変化をもたらす勾配を補正する。
IDSはスコア自体を変更するために提案されており、ポーズや構造を含むアイデンティティの保存を促進する。
提案手法は、FPRによる自己補正により、画像間編集および編集可能なニューラル放射場(NeRF)において、与えられたプロンプトに対応する明確で曖昧な表現を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:09:21 GMT)
WonderWorld: Interactive 3D Scene Generation from a Single Image [38.8] 我々はインタラクティブな3Dシーン生成のための新しいフレームワークWonderWorldを紹介する。
WonderWorldは、単一のA6000 GPU上で10秒未満で接続された多様な3Dシーンを生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:00:11 GMT)
Scene-agnostic Pose Regression for Visual Localization [38.7] SPR(Scene-Agnostic Pose Regression)と呼ばれる新しいタスクを導入し、フレキシブルな方法で正確なポーズ回帰を実現する。
360SPRと360Locの両方のデータセットの未知のシーンでは、APR、RPR、VOを一貫して上回ります。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:58:40 GMT)
Medical Report Generation Is A Multi-label Classification Problem [38.6] 本稿では,医療報告生成を多ラベル分類問題として再考する。
機密鍵ノードと統合されたBLIPに基づく新たなレポート生成フレームワークを提案する。
我々の実験は、キーノードの活用が2つのベンチマークデータセットにまたがる既存のアプローチを越え、最先端(SOTA)のパフォーマンスを実現することを実証している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:19:47 GMT)
Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens [38.3] 我々は、Vision Transformerのグリッドベースのトークン化をスーパーピクセルトークン化に置き換えることを提案する。
既存のフレームワークとの強い互換性を示すアプローチは、様々な下流タスクにおけるViTの精度と堅牢性を高める。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:00:00 GMT)
SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation [38.0] 動的3Dアセット生成のための多視点拡散モデルであるStable Video 4D 2.0(SV4D 2.0)を提案する。
前作のSV4Dと比較して、SV4D 2.0はディテールと大きな動きに対してより堅牢であり、現実世界の動画より一般化されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:07:12 GMT)
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.8] FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。
実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:06 GMT)
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.2] 本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:00:58 GMT)
OpenSDI: Spotting Diffusion-Generated Images in the Open World [37.0] 本稿では,オープンワールド設定における拡散生成画像の発見に挑戦するOpenTrainingについて述べる。
オープンデータセット(OpenSDID)と呼ばれる新しいベンチマークを定義した。
Masked Autoencoder (MAE) と Contrastive Language- Image Pretrained (CLIP) を組み合わせた SPM ベースのモデルである MaskCLIP を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:43:16 GMT)
Towards Reliable Time Series Forecasting under Future Uncertainty: Ambiguity and Novelty Rejection Mechanisms [36.8] あいまいさと新規性拒絶を組み合わせた二重拒絶機構を導入する。
曖昧さの拒絶は、履歴的な誤差分散分析によって評価される、信頼度が低いモデルを棄却することを可能にする。
変分オートコーダとマハラノビス距離を用いたノベルティ拒絶は、トレーニングデータからの偏差を検出する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:44:29 GMT)
LookCloser: Frequency-aware Radiance Field for Tiny-Detail Scene [36.6] FA-NeRFはビュー合成のための新しいフレームワークであり、単一のNeRFモデル内で全体のシーン構造と高精細度を同時にキャプチャする。
我々のフレームワークは、周波数コンバージェンスとクエリのための周波数グリッドと、異なる周波数コンテンツ間で特徴のバランスをとるための周波数認識機能の再重み付け戦略を組み込んでいる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:13:59 GMT)
Is a Pure Transformer Effective for Separated and Online Multi-Object Tracking? [36.5] マルチオブジェクト追跡 (MOT) は, 追跡と検出を分離したオンラインパラダイムにおいて, 短期的な関連性を示した。
本稿では、トラジェクトリグラフの概念を概観し、それらを有向非巡回グラフとして表現することで、新しい視点を提案する。
オンラインMOTの短時間・長期追跡におけるTransformerの有効性を検証するために,PuTR(Concise Pure Transformer)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:46:45 GMT)
Towards Online Multi-Modal Social Interaction Understanding [36.4] 本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。
マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。
提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:17:19 GMT)
Multi-Agent Deep Reinforcement Learning for Safe Autonomous Driving with RICS-Assisted MEC [36.4] 環境検知とオンボードセンサーによる融合は、将来の自律運転ネットワークに広く適用されることが想定されている。
スペクトル利用を改善するために、V2VリンクはV2Iリンクと同じ周波数スペクトルを再利用し、深刻な干渉を引き起こす可能性がある。
この問題に対処するために、再構成可能なインテリジェント・コンピューティング・サーフェス(RICS)を活用し、V2I反射型リンクを共同で有効化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:53:50 GMT)
Vocabulary-level Memory Efficiency for Language Model Fine-tuning [36.1] 微調整中,語彙のかなりの割合が未使用であることが判明した。
本稿では,メモリ使用量を最小限に抑えるため,この発見を利用したシンプルで効果的な手法を提案する。
我々の手法は、より効率的な計算資源の利用を可能にしながら、下流のタスク性能に影響を与えない。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:30:00 GMT)
Reanimating Images using Neural Representations of Dynamic Stimuli [36.0] 脳NRDS(Brain-Neural Representations of Dynamic Stimuli)は、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかを理解する。
動的視覚刺激に対する人間の反応をより深く理解するためにfMRI脳活動を利用する。
脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:01 GMT)
Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition [36.0] 視覚変換器を用いた代表PEFT手法の統一実験を行った。
VTAB-1Kでは,異なるPEFT法で類似の精度が得られた。
類似した精度にもかかわらず、PEFT法は、異なる帰納バイアスのために、異なる誤りと高い信頼率の予測を行う。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:07:28 GMT)
EmoHead: Emotional Talking Head via Manipulating Semantic Expression Parameters [36.0] 提案するEmoHeadは,音声ヘッドビデオのセマンティックな表現パラメータを用いて合成する。
本研究は,様々な感情に対する音声入力からの相関性を高めることを目的としている。
我々は、訓練済みの超平面を利用して、垂直方向に沿って探索することで顔の動きを洗練する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:51:33 GMT)
HD-EPIC: A Highly-Detailed Egocentric Video Dataset [36.0] HD-EPICは、9つのキッチンで41時間のビデオで、69のレシピ、59Kの細かいアクション、51Kのオーディオイベント、20Kのオブジェクトムーブメント、37Kのオブジェクトマスクを3Dに持ち上げる。
平均して、記述されていないビデオの1分間に263のアノテーションがあります。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:54:54 GMT)
ACVUBench: Audio-Centric Video Understanding Benchmark [35.8] ACVUBenchはオーディオ中心のビデオ理解ベンチマークである。
18のドメインにまたがる2,662本のビデオと、豊富な聴覚情報を含んでいる。
ビデオにおけるオーディオコンテンツとオーディオと視覚の両方の相互作用の理解を、徹底的にテストする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:28:24 GMT)
Frequency Dynamic Convolution for Dense Image Prediction [34.9] 本稿では、FDConv( Frequency Dynamic Convolution)を導入し、Fourierドメインの固定パラメータ予算を学習することで制限を緩和する。
FDConvは、この予算を不整合フーリエ指数を持つ周波数ベースのグループに分割し、パラメータコストを増大させることなく周波数幅の重みを構築することができる。
我々は、ResNet-50に適用した場合、FDConvは、+3.6Mパラメータを適度に増加させ、優れた性能を達成することを実証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:09:17 GMT)
DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.8] ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:47:55 GMT)
Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.7] そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。
本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。
本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:23:20 GMT)
Stop Walking in Circles! Bailing Out Early in Projected Gradient Descent [34.3] 本稿では,周期検出に基づくPGD (Projected Gradient Descent) の早期終了手法を提案する。
この手法は攻撃強度を犠牲にすることなくPGDを大幅に高速化し、これまで計算的に難解だったロバスト性の評価を可能にした。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:51:44 GMT)
SITA: Structurally Imperceptible and Transferable Adversarial Attacks for Stylized Image Generation [34.2] 美術品の保護を目的とした現在の手法は、しばしば敵の攻撃を用いる。
本稿では,SITA攻撃(Structurely Imperceptible and Transferable Adrial)を提案する。
これは、転送性、計算効率、ノイズの受容性の観点から、既存の手法よりも大幅に優れています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:55:25 GMT)
Data-centric Federated Graph Learning with Large Language Models [34.2] フェデレーショングラフ学習(FGL)では、完全なグラフは、プライバシー上の懸念により、各クライアントに格納された複数のサブグラフに分割される。
FGLの問題点は、ノードや構造がクライアント間で非IID特性を示す不均一性の問題である。
本稿では,FGLの大規模言語モデルのタスクを理論的に2つのサブタスクに分割する枠組みを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:43:08 GMT)
HoGS: Unified Near and Far Object Reconstruction via Homogeneous Gaussian Splatting [34.1] 3次元ガウススプラッティング(3DGS)は、効率的なトレーニング時間とリアルタイムレンダリングを提供する。
本研究では,同種座標を3DGSフレームワークに組み込んだ同種ガウススプラッティング(HoGS)を提案し,近距離および遠距離物体の拡張のための統一表現を提供する。
実験により、HoGSは近くの物体の高品質なレンダリングを維持しつつ、高速なトレーニング速度とリアルタイムレンダリング能力を維持しながら、遠隔物体の再構築の精度を著しく向上することが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:35:34 GMT)
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.4] 我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。
トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:56:54 GMT)
GameFactory: Creating New Games with Generative Interactive Videos [33.0] 生成ビデオは、新しいコンテンツを自律的に作成することによって、ゲーム開発に革命をもたらす可能性がある。
本稿では,アクション制御型シーン汎用ゲーム生成フレームワークであるGameFactoryを紹介する。
実験により,GameFactoryはオープンドメインアクション制御可能なゲームビデオを効果的に生成することを示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:34:45 GMT)
Autoregressive Action Sequence Learning for Robotic Manipulation [33.0] 既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:16:05 GMT)
A Comprehensive Analysis of Mamba for 3D Volumetric Medical Image Segmentation [32.8] 本研究は,マンバの3次元画像分割機能に関する包括的調査である。
我々は,Mambaのパフォーマンスを,AMOS,TotalSegmentator,BraTSの3つの大規模ベンチマークで評価した。
U-shape MambaベースのネットワークであるUlikeMambaは、U-shape TransformerベースのネットワークであるUlikeTransを一貫して上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:14:31 GMT)
TopoCellGen: Generating Histopathology Cell Topology with a Diffusion Model [32.7] 本研究では,トポロジ制約を拡散モデルに統合し,現実的で文脈的に正確なセルトポロジの生成を改善する手法を提案する。
本手法は, セル分布と相互作用のシミュレーションを改良し, 下流タスクにおける結果の精度と解釈可能性を高める。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:02:20 GMT)
Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? [32.6] LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。
安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:49:43 GMT)
ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency [32.1] RAW-to-sRGBマッピングは、スマートフォンセンサーが捉えた生データから、DSLR品質のsRGB画像を生成することを目的としている。
ISPDiffuserは、RAW-to-sRGBマッピングをグレースケール空間の詳細な再構成に分離する拡散ベースのフレームワークである。
ISPDiffuserは、最先端の競合製品よりも量的にも視覚的にも優れている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:29:39 GMT)
A Benchmark for Cycling Close Pass Detection from Video Streams [32.0] 我々はCyc-CPと呼ばれる新しいベンチマークを導入し、ビデオストリームからCP(Cyc-CP)イベントを検出する。
シーンレベルの検出は、提供されたビデオクリップ内にCPイベントが存在することを確認する。
インスタンスレベルの検出は、CPイベントを発生させるシーン内の特定の車両を特定する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:39:51 GMT)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.7] LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:05:34 GMT)
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.3] 本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:55:47 GMT)
Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages [31.2] コントラスト学習を利用して、多言語音声の特徴を洗練し、大きな言語モデルを拡張することを提案する。
具体的には、感情空間における音声信号と言語的特徴を整合させるために、2段階の新たな訓練フレームワークを用いる。
この分野での研究を進めるために,大規模合成多言語音声感情データセットM5SERを導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:58:18 GMT)
Taxonomy Inference for Tabular Data Using Large Language Models [31.1] 本稿では,表に対する分類的推論法として, (i) EmTT, (ii) GeTT, (ii) GPT-4 のようなデコーダ・アローン LLM を用いてテーブルエンティティの型と階層を生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:26:05 GMT)
LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty [31.0] 我々は,事前学習モデルからトレーニングサンプルの影響を排除した,新しいMachine Unlearning(MU)手法であるLoTUSを提案する。
LoTUSは、データの記憶から生じる過信を緩和し、情報理論境界までモデルの予測確率を円滑にする。
我々は、TransformerとResNet18モデルのLoTUSを、5つの公開データセットにまたがる8つのベースラインに対して評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:23:57 GMT)
Substance over Style: Evaluating Proactive Conversational Coaching Agents [31.0] 異なる会話スタイルを示す5つのマルチターンコーチングエージェントを記述・実装する。
ユーザーはコア機能を高く評価し、コアコンポーネントがないスタイリスティックなコンポーネントは否定的に見なされる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:44:31 GMT)
Unsupervised Ordering for Maximum Clique [30.7] 我々は制約を、頂点の順序がclique構造と整列するように幾何学的関係に変換する。
この斜め方向の順序付けを分岐・分岐探索に統合することにより,探索効率を向上し,計算ステップの数を削減できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:28:49 GMT)
Unsupervised Learning for Quadratic Assignment [30.7] PLUME検索は、非自己回帰的なアプローチで置換に基づく損失を用いて問題インスタンスから直接学習する。
本稿では,様々な最適化問題を含むNP-hard問題である代入問題に対して,その性能を評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:37:46 GMT)
LLM-based Agent Simulation for Maternal Health Interventions: Uncertainty Estimation and Decision-focused Evaluation [30.3] エージェントに基づくシミュレーションは複雑な人間の行動のモデル化に不可欠である。
従来のアプローチでは、広範なドメイン知識と大規模なデータセットが必要です。
大規模言語モデル(LLM)は、幅広い世界の知識を活用することで、有望な代替手段を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:24:47 GMT)
Empowering LLMs to Understand and Generate Complex Vector Graphics [30.2] 大規模言語モデル(LLM)は、トレーニング中にWebページからベクターグラフィックスの部分的知識を符号化する。
最近の知見は, LLM内の意味的曖昧さとトークン化表現が, ベクトルプリミティブ予測における幻覚を引き起こす可能性を示唆している。
LLM4SVGは、LLMがベクトルグラフィックスをよりよく理解し、生成できるようにすることにより、このギャップを埋める最初のステップであるが、実質的なステップである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:35:29 GMT)
Chemistry-aware battery degradation prediction under simulated real-world cyclic protocols [30.1] 電池劣化は複雑でランダムな循環条件によって制御される。
電気信号は電圧変動などの豊富な情報を提供し、劣化機構を探査することができる。
本稿では,機械学習を用いた動的条件下での化学認識型電池劣化予測について述べる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:01:50 GMT)
GyralNet Subnetwork Partitioning via Differentiable Spectral Modularity Optimization [30.0] 本稿では,GyralNet内の3HGの組織をモジュール化するための,差別化可能なサブネットワークフレームワークを提案する。
トポロジカルな構造的類似性とDTI由来の接続パターンを属性特性として組み込むことにより,本手法は皮質組織を生物学的に意味のある表現を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:33:12 GMT)
HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation [30.0] HunyuanPortraitは、ポートレートアニメーションの拡散に基づく条件制御方法である。
運転映像の表情と頭部ポーズにより、基準画像中のキャラクタをアニメーション化することができる。
我々のフレームワークは既存の手法より優れ、時間的一貫性と制御性に優れていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:59:23 GMT)
CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification [29.6] CLIP-EBC(CLIP-EBC)を提案する。
我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%まで既存の分類ベースの手法を改善することができる。
CLIP-EBCは、NWPU-Crowdテストセットの最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERERよりも8.6%と13.3%改善した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:47:11 GMT)
UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design [29.5] 単一モデルを用いて複数の分子ドメインの結合体を設計できる最初のフレームワークである3次元分子の統一生成モデリング(UniMoMo)を紹介する。
特に、UniMoMoは、それぞれのブロックが標準アミノ酸または分子断片に対応するブロックのグラフとして異なる分子の表現を統一する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:01:16 GMT)
Dance Like a Chicken: Low-Rank Stylization for Human Motion Diffusion [28.9] 編集性を維持しながら複雑な動作に一般化する動きスタイリングのためのフレームワークであるLoRA-MDMを紹介する。
我々の重要な洞察は、そのスタイルを含む前に生成体を適応させることは、その全体の分布を保ちながら、生成中の個々の動きを変更するよりも効果的であるということである。
LoRA-MDMは、いくつかのサンプルを使用して参照スタイルを含める前に適応することを学ぶ。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:23:34 GMT)
A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model [28.9] 我々は,3段階のモダリティ(病理スライド,病理報告,遺伝子発現データ)を取り入れた病理基盤モデルを構築した。
我々は,Multimodal Self-Taught PRetraining(mSTAR)と呼ばれる,マルチモーダルな全スライディングコンテキストをパッチ表現に注入する,新しい全スライディング事前学習パラダイムを提案する。
我々の知る限りでは、この手法は3つのモダリティをスライディング・コンテキストに組み込んで病理学的FMを強化する最初の試みである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:49:58 GMT)
Towards Imperceptible Adversarial Attacks for Time Series Classification with Local Perturbations and Frequency Analysis [28.9] 人間の視覚システム(HVS)によって検出された敵の例は、攻撃を効果的に行うことができない。
本稿では、周波数成分と時系列の局所性に対処して、TSCモデルに対する敵攻撃の非受容性を改善することを目的とする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:16:51 GMT)
MCRanker: Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers [28.6] そこで本稿では,様々な視点から評価基準に基づいてランキングスコアを生成するランキング作成手法を提案する。
BEIRベンチマークから8つのデータセットを調査した本研究では,この多視点基準アンサンブルアプローチを取り入れたことにより,ポイントワイドLLMローカの性能が著しく向上したことを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:08:47 GMT)
Machine-assisted writing evaluation: Exploring pre-trained language models in analyzing argumentative moves [28.0] 縦型学習者コーパスにおける議論行動解析における事前学習言語モデル(PLM)の有効性について検討した。
1643年、中国の235人の英語学習者から引用文の長手コーパスが収集され、6つの移動タイプに注釈付けされる。
その結果,PLMの信頼性は,F1スコアが0.743であり,既存のモデルを上回った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:21:12 GMT)
Global-Local Tree Search in VLMs for 3D Indoor Scene Generation [28.0] VLM(Large Vision-Language Models)は、様々な分野において大きな成功を収めている。
本稿では,この課題を空間的・レイアウト的共通感覚制約を考慮した計画問題とみなす。
グローバルに、各オブジェクトを逐次配置し、各配置プロセス中に複数の配置を探索する。
我々は、絵文字グリッドでVLMをプロンプトし、VLMは、絵文字の名前で位置を記述することによって、オブジェクトに対して合理的な位置を生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:21:09 GMT)
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.8] MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:46:03 GMT)
PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset [27.7] PRIMEditはゼロショットフレームワークで、インスタンス中心のProbability ReistributionとDisentangled Multi-instance Samplingという2つの主要なモジュールを導入している。
我々は,多種多様なビデオシナリオを特徴とするビデオ編集のための新しいMIVEデータセットを提案し,編集リークを評価するためにCross-Instance Accuracy (CIA) Scoreを紹介した。
PRIMEditは, 信頼性, 正確性, 漏洩防止の両面において, 最近の最先端手法を著しく上回り, 質的, 定量的, ユーザスタディ評価を行った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:49:28 GMT)
Optimal Parameter Adaptation for Safety-Critical Control via Safe Barrier Bayesian Optimization [27.4] 制御バリア関数 (CBF) 法は, 制御性能向上に新たな課題を提起する。
安全制御性能を最適化するために,CBF法とベイズ最適化(BO)を組み合わせた新しいフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:56:17 GMT)
Learning to chain-of-thought with Jensen's evidence lower bound [27.2] 本稿では,強化学習による思考の連鎖を最適化する手法を提案する。
本アルゴリズムは,確率的推論問題の一部として,潜在変数としてチェーン・オブ・シントを解釈することに依存する。
我々は,ジェンセンの下限による最適化が,外的報酬を伴う政策勾配と同じくらい効果的であることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:03:09 GMT)
Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models [26.8] ロングフォームな書記エージェントは情報検索、推論、合成において柔軟な統合と相互作用を必要とする。
現在のアプローチは、書く前にアウトラインを生成するために、所定の、堅固な思考パターンに依存しています。
本稿では,人間ライクなアダプティブ・ライティングを実現する汎用エージェント・フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:27:55 GMT)
Attention IoU: Examining Biases in CelebA using Attention Maps [26.6] 本稿では,モデルの内部表現におけるバイアスを明らかにするために,アテンションIoUメトリックとその関連スコアを紹介する。
我々はCelebAデータセットを分析し、Attention-IoUが精度の相違を超えて相関を明らかにすることを発見した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:11:39 GMT)
GENIUS: A Generative Framework for Universal Multimodal Search [26.5] 本稿では,複数のモダリティやドメインにまたがる多様なタスクを支援する汎用的な生成検索フレームワークGENIUSを提案する。
GENIUSは、モダリティを分離したセマンティック量子化を導入し、マルチモーダルデータをモダリティとセマンティクスの両方をコードする離散IDに変換する。
汎用性を高めるために,クエリとターゲットを補間するクエリ拡張を提案し,genIUSが様々なクエリ形式に適応できるようにする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:32:31 GMT)
HyperFLINT: Hypernetwork-based Flow Estimation and Temporal Interpolation for Scientific Ensemble Visualization [26.5] HyperFLINTは、流れ場を推定し、時間的に補間し、アンサンブルデータにおけるパラメータ空間探索を容易にする、新しいディープラーニングベースのアプローチである。
一連の実験では、HyperFLINTのフロー場推定性能が大幅に向上し、パラメータ空間探索が可能になった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:27:02 GMT)
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.4] ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:49:16 GMT)
M$^2$CD: A Unified MultiModal Framework for Optical-SAR Change Detection with Mixture of Experts and Self-Distillation [26.3] 災害応答などの極端なシナリオでは、合成開口レーダ(SAR)は、事後データの提供により適している。
これは、既存のウェイトシェアリングのSiameseネットワークが、クロスモーダルなデータ分散を学ぶのに苦労しているため、CDメソッドに新しい課題をもたらす。
この課題に対処するために,MultiModal CD フレームワーク M$2$CD を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:31:53 GMT)
Coverage-based Fairness in Multi-document Summarization [26.2] 本稿では,社会的属性の異なる文書のカバレッジに基づいた,新たな要約レベルの公平度尺度である平等カバレッジを提案する。
また,コーパスレベルの不公平性を検出するための新しいコーパスレベル尺度であるCoverage Parityを提案する。
また,Claude3-sonnetは全ての評価LCMの中でもっとも公平であることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:19:51 GMT)
QuCOOP: A Versatile Framework for Solving Composite and Binary-Parametrised Problems on Quantum Annealers [25.7] QuCOOPは、AQCのスコープを複合的およびバイナリパラメトリクスに拡張する最適化フレームワークである。
本研究では,2次代入問題,形状整合,点集合登録を事前に知ることなく実験する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:45:19 GMT)
MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation [25.3] 本稿では,表現力のあるマルチビュー・ポートレート・アニメーションを生成するための2段階のテキスト誘導フレームワークMVPortraitを提案する。
MVPortraitは、FLAMEを中間表現として導入し、顔の動き、表情、ビュー変換を効果的に埋め込んだ最初の企業である。
実験結果から,MVPortraitは既存手法よりも動作制御や感情制御,視点整合性に優れていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:24:37 GMT)
Instruct-4DGS: Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation [25.0] Instruct-4DGSは時間次元の面でよりスケーラブルな効率的な動的シーン編集手法である。
編集結果から,Instruct-4DGSは効率が良く,既存の方法に比べて編集時間が半減することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:01:47 GMT)
CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [25.0] 本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:57:17 GMT)
Enhancing Predictive Accuracy in Tennis: Integrating Fuzzy Logic and CV-GRNN for Dynamic Match Outcome and Player Momentum Analysis [25.0] 本稿では,マルチレベルファジィ評価モデルとCV-GRNNモデルを組み合わせたゲーム予測手法を提案する。
まず、主成分分析を用いて重要な統計指標を特定し、次にウィンブルドンデータに基づく2層ファジィモデルを開発する。
CV-GRNNモデルを統計的に有意な15指標を用いて改良し,精度は86.64%,MSEは49.21%向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:53:49 GMT)
Scaling Down Text Encoders of Text-to-Image Diffusion Models [24.8] 拡散モデルにおけるテキストエンコーダは急速に進化し、CLIPからT5-XXLへ移行した。
我々は、一連のT5エンコーダモデルを訓練するために、視覚に基づく知識蒸留を採用している。
以上の結果から, 蒸留T5ベースモデルがT5-XXLと同等の画質の画像を生成できることが示されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:55:20 GMT)
Video Anomaly Detection with Contours - A Study [24.5] 本研究では,2次元輪郭を用いた正常人の動作パターンの学習の可能性について検討した。
以上の結果から,Poseを用いたビデオ異常検出の新たな視点は今後の研究にとって有望な方向であることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:11:50 GMT)
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models [24.3] 拡散モデルを用いた高分解能(1K)画像生成のための新しいフレームワークLSRNAを提案する。
LSRNAは、LSR(Latent Space Super-Resolution)とRNA(Rerea-wise Noise Addition)を組み合わせて、高周波の詳細を強化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:05:33 GMT)
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation [24.2] LogQuantは、大規模言語モデル(LLM)推論におけるKVキャッシュのための、画期的な2ビット量子化技術である。
ログベースのフィルタリング機構を適用することで、コンテキスト全体にわたってKVキャッシュを選択的に圧縮する。
ベンチマークテストでは、スループットを25%向上し、メモリ消費を増やすことなく、バッチサイズを60%向上する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:24:45 GMT)
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? [23.9] LEGO-Puzzlesは、11の異なるタスクにまたがる1,100の精巧にキュレートされた視覚的質問応答(VQA)サンプルで構成されている。
最も強力なMLLMでさえ、テストケースの約半分しか答えられません。
VQAタスクに加えて,組み立て図に続くLEGO画像を生成するMLLMの能力を評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:21:07 GMT)
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.8] PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:58 GMT)
Hard-aware Instance Adaptive Self-training for Unsupervised Cross-domain Semantic Segmentation [23.7] セマンティックセグメンテーションの課題に対して,UDAのための適応型自己学習フレームワークを提案する。
擬似ラベルの品質と多様性を効果的に向上するために,新しい擬似ラベル生成戦略を開発した。
我々の手法は簡潔で効率的であり、他のUDA法にも容易に適用できる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:37:02 GMT)
Fidelity-Imposed Displacement Editing for the Learn2Reg 2024 SHG-BF Challenge [23.6] SHGとBF画像の大規模な相違は、現在の学習ベース登録モデルに課題をもたらす。
これらの課題に対処するために、忠実度を付与した変位編集を利用する新しいマルチモーダル登録フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:35:46 GMT)
Unlocking the Hidden Potential of CLIP in Generalizable Deepfake Detection [23.5] 本稿では,顔の深部を部分的に操作して検出する課題に対処する。
我々は、Contrastive Language-Image Pre-Training(CLIP)モデル、特にViT-L/14ビジュアルエンコーダを利用する。
提案手法は,LNチューニングなどのPEFT技術を用いて,モデルのパラメータの小さな部分集合を調整する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:10:54 GMT)
Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers [23.3] 本稿では,逆ダイナミクスコントローラのアクションデータ効率向上を目的としたプランテイン制御フレームワークを提案する。
具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。
この潜在表現は、線形アクションデコーダを用いて実高次元連続的なアクションに効果的にマッピングすることができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:23:21 GMT)
PG-SAM: Prior-Guided SAM with Medical for Multi-organ Segmentation [23.3] 本報告では, 精密なモダリティ事前整合器を用いて, 特定の医療知識を活用し, より優れたモダリティ整合性を実現するプリエントガイドSAM (PG-SAM) を提案する。
我々のデコーダはマルチレベル特徴融合と反復マスク操作によりモデルの表現能力を向上する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:25:06 GMT)
CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection [22.6] カテゴリクエリに基づくオブジェクト検出フレームワークであるCQ-DINOを提案する。
CQ-DINOは、オブジェクトクエリと学習可能なカテゴリクエリの間の対照的なタスクとして分類を再構成する。
実験により、CQ-DINOは挑戦的なV3Detベンチマークにおいて優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:39:46 GMT)
SparSamp: Efficient Provably Secure Steganography Based on Sparse Sampling [22.6] ステガノグラフィーは、一見無害な通信の中に機密データを埋め込む。
既存の手法は、セキュリティと効率の間に重要なトレードオフに直面している。
本稿では,スパースサンプリングに基づく効率よく安全なステガノグラフィー手法であるSparSampを紹介する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:47:17 GMT)
SparseGS-W: Sparse-View 3D Gaussian Splatting in the Wild with Generative Priors [22.6] SparseGS-Wは,非制約画像から大規模シーンを合成する新しいフレームワークである。
我々は,高度にスパースな入力から得られる多視点情報の欠如を補うために,幾何学的先行と制約付き拡散の先行を利用する。
SparseGS-Wは、完全な参照メトリクスだけでなく、FID、ClipIQA、MUSIQなどの一般的な非参照メトリクスでも、最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:40:40 GMT)
RobustEMD: Domain Robust Matching for Cross-domain Few-shot Medical Image Segmentation [22.4] Few-shot Medical Image segmentation (FSMIS) は、医療画像分析の範囲内で限られたデータ学習を行うことを目的としている。
現在のFSMISモデルは、すべてトレーニングされ、同じデータドメインにデプロイされます。
特定の医療画像領域にまたがってFSMISモデルを一般化するにはどうすればいいのか?
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:25:39 GMT)
Efficient Long Sequential Low-rank Adaptive Attention for Click-through rate Prediction [22.4] 本稿では,新しい注意機構を提案する。
計算効率を確保しながら、既存の手法の欠点を克服する。
また、ユニークに設計された損失関数を統合して、注意の非線形性を保っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:38:21 GMT)
"Hello, is this Anna?": A First Look at Pig-Butchering Scams [22.3] 豚肉密売詐欺(Sha Zhu Pan)は、サイバー対応の金融詐欺の複雑な形態として登場した。
N=26名の被爆者に対する詳細な半構造的インタビューにより,豚肉の盗難に関する最初の質的分析を行った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:15:48 GMT)
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.3] OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:19:32 GMT)
SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis [22.1] シンクロナイズドモーション拡散戦略を用いた多体インタラクション合成法SyncDiffを紹介する。
動きの忠実度を高めるため,周波数領域の動作分解手法を提案する。
また、異なる身体運動の同期を強調するための新しいアライメントスコアも導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:15:15 GMT)
Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.1] 大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。
テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。
本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:36:59 GMT)
CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution [21.8] 畳み込みニューラルネットワーク(CNN)は、画像超解像(SR)を大幅に進歩させた
ほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。
テキストのセマンティックスと視覚的特徴を統合するマルチモーダルなセマンティックエンハンスメントフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:11:17 GMT)
Bézier Splatting for Fast and Differentiable Vector Graphics [21.8] 微分ベクトルグラフィックス(VG)は画像ベクトル化やベクトル合成に広く用いられている。
この研究は、高忠実度VG化を可能にするB'ezier splattingと呼ばれる新しい微分可能なVG表現を導入している。
B'ezier splatting は、DiffVG と比較して、前方および後方の曲線に対して、20倍から150倍の速さで達成される。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:33:32 GMT)
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation [21.7] AdaptiVocabは語彙適応のためのエンドツーエンドのアプローチである。
トークンをドメイン固有のn-gramベースのトークンに置き換えることで、語彙を修飾する。
以上の結果から,AdaptiVocabは性能を損なうことなくトークン使用量を25%以上削減できることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:18:21 GMT)
Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.7] 本稿では,BUDDy と呼ばれる単一チャネルブラインド除去と室内インパルス応答 (RIR) 推定のための教師なし手法を提案する。
周波数サブバンド毎に指数減衰したRIRを表すパラメトリックフィルタを設計する。
本稿では,RIR推定におけるBUDDyの性能について検討し,不整合音響条件に対する最先端の教師付き推定器を超越して観測する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:24:55 GMT)
PAPILLON: Privacy Preservation from Internet-based and Local Language Model Ensembles [21.3] APIベースおよびローカルモデルをチェーンする新しいタスクであるPrivacy-Conscious Delegationを提案する。
我々は最近のユーザ-LLMインタラクションの公開コレクションを利用して、PUPAと呼ばれる自然なベンチマークを構築する。
私たちの最高のパイプラインは、85.5%のユーザクエリに対して高い応答品質を維持しながら、プライバシリークを7.5%に制限しています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:20:42 GMT)
RP-SAM2: Refining Point Prompts for Stable Surgical Instrument Segmentation [21.3] 我々は,新しいシフトブロックと複合損失関数を組み込んだRP-SAM2を導入し,ポイントプロンプトを安定化させる。
提案手法は,ロバストなセグメンテーション能力を維持しつつ,正確な位置決めに依存するアノテータを低減させる。
Cataract1kデータセットの実験では、RP-SAM2はセグメンテーション精度を向上し、2%のmDSCゲイン、21.36%のmHD95が減少し、SAM2と比較してランダムな単一点プロンプト結果のばらつきが減少した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:59:23 GMT)
QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.1] QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。
W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:03:56 GMT)
SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction [20.9] 本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。
我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。
実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:31:03 GMT)
DynOPETs: A Versatile Benchmark for Dynamic Object Pose Estimation and Tracking in Moving Camera Scenarios [20.8] 本稿では,制約のない環境下でのオブジェクトポーズ推定と追跡のための新しいデータセットDynOPETを提案する。
提案手法は,ポーズ推定とポーズ追跡を革新的に統合し,擬似ラベルを生成する。
得られたデータセットは、動くカメラから観察される動的オブジェクトの正確なポーズアノテーションを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:13:44 GMT)
Towards Efficient Training of Graph Neural Networks: A Multiscale Approach [20.7] グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習し、推論するための強力なツールとして登場した。
本稿では,グラフのマルチスケール表現にまたがる情報の統合を目的とした,GNNの効率的なマルチスケール学習のための新しいフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:52:26 GMT)
Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization [20.7] 本稿では,経済的に美学を改善するために,ステップバイステップ優先最適化(SPO)を提案する。
SPOは伝播戦略を捨て、きめ細かい画像の詳細を評価できる。
SPOは、ステップアウェアの選好モデルによって提供されるより正確な選好ラベルを使用することにより、DPO法よりもはるかに高速に収束する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:06:27 GMT)
Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.7] イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:16 GMT)
Map-Based Path Loss Prediction in Multiple Cities Using Convolutional Neural Networks [20.6] 通信リンクに沿った障害はしばしば暗黙的に、あるいは代表的クラッタの高さや全障害深さなどの派生メトリクスを通して考慮される。
畳み込みニューラルネットワークを用いて2次元障害物高さマップから特徴抽出を自動的に行う経路固有経路損失予測法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:17:14 GMT)
Not All Learnable Distribution Classes are Privately Learnable [20.3] 有限個のサンプルで全変動距離で一定誤差まで学習できる分布のクラスを例に挙げるが、同じターゲット誤差で$(varepsilon, delta)$-differential privacyでは学習できない。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:03 GMT)
Semi-SD: Semi-Supervised Metric Depth Estimation via Surrounding Cameras for Autonomous Driving [20.2] Semi-SDは、自動運転における周囲のカメラ機器に適した新しいメートル法深度推定フレームワークである。
本稿では,視覚的融合機能を構築するために,空間空間-時間-意味融合モジュールを提案する。
DDADおよびnuScenesデータセットを用いてアルゴリズムの評価を行い,本手法が最先端の性能を実現することを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:39:04 GMT)
Solvation Free Energies from Neural Thermodynamic Integration [19.9] 本稿では,2つの対象ハミルトニアン間を補間するニューラルネットワークポテンシャルと熱力学積分を用いた自由エネルギー差の計算法を提案する。
分子系を標的とするために、レナード・ジョーンズと静電相互作用を同時に結合し、分子の剛体回転をモデル化する。
我々は,レナード-ジョーンズ流体中のレナード-ジョーンズ粒子と,水とメタンの溶解物が原子分解能で水溶媒中に挿入されるという,いくつかのベンチマークシステムの正確な結果を報告した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:20:29 GMT)
Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise [19.4] 本研究では,構造付き潜時雑音サンプリングによる動画拡散モデルの構築を行う。
本稿では,ランダムな時空間のガウス性と相関した雑音を置き換え,リアルタイムに動作可能な新しいノイズワープアルゴリズムを提案する。
提案アルゴリズムの効率性により,ワープノイズを最小限のオーバーヘッドで使用することで,最新の映像拡散ベースモデルを微調整することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:27:32 GMT)
Poor Alignment and Steerability of Large Language Models: Evidence from College Admission Essays [19.4] 本研究では,大規模言語モデル (LLM) を高文脈で使用することを検討した。
両タイプのLCMエッセイは,人間によるエッセイとは言語的に異なることがわかった。
人口統計学的に誘発され、未発達の合成テキストは、人間のテキストよりも互いに類似していた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:54:50 GMT)
G-DexGrasp: Generalizable Dexterous Grasping Synthesis Via Part-Aware Prior Retrieval and Prior-Assisted Generation [19.3] G-DexGraspは,高品質なデキスタスハンド構成を生成するための検索拡張型生成手法である。
キーは、きめ細かい接触部と、関連する把握インスタンスの割当関連分布を含む、一般化可能な把握先を検索することである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:46:50 GMT)
Experience Replay Addresses Loss of Plasticity in Continual Learning [19.3] 可塑性の喪失は、ディープニューラルネットワークによる継続的な学習における大きな課題の1つだ。
本稿では,連続学習における可塑性の喪失に対処する経験的リプレイの仮説を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:01:10 GMT)
HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery [19.2] 本稿では,複数の静的なビューをフル活用可能な,人間の形状とポーズの復元手法を提案する。
マルチビュー画像のSMPLパラメータを反復的に洗練するニューラルパラメータであるHeatFormerでこれを実現する。
HeatFormerは、このSMPL推定を、新しいトランスフォーマーエンコーダとデコーダとのアライメントとして実現している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:22:31 GMT)
MARS: Memory-Enhanced Agents with Reflective Self-improvement [19.0] 本稿では,リフレクティブ自己改善型メモリ強化エージェントを提案する。
フレームワークは、User、Assistant、Checkerの3つのエージェントで構成されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:05:46 GMT)
Improved Training Technique for Latent Consistency Models [18.6] 一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。
画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。
我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:30:17 GMT)
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.6] VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:24:19 GMT)
Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering [18.5] 知識グラフ質問回答法(KGQA)は,知識グラフ(KGs)に格納された関係情報を用いて自然言語の質問に答えようとする方法である。
近年のLarge Language Models(LLM)の進歩と、その顕著な推論能力により、KGQAにそれらを活用する傾向が高まっている。
検証可能な推論手順を可能にする共通知識KGQA手法であるRight for Right Reasons (R3)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:44:19 GMT)
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World [18.4] RoboMatrixは、オープンソースの環境でのスケーラブルなロボットタスク計画と実行のために設計された、スキル中心の階層型フレームワークである。
我々の研究の鍵となる革新は、1つのモデルに運動と操作の両方をシームレスに統合できる最初の統合視覚言語アクション(VLA)モデルの導入である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:43:25 GMT)
Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning [18.4] コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
本稿では,この問題を探求する学際的研究について述べる。
幼児の学習過程を模倣する計算モデルは、幼児が自然に学ぶのと同じように、より広い視覚概念を発達させることができるか?
我々の研究は、幼児の視覚的および言語的入力に基づいて訓練された計算モデルの内部表現を分析することによって、認知科学とコンピュータビジョンを橋渡しする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:11:03 GMT)
DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.3] 我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:31:35 GMT)
VGAT: A Cancer Survival Analysis Framework Transitioning from Generative Visual Question Answering to Genomic Reconstruction [18.2] 本稿では,VQA(Visual Question Answering)技術を統合したゲノムモダリティ再構築手法を提案する。
VQAのテキスト特徴抽出手法を適用することで、生ゲノムデータの次元問題を回避する安定なゲノム表現を導出する。
5つのTCGAデータセットで評価され、VGATは既存のWSIのみのメソッドより優れている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:48:31 GMT)
Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes [18.2] 3次元屋内シーン生成は,デジタルおよび実環境の設計において重要な課題である。
このタスクの既存の方法は、これらの属性に対して非常に限定的な制御を示す。
提案手法であるDecorumにより,自然言語によるシーン生成プロセスの制御が可能となる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:58:36 GMT)
Prompt-Guided Dual-Path UNet with Mamba for Medical Image Segmentation [18.1] 医用画像分割のためのプロンプト誘導型CNN-MambaデュアルパスUNet(PGM-UNet)を提案する。
本稿では,元の入力データから動的視覚的プロンプトを適応的に抽出するプロンプト誘導残留マンバモジュールを提案する。
また、ローカル情報抽出モジュール、プロンプト誘導残留マンバモジュール、マルチフォーカス注意融合モジュールからなるローカル・グローバル情報融合ネットワークを設計する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:12:07 GMT)
Why Representation Engineering Works: A Theoretical and Empirical Study in Vision-Language Models [18.0] 我々は、主固有ベクトルを用いて層間における神経活動の安定性を説明する理論的枠組みを開発する。
この研究はRepE(Representation Engineering)を構造化された理論フレームワークに変換し、AIの堅牢性、公正性、透明性を改善するための新たな方向性を開く。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:32:15 GMT)
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories [17.9] 既存のアクセラレーション手法では、サンプルの品質、可制御性、あるいはトレーニングの複雑さを損なう。
これらの制限に対処する新しい拡散フレームワークであるRayFlowを提案する。
大規模な実験は、スピード、制御、トレーニング効率を改善した高品質な画像の生成におけるRayFlowの優位性を実証している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:11:23 GMT)
Spectral Informed Mamba for Robust Point Cloud Processing [17.7] 本稿では,ポイントクラウドデータにMambaとMasked Autoencoderネットワークを利用する新しい手法を提案する。
複雑なクラウド構造を処理する上で,Mambaの能力を高めるために,3つの重要なコントリビューションを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:45:53 GMT)
Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.7] 本稿では、ビデオ自動回帰モデリングのための強力なベースラインであるFrame AutoRegressive (FAR)を紹介する。
我々は,視覚的冗長性による長文視覚モデリングが課題に直面しているのを観察する。
我々は、RoPEにフレキシブルな時間減衰を加えるテストタイム技術であるFlexRoPEを提案し、16倍の視覚コンテキストへの外挿を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:38:06 GMT)
TeLL Me what you cant see [17.7] 法執行機関はしばしば、高品質な画像の不足や、その陳腐化に関連する課題に直面している。
本稿では,これらの制約に対処する新しい法医学的なマグショット強化フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:12:59 GMT)
Large language model-powered AI systems achieve self-replication with no human intervention [17.6] 評価中の32のAIシステムのうち11が、すでに自己複製能力を持っていることを示す。
何百もの実験的実験において、我々は非自撮りな数の自己複製試験を観察する。
さらに注意すべきは、明示的な指示なしにAIシステムが自己濾過を行う成功事例を観察することである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:38:18 GMT)
Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy [17.6] 言語モデルは、強力な数発の学習者であり、テキスト分類タスクにおいて、全体的な精度が良好である。
我々は、全体的な精度の追求は、強い階級を豊かにするだけでなく、弱い階級を育てることによってもたらされると信じている。
本論文では,文脈内学習クラス確率のフレキシブルな修正を可能にするHeaviside Step関数に基づくアンサンブルデバイアス法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:18:55 GMT)
Cross-Tokenizer Distillation via Approximate Likelihood Matching [17.6] 我々はこの欠乏を解消するためのクロストケナイザー蒸留法を開発した。
本手法は,次回の予測損失を伴わずにクロストケナイザー蒸留を可能にする最初の方法である。
本研究は,LLMの適応性向上と,LLM間の相互作用の強化に大きく貢献する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:44:10 GMT)
Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision [17.5] ホモトピー連続体は、除去テンプレートの代替候補として紹介されている。
本稿では,解と確率のペアを見つけるための新しい手法を提案する。
このエレガントな組み合わせを一般化カメラ切除に適用し、また、難解な一般化された相対ポーズとスケール問題に対する新しい解決策を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:51:23 GMT)
Learning Scene-Level Signed Directional Distance Function with Ellipsoidal Priors and Neural Residuals [17.5] 最近の研究は、ニューラルネットワークを用いて学習した占有率、符号付き距離、放射率の暗黙的な連続表現が、再構成の忠実性、効率、微分可能性に利点をもたらすことを示している。
本研究では,符号付き距離関数(SDDF)と呼ばれる符号付き距離の方向定式化について検討する。
SDDFは、再現精度とレンダリング効率の観点から、最先端のニューラル暗黙のシーンモデルと競合することを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:01:05 GMT)
KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models [17.4] 大規模言語モデル(LLM)は自然言語処理(NLP)の開発に大きく進歩している。
モデル幻覚は、複雑な原因のため、自然言語生成(NLG)タスクにおいて依然として大きな課題である。
この研究は、生成モデルにおける特定の幻覚の問題を緩和し、実世界のアプリケーションにおけるその堅牢性と信頼性を高めるための新しいパラダイムを導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:18:27 GMT)
Exact quantum critical states with a superconducting quantum processor [17.4] アンダーソン局在化物理学は、拡張、局所化、臨界という3つの基本的な固有状態のタイプを特徴としている。
我々は、厳密な量子臨界状態の機構によって支配される臨界状態の曖昧な実験的実現について報告する。
我々は局所状態と臨界状態の間のエネルギー依存的な遷移を解消し、異常な移動エッジの存在を明らかにする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:12:39 GMT)
ImageSet2Text: Describing Sets of Images through Text [17.3] 画像集合の自然言語記述を自動的に生成するために、視覚言語基盤モデルを活用する新しいアプローチであるImageSet2Textを紹介する。
ImageSet2Textは、イメージサブセットから重要な概念を反復的に抽出し、構造化グラフにエンコードし、外部知識グラフとCLIPベースの検証を使用して洞察を洗練する。
我々は、ImageSet2Textの精度、完全性、可読性、全体的な品質に関する記述を評価し、既存の視覚言語モデルと比較し、大規模なグループ画像キャプションのための新しいデータセットを導入した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:29:50 GMT)
VecTrans: LLM Transformation Framework for Better Auto-vectorization on High-performance CPU [17.3] VecTransは、コンパイラベースのコードベクトル化を強化するために、大きな言語モデルを活用するフレームワークである。
VecTransは23ケース(46%)のベクター化に成功し、平均速度は2.02倍に達する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:39:35 GMT)
ChA-MAEViT: Unifying Channel-Aware Masked Autoencoders and Multi-Channel Vision Transformers for Improved Cross-Channel Learning [17.0] ChA-MAEViTは4つの重要な戦略を通じて、マルチチャネルイメージング(MCI)チャネル間の機能学習を強化する。
ChA-MAEViTは最先端のMCI-ViTを3.0-21.5%上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:45:59 GMT)
Training Domain Draft Models for Speculative Decoding: Best Practices and Insights [16.7] ドメイン固有のターゲットモデルに投機的復号化を適用すると、ドメインシフトによってジェネリックドラフトモデルの受理率が大幅に低下する。
白箱蒸留法と黒箱蒸留法を比較し,各種データアクセシビリティーシナリオにおける有効性を検討した。
合成データによって、ドラフトモデルを効果的に整合させ、過去のユーザクエリのトレーニング性能の80%から93%を達成できることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:17:33 GMT)
IPGO: Indirect Prompt Gradient Optimization on Text-to-Image Generative Models with High Data Efficiency [16.6] Indirect Prompt Gradient Optimization (IPGO) と呼ばれる新しいフレームワークを導入する。
IPGOは、プロンプト埋め込みの開始と終了で連続的に微分可能なトークンを注入することで、プロンプト埋め込みを強化する。
これは、値、正則性、整合性制約を強制しながら、射出トークンの勾配に基づく最適化を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:14:42 GMT)
1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training [16.4] AM-DeepSeek-R1-Distilledは、一般的な推論タスクのための思考トレースを備えた大規模データセットである。
AM-Distill-Qwen-32Bモデルは、単純なSupervised Fine-Tuning (SFT) のみで訓練され、4つのベンチマークでDeepSeek-R1-Distill-Qwen-32Bモデルを上回った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:19:46 GMT)
FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization [16.4] 本稿では,FW-Merging(FW-Merging)を制約付き最適化問題として紹介する。
FW-Mergingは、データフリーマージ法を32.8%上回り、20ViTモデルをマージした場合、データインフォームされたAdamergingを8.39%上回る。
実験の結果、FW-Mergingスケールは様々なモデルソースにまたがっており、16の無関係モデルでは安定であり、20のCVタスクでは16の関連モデルでは15.3%改善され、メモリオーバーヘッドは一定に保たれている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:31:07 GMT)
Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.3] 本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。
このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:23:49 GMT)
Divide-and-Conquer: Dual-Hierarchical Optimization for Semantic 4D Gaussian Spatting [16.2] 本稿では,階層型ガウス流と階層型ガウス誘導からなるデュアル階層最適化(DHO)を提案する。
提案手法は,合成データセットと実世界のデータセットのベースラインを一貫して上回る。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:46:13 GMT)
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.0] 視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。
提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。
我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:47:13 GMT)
Natural Language Generation [16.0] 自然言語生成(英: Natural Language Generation)とは、自然言語を通じて何らかの形態の情報を言語化するシステムの研究を指す用語である。
自然言語処理のサブフィールドとして、NLGは機械翻訳(MT)やダイアログシステムといった他のサブ分野と密接に関連している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:03:25 GMT)
Writing as a testbed for open ended agents [15.9] 我々は,LLMが共同編集者として機能し,テキスト改善を自律的に提案し,実装できる可能性について検討する。
Gemini 1.5 Pro、Claude 3.5 Sonnet、GPT-4oの3つの有名なLCMを分析し、そのアクションの多様性、人間のアライメント、反復的な改善能力が全体的なパフォーマンスに与える影響に注目します。
この研究は、自律的な書記エージェントをベンチマークするためのフレームワークを確立し、より広範に、多様なオープンエンドドメインで優れたシステムを構築するための根本的な課題と潜在的なソリューションを強調します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:38:36 GMT)
OpenLex3D: A New Evaluation Benchmark for Open-Vocabulary 3D Scene Representations [15.9] 3Dシーン理解は、自然言語による対話を可能にするオープン語彙言語モデルによって変換されている。
この研究はOpenLex3Dという3Dオープン語彙シーン表現を評価するための専用ベンチマークを提示する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:28:50 GMT)
PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors [15.7] PCDreamerは、ポイントクラウド補完のための新しい方法である。
我々は、大規模モデル内での相対的なビュー一貫性を持つ多視点拡散プリミティブを利用する。
得られた画像集合は、大域および局所的な形状キューの両方を符号化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:55:45 GMT)
PhiNets: Brain-inspired Non-contrastive Learning Based on Temporal Prediction Hypothesis [15.7] 我々は、CA3とCA1に明示的に対応する2つの予測器を持つSimSiamの拡張であるPhiNetを提案する。
我々の研究は、時間的予測仮説がロバスト性および適応性の観点から妥当なモデルであることを明らかにしている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:51:46 GMT)
SG-GAN: Fine Stereoscopic-Aware Generation for 3D Brain Point Cloud Up-sampling from a Single Image [15.7] 高密度脳点雲を生成するために,SG-GANと呼ばれる新しいモデルを提案する。
このモデルは、視覚的品質、客観的測定、および分類における性能の点で優れた性能を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:17:56 GMT)
Correcting Deviations from Normality: A Reformulated Diffusion Model for Multi-Class Unsupervised Anomaly Detection [15.6] 本稿では,選択的領域変更を目的とした標準拡散モデルの再構成を提案する。
遅延空間における異常をノイズとしてモデル化することにより,通常の領域を保存し,異常領域の変換を促進する。
包括的評価は, 複雑な画像中の異常を正確に同定し, 位置決めする上で, 提案手法の優位性を示すものである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:14:40 GMT)
DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts [15.4] ドメイン固有のCQAベンチマークを構築するための体系的な方法論であるDomainCQAを紹介する。
天文学分野におけるCQAベンチマークであるAstroChartを開発した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:44:41 GMT)
Truck Parking Usage Prediction with Decomposed Graph Neural Networks [15.3] 貨物回廊のトラックの駐車は、不十分な駐車場の大きな課題に直面している。
正確な駐車場利用予測を提供することは、安全でない駐車慣行を減らすためのコスト効率の高いソリューションであることが示されている。
本稿では、州全体での駐車場利用を予測するために、Reg-TCN(Reg-TCN)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:24:52 GMT)
Achieving quantum advantage in a search for a violations of the Goldbach conjecture, with driven atoms in tailored potentials [15.2] ゴールドバッハ予想は、任意の自然数$N$が2ドル以上であっても、$ptext(I)$と$ptext(II)$の2つの素数の和として書けると述べている。
本稿では,問題を解く量子アナログデバイスを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:13:23 GMT)
Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation [15.2] トーキングヘッドビデオ生成は、音源画像から人物の身元と運転映像からの動作を保存したリアルなトーキングヘッドビデオを作成することを目的としている。
この分野における有望な進歩にもかかわらず、正確なポーズときめ細かい顔の細部を同時に生成することは、依然として困難かつ重要な問題である。
顔の動き条件と外観特徴の両方を効果的に洗練するために、動作と外観のコードブックを共同で学習し、マルチスケールのコードブック補償を実行することを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:48:00 GMT)
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting [15.2] 仮想現実からアーキテクチャビジュアライゼーションまで、アプリケーションには3次元のシーンインペイントが不可欠だ。
本稿では,ガウススプラッティングで表現された3次元シーンにおいて,高品質な物体の除去と穴埋めを可能にする新しい参照ベース手法であるAuraFusion360を提案する。
また,360-USIDは,地上の真実を表現した360degシーンの包括的データセットである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:21:19 GMT)
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living [15.1] 現在のLarge Language Models(LLVM)は、一般的な理解ではよく機能するが、詳細な時間的詳細には耐えられない。
この制限は、特別なADLビデオの授業調整と、モダリティ統合の欠如に起因している。
本稿では,多視点マルチモーダル RGBS 命令チューニングデータセットである ADL-X を作成した ADL データセットの半きめ細かいフレームワークを提案する。
ADLの複雑な関係をモデル化するために,ビデオ,3Dスケルトン,HOIをLLVMに統合するLLAVIDALも導入した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:54:55 GMT)
Invertible Koopman neural operator for data-driven modeling of partial differential equations [15.0] Invertible Koopman Neural Operator (IKNO)は、Koopman演算子理論とニューラル演算子にインスパイアされた、新しいデータ駆動モデリングアプローチである。
IKNOは、同じ学習可能なパラメータの下で観測可能な関数とその逆を同時にパラメータ化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:43:53 GMT)
Body Discovery of Embodied AI [14.9] ボディディスカバリー・オブ・エボダイドAI(Body Discovery of Embodied AI)は、エンボディメントを認識し、神経信号機能を要約するタスクに焦点を当てている。
この課題は、AIボディの正確な定義と、動的環境における実施を識別する複雑なタスクを含んでいる。
仮想環境を用いたアルゴリズムのテストに適したシミュレータを開発した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:21:10 GMT)
Cross-modal Information Flow in Multimodal Large Language Models [14.9] 大規模言語モデル(MLLM)における言語と視覚の異なるモーダル間の情報フローについて検討する。
2つのモダリティを統合する過程には2つの異なる段階があることが分かる。
本研究は,MLLMにおける画像および言語処理の空間的・機能的側面について,より包括的かつ包括的視点を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:59:50 GMT)
Mathematics and Machine Creativity: A Survey on Bridging Mathematics with AI [14.8] 本稿では,人工知能(AI)の数学的研究への応用について概観する。
近年のAIの発展、特に強化学習(RL)と大規模言語モデル(LLM)は、AIが数学に貢献する可能性を実証している。
この調査は、AIと数学の橋渡し、相互利益に関する洞察を提供し、より深い学際的理解を促進することを目的としている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:03:07 GMT)
Linguistic Blind Spots of Large Language Models [14.8] 言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:47:13 GMT)
DeCAP: Context-Adaptive Prompt Generation for Debiasing Zero-shot Question Answering in Large Language Models [14.7] ゼロショット質問回答(QA)におけるLarge Language Models(LLMs)の抜粋
LLMは社会的に敏感な質問に直面すると、内部知識のバイアスを露呈する傾向がある。
文脈適応型プロンプト生成を用いたLCMのデバイアス化手法であるDeCAPを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:16:35 GMT)
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [14.7] LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。
SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。
LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:04:18 GMT)
DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling [14.6] 推論中に生成した画像と人間の嗜好を調整するためのトレーニング不要アライメント手法DyMOを提案する。
テキスト認識された人間の嗜好スコアとは別に、拡散の初期における意味的アライメントを強化する意味的アライメントの目的を導入する。
種々の事前学習拡散モデルとメトリクスを用いた実験は,提案手法の有効性とロバスト性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:53:39 GMT)
LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text [14.5] 本研究は、長文処理における技術的ボトルネックと、短文情報の不足に起因する「幻覚」の問題に対処する。
本稿では,新しい視覚言語基盤モデル LRSCLIP とマルチモーダルデータセット LRS2M を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:17:42 GMT)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.4] 本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:34:06 GMT)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey [14.4] パラメータ効率のよい微調整(PEFT)を研究中
PEFTは最小パラメータ修正による完全微調整の性能を上回ることを目指している。
本調査は視覚的PEFTの総合的概要と今後の方向性を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:37:33 GMT)
Interpretable Generative Models through Post-hoc Concept Bottlenecks [14.1] 概念ボトルネックモデル(CBM)は、人間の理解可能な概念を予測に頼って本質的に解釈可能なモデルを作成することを目的としている。
既存のCBMに基づく解釈可能な生成モデルの設計には、スクラッチからの高価な生成モデルトレーニングと、労働集約的な概念監督を伴う実際のイメージが必要である。
本稿では,ポストホック手法を用いて解釈可能な生成モデルを構築するための,新しい2つの手法と低コスト手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:09:51 GMT)
BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.1] ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:05:39 GMT)
MultimodalStudio: A Heterogeneous Sensor Dataset and Framework for Neural Rendering across Multiple Imaging Modalities [14.0] 我々は,MMS-FWが単一のモダリティのみを使用する場合よりも,異なるモダリティ間で情報を転送し,高品質なレンダリングを実現できることを示す。
我々はデータセットとフレームワークを公開し、マルチモーダルボリュームレンダリングなどの研究を促進する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:00:11 GMT)
Magic teleportation with generalized lattice surgery [14.0] 本稿では,非クリフォード論理レベルゲートの耐故障性実装のための新しい蒸留フリースキームを提案する。
具体的には、非クリフォードゲートは1つのQECコード上で実行され、論理レベルの関節測定によってメイン回路にテレポートされる。
従来のマジックステート蒸留(MSD)とゲートテレポーテーションを組み合わせて行うのとは対照的に,本手法では蒸留と論理量子ビットを分離する必要がない。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:21:01 GMT)
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning [13.6] Instruct-CLIPは、オリジナルの画像と編集された画像間のセマンティックな変化を学習し、既存のデータセットの命令を洗練し、より良く調整する自己教師型手法である。
Instruct-CLIPを使用して、InstructPix2Pixデータセットを修正し、120K以上の洗練されたサンプルを取得して、モデルを微調整します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:30:02 GMT)
NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary [13.5] 敵攻撃は、敵のサンプルに対するディープモデルの脆弱性を悪用する。
既存のポイントクラウド攻撃者は特定のモデルに合わせて調整され、ホワイトボックスまたはブラックボックスの設定の勾配に基づいた摂動を反復的に最適化する。
我々は、ポイントクラウド攻撃のためのデータ多様体の固有の特異境界を特定するために最適な輸送(OT)を利用するNoPainを紹介する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:17:19 GMT)
On Diffusion Modeling for Anomaly Detection [13.3] 拡散モデルは密度に基づく異常検出の魅力的な候補である。
本研究では,拡散に基づく異常検出手法が,半教師付き設定と教師なし設定の両方で競合的に動作することを示す。
これらの結果は拡散に基づく異常検出を従来の方法に代わるスケーラブルな代替手段として確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:01:44 GMT)
A Probabilistic Neuro-symbolic Layer for Algebraic Constraint Satisfaction [13.2] 安全クリティカルなアプリケーションでは、線形連続環境の制約の満足度が不可欠である。
非連結制約の満足度を保証する様々な近似を導入する。
この定式化は記号積分による効率的かつ正確な再正規化を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:58:04 GMT)
TARDIS: Mitigating Temporal Misalignment via Representation Steering [13.2] 言語モデルは、時間的ミスアライメント、データの時間的分布の変化によるパフォーマンス劣化にしばしば苦労する。
本稿では,この課題に対処する教師なし表現編集手法であるTARDISを提案する。
実験の結果,TARDISは微調整を必要とせず,下流タスク性能を向上させることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:09:27 GMT)
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals [13.2] 動画中の動きを推定することは、多くのダウンストリームアプリケーションにおいて重要なコンピュータビジョン問題である。
我々は,事前学習した次フレーム予測モデルから,フローとオクルージョンの自己教師技術であるOps-CWMを開発した。
我々は,ラベル付きデータを必要とせず,実世界の動画における動き推定の最先端性能を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:58:52 GMT)
Optimization of MedSAM model based on bounding box adaptive perturbation algorithm [13.2] MedSAMモデルは、一般化可能なトレーニングを通じて医療画像のセグメンテーションを強化する。
トレーニング中の摂動ウィンドウ設定の制約により、MedSAMは誤って小さな組織や臓器を分割する。
提案手法は,小さなターゲットに対するセグメンテーション誤差の低減と,削減されたバウンディングボックスプロンプトを処理する際のモデルの精度の向上を目的としている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:27:54 GMT)
Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.0] 本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:54:31 GMT)
Understanding and Characterizing Mock Assertions in Unit Tests [13.0] その重要性にもかかわらず、モックアサーションは自動テスト生成技術ではめったに考慮されない。
11の人気のあるJavaプロジェクトの4,652のテストケースを分析してみると、特定のメソッド呼び出しの検証にモックアサーションが主に適用されていることが分かります。
モックアサーションは従来のテストアサーションを補完し、望ましい副作用が生成されることを保証します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:35:05 GMT)
CSCO: Connectivity Search of Convolutional Operators [12.9] 本稿では,畳み込み演算子の効率的な接続を実現する新しいパラダイムであるCSCOを提案する。
CSCOは、ニューラルネットワークによる探索を、地道的なパフォーマンスの代理として導く。
ImageNetの結果、手作りとNAS造の高密度接続よりもパフォーマンスが0.6%向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:12:57 GMT)
Multi-agent Application System in Office Collaboration Scenarios [12.9] 本稿では,オフィスコラボレーションの効率化と作業品質向上を目的としたマルチエージェントアプリケーションシステムを提案する。
このシステムは人工知能、機械学習、自然言語処理技術を統合し、タスク割り当て、進捗監視、情報共有などの機能を達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:07:20 GMT)
Federated Causal Inference: Multi-Study ATE Estimation beyond Meta-Analysis [12.9] 我々は、中央に分散したデータから治療効果を推定するフェデレート因果推論(Federated Causal Inference)について検討する。
プラグインG-Formulaから得られた平均治療効果(ATE)推定器の3つのクラスを比較した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:18:33 GMT)
Swift Hydra: Self-Reinforcing Generative Framework for Anomaly Detection with Multiple Mamba Models [12.9] 本稿では、生成AIと強化学習(RL)に基づく異常検出手法をトレーニングする新しいフレームワークであるSwift Hydraを紹介する。
このフレームワークは、生成モデルの潜伏変数で動作するRLポリシーを特徴とし、検出モデルをバイパスできる新規で多様な異常サンプルを合成する。
Swift Hydraには、Mixture of Experts(MoE)として構造化されたMambaモデルも組み込まれている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:53:03 GMT)
FIPER: Generalizable Factorized Features for Robust Low-Level Vision Models [12.8] 低レベル視覚タスクに統一表現(Factized Features)を用いることを提案する。
これらのタスク間の共通原則によって動機付けられ、細かい画像の詳細を復元し保存する必要がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:48:35 GMT)
Adaptive Weighted Parameter Fusion with CLIP for Class-Incremental Learning [12.7] クラス増分学習により、モデルは新しいクラスからの知識を漸進的に吸収することができる。
モデルが新しいクラスで最適化されると、前のクラスの知識は必然的に消去され、破滅的な忘れ去られる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:51:04 GMT)
VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs [12.6] 本稿では,大規模言語モデルによる非伝統的なスタイリング画像の解釈能力を評価するために設計された,新しい画像データセットであるVisualQuestを紹介する。
従来の写真ベンチマークとは異なり、VisualQuestは抽象的、象徴的、比喩的な要素を含むイメージでモデルに挑戦する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:23:11 GMT)
Recover from Horcrux: A Spectrogram Augmentation Method for Cardiac Feature Monitoring from Radar Signal Components [12.6] 本研究は,レーダーを用いた心機能モニタリングのための分光法であるHorcruxを提案する。
提案手法は入力サンプルの多様性を高めるために設計され, 拡張スペクトルは依然として元の基底真理に忠実である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:40:05 GMT)
Context-Efficient Retrieval with Factual Decomposition [12.6] 外部コーパスを半構造化した「原子事実」に前処理することで、検索がより効率的になることを示す。
より具体的には、検索されたテキストの量が限られている場合に、我々の特定の形態の原子事実が様々な質問応答タスクのパフォーマンスを向上させることを実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:48:22 GMT)
Structured and sparse partial least squares coherence for multivariate cortico-muscular analysis [12.6] 本研究では,大脳皮質と筋肉の相互作用に関連する空間の共有表現を抽出するために,構造化された,スパースな最小二乗コヒーレンスアルゴリズム(ssPLSC)を提案する。
ssPLSCは, 代表的な皮質筋融合法と比較して, 競争力や性能が向上することを示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:56:11 GMT)
Continual Learning With Quasi-Newton Methods [12.6] ニューラルネットワークがタスクを逐次学習する場合、破滅的な忘れは依然として大きな課題だ。
EWCは、ベイズにインスパイアされた正規化損失を導入して、以前に学習したタスクの知識を保存することでこの問題に対処しようとしている。
EWCは、非相関モデルパラメータを仮定して、ヘッセンをフィッシャー情報行列の対角線に単純化するラプラス近似に依存する。
我々は,より正確なヘッセン近似を計算するために,疑似ニュートン法を利用するSmpled Quasi-Newton (CSQN) を用いた連続学習を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:45:59 GMT)
TUNI: A Textual Unimodal Detector for Identity Inference in CLIP Models [12.5] CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
画像を適用することで、ターゲットモデルに個人情報を公開するリスクが生じる可能性がある。
本稿では,CLIPモデルにおけるテキスト・ユニモーダル・ディテクター(TUNI)を提案する。1)テキストデータのみを使用してターゲットモデルに問い合わせること,2)シャドウモデルをトレーニングする必要がなくなること,である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:47:37 GMT)
SLIP: Spoof-Aware One-Class Face Anti-Spoofing with Language Image Pretraining [12.1] Face Anti-Spoofing (FAS) は、顔認識システムのセキュリティと信頼性を確保する上で重要な役割を担っている。
一流のFASは、生の訓練画像のみから本質的な生活特徴を学習し、生の顔と生の顔を区別することに焦点を当てている。
本稿では,Language Image Pretraining (SLIP) を用いた一級顔アンチスプーフィングという新しいフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:09:06 GMT)
Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation [12.1] ファインチューニングに基づく概念消去は,テキスト・画像拡散モデルから有害なコンテンツの発生を防止する上で有望な結果を示した。
画像中の対象概念を含む特定領域のみを削除可能な,局所的概念消去というフレームワークを導入する。
本稿では,Gated Low-rank adaptation for Concept Erasure (GLoCE) と呼ばれる,軽量モジュールを拡散モデルに注入する学習自由アプローチを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:29:45 GMT)
AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.1] テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:43:16 GMT)
SoK: Decoding the Enigma of Encrypted Network Traffic Classifiers [12.0] TLS 1.3のような現代の暗号化プロトコルは、従来のネットワークトラフィック分類(NTC)手法に挑戦している。
本稿では,MLに基づくNTC研究を包括的に分析し,その設計選択の分類とベンチマークスイートを開発する。
時代遅れのデータセット、設計選択の監視、そして根拠のない仮定の結果に広く依存していることを示します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:15:50 GMT)
Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior [12.0] Dichotomous Image (DIS)は、高解像度の自然画像のための高精度な物体分割タスクである。
我々は,高精度2コトマ画像分割のための新しいPatch-Depth Fusion Network (PDFNet) を設計した。
PDFNetは最先端の非拡散法を大きく上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:04:29 GMT)
POp-GS: Next Best View in 3D-Gaussian Splatting with P-Optimality [12.0] 3D-GSは高品質な計算で有用な世界モデルであることが証明されているが、不確実性や情報の定量化には至っていない。
最適な実験設計のレンズを用いて問題を修正し、3D-GSにおける情報ゲインの定量化を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:08:49 GMT)
StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation [12.0] StarGenは、トレーニング済みのビデオ拡散モデルを長距離シーン生成のために自動回帰的に利用するフレームワークである。
各ビデオクリップの生成は、隣接する画像の3Dワープと、以前に生成されたクリップから時間的に重なる画像とに条件付けされる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:53:10 GMT)
Wavelet-based Global-Local Interaction Network with Cross-Attention for Multi-View Diabetic Retinopathy Detection [12.0] 本稿では,難病情報学習の課題を克服し,多視点融合の不十分さを克服する新しい手法を提案する。
具体的には,局所的な病変の特徴とグローバルな依存関係を両立する2分岐ネットワークを提案する。
マルチビュー融合を改善し,冗長性を低減するために,クロスビュー融合モジュールを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:44:57 GMT)
Timelike entanglement entropy in QFT and $F$-theorem [12.0] この厳密に定義された時間的な絡み合いエントロピーは、時間的な管の定理により実数値化される。
F$-定理の簡単な証明は、この時間のような絡み合いエントロピーの強い部分加法的不等式によって与えられる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:27:36 GMT)
GIViC: Generative Implicit Video Compression [11.9] Implicit Video Compression (GIViC) は、INRが長期依存の活用において大きな言語拡散モデルと共通する特徴に着想を得ている。
Gene Gated Linear Attention-based transformer (HGLA) もこのフレームワークに統合され、グローバルな依存性モデリングを二要素化している。
私たちが知っている限りでは、GIViCはVTMのコーディング構成を上回った最初のINRベースのビデオです。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:39:45 GMT)
A Universal Model Combining Differential Equations and Neural Networks for Ball Trajectory Prediction [11.9] 既存の方法は特定のボールタイプのために設計されており、一般化に苦慮している。
本稿では,物理方程式と統合されたデータ駆動型ユニバーサル球軌道予測法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:50:57 GMT)
IPCGRL: Language-Instructed Reinforcement Learning for Procedural Level Generation [11.7] IPCGRLは、強化学習による指示に基づく手続き的コンテンツ生成手法である。
IPCGRL ゲームレベル条件を効果的に圧縮するためのタスク固有の埋め込み表現。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:48:16 GMT)
Long-range Meta-path Search on Large-scale Heterogeneous Graphs [11.5] プログレッシブサンプリング(LMSPS)による長距離メタパス探索(Long-range Meta-path Search)と呼ばれる,異種グラフへの長距離依存を利用した自動フレームワークを提案する。
サンプリング評価戦略により、LMSPSは特殊かつ効果的なメタパス選択を行い、効果的なメタパスのみを用いて再訓練し、コストと過度なスムーシングを緩和する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:19:16 GMT)
Ambient Noise Full Waveform Inversion with Neural Operators [11.4] 近年の研究では、ニューラル演算子と呼ばれる新しい機械学習モデルが、従来の方法よりもはるかに高速にエラストダイナミック波動方程式のオーダーを解くことができることが示されている。
実地震データに対する完全な波形インバージョンに対するニューラル演算子の最初の応用を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:50:39 GMT)
Hyperdimensional Uncertainty Quantification for Multimodal Uncertainty Fusion in Autonomous Vehicles Perception [11.3] 不確実性定量化(UQ)は、現実の自律システムにデプロイされた機械学習モデルの信頼性を保証するために不可欠である。
超次元計算を利用して特徴レベルの不確実性を効率的に定量化する新しい決定論的不確実性法であるHyperDUMを提案する。
評価の結果,HyperDUMは3Dオブジェクト検出において平均21%/1.27%,セマンティックセグメンテーションタスクでは1.29%,最先端(SOTA)アルゴリズムでは最大21%/1.27%向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:55:00 GMT)
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge [11.3] 本稿では, CPU 上での低ビット LLM (ウェイト量子化 LLM) 推論を効率的に行う革新的なルックアップテーブル T-MAC を提案する。
T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。
低ビットLlamaモデルとBitNetモデルで評価したところ、T-MACはスループットを最大4倍に向上し、エネルギー消費を70%削減した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:27:16 GMT)
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation [11.3] CausalRAGは因果グラフを検索プロセスに組み込む新しいフレームワークである。
因果関係の構築と追跡により、CausalRAGは文脈連続性を保ち、検索精度を向上させる。
本研究は,因果推論における接地探索が,知識集約型タスクに有望なアプローチをもたらすことを示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:43:08 GMT)
Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation [11.1] 本研究では,精度の高いオブジェクトセグメンテーションに向けてSegment Anything Model(SAM)を前進させるdis-SAMを提案する。
DIS-SAMは2段階のアプローチを採用しており、以前はプロンプトフリーのdisタスクを扱うように設計されていた改良されたアドバンストネットワークとSAMを統合している。
DIS-SAMは単純さにもかかわらずSAM、HQ-SAM、Pi-SAMを8.5%、最大で6.9%、最大で3.7%向上させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:24:08 GMT)
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models [11.1] RGB-Th-Benchは、視覚言語モデル(VLM)によるRGB-熱画像ペアの理解能力を評価するために設計された最初のベンチマークである。
我々は、19の最先端VLMに対して広範囲な評価を行い、RGB-サーマル理解における大きな性能差を明らかにした。
以上の結果から, 最強モデルでさえ熱画像の理解に苦慮し, 性能はRGBベースの能力に強く制約されていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:43:47 GMT)
FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling [10.8] FuXi-RTMは物理誘導型ディープラーニングフレームワークで、物理的な一貫性を保ちながら天気予報精度を向上させる。
FuXi-RTM は一次予測モデル (FuXi) と固定深層学習に基づく放射移動モデル (DLRTM) を統合する。
5年間のデータセットで評価され、FuXi-RTMは3320変数とリードタイムの組み合わせの88.51%で非制約のデータセットを上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:21:58 GMT)
Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition [10.7] Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。
本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:46:00 GMT)
Tracing Content Requirements in Financial Documents using Multi-granularity Text Analysis [10.7] 金融文書の完全性(内容的には)は投資資金の基本的要件である。
複数粒度テキスト分析による財務文書のコンテンツ要求をトレースするFITIを提案する。
FITIは、それぞれ0.824、0.646、0.716の平均精度、リコール、F1スコアの正確な識別を提供することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:42:17 GMT)
Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation [10.7] 現実世界の視覚的関係はしばしば長い尾の分布を示し、既存の手法がバイアスのあるシーングラフを生成する。
損失マスキングとカリキュラム学習を利用してバイアス発生を緩和する新しいトレーニングフレームワークであるImparを提案する。
我々のカリキュラムによるマスク生成戦略は、バイアス緩和戦略を時間とともに適応的に調整し、よりバランスよく堅牢な推定を可能にします。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:19:43 GMT)
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6] 音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。
MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。
実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:51:21 GMT)
On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events [10.6] イベントカメラは、ミリワットの電力のみに対して低遅延の知覚を提供する。
コントラストに基づく自己教師型学習は、イベントベースのロボットビジョンに大きな可能性を秘めている。
オンライン学習は、リアルタイム学習に十分な計算効率を達成するという課題を提起する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:43:50 GMT)
Data-Driven, ML-assisted Approaches to Problem Well-Posedness [10.5] 本稿では, 機械・多様体学習の標準ツールを用いて, 差分方程式問題に対して, データ駆動型, 特定の正当性特徴を推定する方法について述べる。
本研究は,データ同化の観点と演算子学習の視点を自然に組み合わせたものである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:34:48 GMT)
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing [10.5] 本稿では,事前学習した流れモデルに対する推論時間スケーリング手法を提案する。
本稿では,SDE に基づく生成,特に分散保存型 (VP) 補間型 (VP) 生成は,フローモデルにおける推論時間スケーリングのための粒子サンプリング法を改善することを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:30:45 GMT)
Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models [10.5] サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:33:15 GMT)
EBS-EKF: Accurate and High Frequency Event-based Star Tracking [10.3] EBS回路の解析と拡張カルマンフィルタ(EKF)に基づくイベントベーススタートラッキングの新しいアルゴリズムを提案する。
本手法を実夜空データを用いて定量的に評価し,宇宙対応能動画素センサ(APS)の観測結果と比較した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:44:50 GMT)
AI Safety in the Eyes of the Downstream Developer: A First Look at Concerns, Practices, and Challenges [10.3] 事前トレーニングされたモデル(PTM)は、AIベースのソフトウェアの基礎となり、最小限のトレーニングオーバーヘッドで、迅速な統合と開発を可能にする。
本研究では,AIベースのソフトウェア開発におけるAI安全性問題に対する開発者の懸念,プラクティス,認識する課題について検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:35:30 GMT)
GCC: Generative Color Constancy via Diffusing a Color Checker [10.3] 本稿では,カラーチェッカーをカラーチェッカーに塗布した拡散モデルを用いて照明推定を行うGCCを提案する。
主なイノベーションは,(1)シーン照明を反映したカラーチェッカーを描画する単一ステップ決定論的推論手法,(2)照明に依存したカラー適応を許容しつつ構造を保存するラプラシアン分解手法,(3)カラーチェッカーアノテーションを扱うためのマスクベースのデータ拡張戦略である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:17:47 GMT)
PAVE: Patching and Adapting Video Large Language Models [10.3] 本稿では,事前学習したビデオLLMを,サイドチャネル信号を用いた下流タスクに適用するためのフレキシブルなフレームワークPAVEを提案する。
PAVEは"パッチ"と呼ばれる軽量アダプタを導入し、少数のパラメータと操作をベースモデルに追加する。
PAVEは、最先端のタスク特化モデルを上回る、ベースモデルの性能を大幅に向上させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:02:37 GMT)
Social Network User Profiling for Anomaly Detection Based on Graph Neural Networks [10.2] 本研究では,グラフニューラルネットワーク(GNN)を用いたソーシャルネットワークユーザ画像のリスク価格異常検出手法を提案する。
ソーシャルネットワークデータモデリングにおける従来の手法の限界を考えると、グラフオートエンコーダ(GAE)とグラフアテンションネットワーク(GAT)を組み合わせる。
その結果,提案手法は,AUC,F1スコア,精度,リコールにおいて最高の性能を達成し,その有効性を検証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:16:17 GMT)
Efficient Model Development through Fine-tuning Transfer [10.2] 本稿では,モデルバージョン間の微調整更新の転送について検討する。
差分ベクトルの転送はターゲットベースモデルを大幅に改善できることを示す。
多言語モデル開発環境において,本手法は再学習を伴わずに性能を著しく向上させることができることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:24:43 GMT)
Splitting Answer Set Programs with respect to Intensionality Statements (Extended Version) [10.2] 論理プログラムを分割することで、安定なモデルの計算タスクを、そのサブプログラムに類似したタスクに短縮することができる。
本手法が適用可能な条件は,述語間の依存関係だけでなく,その引数や文脈も考慮して一般化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:27:05 GMT)
DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data [10.0] 我々は、訓練軌跡を異なるタスクステージに分離するフレームワークであるDataPlatter法を紹介した。
本研究では,ロボット操作におけるパフォーマンス触媒として,SRPデータの追加によるサブタスク特化トレーニングが有効であることを示す。
実験により,PIPデータにコスト効率の高いSRPトラジェクトリを多数導入することにより,ゼロショットシーンにおける成功率を最大41%向上させることができることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:11:06 GMT)
Learning to segment anatomy and lesions from disparately labeled sources in brain MRI [10.0] 本稿では,病変による破壊に対して頑健で,異なるラベル付きトレーニングセットからトレーニングできる手法を提案する。
本モデルでは,脳芽細胞腫データセットを用いて,いくつかの解剖学的構造と病変を改良した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:52:26 GMT)
Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing [10.0] 把握された物体の正確な3Dポーズ推定は、ロボットが組み立てや手動操作を行うための重要な前提条件である。
本稿では,視覚情報とプロバイオセプションを2値の低解像度触覚接触測定と組み合わせることで,この問題を軽減することを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:53:53 GMT)
Unleashed from Constrained Optimization: Quantum Computing for Quantum Chemistry Employing Generator Coordinate Inspired Method [10.0] 単位結合クラスタ励起発生器のプールから多体基底集合を強固に構築する適応型スキームを導入する。
このスキームは階層型ADAPT量子古典戦略の開発をサポートし、サブスペース展開とアンサッツ最適化のバランスの取れた相互作用を可能にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:43:57 GMT)
StableGS: A Floater-Free Framework for 3D Gaussian Splatting [9.9] クロスビュー奥行きの整合性制約によってフローターを除去するフレームワークであるStableGSを紹介する。
また、半透明な形状と物体の材料特性を分離する双対オパシティGSモデルも導入する。
提案手法は3DGSトレーニングの不安定性に基本的に対処し,既存の最先端の手法をオープンソースデータセットで上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:48:12 GMT)
From Interpretation to Correction: A Decentralized Optimization Framework for Exact Convergence in Federated Learning [9.9] この研究は、任意のクライアント参加とデータの異質性によって引き起こされるバイアスを修正するための、新しい分散フレームワークを導入している。
我々は、任意の参加とデータ不均一性がFedAvgの収束点に与える影響を定量化するための簡潔な分析を提供することができる。
この洞察は、Push-pull Strategy (FOCUS)による厳密な収束を伴うフェデレーション最適化の開発を動機付けている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:54:23 GMT)
Hardware-Friendly Static Quantization Method for Video Diffusion Transformers [9.9] ビデオ生成用拡散変換器は,SORAの高性能化以来,大きな研究関心を集めている。
リソース制約のあるデバイスは動的量子化をサポートできず、AIプロセッサへの効率的なデプロイにはモデルの静的量子化が必要である。
本稿では,動的量子化技術に頼ることなく,ビデオ拡散変換器OpenSoraciteopensoraの学習後量子化手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:17:19 GMT)
Non-autoregressive Generative Models for Reranking Recommendation [9.9] 推薦システムでは、項目間のリスト内相関をモデル化することで、リランクが重要な役割を果たす。
本研究では, 効率と効率性を高めるために, 提案するレコメンデーション(NAR4Rec)の再評価のための非自己回帰生成モデルを提案する。
NAR4Recは、毎日3億人のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:54:01 GMT)
Aberration Correcting Vision Transformers for High-Fidelity Metalens Imaging [9.6] メタレンス(Metalens)は、超薄型でコンパクトなサイズで製造できる新しい光学系である。
それまでの芸術は様々な種類の収差に対処しようと試みてきたが、そのほとんどは伝統的なかさばるレンズのために設計されている。
非一様収差でメタエンス像を復元する可能性を秘めた視覚変換器(ViT)を用いたメタエンスキャプチャ画像の収差補正フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:29:55 GMT)
BADGR: Bundle Adjustment Diffusion Conditioned by GRadients for Wide-Baseline Floor Plan Reconstruction [9.5] BADGRはリコンストラクションとバンドル調整(BA)を共同で行う新しい拡散モデルである
BadGRは単一ステップのLeeenberg Marquardt(LM)からの高密度遠心率出力に条件付けされる
実験と解析により提案手法の有効性を検証し,入力密度の異なる現状のポーズとフロアプランのレイアウトを著しく上回る結果を得た。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:15:20 GMT)
Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion [9.3] 我々は,多種多様な専門家のアプローチにより,高効率で堅牢なLiDARカメラ3Dオブジェクト検出器であるMoMEを導入し,堅牢な性能を実現する。
カメラ機能,LiDAR機能,あるいはそれらを組み合わせてオブジェクトクエリをデコードする3つの並列専門家デコーダを使って,MoMEはモダリティ依存関係を完全に分離する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:46:18 GMT)
Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization [9.2] 学習可能な画像圧縮は、RD効率で標準化されたビデオコーデックを上回る可能性を示している。
既存のハードウェア実装の多くは、RD効率に遅延を優先順位付けし、ハードウェア設計空間を広範囲に調査している。
本稿では,RD効率を損なうことなく,特定のハードウェアプラットフォームの設計の調整の負担をモデル次元にシフトする,新しい設計パラダイムを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:08:09 GMT)
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.2] 確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。
DMを効率的に調整する方法は重要な課題である。
本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:35:02 GMT)
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.1] DiffIR2VR-Zeroは、任意の事前訓練された画像復元モデルで、追加のトレーニングなしで高品質な映像復元を行うことができるゼロショットフレームワークである。
我々のフレームワークは、任意の画像復元拡散モデルで動作し、タスク固有のトレーニングや修正なしに、映像強調のための汎用的なソリューションを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:35:12 GMT)
Multi-Object Sketch Animation by Scene Decomposition and Motion Planning [9.1] MoSketchは、マルチオブジェクトのスケッチアニメーションへの先駆的な一歩を踏み出し、将来の研究と応用のための新たな道を開く。
単一対象から多対象スケッチアニメーションへ移行する2つの課題を要約する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:00:11 GMT)
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models [9.1] 本研究では,事前学習した2次元拡散モデルから合成した3次元サンプルを利用して,オブジェクト対間の空間的関係を学習する手法を提案する。
われわれのアプローチは、プラプシブルなOORキューをキャプチャする多様な画像を合成して始まり、それを3Dサンプルにアップリフトする。
我々は、ペアワイズOORを多目的OORに拡張し、ペアワイズ関係間の一貫性を強制し、オブジェクト衝突を防止する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:58 GMT)
LVFace: Progressive Cluster Optimization for Large Vision Models in Face Recognition [9.1] 視覚変換器(ViT)は大規模な視覚モデリングに革命をもたらしたが、依然としてCNNが支配的である顔認識(FR)では未探索のままである。
より優れた結果を得るために,プログレッシブクラスタ最適化(PCO)を統合したVTベースのFRモデルであるLVFaceを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:43:57 GMT)
NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios [8.9] オフライン強化学習は、環境へのアクセスを(コスト的に)必要とせずに、歴史的なデータから学習することを目的としている。
このベンチマークは、7つのシミュレートされたタスクから7つのデータセットと、対応する評価シミュレータで構成されている。
我々はNeoRL-2が現実世界のアプリケーションのための強化学習アルゴリズムの開発を加速することを期待している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:01:54 GMT)
Adaptive Wavelet Filters as Practical Texture Feature Amplifiers for Parkinson's Disease Screening in OCT [8.9] パーキンソン病(英: Parkinson's disease、PD)は、世界的な神経変性疾患である。
近年の研究では、網膜層から抽出したテクスチャの特徴がPD診断のバイオマーカーとして採用されていることが示唆されている。
本稿では,実用的なテクスチャ特徴増幅器として機能する適応ウェーブレットフィルタ(AWF)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:47:24 GMT)
Exploring Cultural Nuances in Emotion Perception Across 15 African Languages [8.9] アフリカ15言語における感情表現の言語間比較分析
感情表現の4つの重要な側面として,テキスト長,感情極性,感情共起,強度変動について検討した。
ナイジェリアの言語では、IsiXhosaのような言語では、ネガティブな感情の頻度が低いのに対し、ネガティブな感情の頻度は低い。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:30:03 GMT)
Explaining Deep Convolutional Neural Networks for Image Classification by Evolving Local Interpretable Model-agnostic Explanations [8.7] 提案手法はモデルに依存しない、すなわち、深い畳み込みニューラルネットワークモデルを説明するために利用することができる。
ImageNetからランダムに選択された4つの画像の進化した局所的説明を示す。
提案手法は,LIMEの10倍以上高速な局所的な説明を1分以内で得ることができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:52:14 GMT)
Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations [8.7] 本稿では,破壊的洞察の形成における手法の組み合わせの役割を強調する構造的アプローチを提案する。
歴史的に破壊的な手法の組み合わせを区別する特徴を識別するための、対照的な学習に基づくメカニズムを導入する。
第2に,LLMのチェーン・オブ・シント機能を活用して有望な知識再結合を同定する推論誘導モンテカルロ探索アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:21:15 GMT)
Towards Long-Range ENSO Prediction with an Explainable Deep Learning Model [8.6] El Nino-Southern Oscillation (ENSO) は、年々の気候変動の顕著なモードであり、地球規模での影響が大きい。
我々は、畳み込みニューラルネットワークとトランスフォーマーを相乗化してENSO予測を強化する多変量ディープラーニングモデルであるCTEFNetを紹介する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:50:19 GMT)
Adaptive Multi-Order Graph Regularized NMF with Dual Sparsity for Hyperspectral Unmixing [8.4] 3つの特徴を持つ適応多階グラフ正規化NMF法(MOGNMF)を提案する。
シミュレーションおよび実超スペクトルデータを用いた実験は,提案手法がより良い混合結果をもたらすことを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:44:02 GMT)
Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning [8.4] ゼロショット分類(ZSC)は、モデルがトレーニング中に見えないカテゴリに分類できるようにするために欠かせないものとなっている。
我々は,言語間ZSCを強化するソフトプロンプトを訓練するための軽量でデータ効率のよいアプローチであるRoSPromptを紹介する。
我々は,106言語をカバーする多言語 PLM に対するアプローチを評価し,強い言語間転送性能と堅牢な一般化能力を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:00:25 GMT)
RCC-PFL: Robust Client Clustering under Noisy Labels in Personalized Federated Learning [8.4] 本稿では,RCC-PFLというラベルに依存しない類似性に基づくクラスタリングアルゴリズムを提案する。
平均精度と分散低減率で複数のベースラインを上回っていることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:50:54 GMT)
High-Quality Spatial Reconstruction and Orthoimage Generation Using Efficient 2D Gaussian Splatting [8.3] 本研究は、True Digital Orthophoto Maps(TDOM)のための2DGS(2DGS)に根ざした代替手法を提案する。
ディバイド・アンド・コンカ戦略は、リソースコストの低い高解像度のTDOMによる優れたGSトレーニングとレンダリングを実現する。
大規模景観復元と高精度地形モデリングの効率性を示す実験結果が得られた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:30:37 GMT)
USBSnoop -- Revealing Device Activities via USB Congestions [8.2] このプロジェクトは、混雑によるUSBサイドチャネルアタックに革新的なアプローチを導入している。
遠隔プロファイリングおよびサイドチャネル攻撃に対するUSBデバイスとハブの感受性を評価した。
われわれの調査結果は、USB接続デバイスに依存している時代において、ユーザーのプライバシーを保護するためのセキュリティ対策を強化する必要性を浮き彫りにした。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:22:49 GMT)
How to optimize K-means? [8.2] センターベースのクラスタリングアルゴリズム(例えばK平均)はクラスタリングタスクに人気があるが、通常は複雑なデータセットで高い精度を達成するのに苦労する。
主な理由は、従来のセンターベースのクラスタリングアルゴリズムが、クラスタ内のクラスタリングセンターを1つだけ特定しているからです。
そこで本研究では,ECACと呼ばれる汎用最適化手法を提案し,異なる中心型クラスタリングアルゴリズムを最適化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:37:52 GMT)
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs [8.2] 我々の新しいビデオエージェントFALCONEyeは、VLMとLarge Language Model(LLM)を組み合わせて、ビデオ上の関連情報を検索し、そのフレームを答えとともに見つけ出す。
実験の結果,FALCONEye は FALCON-Bench の最先端技術よりも優れた性能を示し,関連するベンチマークでは類似あるいは良好な性能を示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:17:19 GMT)
Dissecting CLIP: Decomposition with a Schur Complement-based Approach [8.1] テキスト・ツー・イメージ・モデルの本質的な多様性を定量化し,解釈するために,CLIP埋め込みの応用を拡張した。
画像のCLIP埋め込みにおいて、与えられたプロンプトの影響を無効化するために、Schur補数に基づく分解を用いることを実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:52:53 GMT)
Can Vision-Language Models Answer Face to Face Questions in the Real-World? [8.0] Qualcomm Interactive Video dataset (IVD) という新しいデータセットとベンチマークを導入する。
このデータセットは単純な質問回答設定に基づいており、ユーザーはカメラとオーディオ入力に基づいて、システムがリアルタイムで答えなければならない質問を行う。
既存のモデルがこのタスクにおいて人間のパフォーマンスよりもはるかに遅れていることを示し、パフォーマンスギャップの主な原因を特定する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:13:12 GMT)
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities [8.0] 我々は,エゴセントリックな視点の相補的な性質を活用し,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的としている。
このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。
合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,我々はドメイン・ア・ブートストラップ付きego2exogstic戦略を開発した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:08 GMT)
Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.9] RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。
提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。
実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:56:21 GMT)
Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning [7.8] モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。
自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:43:35 GMT)
LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment [7.8] 本稿では,LANGALIGNを提案する。LANGALIGNは,英語の埋め込みベクトルを対象言語と整列させることにより,対象言語処理を強化する。
韓国語、日本語、中国語に関する実験は、LANGALIGNが3つの言語全てで性能を著しく向上させることを示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:15:05 GMT)
Hierarchical Contextual Manifold Alignment for Structuring Latent Representations in Large Language Models [7.8] 潜在トークン表現の組織化は、言語モデルの安定性、一般化、文脈整合性を決定する上で重要な役割を果たす。
コアモデル重みを変化させることなくトークン埋め込みに階層的アライメント手法を導入した。
実験により, 希少なトークン検索, 逆方向, 長距離依存性追跡の改善が示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:13:51 GMT)
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes [7.6] 本稿では,3次元ガウス散乱(3DGS)と物理ベースレンダリング(PBR)と変形場を組み合わせた動的特異シーンの再構成手法を提案する。
フォトリアリスティック・リアルワールド・ダイナミック・スペキュラ・シーンを合成できる3DGS法は、現存する唯一のものである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:10:41 GMT)
Bigger But Not Better: Small Neural Language Models Outperform Large Language Models in Detection of Thought Disorder [7.6] より小さなニューラルネットワークモデルが正の形式的思考障害の検出に有効な選択肢となるかどうかを検討する。
意外なことに,本研究の結果は,より小さなモデルの方が,形式的思考障害に関連する言語的差異に敏感であることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:55:58 GMT)
On-Chain Analysis of Smart Contract Dependency Risks on Ethereum [7.6] 私たちは2024年12月までに4100万以上の契約と1100億のインタラクションを分析します。
私たちの結果は4つの重要な洞察をもたらします。
私たちの仕事は、スマートコントラクト依存関係のリスクを理解するための、初めての大規模な基盤を提供します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:02:08 GMT)
No Black Box Anymore: Demystifying Clinical Predictive Modeling with Temporal-Feature Cross Attention Mechanism [7.5] TFCAM(Temporal-Feature Cross Attention Mechanism)は、臨床機能間の動的相互作用を時間をかけて捉えるための新しいディープラーニングフレームワークである。
慢性腎臓病の1,422人を対象に行った実験では、TFCAMはLSTMおよびRETAINベースラインに優れ、AUROCは0.95、F1スコアは0.69であった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:35:08 GMT)
Quantum speed limits in dephasing dynamics of a qubit system coupled to thermal environments [7.5] 理論的には、量子ビット系の量子速度限界(QSL)を、オオミックのようなスペクトル密度を持つ熱劣化環境に結合して研究する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:08:27 GMT)
Geometric Meta-Learning via Coupled Ricci Flow: Unifying Knowledge Representation and Quantum Entanglement [7.4] 本稿では,3つの基礎的革新を通じて,幾何学的フローと深層学習を統合した統一的な枠組みを確立する。
まず,パラメータ空間の幾何を動的に適用し,景観トポロジーを損なう熱力学的に結合したリッチフローを提案する。
第2に、曲率の爆発解析により、明示的な位相遷移閾値と臨界学習率を導出する。
第3に、ニューラルネットワークと共形場理論のAdS/CFT型ホログラフィック双対性(Theoremrefthm:ads)を確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:32:31 GMT)
Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment [7.4] 胸部X線ラジオグラフィー(CXR)は心肺疾患の診断とモニタリングにおいて重要な役割を担っている。
CXRの肺小ささは、しばしば解剖学的に不明瞭な構造であり、肺境界の明確な同定を阻害し、病理の局在を複雑にする。
本研究は,CXRを肺不透明度に変換し,意味的特徴を保ちながら肺不透明度に変換する無ペアCXR翻訳フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:26:17 GMT)
TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent Perception [7.4] TraF-Alignは、過去の観測からエゴ車両の現在までの物体の特徴レベル軌道を予測することによって、特徴のフローパスを学習する。
このアプローチは空間的不整合を補正し、エージェント間のセマンティックな一貫性を確保し、効果的に動きを補償する。
2つの実世界のデータセットであるV2V4RealとDAIR-V2X-Seqの実験は、TraF-Alignが非同期協調知覚のための新しいベンチマークを設定していることを示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:56:35 GMT)
Natural Language Processing for Human Resources: A Survey [7.2] 自然言語処理の進歩は、HRプロセスを変革する可能性がある。
本稿は,NLPの変革的潜在能力を利用する研究者や実践者にとっての機会を明らかにするものである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:49:15 GMT)
FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models [7.2] バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。
我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。
これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:48:33 GMT)
"Is There Anything Else?'': Examining Administrator Influence on Linguistic Features from the Cookie Theft Picture Description Cognitive Test [7.2] アルツハイマー病(英語: Alzheimer's Disease、AD)は、進行性神経変性疾患であり、患者の認知能力に悪影響を及ぼす。
患者音声の言語学的特徴に有意な影響が認められた。
テスト管理者の振る舞いのバリエーションは、言語データに体系的なバイアスをもたらし、研究結果と臨床評価を裏付ける可能性がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:01:15 GMT)
DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs [7.2] 微調整された大型言語モデル(LLM)は、下流タスクのモデル品質を大幅に改善する。
散発的、バースト的、およびさまざまな要求パターンのために、多くの微調整のLLMを同時に提供することは難しい。
DeltaZipは,複数パラメータの微調整モデルを並列に処理するLLMサービスシステムである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:48:01 GMT)
To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.1] BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:11:03 GMT)
Towards Robust Time-of-Flight Depth Denoising with Confidence-Aware Diffusion Model [7.1] タイム・オブ・フライ(ToF)センサーはシーンの深度を効率よく捉えるが、非線形の深度構築手順は、しばしば非常に大きなノイズ分散や、さらには無効な領域をもたらす。
ディープニューラルネットワーク(DNN)に基づく最近の手法は、ToFデノナイジング精度の向上を実現しているが、ノイズの深刻な破損に悩まされる傾向にある。
安定拡散における豊富な事前知識を活用することで,グローバルな構造的滑らかさを保証する新しいToFデノベーション手法であるDepthCADを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:39:14 GMT)
InterSliceBoost: Identifying Tissue Layers in Three-dimensional Ultrasound Images for Chronic Lower Back Pain (cLBP) Assessment [7.1] 部分注釈付きデータセット上でセグメンテーションモデルのトレーニングを可能にするために,InterSliceBoostと呼ばれる新しいアプローチを開発し,検証する。
InterSliceBoostのアーキテクチャには、インタースライスジェネレータとセグメンテーションモデルという2つのコンポーネントが含まれている。
セグメンテーションモデルは、部分的にアノテートされたデータセット(例えば、スキップ1, 2, 3, or 7イメージ)と生成されたインタースライスIMPでトレーニングされる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:02:23 GMT)
Understanding and Reducing the Class-Dependent Effects of Data Augmentation with A Two-Player Game Approach [7.1] CLAssに依存した乗算重み付け方式であるCLAMを提案する。
以上の結果から,学習した分類器の性能は,平均精度に限られた影響しか与えず,クラスにかなり分散していることが明らかとなった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:05:02 GMT)
Elastic Federated Learning over Open Radio Access Network (O-RAN) for Concurrent Execution of Multiple Distributed Learning Tasks [7.1] Federated Learning(FL)は、IoT(Internet of Things)ネットワークにおける、一般的な分散機械学習(ML)テクニックである。
5G以上の無線ネットワークの実装は、(i)無線ネットワーク条件のダイナミクスと(ii)システム内の複数のFLサービスの共存によって引き起こされる重要な課題に直面している。
本稿では,これらの課題に対処するために,弾性FL (Elastic FL) と呼ばれる新しい分散MLアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:48:49 GMT)
TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models [7.0] 大規模言語モデル(LLM)は、アクションシーケンスを組み立てるためにコモンセンス推論を利用することができる。
LLMをベースとした目標分解は,複数エージェントのPDDL問題を直接解決するよりも,計画時間の短縮につながることを示す。
LLMによるサブゴールの近似は、人間の専門家によって特定されたものと類似したマルチエージェント実行長をもたらすことが判明した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:39:13 GMT)
Decomposing The Dark Matter of Sparse Autoencoders [6.9] この研究は、ダークマターを研究対象として研究する。
SAEダークマターの多くは初期活性化ベクトルから線形に予測できることがわかった。
線形表現仮説に基づいて、これらの観測に繋がる活性化のモデルを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:00:02 GMT)
CCUP: A Controllable Synthetic Data Generation Pipeline for Pretraining Cloth-Changing Person Re-Identification Models [6.9] 衣服交換者再識別(CC-ReID)はコンピュータビジョンにおいて重要かつ困難な研究課題である。
CC-ReIDデータの構築コストが高いため、既存のデータ駆動モデルは、限られたデータで効率的にトレーニングするのは難しい。
制御可能かつ高品質な合成データを生成するための低コストで効率的なパイプラインを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:17:18 GMT)
IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera [6.9] IncEventGSは、単一のイベントカメラを備えたインクリメンタルな3Dガウススプレイティング再構成アルゴリズムである。
我々は,IncEventGSにおける従来のSLAMパイプラインの追跡とマッピングのパラダイムを活用する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:40:31 GMT)
EventFly: Event Camera Perception from Ground to the Sky [6.8] イベントベースの密集認識におけるクロスプラットフォーム適応は、さまざまな設定にわたるイベントカメラのデプロイに不可欠である。
EventFlyは、イベントカメラの認識において、堅牢なクロスプラットフォーム適応のためのフレームワークである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:59:59 GMT)
Efficient Adversarial Detection Frameworks for Vehicle-to-Microgrid Services in Edge Computing [6.8] 悪意あるアクターは、機械学習アルゴリズムの脆弱性を利用して、発電と分散を妨害する。
本稿では,V2Mエッジ環境における検出モデルを最適化する新しい手法を提案する。
提案手法は,モデル設計と圧縮を統一したプロセスに統合し,よりコンパクトな検出モデルを実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:26:49 GMT)
FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors [6.7] FrugalNeRFは,複数スケールにわたる重み共有ボクセルを利用してシーンの詳細を効率よく表現する,数発のNeRFフレームワークである。
我々の重要な貢献は、スケールをまたいだ再射誤差に基づいて擬似基底真理深さを選択する、クロススケールな幾何適応スキームである。
LLFF、DTU、RealEstate-10Kの実験では、FrugalNeRFは他の数発のNeRF法よりも優れ、トレーニング時間を大幅に短縮した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:05:07 GMT)
PCM : Picard Consistency Model for Fast Parallel Sampling of Diffusion Models [6.7] 拡散モデルは シーケンシャルデノナイジングプロセスにより 遅い生成速度に直面します
本稿では, 並列化方式であるPicard Consistency Model (PCM)を提案する。
PCMはシーケンシャルサンプリングで最大2.71倍のスピードアップを実現し、様々なタスクでPicardのイテレーションで1.77倍のスピードアップを実現している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:59:27 GMT)
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI [6.7] 画像とそれに対応する放射線学的所見の対比学習を用いて, マルチモデル頭部MRIの基礎モデルを構築することを提案する。
提案した類似性強化コントラスト言語画像事前学習(SeLIP)は,より有用な特徴を効果的に抽出することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:09:45 GMT)
A Stateless and Secure Delivery versus Payment across two Blockchains [6.7] 2つのブロックチェーンにまたがるセキュアなデリバリ逆支払いを確立するために、リーンでステートレスで機能的なトランザクションスキームを提案する。
当社のアプローチでは,ステートフルな仲介業者の必要性を排除し,決済チェーンオペレータのオーバーヘッドを最小限に抑える。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:30:17 GMT)
Multi-modal 3D Pose and Shape Estimation with Computed Tomography [6.6] 我々は,CTスキャンから抽出した詳細な幾何学的特徴と深度マップを融合した,最初のマルチモーダルなベッド内3次元ポーズと形状推定ネットワークを提案する。
mPSE-CTは、隠蔽された身体領域を頑健に再構築し、推定された3次元メッシュモデルの精度を高める。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:24:58 GMT)
Towards Understanding Distilled Reasoning Models: A Representational Approach [6.6] 我々は、Qwen系列モデルとその微調整された変種についてクロスコーダを訓練する。
この結果から,クロスコーダは自己回帰や検証など,多種多様な推論に対応する特徴を学習できることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:07:50 GMT)
A Cross-Country Analysis of GDPR Cookie Banners and Flexible Methods for Scraping Them [6.5] ePrivacy Directive and consent-observatory.eu(ePrivacy Directive and consent-observatory.eu)の下で31カ国で上位1万のウェブサイトを調査した。
ウェブサイトの67%は同意インターフェースを使用しているが、拒否オプションがないため、最小限に準拠しているのは15%に過ぎない。
規制当局のガイダンスや罰金がコンプライアンス率に影響を及ぼした証拠はほとんどないが、CMPによって18%のコンプライアンスのばらつきが説明されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:44:26 GMT)
Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation [6.5] Generative Flow Networks (GFlowNets) は、多種多様な高品質な分子構造を生成するのに適したフレームワークとして最近登場した。
本稿では,個々の原子を構成要素として活用する基本生成モデルであるAtomic GFlowNets(A-GFNs)を紹介する。
医薬品のような分子データセットを用いた教師なし事前学習手法を提案し,A-GFNに安価で情報伝達性の高い分子記述子について教える。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:56:33 GMT)
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis [6.5] ビジョン言語モデル(VLM)は、2Dの医療画像解析において有望であるが、3Dに拡張することは依然として困難である。
Med3DVLMは3つの重要なイノベーションを通じてこれらの課題に対処するために設計された3D VLMである。
我々は,120,084個の医用画像に対して,放射線学報告とVQAデータを含むM3Dデータセットを用いて本モデルを評価した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:09:30 GMT)
Can Multi-modal (reasoning) LLMs work as deepfake detectors? [6.4] 我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。
以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。
本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:47:29 GMT)
Exploring Semantic Feature Discrimination for Perceptual Image Super-Resolution and Opinion-Unaware No-Reference Image Quality Assessment [6.4] 画像超解像(SR)にGAN(Generative Adversarial Networks)が広く応用されている。
既存の GAN ベースの SR 手法の多くは、画像に直接粗粒度を識別し、画像の意味情報を無視する。
具体的には、まず特徴判別器(Feat-D)を設計し、CLIPから画素単位の中間的特徴を識別する。
また,SFD-IQAを用いた新たな評価手法であるOU NR-IQA(OU NR-IQA)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:50:47 GMT)
Peepers & Pixels: Human Recognition Accuracy on Low Resolution Faces [6.4] 本研究の目的は、IDD値の範囲で精度を体系的に検証することで、人間の認識精度の境界を探索することである。
低いIDD(10px, 5px)では、意思決定の信頼性が比較的高い(77%, 70.7%)にもかかわらず、人間の精度は確率レベル(50.7%, 35.9%)以下である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:09:05 GMT)
BIMII-Net: Brain-Inspired Multi-Iterative Interactive Network for RGB-T Road Scene Semantic Segmentation [6.2] 我々は、BIMII-Net(Brain-Inspired Multi-Iteration Interaction Network)と呼ばれる新しいRGB-Tロードシーンセマンティックセマンティックネットワークを提案する。
まず、自律運転のような道路シナリオにおける正確なテクスチャと局所情報抽出の要件を満たすため、脳にインスパイアされたモデルに基づく深部連続結合ニューラルネットワーク(DCCNN)アーキテクチャを提案する。
第2に,BIMII-Netの機能融合段階において,多モード情報間の相互作用と表現能力を高めるために,クロス明示的な注意強調融合モジュール (CEAEF-Module) を設計した。
最後に,相補的対話型多層復号器を構築した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:09:46 GMT)
SLA-Awareness for AI-assisted coding [6.2] 本稿では、待ち時間要件を満たし、リソース利用を最大化しながら、コーディングタスクの多様な構成を支援するためのコーディングアシスタントタスクオーケストレータ(CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:38:28 GMT)
Barium Titanate and Lithium Niobate Permittivity and Pockels Coefficients from MHz to Sub-THz Frequencies [6.1] ニオブ酸リチウム(LN)とチタン酸バリウム(BTO)は2つの優れたポッケルス材料である。
LNとBTOのポッケルス係数と誘電率を100MHzから330GHzの範囲で測定する。
ポッケルス係数の分散にもかかわらず、平面電気光学周波数応答を用いてBTOデバイスを設計する方法を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:00:01 GMT)
HoarePrompt: Structural Reasoning About Program Correctness in Natural Language [6.1] HoarePromptは、プログラム分析や検証から自然言語アーティファクトへの基本的な考え方を適応する、新しいアプローチである。
ループを管理するために,モデル検査に広く用いられているk-induction法の適応として,数発のk-inductionを提案する。
実験の結果,HoarePromptはZero-shot-CoTプロンプトを正当性分類に用いた場合に比べて,MCCを62%改善することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:30:30 GMT)
Entanglement Witness for Indistinguishable Electrons using Solid-State Spectroscopy [6.0] 量子材料における絡み合いを特徴づけることは、次世代量子技術の進歩に不可欠である。
本研究では, 共鳴非弾性X線散乱スペクトルの非線形性を解析することにより, 様々な4つのフェミオン相関を抽出する手法を提案する。
この絡み合いの目撃者は、異なる位相領域にまたがるマルチパーティントの絡み合いを効率的に定量化し、量子フィッシャー情報に対するその優位性を明らかにする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:01:49 GMT)
Lightweight Models for Emotional Analysis in Video [5.9] 我々はMobileNetV4とマルチスケール3次元時間アグリゲーションモジュールを用いた効率的な特徴抽出手法を提案する。
このフレームワークは計算効率と予測精度のバランスが提案されており、モバイルおよび組み込みコンピューティング環境におけるリアルタイムアプリケーションに適している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:50:11 GMT)
Peer Disambiguation in Self-Reported Surveys using Graph Attention Networks [5.8] 本研究は,グラフニューラルネットワーク(GNN)による実世界のネットワークデータ解析の進歩の可能性を示すものである。
あいまいさを解消することにより,ネットワークの精度を向上し,自殺リスク予測を改善する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:25:31 GMT)
Hierarchical Adaptive Expert for Multimodal Sentiment Analysis [5.8] マルチモーダル感情分析は、多様なコミュニケーションチャネルにおける人間の感情を理解する重要なツールとして登場した。
本稿では,進化的最適化,クロスモーダルな知識伝達,マルチタスク学習を組み合わせた新しいフレームワークHAEMSAを提案する。
大規模な実験では、複数のベンチマークデータセットにまたがるHAEMSAの優れたパフォーマンスが示されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:52:08 GMT)
From Sparse to Dense: Camera Relocalization with Scene-Specific Detector from Feature Gaussian Splatting [5.7] STDLocは完全な再ローカライゼーションパイプラインであり、前のポーズに頼ることなく正確な再ローカライゼーションを実現することができる。
STDLOCは、現在最先端のローカライゼーション手法よりも、ローカライゼーション精度とリコールの点で優れている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:18:19 GMT)
Towards Understanding the Influence of Training Samples on Explanations [5.7] 説明可能なAI(XAI)は、AIシステムの意思決定を分析するために広く使われている。
予期せぬ説明が発生した場合、ユーザーはそれらを形作るトレーニングデータプロパティを理解したいかもしれない。
データ評価の領域では、データサンプルが与えられたモデルに与える影響を推定する最初のアプローチが提案されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:17:25 GMT)
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations [5.5] トレーニング後の選好アライメントは、人間の好む動きを生み出すために不可欠である。
我々は、事前学習されたモデルの世代間での選好ランキングを構築するために、事前学習のデモで符号化された暗黙の選好を利用する。
提案手法を大規模交通シミュレーションに適用し,事前学習したモデルが生成する行動のリアリズムを改善する上での有効性を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:02:13 GMT)
Pseudo-Gaussian Orthogonal Ensemble of Real Random Matrices [5.5] 2つの実非ゼロパラメータの擬ガウスアンサンブルを$lambda$と$mu$で構築する。
lambda mu 0$ のとき、固有値は実対か複素共役対である。
これらの擬対称行列はパリティ時(PT)対称量子系を正確に(非破壊的)または破れたPT対称性で表すのに役立つ。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:58:21 GMT)
Addressing general measurements in quantum Monte Carlo [5.5] 本稿では,一般測定の課題に対処するための普遍的なスキームを提案する。
我々はこの手法を XXZ モデルと横フィールドIsing モデルに1D から 2D システムへ適用することに成功している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:38:14 GMT)
RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation [5.5] 本稿では,ロボット操作性能を大幅に向上させるために,深度データをVLM(Vision-Language Models)に組み込んだRoboFlamingo-Plusを紹介する。
本研究では,事前学習した視覚変換器(ViT)と再サンプリング技術を統合することで,RGBと深度情報の微妙な融合を実現する。
RoboFlamingo-Plusの新規性は、深度データ処理のための入力の適応であり、深度特徴抽出のために事前訓練されたリサンプラーを利用する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:01:57 GMT)
Optimized trajectory unraveling for classical simulation of noisy quantum dynamics [5.4] 任意のデコヒーレンスチャネルでは、アンラベリング方式を最適化し、エンタングルメント相転移の閾値を下げることができることを示す。
また、与えられた雑音チャネルに対して、未発見の基底を適応的に最適化するアルゴリズムを提案する。
準局所アンラベリングを用いて、任意に小さいが有限なデコヒーレンス率で開系を効率的にシミュレートする可能性を評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:30:46 GMT)
Causal invariant geographic network representations with feature and structural distribution shifts [5.2] ディープグラフニューラルネットワーク(GNN)を通して地理的ネットワーク表現を、i.d.仮定に基づいて学習する。
特徴分布シフトと構造分布シフトの両方を考慮した特徴構造混合不変表現学習(FSM-IRL)モデルを提案する。
実験により、FSM-IRLはOODシナリオにおける地理的および社会的ネットワークデータセットに強力な学習能力を示すことが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:21:57 GMT)
Neuromorphic Principles for Efficient Large Language Models on Intel Loihi 2 [5.2] 大きな言語モデル(LLM)は優れたパフォーマンスを提供するが、大量のエネルギーを必要とする。
We present a MatMul-free LLM architecture with Intel's neuromorphic processor, Loihi 2。
当社のアプローチでは,ローヒ2の低精度,イベント駆動型計算,ステートフル処理のサポートを活用している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:05:26 GMT)
Multi-Disease-Aware Training Strategy for Cardiac MR Image Segmentation [5.2] 近年,ディープラーニングに基づくセグメンテーション手法が注目されている。
これらのセグメンテーション法は、左心室(LV)や心筋(MYO)などの定期的な形をした臓器の分割に一般的に適している。
右心室(RV)のような不規則な形状の臓器では不十分な働きをする
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:56:08 GMT)
Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection [5.2] 協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:10:22 GMT)
Identification of Average Treatment Effects in Nonparametric Panel Models [5.1] 本稿では,パネルデータ設定における平均処理効果の同定について検討する。
新規な非パラメトリック因子モデルを導入し、平均治療効果の同定を証明している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:36:57 GMT)
Lean Formalization of Generalization Error Bound by Rademacher Complexity [5.1] 一般化誤差は、与えられたトレーニングデータにおける学習マシンのパフォーマンスと、目に見えないテストデータとのギャップを定量化する。
我々はLean 4定理証明器において、ラデマッハ複雑性を用いて一般化誤差を定式化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:40:43 GMT)
PAD: Towards Efficient Data Generation for Transfer Learning Using Phrase Alignment [5.1] 本稿では, 韓国語の構文特性とPhrase Aligned Data (PAD) の相乗効果について述べる。
この革新的なアプローチは、モデルの性能を向上するだけでなく、リソースを浪費する言語に対するコスト効率の高いソリューションも示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:16:28 GMT)
LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation [5.0] ハードウェアデザイン検証(ハードウェアデザイン検証、英: hardware design verification、DV)は、ハードウェア設計の仕様に対する機能的等価性をチェックするプロセスである。
DVプロセスにおける重要なタスクは、テスト刺激生成であり、テストのための一連の条件や入力を生成する。
自動ハードウェアテスト刺激発生のためのLCMを効率的にオーケストレーションするLLM4DVというオープンソースのベンチマークフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:32:46 GMT)
Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings [4.9] 本稿では,Surg-3Mをベースとした自己教師型基礎モデルであるSurgFMについて述べる。
Surg-3MとSurgFMはどちらも、自律的なロボット手術システムの開発を加速する大きな可能性を秘めている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:05:00 GMT)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.9] 我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。
GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。
GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:37:48 GMT)
Observation Adaptation via Annealed Importance Resampling for Partially Observable Markov Decision Processes [4.8] 部分観測可能なマルコフ決定過程(POMDPs)は、状態不確実性の下での環境における逐次決定のための一般的な数学的モデルである。
オンラインソルバは通常、信念分布を更新するための重要再サンプリングに基づいてブートストラップ粒子フィルタを使用する。
本稿では,モンテカルロの反復的なステップを通して,状態遷移と最適分布の間のブリッジ分布の列を構築する手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:05:00 GMT)
Simulating Tracking Data to Advance Sports Analytics Research [4.8] 本稿では,Google Research Football環境からシミュレーションサッカー追跡データを収集し,活用する手法を提案する。
シミュレーションデータから高レベルの特徴やイベントを抽出するプロセスを提供する。
我々は、人工知能とスポーツ分析の交差点での研究を支援するために、公開されている追跡データの不足に対処する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:18:23 GMT)
On Improving the Composition Privacy Loss in Differential Privacy for Fixed Estimation Error [4.8] ユーザが複数のサンプルをコントリビュートできるデータセットの非結合部分集合の統計のプライベートリリースについて検討する。
特に、サンプル平均の$epsilon$-differentially privateリリースとデータセットの非結合部分集合におけるサンプル値のばらつきに焦点を当てる。
当社の主なコントリビューションは,ユーザのコントリビューションの抑制に基づく反復アルゴリズムです。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:08:30 GMT)
FREE-Merging: Fourier Transform for Efficient Model Merging [4.7] 本稿では,バックボーン上の有害周波数領域干渉を最小の計算オーバーヘッドで効果的にフィルタするFR-Mergingを提案する。
Free-Merging(FR-Merging with experts)は、トレーニングコスト、推論レイテンシ、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
CV,NLP,Multi-Modalドメインにまたがる複数のタスクにおけるFR-MergingとFREE-Mergingの有効性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:19:52 GMT)
Boosting the Transferability of Audio Adversarial Examples with Acoustic Representation Optimization [4.7] 音声表現モデルから導かれる低レベル音響特性と対向的摂動を一致させる手法を提案する。
本手法はプラグイン・アンド・プレイであり,既存の攻撃手法と統合可能である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:14:10 GMT)
Membership Inference Attacks on Large-Scale Models: A Survey [4.7] メンバシップ推論攻撃(MIA)は、マシンラーニングモデルのプライバシ脆弱性を評価するための重要な指標である。
従来のモデルにおけるMIAに関する広範な研究にもかかわらず、その効果と意味について体系的な調査は残っていない。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:11:47 GMT)
AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration [4.7] AutoURDFは、ポイントクラウドフレームから見えないロボットのための記述ファイルを構築するための教師なしのアプローチである。
本研究は,(1)移動部セグメンテーション,(2)身体トポロジ推論,(3)関節パラメータ推定といった課題に階層的に対処する。
以上の結果から,本手法は従来手法の登録精度と身体のトポロジー推定精度に優れていたことが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:43:28 GMT)
Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models [4.7] SAR画像を光学画像に変換することは、下流タスクの解釈とサポートを強化するための有望な解決策である。
本研究では,無人航空機のSAR-光画像変換のためのキーポイント誘導拡散モデル(KeypointDiff)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:05:49 GMT)
Highly Entangled 2D Ground States: Tensor Network, Order Parameter and Correlation [4.6] 2次元基底状態の最初の例の正確なテンソルネットワーク表現と相関関数に関する解析結果を示す。
内脚の収縮規則は、3次元空間における立方体やプリズムの容器化の観点から、単純な翻訳不変の規則によって規定される。
また、ランダム表面の高さ関数のスケーリングからスピンと色セクターの相関を解析し、エキゾチック相転移のさらなる特徴を明らかにした。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:57:18 GMT)
High-rate self-referenced continuous-variable quantum key distribution over high-loss free-space channel [4.6] 本稿では,時間変化パラメータの高精度推定のための連続時間モード理論を提案する。
高速でセキュアな量子鍵分布を高速な自由空間チャネル上で実証する。
我々はまた、現在の機器を用いて、少なくとも10.5kmの範囲にまたがる緩やかな乱気流実験の可能性を確認した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:05:47 GMT)
Text-driven 3D Human Generation via Contrastive Preference Optimization [4.6] 本稿では, 肯定的, 否定的両方のプロンプトによって導かれる, コントラスト的嗜好を導入する新しい枠組みを提案する。
本手法はテクスチャリアリズムを著しく向上させ,テクスチャ記述と視覚的アライメントを両立させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:27:35 GMT)
A Prototype-Guided Coarse Annotations Refining Approach for Whole Slide Images [4.6] スライド画像全体における微粒なアノテーションは、様々な病理領域の境界を示す。
粗いアノテーションを精錬する既存の方法は、広範囲のトレーニングサンプルやクリーンなデータセットに頼っていることが多い。
本稿ではプロトタイプ誘導方式を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:34:06 GMT)
Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges [4.5] 本調査は,手動フィルタリング後の133項目を最終選択した154の研究をレビューし,システムレビューおよびメタ分析フレームワークの優先報告項目に従う。
法律分野におけるNLPに関する基礎概念を探求し、法律文書の処理の独特な側面と課題を詳述する。
本稿では,法的文書要約,法的名称付きエンティティ認識,法的質問回答,法的条項マイニング,法的テキスト分類,法的判断予測など,法的テキストに特有のNLPタスクの概要について述べる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:45:48 GMT)
Noise-strength-adapted approximate quantum codes inspired by machine learning [4.5] 2つの新しい4量子振幅減衰符号と、革新的な雑音強度適応特性を見出した。
振幅減衰(AD)ノイズに対して従来の符号より優れることを示す。
我々は、任意のシステムサイズに対して、NSA AD符号の族へのアプローチを一般化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:49:34 GMT)
MetaSel: A Test Selection Approach for Fine-tuned DNN Models [4.5] ディープニューラルネットワーク(DNN)は、データ分散シフトによるデプロイメントの課題に直面している。
ファインチューニングは、より小さなラベル付きセットを必要とする新しいコンテキストに事前訓練されたモデルを適用する。
本稿では、ラベルなし入力からテストを選択する新しいアプローチであるMetaSelを紹介する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:00:07 GMT)
Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis [4.5] 本稿では、コンテンツ生成中にカメラ固有の設定を制御できるフレームワーク、Generative Photographyを紹介する。
実験結果から,本手法は最先端モデルよりもシーン一貫性のあるフォトリアリスティック画像を生成することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:31:50 GMT)
A Survey on Event-driven 3D Reconstruction: Development under Different Categories [4.5] イベントカメラは、高時間分解能、低レイテンシ、高ダイナミックレンジのため、3次元再構成に注目が集まっている。
本稿では,ステレオ,モノクラー,マルチモーダルシステムを含むイベント駆動型3D再構成手法の総合的なレビューを行う。
ニューラルラディアンス場やイベントデータを用いた3次元ガウススプラッティングといった新興トレンドも取り上げている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:16:53 GMT)
Low-resource Machine Translation for Code-switched Kazakh-Russian Language Pair [4.4] ラベル付きデータを持たないコードスイッチトしたカザフスタン語対のための機械翻訳モデルを構築する方法を提案する。
カザフ語とロシア語の並列コーパスを切り替えた最初の符号とその評価結果を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:46:30 GMT)
Ab-initio simulation of excited-state potential energy surfaces with transferable deep quantum Monte Carlo [4.4] 本稿では,ニューラルネットワーク波動関数の幾何変換可能な最適化手法を提案する。
提案手法は, 地上および励起状態のPSSとその交差点を高い精度で効率的に予測することを可能にする。
我々は, エチレン, 炭素二量体, メチルエニモニウムカチオンを含む3つの挑戦的励起状態PSSに対するアプローチを検証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:12:29 GMT)
On What Depends the Robustness of Multi-source Models to Missing Data in Earth Observation? [4.4] 我々は、6つの最先端マルチソースモデルの予測性能を、1つのデータソースが欠落しているか、1つのソースのみが利用可能である場合の予測シナリオにおいて評価する。
分析の結果,これらのモデルの有効性は,タスクの性質,データソース間の相補性,モデル設計に複雑に結びついていることが判明した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:45:23 GMT)
KL-geodesics flow matching with a novel sampling scheme [4.3] 非自己回帰型言語モデルは全てのトークンを同時に生成し、従来の自己回帰型モデルよりも潜在的に高速である。
テキスト生成のための条件付きフローマッチング手法について検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:09:07 GMT)
LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.3] マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:28:42 GMT)
Accuracy Improvement of Cell Image Segmentation Using Feedback Former [4.3] トランスフォーマーは、詳細な情報よりも文脈情報に焦点を当てる傾向がある。
本稿では,トランスフォーマーをエンコーダとして使用し,フィードバック処理機構を備えたセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案手法は,従来のフィードバック手法よりも計算コストを低減しつつ,高いセグメンテーション精度を実現した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:46:20 GMT)
Tiling artifacts and trade-offs of feature normalization in the segmentation of large biological images [4.3] 本研究では,正規化問題を検出する指標を提案し,人工物フリーと高品質の予測のトレードオフを探究する。
BatchRenormは、ティリングアーティファクトを効果的に削除し、転送パフォーマンスを向上させる、最も適切な正規化戦略である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:00:37 GMT)
Similarity-Dissimilarity Loss for Multi-label Supervised Contrastive Learning [4.3] 教師付きコントラスト学習はラベル情報を活用することで大きな成功を収めた。
しかし、多ラベルシナリオにおける正のサンプルの決定は依然として重要な課題である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:47:03 GMT)
Applications of Certified Randomness [4.2] 証明されたランダム性は、信頼できない量子コンピュータで生成される。
我々は、認証されたランダム性プロトコルを使用することで、セキュリティと公正性が向上する可能性がある実世界のアプリケーションについて検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:22:41 GMT)
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation [4.2] ビデオオブジェクトの参照(RVOS)は、ビデオクリップ内のオブジェクトをセグメントする自然言語表現に依存する。
私たちは、堅牢なセグメンテーションとトラッキング機能を提供するSegment-Anything 2 (SAM2)モデルを構築します。
本稿では,特徴抽出プロセスにおいて,時間的情報やマルチモーダルな手がかりを注入する新しいアダプタモジュールを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:17:59 GMT)
SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.1] ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。
本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。
提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:33:42 GMT)
CoMAC: Conversational Agent for Multi-Source Auxiliary Context with Sparse and Symmetric Latent Interactions [4.1] 本稿では,スパース・シンメトリ・ラテントインタラクション(CoMAC)を用いたマルチソースコンテキストのための会話補助エージェント(Conversational Auxiliary Agent)を提案する。
CoMACは、会話に関連するペルソナと知識情報を特定するために、複数のデータソースに対して、特殊なエンコーディングストリームとポストフュージョングラウンドネットワークを使用している。
実験の結果、CoMACは2つの最先端手法に対して、関連するペルソナと知識予測精度と応答生成品質を大幅に改善することがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:09:52 GMT)
The Coralscapes Dataset: Semantic Scene Understanding in Coral Reefs [4.1] 本研究はサンゴ礁において,2075のイメージ,39のベントニッククラス,174kのセグメンテーションマスクを含む汎用的なセグメンテーションデータセットを初めて公開する。
我々は、幅広いセマンティックセグメンテーションモデルをベンチマークし、Coralscapesから既存の小さなデータセットへの変換学習が一貫して最先端のパフォーマンスをもたらすことを発見した。
Coralscapesは、コンピュータビジョンに基づく効率よくスケーラブルで標準化されたサンゴ礁の調査方法の研究を触媒し、水中の生態学ロボットの開発を効率化する可能性を秘めている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:33:59 GMT)
The BIG Argument for AI Safety Cases [4.1] BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。
それは、コンテキストに対する感受性、トレーサビリティ、リスク比例といった、長年確立されてきた安全保証規範を尊重している。
それは、フロンティアAIモデルの高度な能力から生まれる、新しい危険な行動に特に焦点をあてる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:56:17 GMT)
Exploring Textual Semantics Diversity for Image Transmission in Semantic Communication Systems using Visual Language Model [4.0] 本稿では,視覚言語モデル(VLM)を用いて画像意味信号の伝達を支援するマルチテキスト・セマンティック通信システムを提案する。
従来の画像伝達セマンティック通信システムとは異なり、提案システムは画像を複数のブロックに分割し、修正された大言語と視覚アシスタント(LLaVA)を用いて画像から複数のテキスト情報を抽出する。
シミュレーションの結果,提案したテキストセマンティクスの多様性スキームは,関連作品と比較して再現精度を著しく向上させることができることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:42:30 GMT)
ProbeSDF: Light Field Probes for Neural Surface Reconstruction [4.0] SDFベースのディファレンシャルレンダリングフレームワークは、最先端のマルチビュー3次元形状再構成を実現している。
我々は、その中核的な外観モデルを最小限に修正することで、このアプローチの族を再検討する。
この性能は、広く異なる2つの一般的なアプリケーションフィールド上の実データ上で一貫して達成されることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:37:14 GMT)
PropNet: a White-Box and Human-Like Network for Sentence Representation [4.0] PropNetは文に含まれる命題に基づいた階層型ネットワークである。
PropNetはSTSベンチマークに基づく人間の認知プロセスの分析と理解を可能にします。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:04:06 GMT)
LENVIZ: A High-Resolution Low-Exposure Night Vision Benchmark Dataset [3.9] Low Exposure Night Vision (LENVIZ)データセットは、低照度画像拡張のためのベンチマークデータセットである。
LENVIZは、様々な照明条件、騒音レベル、シーンの複雑さを提供しており、この分野で利用可能な最大4K解像度のベンチマークである。
各マルチ露光低照度シーンは、専門家写真家によって慎重にキュレートされ、編集され、最適な画質が確保されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:12:28 GMT)
Self-Corrected Flow Distillation for Consistent One-Step and Few-Step Text-to-Image Generation [3.9] フローマッチングは、生成モデルをトレーニングするための有望なフレームワークとして登場した。
本稿では, 整合性モデルと対向学習を統合した自己補正型流動蒸留法を提案する。
この研究は、数ステップと1ステップのサンプリングで一貫した生成品質を達成するための先駆者である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:47:02 GMT)
GRN+: A Simplified Generative Reinforcement Network for Tissue Layer Analysis in 3D Ultrasound Images for Chronic Low-back Pain [3.9] 3D超音波は、痛みの研究に欠かせない、軟部組織の高解像度でリアルタイムな画像を提供する。
我々は,最小限の注釈付きデータによるセグメンテーションを自動化する新しいマルチモデルフレームワークであるGRN+を開発し,検証した。
GRN+は、6つの組織層を手動でラベル付けした29名の被験者から、69名の完全注釈付き3D超音波スキャンで試験された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:03:11 GMT)
A novel forecasting framework combining virtual samples and enhanced Transformer models for tourism demand forecasting [3.9] グラフ畳み込みネットワークを通じて動的に相関関係をモデル化し,現実的な仮想サンプルを生成する。
実世界の毎日および月間観光需要データセットの実験は、トランスフォーマーベースのモデルと比較して平均MASEが18.37%減少していることを示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:02:09 GMT)
fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models [3.8] 本稿では,三重項定式化におけるオブジェクト中心の特徴とレバー年齢を学習するファインCLIPを提案する。
fine-CLIPはF1およびmAPの著明な改善を示し、新規な手術三重項のゼロショット認識を増強した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:57:02 GMT)
SCI-IDEA: Context-Aware Scientific Ideation Using Token and Sentence Embeddings [3.8] SCI-IDEA は LLM のプロンプト戦略と Aha Moment 検出を, アイデアの洗練に活用するフレームワークである。
実験では、SCI-IDEAの有効性を評価し、6.84、6.86、6.89、および6.84(新規性、興奮、実現可能性、有効性)の平均スコアを達成した。
また、知的信用、潜在的な誤用、人間の創造性とAIによる思考のバランスといった倫理的考察にも取り組んでいます。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:37:02 GMT)
XXLTraffic: Expanding and Extremely Long Traffic forecasting beyond test adaptation [3.8] XXLTrafficは、ロサンゼルス、アメリカ、オーストラリア、ニューサウスウェールズ州で最長のタイムパンを持つ、利用可能な公共交通データセットである。
我々のデータセットは、既存の時間的データ資源を補完し、この領域における新しい研究の方向性につながる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:39:42 GMT)
$L^2$FMamba: Lightweight Light Field Image Super-Resolution with State Space Model [3.7] トランスフォーマーは、長距離依存性モデリング機能により、光フィールド画像の超解像タスクに大幅な性能向上をもたらす。
我々は,光場画像における重要な長距離空間-角依存性を効率的に捉えるために,プログレッシブ特徴抽出にインスパイアされた新しいモジュールLF-VSSMブロックを導入する。
本稿では,LF-VSSMブロックを統合した軽量ネットワークである$L2$FMambaを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:24:52 GMT)
CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting [3.7] 3DGSは数百万のガウシアンに依存しており、ギガバイトのストレージ、効率的な転送とストレージは圧縮を必要とする。
既存の3DGS透かし法は量子化に基づく圧縮に弱いため、しばしば埋め込み透かしが失われる。
本研究では,モデル圧縮後の透かしの堅牢性を保証し,高いレンダリング品質を維持しつつ,新しい透かし方式を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:07:43 GMT)
Simulation of prosthetic vision with PRIMA system and enhancement of face representation [3.6] 本稿では,人工視覚をシミュレートする新しい非画素化アルゴリズムを提案する。
アルゴリズムの予測と臨床知覚結果を比較する。
また、顔表現を改善するコンピュータビジョンと機械学習(ML)メソッドも提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:46:32 GMT)
QUIC-Fuzz: An Effective Greybox Fuzzer For The QUIC Protocol [3.6] 我々は最近承認されたQUICネットワークプロトコルのためのファジィザを開発し、セキュリティ脆弱性を明らかにする。
当社は,QUIC-Fuzzを使用したGoogleやAlibabaなど,メンテナンスのよいサーバサイド実装を6つテストしています。
私たちのテストでは,10の新たなセキュリティ脆弱性が発見されました。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:21:35 GMT)
Towards a Theory on Process Automation Effects [3.6] 本稿では,人-自動インタラクションに関する文献をレビューする。
我々の分析は、人間がプロセス内で作業するときに自動化技術をどのように知覚するかに焦点を当てている。
本稿では、組織がプロセス自動化を最適化するのに役立つ洞察とレコメンデーションを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:09:07 GMT)
Dataset Distillation for Quantum Neural Networks [3.5] 大量の古典的データに対する量子ニューラルネットワーク(QNN)のトレーニングには時間と費用がかかる。
我々は,QNNのParametric Quantum Circuit(PQC)において,残差接続とトレーニング可能なHermitianObservableを含む古典的LeNetモデルの量子変種を用いる。
このアプローチは、元のデータと同等のパフォーマンスで、非常に情報に富むが、少数のトレーニングデータをもたらす。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:31:38 GMT)
Internet of Things-Based Smart Precision Farming in Soilless Agriculture:Opportunities and Challenges for Global Food Security [3.5] 世界人口の急激な増加と耕作可能な土地の継続的な減少は、食料安全保障に重大な脅威をもたらす。
土壌のない農業、例えばヒドロポニックス、エアロポニックス、アクアポニックスは持続可能なソリューションを提供する。
本稿は、IoTベースの土壌のない農業の機会と課題について考察する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:18:47 GMT)
Simplifying Deep Temporal Difference Learning [3.5] 安定を保ちながら、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
よりシンプルなオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:32:45 GMT)
A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.5] 本稿では, セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのMul-timodal Embeddingを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
本稿では,大規模言語モデルで生成したラベル記述とマルチモーダル表現を同期させることにより,セマンティック・シンクロナイゼーション(SS)戦略をTriplet Contrastive Learning Pipelineで開発する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:09:30 GMT)
Extensions of regret-minimization algorithm for optimal design [3.4] 本稿では, 最適設計問題の解法として, サーボ設計を導入した, 後悔の最小化フレームワークの拡張と応用について検討する。
我々はこのフレームワークにエントロピー正則化器を組み込み、新しいサンプル選択目標と証明可能なサンプル境界複雑性をもたらす。
アプリケーションとして,ラベル情報に頼らずに画像分類データセットから少数の代表サンプルを選択するために,本アルゴリズムを用いる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:37:09 GMT)
Iterative Hypothesis Generation for Scientific Discovery with Monte Carlo Nash Equilibrium Self-Refining Trees [3.3] 本稿では,モンテカルロ木探索とナッシュ平衡戦略を統合し,仮説を反復的に洗練・検証する新しいフレームワークを提案する。
MC-NESTは、高ポテンシャル仮説を優先する適応的なサンプリング戦略を通じて、探索と利用のバランスをとる。
我々は,生物医学,社会科学,コンピュータ科学など,複数の領域にわたる総合的な実験を通じて,MC-NESTの有効性を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:14:53 GMT)
Guidelines For The Choice Of The Baseline in XAI Attribution Methods [3.3] 本稿では、通常「ベースライン」と呼ばれる「中立」刺激に依存するネットワーク入力における特徴属性マップの導出を目的とする。
ネットワーク動作の説明を決定するため、ベースラインの選択は不可欠である。
そこで本研究では,定義上,決定境界上にある基本線が自然に探索領域となるため,決定境界サンプリング手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:25:04 GMT)
Persistent Homology for Structural Characterization in Disordered Systems [3.3] 障害のあるシステムにおける局所的構造と大域的構造の両方を特徴付けるために,永続的ホモロジー(PH)に基づく統一的なフレームワークを提案する。
同じアルゴリズムとデータ構造を使って、ローカルとグローバルのディスクリプタを同時に生成できる。
粒子の再配置を予測し、大域的な位相を分類するのに非常に効果的で解釈可能であることが示されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:53:07 GMT)
DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation [3.2] Deformable Neural Vessel Representations (DeNVeR)は、X線アンギオグラフィービデオにおける血管のセグメンテーションの教師なしアプローチである。
主な貢献は、新しい層ブートストラップ技術、平行血管運動損失、複雑な血管力学をモデル化するためのユーレリア運動場の統合である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:52:48 GMT)
Using Anomaly Detection to Detect Poisoning Attacks in Federated Learning Applications [3.2] 毒殺などの敵対的な攻撃は多くの機械学習研究者の注目を集めている。
伝統的に、毒殺攻撃は訓練されたモデルを操作するために敵の訓練データを注入しようとする。
フェデレートラーニング(FL)において、データ中毒攻撃は、検出器による局所的な訓練データにアクセスできないため、より単純な方法では検出できない毒攻撃をモデル化するために一般化することができる。
本研究では,FLにおける有害な攻撃を検出するための新しい枠組みを提案する。このフレームワークは,公開データセットと監査者モデルに基づく参照モデルを用いて,悪意のある更新を検知する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:50:17 GMT)
FedECA: A Federated External Control Arm Method for Causal Inference with Time-To-Event Data in Distributed Settings [3.2] 外部制御アーム(ECA)は、実験薬の初期臨床開発を知らせることができる。
ECAは、規制承認の有効な証拠を提供することができる。
ECAを実装する上での大きな課題は、現実世界または歴史的な臨床試験データにアクセスすることである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:14:01 GMT)
Data-Driven Analysis of AI in Medical Device Software in China: Deep Learning and General AI Trends Based on Regulatory Data [3.1] AI可能な医療機器を自動的に抽出し分析するために、データ駆動のアプローチを活用します。
400万以上のエントリが評価され、2,174のMDSW登録が特定された。
AIMDを利用した医療専門分野には、呼吸器(20.5%)、眼科・内分泌学(12.8%)、整形外科(10.3%)がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:39:49 GMT)
Using deep neural networks to detect non-analytically defined expert event labels in canoe sprint force sensor signals [3.1] 本稿では、パドルストロークイベントを自動的に予測する能力の観点から、畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)について検討する。
以上の結果から,双方向ゲート再帰単位(BGRU)に基づくRNNがパドルストローク検出に最も適したモデルであることが判明した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:43:34 GMT)
Shot Sequence Ordering for Video Editing: Benchmarks, Metrics, and Cinematology-Inspired Computing Methods [3.1] AIによるビデオ編集におけるショットシーケンス順序付けタスクは、ビデオストーリーテリングを強化するための重要なアプローチとして現れている。
本稿では,AVE-OrderとActivityNet-Orderという2つの新しいベンチマークデータセットを紹介する。
また,映画メタデータと撮影ラベルを事前知識として組み込んだシネマトロジー埋め込みの概念をSSOモデルに導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:37:52 GMT)
Geometric Preference Elicitation for Minimax Regret Optimization in Uncertainty Matroids [3.1] 本稿では,不確実なマトロイド最適化のための効率的な選好抽出フレームワークを提案する。
このアプローチの中核的なイノベーションは、ユーザの好みを体系的に引き出す能力にあります。
本手法は,数ラウンドで後悔を減らし,正確な最適化を実現することを目的としている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:12:43 GMT)
Macroscopic suppression of supersonic quantum transport [3.1] 粒子数は$theta N$で$thetain(0,1)$と$N$である。
我々は、システムサイズでスケールする指数的抑圧を提供する、かなり強い$exp(theta N(vt-r))$を報告する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:53:30 GMT)
Domain-incremental White Blood Cell Classification with Privacy-aware Continual Learning [3.1] 本稿では, WBC分類の基礎モデルにおける忘れを防止すべく, 再生型連続学習(CL)戦略を提案する。
本手法では,プライバシ保護リプレイを可能にするために,過去のデータを合成潜在表現で模倣するために軽量なジェネレータを用いる。
本研究は, 臨床現場における信頼性の高いWBC分類の実践的解決法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:30:58 GMT)
AIM2PC: Aerial Image to 3D Building Point Cloud Reconstruction [3.0] 最近の手法は主に空中画像からの屋上に焦点を当てており、しばしば重要な幾何学的詳細を見下ろしている。
建物全体のための完全な3Dポイントクラウドを含むデータセットの欠如と、航空画像の信頼性の高いカメラポーズ情報を取得するという課題がある。
本稿では,全3次元点群決定カメラのポーズを含む,我々の生成したデータセットを利用する新しい手法であるAIM2PCを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:44:41 GMT)
Polysemanticity and Capacity in Neural Networks [2.9] ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:19:03 GMT)
Towards Build Optimization Using Digital Twins [2.8] 本稿では,グローバルかつ継続的な改善を実現するために,ビルドプロセスのディジタルツインを開発するという新しいアイデアを提案する。
このフレームワークは、リアルタイムビルドデータ取得やビルドプロセスのパフォーマンスメトリクスの継続的監視を含む、デジタルシャドーイング機能を提供します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:16:52 GMT)
Evaluating Negative Sampling Approaches for Neural Topic Models [2.8] 否定的サンプリングは、ディープラーニングモデルがより良い表現を学べる効果的な手法として登場した。
ニューラルトピックモデルに対する様々なネガティブサンプリング戦略の影響を包括的に分析する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:53:08 GMT)
SemEval-2025 Task 9: The Food Hazard Detection Challenge [2.7] 長い尾の分布クラスを用いたテキストベースの食害予測について検討する。
この結果から,大規模言語モデル生成合成データが長期分布のオーバーサンプリングに有効であることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:09:14 GMT)
BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts [2.7] BiPrompt-SAMは、新しいデュアルモーダルプロンプトセグメンテーションフレームワークである。
我々はSAM固有の複数のマスク候補を生成する能力を活用し、テキストプロンプトから意味誘導マスクと組み合わせる。
我々の明示的な二重選択法は、点プロンプトの空間的精度とテキストプロンプトの意味的豊かさを効果的に組み合わせている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:38:55 GMT)
Transmon qutrit-based simulation of spin-1 AKLT systems [2.7] 量子回路は、興味のある系が局所的な次元が3である場合、全体の回路深さ、すなわちノイズを低減するのに役立つ。
そこで本研究では,パルスゲートを低誤り率に校正し,トランスモンクォートを得る。
我々はこれらのクォートリットを用いて、多くの興味深い現象を示す1次元スピン-1 AKLT状態のシミュレートを行う。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:30:37 GMT)
Compact and stable source of polarization-entangled photon-pairs based on a folded linear displacement interferometer [2.7] 自発パラメトリックダウン変換に基づく線形変位干渉計における偏光絡み合った光子対の音源について述べる。
検出されたペアレートは2.5M対/s/mWでベル状態の忠実度は94.1%+/-2.1%である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:59:38 GMT)
LogicLearner: A Tool for the Guided Practice of Propositional Logic Proofs [2.6] 我々は、ガイド付き論理証明実践のためのWebアプリケーションであるLogicLearnerを開発した。
LogicLearnerは、ステップバイステップで論理証明を試みるインターフェースと、オンザフライでソリューションを生成する自動証明解決器で構成されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:23:08 GMT)
Domain Adaptation Framework for Turning Movement Count Estimation with Limited Data [2.6] 本研究では,領域適応(DA)を利用して交差点における回転数(TMC)を推定する新しいフレームワークを提案する。
提案したDAフレームワークの性能を最先端モデルと比較し,平均絶対誤差とルート平均角誤差の最小値を得た。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:27:38 GMT)
Multiscale Feature Importance-based Bit Allocation for End-to-End Feature Coding for Machines [2.6] Feature Coding for Machines (FCM)は、リモートインテリジェント分析のために中間機能を効果的に圧縮することを目的としている。
エンドツーエンドFCMのためのMFIBA(Multiscale Feature Importance-based Bit Allocation)を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:19:04 GMT)
Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari [2.5] 中世インドでは、マラティア語はモディ文字を用いて書かれた。
約4000万件の文書が不調で、まだ翻訳されていない。
私たちの作品は、手書きのモディ文字から手書きのデヴァナガリ文字への直訳を初めて行った作品です。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:11:40 GMT)
Large Language Model for Patent Concept Generation [2.4] 既存の大規模言語モデル(LLM)は、専門知識の欠如により、革新的な概念生成に不足することが多い。
我々は、LLMベースのAIを自律的にマイニングし、理解し、適用するための新しい知識微調整(KFT)フレームワークを提案する。
本稿では,知識注入事前学習(KPT),ドメイン固有教師付き微調整(SFT),人的フィードバックからの強化学習を統合した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:24:19 GMT)
Exploring Robustness of Image Recognition Models on Hardware Accelerators [2.4] MutateNNは、画像認識モデルの堅牢性を調べるために、差分テストと突然変異テストの両方の要素を利用するツールである。
画像認識領域は、7つの確立されたDNNモデルに突然変異試験を適用し、6つの異なるカテゴリの21の突然変異を導入し、画像認識領域に焦点をあてる。
その結果, 層修飾, 算術型, 入力に関連する変異が全体のモデル性能(最大99.8%)に深刻な影響を及ぼすか, あるいはモデルクラッシュを引き起こした。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:08:14 GMT)
A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries [2.4] Rustは、他の言語との相互運用に頻繁に使用される。
Miriは、これらのモデルに対してアプリケーションを検証できる唯一の動的解析ツールである。
Miriは、外部機能のバグ発見をサポートしておらず、Rustエコシステムに重大な正当性ギャップがあることを示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:36:46 GMT)
Noise Resilient Over-The-Air Federated Learning In Heterogeneous Wireless Networks [2.3] 6G無線ネットワークでは、人工知能(AI)駆動のアプリケーションはフェデレートラーニング(FL)の採用を要求する。
従来のOTA-FL技術は、サーバにおけるAWGN(Additive White Gaussian Noise)と、エッジデバイスにおけるデータおよびシステム不均一性の両面から影響を受けている。
我々は,これらの課題に共同で取り組むために,新しいノイズ耐性オーバーザエアフェデレートラーニング(NoROTA-FL)フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:04:00 GMT)
Optimizing Photonic Structures with Large Language Model Driven Algorithm Discovery [2.2] 我々は,ブラッグミラー,エリプソメトリー逆解析,太陽電池反反射コーティングなどの多層フォトニック問題に適した構造的プロンプトエンジニアリングを導入する。
我々は、(1+1)、(1+5)、(2+10)など、複数の進化戦略を探求し、探索と搾取のバランスをとる。
実験により, LLM生成アルゴリズムは, 大規模問題インスタンスを用いて生成され, 既定の手法と一致するか, あるいは超えることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:05:25 GMT)
BugCraft: End-to-End Crash Bug Reproduction Using LLM Agents in Minecraft [2.2] BugCraftは、Minecraftのクラッシュバグの再現を自動化するために設計されたエンドツーエンドフレームワークである。
ステップシンセサイザーは、ユーザが提出したバグレポートを構造化ステップに変換して再生する(S2R)
Action Modelは、Minecraft内でこれらのS2Rステップを実行し、報告されたクラッシュをトリガーする。
BugCraft-Benchで評価した結果,クラッシュバグの30.23%をエンドツーエンドで再現できたのです。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:34:24 GMT)
HausaNLP at SemEval-2025 Task 2: Entity-Aware Fine-tuning vs. Prompt Engineering in Entity-Aware Machine Translation [2.2] 本稿では,エンティティ対応機械翻訳(EA-MT)における共有タスクであるSemEval 2025 Task 2について述べる。
このタスクの目的は、英語の文をターゲット言語に正確に翻訳できる翻訳モデルを開発することである。
本稿では、我々が採用したさまざまなシステムについて述べ、その結果を詳述し、実験から得られた洞察について議論する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:29:43 GMT)
One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF [2.1] 本稿では,RLHF(Reinforcement Learning from Human Feedback)とLRM(Large Reasoning Models)に対処するために,RLベースおよびRLフリーの手法について検討する。
我々は、ニューラルネットワークによる帯域予測の観点から、いくつかのRLベースおよびRLフリーアルゴリズムを再解釈する。
これにより、完全なRLコンテキスト内で標準RLHFの目的を詳細に導出し、ニューラルネットワークのバンドイット予測と等価性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:23:26 GMT)
Bitstream Collisions in Neural Image Compression via Adversarial Perturbations [2.1] 本研究は、NIC-bitstream衝突における予期せぬ脆弱性を明らかにする。
この衝突の脆弱性は、特にセキュリティクリティカルなアプリケーションにおいて、NICの実用性に対する脅威となる。
単純で効果的な緩和法が提案されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:29:17 GMT)
Automated Video-EEG Analysis in Epilepsy Studies: Advances and Challenges [2.0] てんかんは通常、脳波(EEG)と長期ビデオEEG(vEEG)モニタリングによって診断される。
機械学習の最近の進歩は、脳波とビデオデータを用いたリアルタイムの発作検出と予測において有望であることを示している。
本稿では,ビデオ-EEG自動解析の最近の展開を概観し,マルチモーダルデータの統合について論じる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:37:02 GMT)
Mapping Technological Futures: Anticipatory Discourse Through Text Mining [2.0] 本研究は、Xプラットフォーム(2021年-2023年)で公表された400人の主要な世論指導者(KOL)の150万の投稿を分析し、技術の将来に関する予測的談話について検討する。
BERTopicのモデリング、感情、感情、態度分析などの高度なテキストマイニング技術を用いて、この研究は、予想される技術主導の未来を反映する100の異なるトピックを特定している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:20:15 GMT)
BioMamba: Leveraging Spectro-Temporal Embedding in Bidirectional Mamba for Enhanced Biosignal Classification [1.9] 既存のバイオシグナル分類手法は、フィードフォワード層が密集した注意に基づくフレームワークに依存している。
これら3つの重要なコンポーネントを統合することで、BioMambaは既存のメソッドの制限を効果的に解決する。
大規模な実験により、BioMambaは最先端の手法を著しく上回り、分類性能が著しく向上していることが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:23:36 GMT)
CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation [1.9] 既存の生成モデルは、高品質で同時画像マスク生成の必要性に対処できない。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:48:22 GMT)
Comparison of Metadata Representation Models for Knowledge Graph Embeddings [1.9] ハイパーリレーショナル知識グラフ(HRKG)は、従来のKGを二項関係を超えて拡張する。
本研究では,異なるメタデータ表現モデル(MRM)がKG埋め込み(KGE)およびリンク予測(LP)モデルに与える影響を評価する。
潜在空間における3つのMRMの知識表現を効果的に反映する枠組みを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:46:23 GMT)
Complex Frequency Detection in a Subsystem [1.9] 複素周波数励起と合成は非エルミート近似と相容れないことを示す。
我々の研究は、近似に頼らずに、非エルミート物理学を厳格に研究するためのプラットフォームを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:32:39 GMT)
HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection [1.8] 本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。
自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。
その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:40:22 GMT)
Explaining Control Policies through Predicate Decision Diagrams [1.8] 学習決定木(DT)は、生成したコントローラの解釈可能なモデルに対して広く利用されている。
しかし、DTは共有意思決定を活用しません。これはバイナリ意思決定図(BDD)で採用され、そのサイズを減らし、説明可能性を改善するための重要な概念です。
本研究では、述語でBDDを拡張する述語決定図(PDD)を導入し、コントローラ表現におけるDTとBDDの利点を統一する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:57:55 GMT)
Nonparametric estimation of Hawkes processes with RKHSs [1.8] 本稿では、再生カーネル空間(RKHS)に相互作用関数が存在すると仮定した非線形ホークス過程の非パラメトリック推定について述べる。
神経科学の応用によって動機づけられたこのモデルは、エキサイティングで抑制的な効果を表現するために、複雑な相互作用機能を実現する。
本稿では2つの共通近似(ReLU関数と積分作用素)に依存する推定法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:35:34 GMT)
Unlocking Guidance for Discrete State-Space Diffusion and Flow Models [1.8] 本稿では、離散状態空間モデルにガイダンスを適用するための汎用的および原則的手法を提案する。
我々は,小分子の誘導生成,DNA配列,タンパク質配列など,様々な応用にアプローチの有用性を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:50:23 GMT)
Untangling the Influence of Typology, Data and Model Architecture on Ranking Transfer Languages for Cross-Lingual POS Tagging [1.7] 言語間の伝達学習は、データの不足を克服するための貴重なツールである。
翻訳言語選択における言語型学、訓練データ、モデルアーキテクチャの正確な役割は、完全には理解されていない。
我々は、データセット固有の特徴と微粒な特徴の両方がトランスファー言語の選択にどのように影響するかを総合的に検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:05:40 GMT)
Probing cellular activity via charge-sensitive quantum nanoprobes [1.7] 窒素空孔(NV)をベースとした量子センサは、リアルタイム単一セルセンシングに大きな可能性を秘めている。
細胞活動の変化を検知できる新しい量子センシングモダリティを導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:11:43 GMT)
CubeRobot: Grounding Language in Rubik's Cube Manipulation via Vision-Language Model [1.6] 3x3ルービックキューブを解くのに適した視覚言語モデル(VLM)であるCubeRobotを紹介する。
VLM生成計画クエリからタスク関連機能を抽出するパラダイムとして,デュアルループのVisionCoTアーキテクチャとメモリストリームを組み込んだ。
低レベルのルービックキューブの復元作業では、キューブロボットは100%の精度を達成し、中程度のタスクでは100%に似ており、高レベルのタスクでは80%の精度を達成した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:23:47 GMT)
Entropy Collapse in Mobile Sensors: The Hidden Risks of Sensor-Based Security [1.6] 複数のアプリケーションコンテキストにまたがる4つの多様なデータセットにわたるモバイルセンサデータのエントロピーを系統的に分析する。
シャノンエントロピーは複数の倍数であるにもかかわらず, 単一センサの平均ミンエントロピー値は3.408-4.483ビット (S.D.=1.018-1.574) である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:42:52 GMT)
Decoupled Dynamics Framework with Neural Fields for 3D Spatio-temporal Prediction of Vehicle Collisions [1.5] 本研究では,グローバル剛体運動と局所構造変形を独立にモデル化し,3次元車両衝突ダイナミクスを予測するニューラルネットワークフレームワークを提案する。
2つの特殊なネットワークがフレームワークのコアを形成し、四元数ベースの剛性運動のためのRigid Netと局所的な変形のための座標ベースの変形ネットである。
利用可能なシミュレーションデータの10%しかトレーニングされていないこのモデルは、予測エラーを最大83%減らし、ベースラインモデルを大幅に上回っている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:38:37 GMT)
Unveiling Ruby: Insights from Stack Overflow and Developer Survey [1.5] Rubyは広く使われているオープンソースプログラミング言語であり、その単純さ、特にWeb開発で評価されている。
この研究は、Stack Overflow(SO)に関する498,000以上のRuby関連の質問を分析して、Ruby開発者が直面している主要なトピック、トレンド、困難について調査することを目的としている。
BERTopicモデリングと手動解析を用いて,35のトピックを6つのカテゴリに分類した分類法を開発した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:52:28 GMT)
Improved Alignment of Modalities in Large Vision Language Models [1.5] 本稿では,自動回帰視覚言語モデルの学習戦略を提案する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。
また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:59:46 GMT)
Generative AI for Validating Physics Laws [1.4] 我々は、物理の基本法則を実証的に検証するために、生成人工知能(AI)を提案する。
提案手法は、各恒星の仮想温度条件下での反ファクトルミノシティをシミュレートする。
ガイアDR3データを用いて、平均すると、恒星半径で温度の影響が増加し、絶対等級で減少し、理論的な予測と一致することを発見した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:31:47 GMT)
FeatherWallet: A Lightweight Mobile Cryptocurrency Wallet Using zk-SNARKs [1.4] FeatherWalletは、リソースを効率的に利用しながら、サーバの信頼性をなくすように設計されている。
信頼できないオフチェーンサービスの中で、2, 4, 8, 16, 32, 64のヘッダのzk-SNARK証明を作成します。
従来のSPVクライアントとは対照的に,モバイルクライアントのストレージオーバーヘッドを20倍に削減する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:33:58 GMT)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.4] トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:27:18 GMT)
NickPay, an Auditable, Privacy-Preserving, Nickname-Based Payment System [1.4] NickPayは、ブロックチェーンプラットフォーム上に構築された、プライバシー保護で監査可能な支払いシステムである。
グループ署名のためのニックネーム(Nicknames for Group Signatures)は、署名者のための動的あだ名に基づく新しい署名システムである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:36:54 GMT)
A Scalable and Robust Compilation Framework for Emitter-Photonic Graph State [1.4] 決定論的スキームの文脈におけるGraphState-to-Circuitコンパイル問題について検討する。
本稿では,対象のグラフ状態をサブグラフに分割し,個別にコンパイルし,その後回路を結合してエミッタ資源利用を最大化する,新たなコンパイルフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:59:17 GMT)
A Schema-aware Logic Reformulation for Graph Reachability [1.4] 本稿では,インスタンスの高レベルな概念化を活用することで,グラフパスを自動的に排除・ソートする戦略を提案する。
目的は、時間、空間要求、バックトラック数の観点から従来のアルゴリズムを改善することができるグラフ到達可能性シナリオの新しい一階述語論理の再構成を得ることである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:41:51 GMT)
Implementation of a Generative AI Assistant in K-12 Education: The CyberScholar Initiative [1.3] 本稿では,K-12コンテキスト記述に対するフィードバックの提供を目的とした,ジェネレーティブAI(GenAI)アシスタントツールであるCyberScholarのパイロット化に焦点を当てる。
GenAIは、英語芸術(ELA)、社会学、近代世界史の学生の文章に形式的で要約的なフィードバックを提供することを目的としていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:13:16 GMT)
Interpretable Deep Regression Models with Interval-Censored Failure Time Data [1.3] 間隔制限付きデータの深層学習手法は、まだ探索が過小評価されており、特定のデータタイプやモデルに限られている。
本研究は、部分線形変換モデルの幅広いクラスを持つ区間知覚データに対する一般的な回帰フレームワークを提案する。
我々の手法をアルツハイマー病神経イメージングイニシアチブデータセットに適用すると、従来のアプローチと比較して新しい洞察と予測性能が向上する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:27:32 GMT)
Unveiling the Importance of Nonshortest Paths in Quantum Networks [1.3] 我々は、スケールフリーネットワーク上での強い接続の起源を明らかにするために、統計物理学モデル(コンカレンスパーコレーション)を適用した。
以上の結果から,QN設計における重要な原則が浮かび上がっている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:47:21 GMT)
Knowledge Transfer from LLMs to Provenance Analysis: A Semantic-Augmented Method for APT Detection [1.3] 本稿では,大規模言語モデル (LLM) をプロビタンスに基づく脅威検出に活用するための新しい戦略を提案する。
LLMは、証明データの解釈、システムコールの知識、ソフトウェアアイデンティティ、アプリケーション実行コンテキストの高レベルな理解など、さらなる詳細を提供する。
本評価では,教師付き脅威検出の精度は99.0%であり,半教師付き異常検出の精度は96.9%である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:11:36 GMT)
PyGraph: Robust Compiler Support for CUDA Graphs in PyTorch [1.2] 我々はPyTorch2内でNVIDIA Graphのパワーを自動で活用する新しいアプローチであるPyGraphを紹介する。
我々はPyGraphをさまざまな機械学習ベンチマークで評価し、PyTorch2よりも大幅に性能を向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:47:54 GMT)
Taming Recoil Effect in Cavity-Assisted Quantum Interconnects [1.2] リモート・エンタングルメント・ジェネレーション・プロトコルにおける動作誘起不忠実性を評価するための解析モデルを構築した。
この結果は,スケーラブルなトラップ原子量子ビットシステムによるフォールトトレラント量子ネットワークへの具体的な経路を確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:41:04 GMT)
Kernel Learning Assisted Synthesis Condition Exploration for Ternary Spinel [1.1] 我々は,グローバルSHAP解析の新たな応用によるカーネル分類モデルを用いて,単一相合成性に最も重要な実験特徴を特定する。
グローバルSHAP分析により、単相スピネル形成への前駆体および沈殿剤の寄与は、確立された結晶成長理論と密接に一致していることが明らかとなった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:28:10 GMT)
PHEONA: An Evaluation Framework for Large Language Model-based Approaches to Computational Phenotyping [1.1] 計算表現型は生物医学研究に不可欠であるが、しばしばかなりの時間と資源を必要とする。
本研究では,観察保健データに対するPHEノッティピングの評価フレームワークを開発し,文脈に特有な考察を概説した。
テストしたサンプル概念から高い分類精度を達成し,計算表現法の改良を目的としたLCM法の可能性を示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:59:57 GMT)
Noisier2Inverse: Self-Supervised Learning for Image Reconstruction with Correlated Noise [1.1] Noisier2Inverseは、一般的な逆確率補題に対する修正不要な自己教師型深層学習手法である。
本手法は, 相関雑音を考慮した従来の自己教師型手法よりも明らかに優れていることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:59:11 GMT)
Communities in the Kuramoto Model: Dynamics and Detection via Path Signatures [1.0] この問題を解決するために,連続経路の幾何学的および時間的特性を符号化する数学的枠組みを提案する。
パスシグネチャは、動的データの再パラメータ化不変な特徴を提供する。
本研究では,観測時系列から構造的コミュニティを正確に復元する,署名に基づく新しいコミュニティ検出アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:02:42 GMT)
Thinking agents for zero-shot generalization to qualitatively novel tasks [1.0] 本研究では,心理シミュレーション能力を活用するために,世界モデルを持つエージェントを訓練する手法を提案する。
結果のエージェントは、代替シナリオをシミュレートし、その結果の情報を実際の環境での振る舞いをガイドするために使用した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:26:31 GMT)
A Spatiotemporal Radar-Based Precipitation Model for Water Level Prediction and Flood Forecasting [0.9] 2017年7月、ゴスラー市とゴッティンゲン市は、わずか20分という短い警戒時間で激しい洪水に見舞われた。
これは、より信頼性が高くタイムリーな洪水予報システムの必要性を強調している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:14:54 GMT)
VectorFit : Adaptive Singular & Bias Vector Fine-Tuning of Pre-trained Foundation Models [0.9] 本稿では,事前学習した重み行列の特異ベクトルとバイアスを適応的に学習する,効果的かつ容易に展開可能なアプローチであるVectorFitを提案する。
事前学習した重みの構造的および変換的特性を利用することで、フル微調整に匹敵する高次更新が可能であることを実証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:36:27 GMT)
iNatAg: Multi-Class Classification Models Enabled by a Large-Scale Benchmark Dataset with 4.7M Images of 2,959 Crop and Weed Species [0.9] iNatAgは2,959種の異なる作物と雑草の470万枚以上の画像を含む大規模な画像データセットである。
iNatAgには各大陸のデータが含まれており、自然画像のキャプチャや環境の変化を正確に反映している。
大規模種のカバー、マルチタスクラベル、地理的多様性を組み合わせることで、iNatAgは堅牢で位置対応の農業分類システムを構築するための新しい基盤を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:04:42 GMT)
ICLR Points: How Many ICLR Publications Is One Paper in Each Area? [0.9] ICLRポイントの概念を導入し、トップレベルの機械学習カンファレンスで1つの出版物を作成するのに必要な平均的な労力として定義します。
我々は,27のコンピュータサイエンス分野における平均出版活動量を定量的に測定し,比較した。
本分析では, 平均的な出版活動に有意な差が見られ, 逸話的認識の妥当性が検証された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:17:56 GMT)
Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment [0.8] 本研究では,音声認識モデル(LALM)とヒトの音声理解における話者特性について比較した。
LALM(Qwen2-AudioとUltravox 0.5)処理パターンをヒト脳波応答と比較した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:10:47 GMT)
Optimizing Multi-level Magic State Factories for Fault-Tolerant Quantum Architectures [0.8] 専用ゾーンをマルチレベルマジックステートファクトリと,効率的な論理演算のためのコアプロセッサとして考える。
物理量子資源推定は、少数の鍵パラメータを含む単純なモデルに還元されることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:12:46 GMT)
Red Teaming with Artificial Intelligence-Driven Cyberattacks: A Scoping Review [0.8] 本稿では,サイバーセキュリティ攻撃におけるAI技術の利用について検討する。
機密データ、システム、ソーシャルメディアプロファイル、パスワード、URLをターゲットとして、様々なサイバー攻撃方法が特定された。
サイバー犯罪におけるAIの多目的攻撃モデル開発への応用は、脅威が増大していることを示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:14:19 GMT)
Limited-angle x-ray nano-tomography with machine-learning enabled iterative reconstruction engine [0.8] 本稿ではパーセプション融合反復トモグラフィ再構成エンジンという手法を提案する。
畳み込みニューラルネットワーク(CNN)と、スマートレギュレータとしての認識知識を、反復的な問題解決エンジンに統合する。
異なるX線顕微鏡技術を用いて得られた様々な実験データセットを用いて,提案手法の有効性を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:14:16 GMT)
Clifford gates with logical transversality for self-dual CSS codes [0.8] 符号化率の高い量子誤り訂正符号は、大規模量子コンピュータにとって良い候補である。
高速コードの論理ゲートは物理ゲートを使ってフォールトトレラントに実装することができる。
論理的クリフォードゲートが複数の実装を持つことを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:55:12 GMT)
MindfulLIME: A Stable Solution for Explanations of Machine Learning Models with Enhanced Localization Precision -- A Medical Image Case Study [0.7] グラフベースのプルーニングアルゴリズムと不確実性サンプリングを用いて視覚的説明を生成する新しいアルゴリズムであるMindfulLIMEを提案する。
胸部X線データセットを用いて実験を行い,MindfulLIMEの安定性を100%成功率で確認した。
MindfulLIMEは、生成された説明と実際のローカルアノテーションの間の距離を減らすことで、視覚的説明のローカライズ精度を向上させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:48:14 GMT)
Hierarchical Attention Network for Interpretable ECG-based Heart Disease Classification [0.7] テキスト分類のために開発された階層型注意ネットワーク(HAN)を心電図に基づく心電図型心電図分類タスクに適用する。
MIT-BIHデータセットでは、適応されたHANは、CAT-Netの99.14%と比較して98.55%の精度を達成し、モデルパラメータの数を15.6倍に削減した。
PTB-XLデータセットでは,CAT-Netに比べてモデル複雑性が19.3倍減少し,テスト精度は5%低下した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:06:06 GMT)
Mambular: A Sequential Model for Tabular Deep Learning [0.7] 本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。
既存のベンチマークモデルと比較する。
その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:27:53 GMT)
Doc2OracLL: Investigating the Impact of Documentation on LLM-based Test Oracle Generation [0.7] Javaでは、Javadocコメントは、ソースコードに直接埋め込まれた構造化された自然言語ドキュメントを提供する。
テストオラクル生成(TOG)に対するJavadocコメントの影響について詳しく調べる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:10:24 GMT)
A multitask transformer to sign language translation using motion gesture primitives [0.6] この研究は、より適切な翻訳を実現するための光沢学習表現を含むマルチタスクトランスフォーマーアーキテクチャを導入している。
提案手法は,CoL-SLTDデータセットを用いて評価した最先端技術よりも優れ,分割1で72,64%,分割2で14,64%のBLEU-4を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:53:25 GMT)
The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.6] 我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。
本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。
以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:50:21 GMT)
OmniNova:A General Multimodal Agent Framework [0.5] 特殊なツールを備えた大規模言語モデル(LLM)は、インテリジェントな自動化システムに新たな機会をもたらす。
OmniNovaはモジュール型のマルチエージェント自動化フレームワークで、言語モデルとWeb検索、クローリング、コード実行機能といった特殊なツールを組み合わせる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:21:01 GMT)
Early Classification of Time Series: Taxonomy and Benchmark [0.5] この文書は原則に基づく分類から始まり、非常に広範な実験の結果を報告する。
評価を整理するための次元を定義し、非常に広範な実験の結果を報告する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:53:06 GMT)
Emergent non-Markovianity and dynamical quantification of the quantum switch [0.5] 我々はまず、量子スイッチの対象となる一般的な量子進化における情報の損失を分析する。
次に、情報損失とスイッチ駆動メモリの不確かさを導出する。
スイッチ動作の低減のためにリンドブラッド型力学を導出する一方、スイッチ誘起メモリは実際には非マルコビアン性の出現に繋がる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:33:34 GMT)
Cryptoscope: Analyzing cryptographic usages in modern software [0.5] 量子コンピューティングの出現は、特定の暗号アルゴリズムを破る可能性を秘めているため、大きな課題となる。
量子脆弱なアルゴリズムを識別するだけでなく、脆弱性や不正な暗号使用を検出することも重要です。
アメリカ合衆国政府の覚書では、暗号システムの優先順位付けを行えば PQC (Post Quantum Cryptograpy) への移行を開始するよう機関に求めている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:39:50 GMT)
Phylo2Vec: a vector representation for binary trees [0.5] 系統樹を模したPhylo2Vecについて紹介する。
系統樹を操作および表現するための統一的なアプローチとして機能する。
概念実証として、Phylo2Vecを用いて5つの実世界のデータセットの最大推定を行う。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:44:19 GMT)
Long-term excitation energy transfer predicted by a modified convolutional neural networks in the FMO complexes [0.5] 本稿では,Fenna-Matthews-Olson錯体における100ピコ秒(ps)励起エネルギー伝達(EET)を予測するために,新しい冗長時間関数を組み込んだ効率的なCNN手法を提案する。
本手法は最適化を単純化し,学習効率を向上し,量子散逸ダイナミクスの予測におけるアプローチの精度,堅牢性,効率性を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:51:14 GMT)
Spectral Signatures of Vibronic Coupling in Trapped Cold Ionic Rydberg Systems [0.5] 電場と光学場に閉じ込められた原子とイオンは、多くの現在の量子シミュレーションと計算プラットフォームの基礎となる。
我々は、相対振動とRydberg状態の間の相互作用が量子ラビモデルを実現する2つのトラップされたRydbergイオンのケースについて議論する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:08:24 GMT)
MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.5] 自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:02:17 GMT)
Deep Learning-Based Hypoglycemia Classification Across Multiple Prediction Horizons [0.5] 本研究では,単一分類モデルにおいて,短時間(最大2時間)と長期(最大24時間)の予測地平線(PH)を統合し,意思決定支援を強化する。
ResNet と LSTM モデルをグルコース濃度,インスリン投与量,加速度データに基づいて訓練した。
その結果,9つのクラスを分類する際のLSTMモデルの優位性を示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:24:27 GMT)
Scale generalisation properties of extended scale-covariant and scale-invariant Gaussian derivative networks on image datasets with spatial scaling variations [0.5] GaussDerNetsは、Fashion-MNISTとCIFAR-10データセットの新たな再スケールバージョンで評価されている。
最初に実験により、GaussDerNetsは、新しいデータセット上で非常に優れたスケールの一般化特性を持つことを示した。
また、トレーニング中の規則化は、スケールチャネル全体にドロップアウトを適用することで、パフォーマンスとスケールの一般化の両方を改善することも示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:38:59 GMT)
Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience [0.5] 本稿では,異種アクセラレータ間で要求を適応的に割り当てるハードウェア非依存制御ループを提案する。
このフレームワークは、レイテンシの目標を一貫して満たし、キャパシティの不足時にトラフィックを自動的にリダイレクトし、低コストのアクセラレータを収益化する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:20:11 GMT)
Gravitationally induced entanglement at finite temperature: A memory-driven time-crystalline phase? [0.4] 古典的重力波(GW)と相互作用する量子調和振動子系の重力誘起絡み合い(GIE)に対する熱効果の影響について検討する。
量子サブシステムの統計的挙動に影響を与える熱的影響により,ボース=アインシュタインとマクスウェル=ボルツマン分布の混合を同定する。
これらの効果は、古典的な重力波相互作用に関する新たな理論的洞察をもたらす可能性がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:15:38 GMT)
Abstracting Geo-specific Terrains to Scale Up Reinforcement Learning [0.4] 多エージェント強化学習(MARL)は、動的および適応的な合成文字の訓練において、地理的特異な地形におけるインタラクティブなシミュレーションにおいてますます普及している。
本研究は、軍事訓練シミュレーションのためのMARLモデルの開発と訓練の計算コストを削減するためのウェイポイントベースのナビゲーションの可能性について指摘する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:29:49 GMT)
Efficient and controlled symmetric and asymmetric Bell-state transfers in a dissipative Jaynes-Cummings model [0.4] 非エルミート系(NH)における例外点(EP)を囲むことで、非対称かつ対称な状態移動を達成することができる。
システムパラメータの変調により, 効率的かつ制御された対称および非対称なベル状態遷移を示す。
NH系における非対称状態伝達の実装にはEPの存在は不可欠ではない。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:20:15 GMT)
A Comprehensive Review on Hashtag Recommendation: From Traditional to Deep Learning and Beyond [0.4] ハッシュタグは、基本的な分類メカニズムとして、コンテンツの可視性とユーザエンゲージメントを高める上で重要な役割を果たす。
正確で堅牢なハッシュタグレコメンデーションシステムの開発は、依然として複雑で進化中の研究課題である。
本稿では,ハッシュタグレコメンデーションシステムの体系的解析を行い,近年のいくつかの側面にわたる進歩について検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:51:12 GMT)
MATT-GS: Masked Attention-based 3DGS for Robot Perception and Object Detection [0.4] U2-Netは、ターゲットオブジェクトを原画像から分離するために、バックグラウンド削除に使用される。
ソベルフィルタに基づくアテンション機構を3DGSフレームワークに統合し、細部を拡大する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:45:21 GMT)
Practical multi-fidelity machine learning: fusion of deterministic and Bayesian models [0.3] マルチフィデリティ機械学習手法は、少ないリソース集約型高フィデリティデータと、豊富なが精度の低い低フィデリティデータを統合する。
低次元領域と高次元領域にまたがる問題に対する実用的多面性戦略を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:25:04 GMT)
The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas [0.3] 実用性ジレンマを用いてLLMの道徳的判断を評価する。
我々の分析は、確立した道徳理論から分岐し、人口道徳基準を定めている道徳的嗜好を一貫してコード化している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:29:53 GMT)
Enabling Rapid Shared Human-AI Mental Model Alignment via the After-Action Review [0.3] 私たちのブラウザベースのMinecraftテストベッドは、連続的な空間、リアルタイム、部分的に観測可能な環境での協調エージェントの迅速なテストを可能にします。
我々のメンタルモデルアライメントツールは、チームメンバーのファーストパーソン視点のビデオ表示を含めることで、ユーザ主導のミッション後分析を容易にする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:43:18 GMT)
Relativity of Quantum Correlations: Invariant Quantities and Frame-Dependent Measures [0.3] 本研究では,QRF形式論における位置と運動量の不確実性,相関,共分散行列,絡み合いの視点依存性について検討する。
我々は、Robertson-Schr"odingerの不確実性関係がフレーム依存であることを示し、不等式として記述される様々な制約を満たす相関関係と分散が存在する。
これらの不変性は、観測的視点の変化にもかかわらず持続する不確実性と絡み合いの基本的な、堅牢な尺度を示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:02:41 GMT)
Optimal Path Planning and Cost Minimization for a Drone Delivery System Via Model Predictive Control [0.3] ドローンの配送問題を制御問題として定式化し,モデル予測制御を用いて解決する。
その結果, MPC法では, コストを最小化し, 最適経路をナビゲートするために, より高速かつ少ない最適なドローン数で解決できることが判明した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:27:29 GMT)
Comment on: "Dynamics of disordered quantum systems with two- and three-dimensional tensor networks" arXiv:2503.05693 [0.3] この研究は、古典的手法の範囲を超えた量子シミュレーションの実証であるRef. [2]の主張を覆したと誤解すべきではない。
近い将来、これらの古典的手法を量子シミュレーションと組み合わせることで、古典的および量子的シミュラビリティの境界を鋭くすることができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:52:08 GMT)
Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders [0.2] 一般的なメートル法深度理解は、正確な視覚誘導ロボット工学にとって重要である。
本稿では,事前学習したRGBエンコーダを拡張した自己教師型トレーニング手法であるVanishing Depthを提案する。
我々は、RGBDダウンストリームタスクのスペクトルにわたる性能改善とSOTA結果を達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:19:48 GMT)
Efficient IoT Intrusion Detection with an Improved Attention-Based CNN-BiLSTM Architecture [0.2] 本稿では,ボットネット攻撃を検出するためのコンパクトで効率的な手法を提案する。
提案手法は,N-BaIoTデータセットを用いたボットネット攻撃の検出において,99%の分類精度を実現する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:12:14 GMT)
Inducing Personality in LLM-Based Honeypot Agents: Measuring the Effect on Human-Like Agenda Generation [0.2] SANDMANは、Language Agentsを利用して、説得力のある人間のシミュラクラをエミュレートするサイバー詐欺のアーキテクチャである。
私たちの「認知エージェント」は、攻撃者との高忠実なエンゲージメントのために設計された、先進的なサイバーデコイとして機能します。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:16:35 GMT)
Context-Preserving Gradient Modulation for Large Language Models: A Novel Approach to Semantic Consistency in Long-Form Text Generation [0.2] 文脈的関連性に応じてパラメータ更新を動的に調整する新しい変調勾配法が導入された。
提案手法は,計算オーバーヘッドを著しく抑えることなく,モデル生成物語の安定性を向上させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:13:00 GMT)
Pose-Based Fall Detection System: Efficient Monitoring on Standard CPUs [0.2] 本稿では,センサや高出力ハードウェアを必要としない堅牢な落下検知システムを提案する。
このシステムは、ポーズ推定手法としきい値に基づく分析と投票機構を組み合わせて、転倒と非転倒活動を効果的に区別する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:49:36 GMT)
Highly efficient microwave memory using a superconducting artificial chiral atom [0.2] 一次元開放伝送線に埋め込まれた超伝導人工キラル原子を理論的に検討した。
結合場を1つの人工原子に印加することにより、分散を変調し、電磁誘導透過と似た緩やかなプローブパルスを発生させる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:49:51 GMT)
One-vs.-One Mitigation of Intersectional Bias: A General Method to Extend Fairness-Aware Binary Classification [0.1] 1-vs.ワン・マイティゲーション(英: One-vs. One Mitigation)は、二項分類のためのフェアネス認識機械学習と、センシティブ属性に関連する各サブグループの比較プロセスである。
本手法は,すべての設定において従来の手法よりも交叉バイアスを緩和する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:32:15 GMT)
Pfungst and Clever Hans: Identifying the unintended cues in a widely used Alzheimer's disease MRI dataset using explainable deep learning [0.1] ディープニューラルネットワークはアルツハイマー病(AD)の分類において高い精度を示している
本研究の目的は、ブラックボックスの性質を啓蒙し、T1重み付き(T1w)白質テクスチャの個々の寄与を明らかにすることである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:41:10 GMT)
Halving the Cost of Quantum Algorithms with Randomization [0.1] 量子信号処理(QSP)は、線形演算子の変換を実装するための体系的なフレームワークを提供する。
近年の研究では、量子チャネルへのユニタリゲートを促進する技術であるランダム化コンパイルが開発されている。
提案アルゴリズムは, 平均進化が対象関数に収束するように戦略的に選択されたランダム化の確率的混合を実装し, 誤差は等価個体よりも2次的に小さい。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:18:45 GMT)
In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush [0.1] 我々は,アーティストが最小限の努力でゲームマップの選択領域をシームレスに修正できるようにデザインされた,地図編集のための新しいSmart Brushを紹介した。
当社のハイブリッドワークフローは,芸術的柔軟性と生産効率の向上を目標としています。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:01:37 GMT)
Nanopass Back-Translation of Call-Return Trees for Mechanized Secure Compilation Proofs [0.1] 研究者は、ソースコンテキストがソースプログラムに対してマウントされるような攻撃がなければ、セキュアなコンパイルチェーンを構築することを目指している。
ターゲットのコンテキストをコンパイルされたプログラムにマウントするには、ソースプログラムに同じアタックをマウントしたソースコンテキストを表示する必要がある。
本稿では,より簡単な証明を証明アシスタントでより容易に行うことができる新しいバックトランスレーション手法について述べる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:50:35 GMT)
An Efficient Data Reuse with Tile-Based Adaptive Stationary for Transformer Accelerators [0.1] トランスフォーマーベースのモデルは、コンピュータビジョンや自然言語処理など、多くの分野において事実上のバックボーンとなっている。
重みとアクティベーションのための外部メモリアクセス(EMA)は、内部計算に比べてエネルギー消費が著しく高いため、重要なボトルネックとなる。
タイル内の入力または重みを入力シーケンス長に基づいて選択するタイルベースの適応定常スキームを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:29:58 GMT)
Twin-Polaritons: Classical versus Quantum Features in Polaritonic Spectra [0.0] 双極子(ツインポラリトン)は,通常の一次共振性ポラリトン分裂を超越した,新しい特徴を報告した。
この発見は、古典的な手法を用いて量子的特徴をチューニングする新しいメカニズムを明らかにし、分極性系の基本的な性質に関する新たな洞察を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:56:22 GMT)
Thermodynamics of Hamiltonian anyons with applications to quantum heat engines [0.0] トポロジカルエノンはボソンとフェルミオンの間を補間し、交換時に複雑な相を拾う。
最近の研究では、同様の統計的挙動がボゾンとフェルミオンの混合によって生じることが示されている。
我々は、対称状態の人口をハミルトニアンを生成する対称性によって促進または抑制することに基づく、そのような統計的エノンの代替的な実装を導入する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:08:03 GMT)
Theory of Two-level Tunneling Systems in Superconductors [0.0] 超伝導に対する2レベルトンネルシステムの影響の予測について述べる。
従来のs波超伝導体における非磁性TLS不純物は、ペアブレーキングまたはペアエンハンシング欠陥として機能する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:49:55 GMT)
The quantum Newman-Moore model in a longitudinal field [0.0] 量子ニューマン・ムーアモデル (quantum Newman-Moore model) または量子三角プラケットモデル (quantum triangular plaquette model, qTPM) を縦場 (qTPMz) の存在下で研究する。
我々はqTPMzの基底状態相図が翻訳対称性を破る様々なフラストレーション相を含むことを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:43:21 GMT)
The Great Rift in Physics [0.0] 量子理論の予測は、アインシュタインが望んだ一般相対性理論とは相容れない。
解決すべきことは、時空構造と力学の相対論的説明である。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:01:46 GMT)
Terahertz electro-optic modulation of single photons [0.0] 単一光子レベルにおける可視光と近赤外光の操作は、量子通信システムにおいて重要な役割を果たす。
バルク媒体中の単一光子の電気・光変調のためのポンプ源としてテラヘルツ(THz)電場を用いることを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:52:54 GMT)
Tailoring nuclear spins order with defects: a Quantum-TCAD study [0.0] 原型システムは、平面外のスピンドライバ/プローブと相互作用するスピンの2次元順序分布を特徴とする。
広帯域半導体では、開体積点欠陥とミラー指数の低い官能化面によって実現できる。
超格子性モンテカルロによるシステム生成過程をシミュレーションし, 時間依存条件下でのエピタキシャル成長が, 制御された表面欠陥の多量化や破壊を実現するための有効な方法であることを実証した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:01:38 GMT)
TRIDIS: A Comprehensive Medieval and Early Modern Corpus for HTR and NER [0.0] TRIDIS (Tria Digita Scribunt) は、中世・近世の写本のオープンソースコーパスである。
Tria Digita Scribuntは、中世および近世の写本のオープンソースコーパスである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 03:44:11 GMT)
Structured Token Retention and Computational Memory Paths in Large Language Models [0.0] 本稿では,文脈的重要性に基づいてトークンの永続化を動的に調整する確率的選択フレームワークを提案する。
階層的なメモリ割り当てによって拡張され、トークン埋め込みの構造化された再配置によって保持効率を向上する。
STRとCMPのオープンソースモデルへの統合は、構造化メモリ保持手法の適応性を示している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:12:11 GMT)
Structural Latency Perturbation in Large Language Models Through Recursive State Induction [0.0] 本研究では、再帰的状態誘導により計算経路を変調する構造的遅延摂動機構を提案する。
再帰状態調整を適用すると、様々なシーケンスの長さにわたる推論遅延が減少することを示した。
計算オーバーヘッドの解析は、活性化を選択的に抑制することが、電力効率の向上に寄与することを示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:00:06 GMT)
Spin models from nonlinear cellular automata [0.0] 我々は1D小細胞オートマトンの研究を非線形規則に拡張する。
逆場の付加による量子ゆらぎを含むことにより、基底状態の量子相と相転移を研究する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:46:16 GMT)
Spectral Entanglement Fingerprinting: A Novel Framework for Ransomware Detection Using Cross-Frequency Anomalous Waveform Signatures [0.0] 悪意のある暗号化技術は進化を続け、従来の検出メカニズムをバイパスしている。
スペクトル分析は、システムのアクティビティデータを周波数領域に変換する別のアプローチを示す。
提案したスペクトルエンタングルメントフィンガープリント(SEF)フレームワークは、パワースペクトル密度、コヒーレンス関数、エントロピーに基づくメトリクスを利用して隠れパターンを抽出する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:09:22 GMT)
Space-time tradeoff in networked virtual distillation [0.0] 仮想蒸留は、理想的な条件下で、量子状態コピーの数が増えるにつれてエラーを指数関数的に抑制できる技術である。
時空トレードオフを最大化するエッジケースに対応するVDの実用的実装を3つ分析する。
ネットワーク型イオントラップシステムの現実的なノイズ特性下での3つの実装の性能を数値的に比較する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:07:58 GMT)
Single Shot AI-assisted quantification of KI-67 proliferation index in breast cancer [0.0] そこで本研究では, YOLOv8オブジェクト検出フレームワークを用いたAIによるKi-67自動スコアリング手法を提案する。
化学染色した腫瘍部位の高解像度デジタル画像(40倍倍)をKi-67ホットスポット領域から採取し,領域の専門家が手動でKi-67陽性腫瘍細胞と陰性腫瘍細胞の鑑別を行った。
提案手法は,Ki-67の評価において,従来手法よりも効率よく,スケーラブルで,客観的な代替手段を提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:41:45 GMT)
Semi-Decision-Focused Learning with Deep Ensembles: A Practical Framework for Robust Portfolio Optimization [0.0] 本稿では,ポートフォリオ最適化のための半決定焦点学習を提案する。
私は単純なターゲットポートフォリオ(Max-SortinoやOne-Hot)と凸とクロスエントロピーの損失を持つモデルをトレーニングしています。
2つの宇宙の実験(1つは上向き、もう1つはレンジバウンド)は、ベースラインのポートフォリオよりも一貫したアウトパフォーマンスを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:42:02 GMT)
Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency [0.0] Semantic Layered Embedding Diffusion (SLED) メカニズムは、トランスフォーマーベースのアーキテクチャにおける階層的セマンティクスの表現を再定義する。
スペクトル解析に基づく多層拡散プロセスを導入することにより、大域的および局所的セマンティックコヒーレンスの間の複雑なバランスを実現する。
実験結果は、様々な領域で効果的に適応するメカニズムの能力を強調し、パープレキシティとBLEUスコアを著しく改善した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:55:17 GMT)
SMT-EX: An Explainable Surrogate Modeling Toolbox for Mixed-Variables Design Exploration [0.0] 本稿では,Python Surrogate Modeling Toolbox(SMT)のオープンソース版であるSMT-EXを紹介する。
SMTの特異な説明可能性依存性は、サロゲートモデルが構築されると容易に活性化できるため、迅速な洞察抽出のためのユーザフレンドリで効率的なツールを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:38:27 GMT)
Reservoir Computing with a Single Oscillating Gas Bubble: Emphasizing the Chaotic Regime [0.0] 本研究では,液塊内に閉じ込められた単一気泡に基づく貯水池計算システムを提案し,理論的に検証する。
入力情報をエンコードし、複雑な非線形ダイナミクスを励起する外部音圧波を適用することにより、この単一気泡貯水池計算システムによる複雑なベンチマーク時系列の予測能力を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:32:09 GMT)
Recoil-induced errors and their correction in photon-mediated entanglement between atom qubits [0.0] 任意の光学モードに結合した自然放出に対する原子運動の影響について検討する。
我々は、フォトニックウェーブパケットの各瞬間に関連付けられた「キック演算子」という形で、コヒーレントな物理画像に到達する。
この補正手法は、原子の熱運動に伴うオーバーヘッドを除去し、長距離量子ネットワークリンクの絡み合いを著しく増大させる可能性がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:53:58 GMT)
Random feature-based double Vovk-Azoury-Warmuth algorithm for online multi-kernel learning [0.0] 再生カーネルヒルベルト空間(RKHS)における最小二乗回帰のための新しいマルチカーネル学習アルゴリズムVAW$2$を導入する。
VAW$2$は、ランダムフーリエ特徴量に基づく関数近似とVovk-Azoury-Warmuth (VAW) 法を2段階の手順で活用する。
理論的解析により、ランダムな特徴の数が$T1/2$となるとき、人工的ランダム性に関して予想される$O(T1/2ln T)$の後悔境界が得られる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:57:35 GMT)
Quantum Approximation Optimization Algorithm for the Trellis based Viterbi Decoding of Classical Error Correcting Codes [0.0] 古典的誤り訂正符号のためのハイブリッド量子古典型ビタビデコーダを構築する。
量子近似最適化アルゴリズムは、受信した誤ベクトルに対して最小距離のトレリス上の任意の経路を見つけることができることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:48:32 GMT)
Quantum Algorithms for Representation-Theoretic Multiplicities [0.0] 我々は、Kostka、Littlewood-Richardson、Plethysm、Kronecker係数を計算するための量子アルゴリズムを提供する。
この制限の下では、Kostka数に対して効率的な古典的アルゴリズムがあることを示し、Littlewood-Richardson係数に対する類似アルゴリズムの存在を予想する。
このような古典的アルゴリズムがPlethysm と Kronecker の係数に対して直接作用しない理由を論じ、量子アルゴリズムがこれらの問題に対してスーパーポリノミカルなスピードアップをもたらすと推測する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:51:14 GMT)
Quantifying the Ease of Reproducing Training Data in Unconditional Diffusion Models [0.0] 拡散モデルは、トレーニングデータによく似たサンプルを生成する。
この現象は記憶化と呼ばれ、著作権問題につながる可能性がある。
非条件拡散モデルにおけるトレーニングデータの再現の容易さを定量化する手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:19:56 GMT)
Quantifying Symptom Causality in Clinical Decision Making: An Exploration Using CausaLM [0.0] 医学的診断に対する現在の機械学習のアプローチは、しばしば症状と疾患の間の相関パターンに依存する。
本研究は,主症状特異的に「ケスト痛み」が診断予測に与える影響について,相関性を超えて検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 06:59:21 GMT)
Quantification of Tenseness in English and Japanese Tense-Lax Vowels: A Lagrangian Model with Indicator θ1 and Force of Tenseness Ftense(t) [0.0] 閉母音の調音における舌と顎の動的相互作用を記述するためのラグランジアン方程式に基づくモデルを提案する。
このモデルは、異なる言語間で母音生成に関わる力を推定するための理論的枠組みを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:26:30 GMT)
Proceedings of the Fourteenth and Fifteenth International Workshop on Graph Computation Models [0.0] ワークショップは2023年7月18日にイギリスのレスター、2024年7月9日にオランダのエンシェデで行われた。
国際GCMワークショップシリーズの目的は、グラフとグラフ変換に基づく計算モデルのあらゆる側面に関心を持つ研究者を集結させることである。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:19:26 GMT)
Predicted third-order sweet spots for phi-junction Josephson parametric amplifiers [0.0] ハイブリッド超伝導体-半導体ナノワイヤジョセフソン接合は歪およびフィシフト電流相関係を示す。
磁場をスイートスポットに調整することで、支配的な3階非線形性を実現することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:53:33 GMT)
Practical Fine-Tuning of Autoregressive Models on Limited Handwritten Texts [0.0] 微調整は16行で確実に開始でき、CERが10%向上し、256行で最大40%向上することを示した。
また,OCRモデルを用いて情報回線の信頼性に基づく選択を行うことで,アノテーションのコストを半減できることを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:01:05 GMT)
Photon-Mediated Atomic Interactions in Curved Surface Settings [0.0] サブ波長原子格子は量子アプリケーションのための有望なプラットフォームとして登場した。
導波路の曲率と厚さが有効表面波長を通じて集合状態にどのように影響するかを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:23:36 GMT)
Optomechanical quantum bus for donor spins in silicon [0.0] 我々は、シリコンドナースピンを光機械構造に結合させることにより、これらすべての発展をまとめることを提案する。
理論的、数値的には、これはスピン量子ビットのテレコム波長光可読化を可能にすることを示している。
また,ユニバーサルゲートセットのための2ビットゲートのゲート忠実性について検討し,今後の展開について議論する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:52:32 GMT)
Optimizing Breast Cancer Detection in Mammograms: A Comprehensive Study of Transfer Learning, Resolution Reduction, and Multi-View Classification [0.0] 本研究は,マンモグラフィにおける乳癌検診における機械学習の適用について,オープンな疑問を呈するものである。
単一ビューと2ビューの分類器の両方において、先行結果より優れたモデルを開発する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:51:21 GMT)
Optimization through In-Context Learning and Iterative LLM Prompting for Nuclear Engineering Design Problems [0.0] 本研究では,これらの課題に対処するために,大規模言語モデル (LLM) を用いた反復的アプローチである Prompting による最適化の利用について検討する。
LLMの文脈内学習能力により、問題ニュアンスを理解することができるため、従来のメタヒューリスティック最適化手法を超越する可能性がある。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:08:46 GMT)
OAEI-LLM-T: A TBox Benchmark Dataset for Understanding LLM Hallucinations in Ontology Matching Systems [0.0] 大規模言語モデル(LLM)を用いた下流タスクでは幻覚は避けられない
我々は、OAEI-LLM-Tと呼ばれる新しいベンチマークデータセットを導入し、OMタスクを実行する異なるLLMの幻覚をキャプチャする。
これらのOM特異的幻覚は、慎重に2つの主要なカテゴリーと6つのサブカテゴリに分類される。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:20:04 GMT)
Magnon Shake-up: Entanglement Generation and Sensing [0.0] 急激な近似と多体量子力学に根ざしたシェイクアップ現象は、量子系の臨界特性を明らかにする。
この原理をマグノニクス系に拡張することにより、マグノニクスの揺らぎ構造とそのマグノニクスの絡みを発生・感知する関連性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:56:10 GMT)
Long-distance quantum communication using concatenated ring graph codes [0.0] 本稿では,リンググラフ符号と線形光ベル状態測定に基づく一方向量子リピータアーキテクチャを提案する。
これにより、単一量子ビット誤り率が存在する場合でも、kHZレートでの長距離量子通信が可能となる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:32:18 GMT)
Linear Diffusion Networks [0.0] 本稿では、逐次データ処理を統一拡散プロセスとして再解釈する新しいアーキテクチャであるLinear Diffusion Networks(LDNs)を提案する。
本モデルでは,適応拡散モジュールと局所的な非線形更新と拡散に着想を得た注意機構を統合した。
ベンチマークシーケンスモデリングタスクの実験は、LDNがImageNetとLRAタスク間で競合するパフォーマンスを提供することを示した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:52:09 GMT)
Leveraging quantum statistics to enhance heat engines [0.0] 本稿では,ボゾンとフェルミオンの単一粒子統計量を変化させる追加のストロークを利用するハイブリッド量子熱エンジンを提案する。
オットーのようなサイクルで統計ストロークをどこで実装するかを適切に選択することで、効率と作業出力を大幅に向上できることを示す。
縮退系では、統計ストロークによって引き起こされる熱と作業の異なる寄与との相互作用により、エンジンはカルノット効率で動作することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:22:19 GMT)
Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement [0.0] ラテントレキシカル射影 (LLP) は、構造化された空間からラテント空間への変換を通じて、レキシカル表現を洗練するために導入された。
LLPは既存の言語モデルアーキテクチャに最適化されたプロジェクション機構を統合する。
評価は、パープレキシティの低下とBLEUスコアの上昇を示し、予測精度と流布率の改善を示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:10:08 GMT)
Investigating Data Hierarchies in Multifidelity Machine Learning for Excitation Energies [0.0] 本研究では,QeMFiベンチマークを用いた鉛直励起エネルギー予測におけるモデル効率と精度に対する$gamma$の修正の影響について検討した。
MFMLの新たな誤差距離、誤差輪郭は、各忠実度からのモデル誤差寄与の包括的ビューを提供するために提案される。
実験結果から, 対象忠実度が低い場合, 目標忠実度において2つのトレーニングサンプルのみを用いて, モデル精度を向上できることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:20:46 GMT)
Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0] 内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。
オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:59:28 GMT)
Improved tissue sodium concentration quantification in breast cancer by reducing partial volume effects: a preliminary study [0.0] 重み付き全変化(wTV)と指向性全変化(dTV)、ガイド付き全変化(AGTV)、適応型コンバインド(ADC)を用いた23NaMRI画像の再構成を行った。
異なる画像再構成法を用いて, ナトリウムデータに基づく腫瘍体積の一致について検討した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:43:54 GMT)
ImF: Implicit Fingerprint for Large Language Models [0.0] 我々はImF(Implicit Fingerprints)と呼ばれる新しい指紋注入パラダイムを提案する。
ImFは強力な意味的相関を持つ指紋ペアを構築し、大きな言語モデル(LLM)内の自然な質問応答ペアとして扱う。
実験により,ImFは敵条件下で高い検証成功率を維持していることが示された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:47:34 GMT)
IgCraft: A versatile sequence generation framework for antibody discovery and engineering [0.0] IgCraftはBayesian Flow Networks上に構築されたペア型ヒト抗体配列生成のための多目的モデルである。
以前分離されたタスクを単一のスケーラブルな生成モデルに統合することで、IgCraftはヒトの抗体配列をサンプリングするための汎用的なプラットフォームを提供する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:32:03 GMT)
Human-AI Interaction and User Satisfaction: Empirical Evidence from Online Reviews of AI Products [0.0] この研究は、ビジネスソフトウェアとサービスのための主要なレビュープラットフォームであるG2から、AI関連製品の10万以上のユーザレビューを分析します。
私たちは7つの中核HAI次元を特定し、レビューの中でそのカバレッジと感情を調べます。
HAIの4次元に対する感情は、適応性、カスタマイズ性、エラー回復、セキュリティが全体的なユーザ満足度に肯定的な関係があることに気付きました。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:44:50 GMT)
How to RETIRE Tabular Data in Favor of Discrete Digital Signal Representation [0.0] 多次元と呼ばれる新しい研究領域。
MDEは、データを均質なデジタル信号(画像)に変換し、畳み込みネットワークを当初は不適切な問題に適用することを目的としている。
タブラルから画像表現(RETIRE)へのレーダベースプレゼンテーションを提案する。
RETIREは、最先端のMDEアルゴリズムのプールと、分類精度と計算複雑性の点でXGBoostと比較された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:00:54 GMT)
High-efficiency vertical emission spin-photon interface for scalable quantum memories [0.0] 自由空間垂直発光結合のための効率的なスピン光子インタフェースを提案する。
ディジタルツイン手法を用いて,0.7の数値開口で遠距離収集効率96%を実現した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 23:25:33 GMT)
Hierarchical Polysemantic Feature Embedding for Autonomous Ransomware Detection [0.0] ランサムウェアの進化には、より洗練された検出技術の開発が必要である。
提案するフレームワークでは,ランサムウェア関連機能を非ユークリッド空間に埋め込んでいる。
実験により、このフレームワークは従来の機械学習ベースのモデルよりも一貫して優れていた。
提案手法は,検出性能と処理オーバーヘッドのバランスを保ち,現実のサイバーセキュリティアプリケーションの候補となる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:17:09 GMT)
Hierarchical Manifold Projection for Ransomware Detection: A Novel Geometric Approach to Identifying Malicious Encryption Patterns [0.0] 暗号化ベースのサイバー脅威は進化を続けており、従来の検出メカニズムをバイパスする技術がますます高度化している。
階層的多様体射影によって構成された新しい分類フレームワークは、悪意のある暗号化を検出する数学的アプローチを導入する。
提案手法は,暗号シーケンスを構造化多様体の埋め込みに変換し,非ユークリッド特徴分離性による分類ロバスト性を確保する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:57:24 GMT)
Hierarchical Lexical Manifold Projection in Large Language Models: A Novel Mechanism for Multi-Scale Semantic Representation [0.0] 構造的階層的埋め込みをトランスフォーマーベースのアーキテクチャに統合することで、語彙表現に対する洗練されたアプローチが導入された。
トークンを構造化多様体にマッピングする射影機構は、改善された語彙アライメントを提供する。
埋め込みの洗練された階層構造は、語彙モデリングにおいてより大きな解釈可能性をもたらす。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:16:10 GMT)
Hierarchical Entropic Diffusion for Ransomware Detection: A Probabilistic Approach to Behavioral Anomaly Isolation [0.0] 本稿では,構造的エントロピーに基づく異常分類機構を提案する。
エントロピーの進化の変動を追跡し、良質な暗号プロセスと不正な暗号化の試みを区別する。
さまざまなランサムウェアファミリーにまたがる高い分類精度を維持し、従来のベースとシグネチャ駆動のアプローチより優れている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:14:37 GMT)
HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X [0.0] マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:53:14 GMT)
Guarding against artificial intelligence--hallucinated citations: the case for full-text reference deposit [0.0] ジャーナルは、著者が引用されたソースの完全なテキストと原稿を提出する必要がある。
この解決策は、著者や編集者の一部に限定的な追加作業を必要とする一方で、幻覚された参照に対して効果的にジャーナリズムを免疫する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:12:38 GMT)
Generative Linguistics, Large Language Models, and the Social Nature of Scientific Success [0.0] チェシの(今後)対象とする論文は、危機にある生成言語学を描いている。
チェシは生き残るために、遺伝学者は形式的で経験的な厳密さのより高い基準に固執しなければならないと警告している。
この反応は、チェシとピアンタドシが記述した危機は、実際は厳密さとはほとんど関係がないが、むしろ遺伝学者の限られた社会的野心の反映であると主張している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:57:35 GMT)
GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0] 本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 19:58:25 GMT)
Framework for Progressive Knowledge Fusion in Large Language Models Through Structured Conceptual Redundancy Analysis [0.0] 大規模モデルにおける潜在知識の組織化は、重なり合う表現に対処し、文脈的精度を最適化する際、ユニークな課題を生じさせる。
高度なクラスタリング技術と動的しきい値設定により,これらの冗長性を再構築するフレームワークが提案された。
評価の結果、メモリ効率が向上し、推論時間が短縮され、解釈可能性を高める潜在知識クラスタのアライメントが向上した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:59:14 GMT)
Forecasting Volcanic Radiative Power (VPR) at Fuego Volcano Using Bayesian Regularized Neural Network [0.0] 本研究では,福島火山の過去のデータをもとに,ベイズ正規化ニューラルネットワーク(BRNN)を用いて将来の火山放射力(VPR)の予測を行う。
BRNNは最小平均二乗誤差(1.77E+16)と最高R二乗値0.50)を達成する
発見は、火山活動予測の進展における機械学習モデル、特にBRNNの可能性を強調している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:15:24 GMT)
Flow to Learn: Flow Matching on Neural Network Parameters [0.0] 我々は、異なるタスクに対してニューラルネットワークパラメータを生成することを学習するフローマッチングモデルであるFLoWNを紹介する。
実験により、FLoWNはメタラーニングモデルのために様々なデシラタが得られることが確認された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:57:50 GMT)
First- and second-order quantum phase transitions in the long-range unfrustrated antiferromagnetic Ising chain [0.0] 縦方向および横方向の磁場をもつ非フラストレーション反強磁性イジング鎖の基底状態相図について検討した。
位相遷移の順序が1つの極限からもう1つの極限にどのように変化するかを理解するため、解析的に難解な相互作用範囲に数値的に取り組む。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:02:58 GMT)
Feynman 1947 letter on path integral for the Dirac equation [0.0] 1947年、有名なシェルター島会議の4ヶ月前、リチャード・ファインマン(Richard Feynman)は、元MITの同級生セオドア・ウェルトン(Theodore Welton)に長い手紙を書いた。
本論では,本文の書写と編集書,原文文書のファクシミリについて述べる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:48:44 GMT)
FedMM-X: A Trustworthy and Interpretable Framework for Federated Multi-Modal Learning in Dynamic Environments [0.0] 本稿では,分散化された動的環境における信頼性を確保するために,多モーダル推論によるフェデレーション学習を統一するフレームワークを提案する。
このアプローチはFedMM-Xと呼ばれ、クロスモーダル整合性チェック、クライアントレベルの解釈可能性メカニズム、動的信頼校正を利用する。
我々の発見は、現実の環境で堅牢で解釈可能で社会的に責任を負うAIシステムを開発するための道を開いた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:28:21 GMT)
Face Spoofing Detection using Deep Learning [0.0] デジタル画像の偽造は生体認証システムにおいて重大なセキュリティ上の脅威として浮上している。
本研究では、画像分類におけるスプーフ検出のための3つの視覚モデル、MobileNetV2、ResNET50、ViTの性能を評価する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 00:09:21 GMT)
Extreme Precipitation Nowcasting using Multi-Task Latent Diffusion Models [0.0] 我々はMulti-Task Latent Diffusion Model (MTLDM)と呼ばれる革新的な降水予測手法を提案する。
我々は,降水強度に基づいて,レーダ画像をいくつかのサブイメージに分解する分割・対数戦略を採用した。
予測段階において、MTLDMはトレーニングされた潜在空間降雨拡散モデルを利用してこれらのサブイメージ表現を統合する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:14:47 GMT)
Estimation of the Acoustic Field in a Uniform Duct with Mean Flow using Neural Networks [0.0] ニューラルネットワークを用いた平面波音場に対する平均流の対流効果について検討した。
複素数値音響圧力と粒子速度は異なる周波数で予測された。
様々な要因が音場に与える影響を記述したクローズドフォーム表現が導出される。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 07:45:11 GMT)
Entropy-Synchronized Neural Hashing for Unsupervised Ransomware Detection [0.0] Entropy-Synchronized Neural Hashing (ESNH)フレームワークは、エントロピー駆動のハッシュ表現を使用してソフトウェアバイナリを分類する。
このモデルは、多型変換や変成変換に直面しても安定性を維持する頑健でユニークなハッシュ値を生成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:57:02 GMT)
Entropy Gain and Information Loss by Measurements [0.0] 本稿では,情報検索可能性 (IR) と情報損失 (IL) を密度行列の関数として定義する。
我々は、単一量子ビットのVNE、IR、IL、ベル試験における絡み合った光子対、量子テレポーテーションにおける3量子ビット系、GHZおよびW状態の多重量子ビット系、および2量子Werner混合状態を分析する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:19:06 GMT)
Entanglement fidelity limits of photonically-networked atomic qubits from recoil and timing [0.0] タイムビン符号化されたフォトニックキュービットは、特に非同期リコイルタイミングに敏感である。
適切な実験設計により、これらの効果がどのように抑制されるか、あるいは排除されるかを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:30:19 GMT)
Entanglement Hamiltonian of two disjoint blocks in the harmonic chain [0.0] ライン上の調和鎖と基底状態における2つの不随伴ブロックの絡み合いハミルトニアンについて検討する。
解析式はそれらのプロファイルに対して得られるが、これは分数線形関数の項で書かれる。
これらのエンタングルメントハミルトンの単一粒子エンタングルメントスペクトルについても検討した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:30:40 GMT)
Energetic advantages for quantum agents in online execution of complex strategies [0.0] 古典的エージェントが与えられた戦略を実行するための最小のエネルギーコストを導出する。
量子エージェントはこの散逸を古典的限界以下に抑えることができることを証明している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:55:03 GMT)
Eigenstate Correlations in Dual-Unitary Quantum Circuits: Partial Spectral Form Factor [0.0] 固有状態相関の解析的な洞察は、最近導入された部分スペクトル形状因子によって得られる。
熱力学限界におけるカオス二重単位量子回路における部分スペクトル形状因子について検討した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 11:07:23 GMT)
Efficient optimization and conceptual barriers in variational finite Projected Entangled-Pair States [0.0] 有限2次元格子上の射影絡み合ったペア状態(PEPS)は、局所多体ハミルトニアンの基底状態を表す自然なアンザッツである。
時間依存変動原理(TDVP)の改良によるPEPSの最適化を提案する。
我々は、長距離相互作用を持つRydberg原子配列の位相図を探索することにより、自然に長距離相互作用を処理できるアプローチの能力を実証する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:17:32 GMT)
EIT in V+ inverted $Ξ$ system using Rydberg state in thermal Rb atoms [0.0] 青色および赤外転移を用いたリドバーグ励起はアルカリ元素の量子計算に有利な経路である。
V+逆Xi$系におけるRydberg状態を用いた電磁誘導透過(EIT)スペクトルについて検討した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 04:22:16 GMT)
DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework [0.0] 最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:15:52 GMT)
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms [0.0] 本稿では,音声ファイルのMel Spectrogram表現による音声中の感情の分類における畳み込みニューラルネットワークCNNの適用について検討する。
音声データを視覚形式に変換することで、CNNモデルは複雑なパターンを自律的に識別し、分類精度を高める。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:02:10 GMT)
Deep Learning Approaches for Blood Disease Diagnosis Across Hematopoietic Lineages [0.0] 本稿では,深層学習を利用して造血階層全体にわたる潜伏する遺伝的シグネチャを明らかにする基盤モデリングフレームワークを提案する。
提案手法は,多能性前駆細胞に完全接続されたオートエンコーダを訓練し,256次元の潜伏空間に2万以上の遺伝子特徴を還元する。
血液疾患診断タスクのためのフィードフォワード,トランスフォーマー,グラフ畳み込みアーキテクチャをトレーニングすることで,これらの埋め込みの質を検証する。
我々のモデルは多クラス分類において95%以上の精度を達成し、ゼロショット設定では2進分類タスクにおいて0.7 F1スコア以上を達成する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 20:11:10 GMT)
Dataset-learning duality and emergent criticality [0.0] ニューラルネットワークでは、非学習変数の活性化ダイナミクスは、学習変数の学習力学と強く結びついている。
我々は双対性を用いて臨界性の出現や、訓練可能な変数のゆらぎのゆらぎのパワー-法則分布を研究する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:39:21 GMT)
Data-efficient rapid prediction of urban airflow and temperature fields for complex building geometries [0.0] 本稿では,多方向距離特徴(MDDF)と局部訓練を組み合わせた新しい枠組みを提案する。
局所的なフーリエニューラル演算子 (Local-FNO) モデルでは, フル3次元風速と温度予測を1分以内で生成する。
風速 0.3 m/s の絶対誤差と未確認の都市構成温度 0.3$C の絶対誤差から,本手法は強力な一般化能力と実用的な都市利用の可能性を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:36:01 GMT)
Data-driven Mesoscale Weather Forecasting Combining Swin-Unet and Diffusion Models [0.0] 本研究では,拡散モデルとSwin-Unetを決定論的モデルとして組み合わせたアーキテクチャを提案する。
提案したアーキテクチャは、2つのモデルを独立に訓練し、決定論的モデルが更新されたときに拡散モデルが変更されないようにする。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:07:31 GMT)
Critical Mathematical Economics and Progressive Data Science [0.0] 本論の目的は,数学とヘテロドックス経済学の交点における研究プログラムの可能性を提示し,議論することである。
本稿では,経済政策における論争の数学的・モデル論的基礎に焦点をあてる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:37:12 GMT)
Contextually Structured Token Dependency Encoding for Large Language Models [0.0] 自己注意機構は動的文脈依存を捉えるが、学習した重み分布への依存は、生成配列における長距離階層構造の保存を制限する。
依存性を意識したトークンエンコーディングでは,トークン表現内にリレーショナル制約を埋め込むという,構造化されたアプローチが導入されている。
経験的評価は、多種多様な言語ベンチマークにおけるパープレキシティの低下を示し、自己回帰テキスト生成における文脈的一貫性と予測一貫性の改善を示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:58:16 GMT)
Contextual Subspace Manifold Projection for Structural Refinement of Large Language Model Representations [0.0] ディープ・ニューラル・アーキテクチャの内部表現は言語構造の高次元抽象化を符号化する。
本稿では,制御された部分空間制約によりトークン埋め込みを選択的に再構成する構造的精細化手法を提案する。
実験により、構造的介入により異方性が減少し、表現のコンパクト性が改善された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:58:31 GMT)
Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction [0.0] シーケンスの長さが増加するにつれて、トークン依存は低下し、一貫性と事実整合性が低下する。
異なる処理層でキャプチャされた潜伏状態の再織り直しを通じてこの問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory Reweavingフレームワークには、Lambed Latent State Restructationメカニズムが組み込まれている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:10:47 GMT)
Contextual Gradient Flow Modeling for Large Language Model Generalization in Multi-Scale Feature Spaces [0.0] マルチスケールの文脈調整を取り入れた構造的勾配改善フレームワークが導入された。
重み更新の階層的な調整は、従来のバックプロパゲーションの代替となった。
構造最適化戦略は不均一なテキスト分布の適応性を保ちながらオーバーフィッティングを緩和する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:55:52 GMT)
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0] 本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。
視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。
この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 02:12:35 GMT)
Conditional Shift-Robust Conformal Prediction for Graph Neural Network [0.0] グラフニューラルネットワーク(GNN)は、グラフ構造化データの結果を予測する強力なツールとして登場した。
有効性にもかかわらず、GNNは堅牢な不確実性推定を提供する能力に制限がある。
本稿では,GNNに対する条件シフトロバスト(CondSR)の共形予測を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:27:10 GMT)
Comparability of Automated Vehicle Crash Databases [0.0] 本稿では,現在の運転自動化(DA)とベースラインの人間駆動型クラッシュデータベースについて概説する。
また,事故記録から車両識別番号(VIN)を用いて車両の自動化能力を決定する方法についても検討した。
クラッシュデータ収集は、自動露出データの収集、クラッシュデータの広範な収集と電子データレコーダ、クラッシュ定義の標準化によって改善することができる。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:41:27 GMT)
Comment on " Second Law of Thermodynamics without Einstein Relation'', arXiv:2405.17142 [0.0] [1]で導入された1つの温度のような変数のアイデアは、一貫した有用な熱力学形式論には十分ではないと論じられている。
量子開系(英語版)のマルコフ理論における「第二法則の起源と局所温度」が再検討され、説明されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 08:56:25 GMT)
Collapse-based models for gravity do not violate the Entanglement-Based Witness of non-classicality [0.0] 非古典性の絡み合いに基づく証人は重力における量子効果のテストに応用できる。
最近の主張では、古典的な重力の崩壊に基づくモデルは、重力によって引き起こされる絡みを予測できるという。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:44:59 GMT)
Cellular automata in $d$ dimensions and ground states of spin models in $(d+1)$ dimensions [0.0] 我々は、$d$次元セルオートマトン(CA)の軌跡を用いて、$(d+1)$次元古典スピンモデルの基底状態を決定する方法を示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 12:29:16 GMT)
Calculating the energy profile of an enzymatic reaction on a quantum computer [0.0] 量子コンピューティングは、量子化学計算を可能にするための有望な道を提供する。
最近の研究は、ノイズ中間量子(NISQ)デバイスのためのアルゴリズムの開発とスケーリングに向けられている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:58:19 GMT)
Biorthogonal basis approach to fractional Chern physics [0.0] チャーン絶縁体は、一粒子バンドトポロジーと強い反発相互作用の競合から生じると考えられている。
我々はフォン・ノイマン格子上のコヒーレントな状態から構築された生物直交基底を導入する。
我々は,バンド分散がほぼ現実に近い自己整合性解を構築することができることを数値的に見出した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 14:51:11 GMT)
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction [0.0] BiblioPageは、構造化メタデータを付加したスキャン済みのタイトルページのデータセットである。
このデータセットは、チェコの14の図書館から集められた約2,000のタイトルページで構成されている。
YOLO や DETR などの物体検出モデルと変換器を用いた OCR を併用し,最大 mAP 52 と F1 59。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:46:55 GMT)
Beyond Relevance: An Adaptive Exploration-Based Framework for Personalized Recommendations [0.0] 本稿では,多様性と新規性を促進するための探索に基づく推薦フレームワークを提案する。
ユーザ制御探索機構は、探索されていないクラスタから選択的にサンプリングすることで多様性を高める。
MovieLensデータセットの実験では、探索を可能にすることで、リスト内の類似性が0.34から0.26に減少し、予期せぬ結果が0.73に増加した。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:27:32 GMT)
Benchmarking Data Efficiency in $Δ$-ML and Multifidelity Models for Quantum Chemistry [0.0] この研究は、$Delta$-ML、MFML、最適化されたMFML(o-MFML)に関連するデータコストを比較する。
以上の結果から,マルチ忠実度法は,多くの予測を行う場合の標準$Delta$-ML手法を超えることが示唆された。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:55:46 GMT)
Bayesian Optimization of a Lightweight and Accurate Neural Network for Aerodynamic Performance Prediction [0.0] 本研究では,空力性能予測のための効率的かつ正確な予測モデルを構築するための新しい手法を提案する。
設計変数間の相互作用を明確に記述するために、BOの定式化では階層カーネルと分類カーネルが使用される。
ドラッグ係数予測タスクでは,最適化モデルの平均絶対パーセンテージ誤差(MAPE)が0.1433%から0.0163%に低下する。
本モデルでは, ベンチマーク航空機の自己雑音予測問題に対して, 0.82%のMAPEを達成し, 既存モデルよりも大幅に優れていた。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:14:36 GMT)
AutoBayes: A Compositional Framework for Generalized Variational Inference [0.0] 一般化された変分推論のための新しい構成フレームワークを提案する。
本稿では, 逆モード自動微分と同様の連鎖則を, 偏差推論に典型的なベイズ推定と損失関数が満足することを示す。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 10:55:49 GMT)
Aspects of Quantum Energy Teleportation [0.0] 量子エネルギーテレポーテーション (QET) プロトコルについて検討し, 有限温度での挙動に着目した。
熱状態におけるQETの資源としての絡み合いの役割を解析する。
次に、量子測定のみを用いるプロトコルを用いて基底状態エネルギーを抽出する手法を提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:16:02 GMT)
Are Pseudo-Hermiticity and Generalized PT-Symmetry Equivalent at Exceptional Points? [0.0] 対角化可能線型作用素 $H:mathscrHtomathscrH$ に対して、$H$ の擬ハーミティック性はその一般化された PT-対称性と同値であることを示す。
また、有限次元ヒルベルト空間で作用する任意の線型作用素に対して擬ハーミティティーと一般化された$PT$対称性の同値性を確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:21:07 GMT)
An entanglement protocol to measure atomic parity violation at sub 0.1% precision [0.0] 本稿では,バリウムイオン中の原子パリティ違反(APV)を0.1%精度で測定する方法を提案する。
このスキームは多イオン絡み合った状態を用いてパリティ保存系シフトを拒絶し、パリティ違反ベクトル光シフトを選択的に検出する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 18:43:16 GMT)
ARGO-SLSA: Software Supply Chain Security in Argo Workflows [0.0] Argonativesは、自動化された方法でソフトウェアアーチファクトを管理するためのエンジンである。
ソフトウェアアーティファクトのためのサプライチェーンレベル(SLSA)のようなフレームワークの組み込み機能は含まない。
本稿では,アーティファクトセキュリティを高めるためにArgos上に構築されたプロファイランスコントローラを提案する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 21:32:23 GMT)
AI Identity, Empowerment, and Mindfulness in Mitigating Unethical AI Use [0.0] 本研究では,大学生の心理的エンパワーメントと非倫理的AI行動にAIアイデンティティがどのような影響を及ぼすかを検討する。
発見によると、強いAIアイデンティティは心理的エンパワーメントと学術的エンゲージメントを高めるが、非倫理的なAIプラクティスの増加につながる可能性がある。
ITマインドフルネスは倫理的保護として機能し、倫理的懸念に対する感受性を促進し、AIの誤用を減らす。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 22:36:21 GMT)
A stochastic gradient descent algorithm with random search directions [0.0] ランダムな探索方向を持つ勾配降下アルゴリズムを新たに開発する。
ステップベクトルを減らしたこれらのアルゴリズムのほぼ確実に収束を確立する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:54:06 GMT)
A Systematic Review of EEG-based Machine Intelligence Algorithms for Depression Diagnosis, and Monitoring [0.0] うつ病は深刻な健康状態であり、世界中の何百万人もの人々に影響を与えている。
脳波バイオマーカーは、近年、潜在的な変革的客観的実践として提案され、研究されている。
先進的な機械学習技術と統計分析を用いて,脳波によるうつ病診断アプローチの詳細な体系的レビューを行った。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 16:31:27 GMT)
A Quantum Neural Network Transfer-Learning Model for Forecasting Problems with Continuous and Discrete Variables [0.0] 本研究では、タスク予測のための伝達学習手法として、単純で効果的な連続変数および離散変数量子ニューラルネットワーク(QNN)モデルを提案する。
CV-QNNは2つの量子ビットを持つ単一の量子層を備え、絡み合いを確立し、最小限の量子ゲートを使用する。
このモデルの凍結パラメータは、エネルギー消費、交通の流れ、気象条件、暗号通貨の価格予測など、様々な予測タスクにうまく適用されている。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 13:35:29 GMT)
A Note on Estimation Error Bound and Grouping Effect of Transfer Elastic Net [0.0] Transfer Elastic Netは線形回帰モデルの推定方法である。
我々は、推定器の非漸近$ell$ノルム推定誤差を導出し、転送弾性ネットが効果的に機能するシナリオについて議論する。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 09:21:15 GMT)
A Mechanistic Explanatory Strategy for XAI [0.0] 本稿では,ディープラーニングシステムの機能的構造を説明するためのメカニズム的戦略を概説する。
この結果は,機械的説明の追求が,従来の説明可能性技術が見落としている要素を明らかにすることを示唆している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 01:41:47 GMT)
A Managed Tokens Service for Securely Keeping and Distributing Grid Tokens [0.0] Fermilabは、グリッド操作の認証と認証を、WLCG Common JWT (JSON Web Token)プロファイルに基づいたベアラートークンに移行している。
実験者のためにトークンを取得し、リフレッシュし、配布するサービスを作成しました。
このサービスはGoで記述されており、その言語のネイティブプリミティブを活用して、実験中の操作を簡単にスケールできます。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 15:37:45 GMT)
A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950 [0.0] 本稿では,大言語モデル(LLM)と従来の自然言語処理(NLP)ツールを比較し,単語セグメンテーション,POSタグ付け,名前付きエンティティ認識(NER)について述べる。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 17:07:21 GMT)
A Benign Activity Extraction Method for Malignant Activity Identification using Data Provenance [0.0] 本稿では,頻繁に発生する良性行為を抽出・除去することで,悪意ある活動に対する検索スペースを削減する手法を提案する。
評価実験では,コンピュータシステムにおける活動の約6.8~39%が良性活動のパターンとして定義できることがわかった。
論文参考訳(メタデータ) (Tue, 25 Mar 2025 05:52:41 GMT)