Explore In-Context Segmentation via Latent Diffusion Models [132.3] インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:58:01 GMT)
Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.6] 視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:48:20 GMT)
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.3] そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:57:20 GMT)
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.5] Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:52:43 GMT)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3] 拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:43:28 GMT)
DAWN-ICL: Strategic Planning of Problem-solving Trajectories for Zero-Shot In-Context Learning [99.1] In-context Learning (ICL) を実現するために,実証対応モンテカルロ木探索法 (DAWN-ICL) を提案する。
現実のシナリオでは、問題は通常多様なタスクから発生し、同じタスクに属するものはほとんどない。ランダムな順序は信頼できない擬似デモを生成し、エラーの蓄積につながる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:20:07 GMT)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.9] ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:08:00 GMT)
AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3] AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。
AgiBot Worldは高品質で多様なデータ配信を保証する。
GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:40:29 GMT)
One-Step Diffusion Model for Image Motion-Deblurring [85.8] 本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:39:57 GMT)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.9] Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:31:51 GMT)
AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.6] Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:04:18 GMT)
Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.8] 拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:37:34 GMT)
UniRestorer: Universal Image Restoration via Adaptively Estimating Image Degradation at Proper Granularity [79.9] We present our UniRestorer with improve restoration performance。
具体的には、劣化空間上で階層的クラスタリングを行い、マルチグラニュラリティ・ミックス・オブ・エキスパート(MoE)復元モデルを訓練する。
UniRestorerは、既存の劣化診断法と -aware 法とは対照的に、劣化推定を利用して劣化特定回復の恩恵を受けることができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:30:29 GMT)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.1] 安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは,98%,83%以上のガードレールアキュラシーを有する2つのベンチマークにおいて,異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:42:18 GMT)
UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.3] そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:13:53 GMT)
Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images [71.9] 我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:42:06 GMT)
A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification [68.1] 人物再識別(ReID)システムは、画像またはビデオフレーム間で個人を識別する。
多くのReID法は、性別、ポーズ、身体質量指数(BMI)などのセンシティブな属性の影響を受けている。
表現性の概念をボディ認識領域に拡張し、ReIDモデルがどのようにこれらの属性をエンコードするかをよりよく理解します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:15:54 GMT)
BingoGuard: LLM Content Moderation Tools with Risk Levels [67.5] 大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。
本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,LLMに基づくモデレーションシステムであるBingoGuardを構築する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:43:09 GMT)
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.6] VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:49:12 GMT)
Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.4] 人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:23:54 GMT)
Delusions of Large Language Models [62.4] 大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。
高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:59:16 GMT)
UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.7] 既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:43:07 GMT)
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.5] 複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:48:31 GMT)
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.1] Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:47:34 GMT)
Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms [58.6] 現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
以上の課題に対処するため,イベントストリームを活用して,RGBカメラによるジェスチャーデータのキャプチャを支援することを提案する。
具体的には,15,676個のRGB-Eventサンプルと15,191個のグルースと2,568個の漢字を含むDVS346カメラを用いて,大規模なRGB-Event手話翻訳データセットを収集する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:55:46 GMT)
Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.4] JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:06:50 GMT)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.9] 大規模言語モデル(LLM)は、オープンエンド言語命令に従って空間に3Dアセットを配置するといった単純なタスクに苦労する。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
実験の結果,LayoutVLM は既存の LLM と制約に基づくアプローチの限界に対処できることがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:05:27 GMT)
Transforming Weather Data from Pixel to Latent Space [57.8] 本稿では,気象データを画素空間から潜在空間に変換する新しい気象遅延オートエンコーダを提案する。
ERA5-latent データセットの作成を可能にするため,圧縮性能と再構成性能に優れることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:55:33 GMT)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.8] 私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
15の大規模言語モデルと63のタスクで説明された高説明力は、需要と能力プロファイルの検査から解放される。
驚くべきことに、インスタンスレベルでの高い予測力は、これらの要求レベルを使用して可能になる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:13:56 GMT)
"Stones from Other Hills can Polish Jade": Zero-shot Anomaly Image Synthesis via Cross-domain Anomaly Injection [57.6] 産業画像異常検出(IAD)は大きな価値を持つ重要なトピックである。
特定の近代工業領域における実際の異常(すなわち、ドメイン固有の異常)は、収集するにはまれすぎる。
既存のソリューションは、真の擬似異常を合成できないか、あるいは面倒な訓練を必要とする。
そこで本研究では,ZSASの真正性と無学習性を両立できる新しいパラダイムを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:58:44 GMT)
Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.3] 現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:14:17 GMT)
A Light and Tuning-free Method for Simulating Camera Motion in Video Generation [56.6] LightMotionは、ビデオ生成におけるカメラモーションをシミュレートするための軽量かつチューニング不要な方法である。
潜在空間で操作すると、追加の微調整、塗装、深さ推定がなくなる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:28:40 GMT)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.6] 最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:59:40 GMT)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.2] 本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:07:03 GMT)
Leading correction to the relativistic Foldy-Wouthuysen Hamiltonian [55.2] 我々は、既知の相対論的 Foldy-Wouthuysen Hamiltonian に対する弱場近似の先導的な補正を厳格に導き出す。
ディラック粒子の場合、第二次相対論的波動方程式は、Foldy-Wouthuysen Hamiltonian と同様の補正で得られる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:26:19 GMT)
Online Dense Point Tracking with Streaming Memory [54.2] デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:16:49 GMT)
Measuring quantum relative entropy with finite-size effect [53.6] 相対エントロピー$D(rho|sigma)$を$sigma$が知られているときに推定する。
我々の推定器は次元$d$が固定されたときにCram'er-Rao型境界に達する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:47:34 GMT)
MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.0] 長距離モデリングと線形効率の優れたマンバモデルが注目されている。
本研究は,マルチクラス非教師付き異常検出へのMambaADの適用の先駆者であり,MambaADを提示する。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:56:38 GMT)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.8] 性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:11:21 GMT)
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement [52.7] Seg-Zeroは、顕著な一般化可能性を示し、認知的強化を通じて明確な連鎖推論を導出する新しいフレームワークである。
Seg-ZeroはGRPOによる強化学習と明確な推論データなしでのみ訓練される。
実験の結果、Seg-Zero-7BはReasonSegベンチマークで57.5のゼロショット性能を達成し、以前のLISA-7Bを18%上回った。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:48:51 GMT)
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.6] 画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:14:02 GMT)
Graph Retrieval-Augmented LLM for Conversational Recommendation Systems [52.4] G-CRS(Graph Retrieval-Augmented Large Language Model for Conversational Recommender Systems)は、グラフ検索強化世代とテキスト内学習を組み合わせた学習自由フレームワークである。
G-CRSは、タスク固有のトレーニングを必要とせず、既存の手法よりも優れたレコメンデーション性能を達成する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:56:22 GMT)
X-LRM: X-ray Large Reconstruction Model for Extremely Sparse-View Computed Tomography Recovery in One Second [52.1] スパースビュー3次元CT再構成は, 限られた2次元X線投影から構造を復元することを目的としている。
既存のフィードフォワード手法は、CNNベースのアーキテクチャの限られた能力と大規模なトレーニングデータセットの不足によって制約される。
X線大画像再構成モデル(X-LRM)を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:39:59 GMT)
Thera: Aliasing-Free Arbitrary-Scale Super-Resolution with Neural Heat Fields [52.1] 任意のスケールの単一画像超解像(ASR)に対する最近のアプローチでは、任意の解像度でサンプリングできる連続的な信号を表現するためにニューラルネットワークを使用している。
既存の方法は、各スケーリング係数における場の積分バージョンを近似し、忠実さと一般化の両方を補うことによって、これを緩和しようとする。
物理的に正確なPSFをモデル化する新しい神経場定式化であるニューラルヒートフィールドを導入する。
我々の定式化は、任意の所望の出力解像度で分析的に正しいアンチエイリアスを可能にする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:22:00 GMT)
Interactive Visualization Recommendation with Hier-SUCB [52.1] 本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:14:14 GMT)
State space models can express n-gram languages [51.8] 我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。
我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。
n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:40:39 GMT)
Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.3] 従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:03:48 GMT)
Vector Quantized Feature Fields for Fast 3D Semantic Lifting [51.0] 我々は,タスクの持ち上げに関連する画素を示すビュー毎のマスクを組み込むことで,セマンティックリフティングを一般化する。
本稿では,Vector-Quantized Feature Fieldを導入し,画素対応関連マスクの軽量なオンデマンド検索を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:12:30 GMT)
Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.3] Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:43:57 GMT)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.3] 拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:36:12 GMT)
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos [50.0] ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:11:26 GMT)
Inverse Reinforcement Learning for Minimum-Exposure Paths in Spatiotemporally Varying Scalar Fields [49.2] このようなパスのトレーニングデータセットに類似した最小露出パスのデータセットを合成する問題を考える。
本論文の主な貢献は、この問題を解決するための逆強化学習(IRL)モデルである。
提案したIRLモデルは,トレーニングデータセットにない初期条件から経路を合成する際の優れた性能を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:30:11 GMT)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.8] 畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:00:08 GMT)
D3DR: Lighting-Aware Object Insertion in Gaussian Splatting [48.8] D3DRと呼ばれる3DGS並列化オブジェクトを3DGSシーンに挿入する手法を提案する。
我々は、現実世界のデータに基づいて訓練された拡散モデルの進歩を活用し、正しいシーンライティングを暗黙的に理解する。
提案手法を既存手法と比較することにより,提案手法の有効性を実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:48:00 GMT)
REArtGS: Reconstructing and Generating Articulated Objects via 3D Gaussian Splatting with Geometric and Motion Constraints [48.8] REArtGSは、幾何学的および運動的制約を3Dガウスプリミティブに導入する新しいフレームワークである。
我々は,3次元ガウス多様体の変形可能場を定式化対象の運動構造に拘束し,未知の状態における表面メッシュの教師なし生成を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:05:36 GMT)
DiffAtlas: GenAI-fying Atlas Segmentation via Image-Mask Diffusion [47.4] DiffAtlasは、トレーニング中の拡散を通じて画像とマスクの両方をモデル化する新しい生成フレームワークである。
テスト中、モデルはガイドされ、特定のターゲット画像マスク対を生成し、そこから対応するマスクを得る。
提案手法は既存の手法,特に限定データとゼロショットのモダリティのセグメンテーションにおいて優れる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:06:40 GMT)
PFDial: A Structured Dialogue Instruction Fine-tuning Method Based on UML Flowcharts [47.2] このデータセットは、5,055のプロセスノードを含む440のフローチャートから派生した12,705の高品質な中国語対話命令を含む。
PlantUML仕様に基づいて、各フローチャートはアトミックな対話ユニット、すなわち構造化された5タプルに変換される。
実験結果から, たった800サンプルでトレーニングした7Bモデルと, 全データでトレーニングした0.5Bモデルが90%以上の精度を達成できた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:43:30 GMT)
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [46.6] クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。
C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。
実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:02:23 GMT)
Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.6] 本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:38:55 GMT)
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [45.6] 拡散変換器(DiT)は高品質なビデオを生成するのに有効であることが証明されているが、高い計算コストによって妨げられている。
本稿では,ビデオDiTの高速化を目的としたトレーニングフリーでモデルに依存しない非対称リダクション・アンド・リカバリ法(AsymRnR)を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:14:51 GMT)
Quantum digital signature based on single-qubit without a trusted third-party [45.4] 我々は、信頼できるサードパーティを使わずに、新しい量子デジタル署名プロトコルを提案する。
我々は,このプロトコルが情報理論的非偽造性を持っていることを証明した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:27:11 GMT)
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [44.9] InftyThinkは、モノリシック推論を中間的な要約を伴う反復的なプロセスに変換するパラダイムである。
本手法では, 計算コストを抑えながら, 推理深度を推定できる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:59:14 GMT)
IDInit: A Universal and Stable Initialization Method for Neural Network Training [44.5] レイヤ内のアイデンティティ移行を維持する方法は、ネットワークトレーニングにおいて優れた効率性を示している。
IDInitは、残差ネットワークの主層とサブステム層の両方にアイデンティティを保持する新しい方法である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:31:31 GMT)
GenAI for Simulation Model in Model-Based Systems Engineering [43.9] 本稿では,モデルベースシステム工学のための生成システム設計方法論フレームワークを紹介する。
我々は,システム物理特性のシミュレーションモデルを構築するために,推論手法,生成モデル,統合モデリングおよびシミュレーション言語を用いる。
我々は、既存のシミュレーションモデルライブラリと生成モデルによって生成された追加データセットに基づいて、シミュレーションモデル生成に使用される言語モデルを微調整する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:33:25 GMT)
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.7] Open-vocabulary 3D scene understandingは、オブジェクトクラスの閉じたセットを超えて、新しいオブジェクトをローカライズし、分類することを目的としている。
既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。
我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:40:47 GMT)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.5] マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:32:35 GMT)
Re-Imagining Multimodal Instruction Tuning: A Representation View [43.3] マルチモーダル・インストラクション・チューニングはゼロショットの一般化を実現するための効果的な戦略であることが証明されている。
LMMの規模が拡大するにつれて、これらのモデルを完全に微調整し、パラメーター集約化が進んでいる。
意味的にリッチなマルチモーダル表現を直接編集することに焦点を当てた新しいアプローチであるMultimodal Representation Tuning(MRT)を導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:44:30 GMT)
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation [42.5] 提案するDreamBench++は,マルチモーダルGPTモデルを自動生成する人間によるベンチマークである。
7つの近代的な生成モデルにより、DreamBench++はより人間に近い評価をもたらすことが示される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:57:28 GMT)
StructVPR++: Distill Structural and Semantic Knowledge with Weighting Samples for Visual Place Recognition [42.1] StructVPR++は、構造的および意味的知識をセグメント化誘導蒸留を通じてRGBグローバル表現に組み込むフレームワークである。
私たちの重要なイノベーションは、ラベル固有の機能をグローバルな記述子から切り離すことで、イメージペア間の明確なセマンティックアライメントを可能にします。
4つのベンチマークの実験によると、StructVPR++はRecall@1.1で最先端のグローバルメソッドを5~23%上回っている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:12:34 GMT)
One-step Diffusion Models with $f$-Divergence Distribution Matching [41.2] 近年の研究では,多段階拡散モデルを変分点蒸留により単一段階の学生生成器に蒸留している。
これらの手法は、モード探索として知られている分布マッチングにKL(Kulback-Leibler)の逆偏差を用いる。
本稿では,新しい$f$-divergence最小化フレームワークを用いて分布マッチング手法を一般化する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:53:27 GMT)
Practitioner Motives to Select Hyperparameter Optimization Methods [41.1] プログラム型ハイパーパラメータ最適化(HPO)手法は機械学習(ML)モデルの開発において高いサンプリング効率を示す。
しかし、実践者はグリッドサーチのようなサンプル効率の低いHPO手法を使うことが多く、しばしば最適化されていないMLモデルをもたらす。
この研究は、実践者がなぜ異なるHPOメソッドを使うのかをよりよく理解するための概念的基盤を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:18:34 GMT)
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation [40.7] 普遍的で効率的で、最適化が容易な翻訳モデルを探求する。
大規模な言語モデル(LLM)をNMTエンコーディングに適用し,NMTデコーダをそのまま残す。
我々は,機械翻訳システムの一般化度を評価するために,複数のタスクを含む新しいデータセットを構築した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:54:05 GMT)
Privacy Auditing of Large Language Models [39.4] 我々は、脅威モデルの下で以前の作業で使われたものよりもはるかに効果的であるカナリアを開発する。
民間で訓練されていないLDMの記憶率を測定するため,設計したカナリアは従来の手法を超越した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:32:15 GMT)
CodeBrain: Imputing Any Brain MRI via Modality- and Instance-Specific Codes [39.3] 統合脳MRIのためのパイプラインであるCodeBrainを提案する。
第一段階では、CodeBrainは、各インスタンスとモダリティのコンパクトなスカラー量子化コードを学ぶことによって、ターゲットのモダリティを再構築する。
第2段階では、プロジェクションエンコーダが訓練され、不完全なMRIサンプルから全モードのコンパクトコードを予測する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:55:58 GMT)
One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image Fusion [38.2] 本稿では,デジタル写真融合から低レベルの視覚タスクを活用することを提案する。
提案されたGIFNetは、多様な融合タスクをサポートし、単一のモデルで、目に見えるシナリオと見えないシナリオの両方で高いパフォーマンスを達成する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:49:43 GMT)
ClimaQA: An Automated Evaluation Framework for Climate Question Answering Models [38.1] 気候学者による大学院教科書から質問応答ペアを生成する適応学習フレームワークであるClimaGenを開発した。
気候科学のための大規模で総合的な総合的なQAデータセットであるClimaQA-Silverとともに、専門家による注釈付きベンチマークデータセットであるClimaQA-Goldを提示する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:31:12 GMT)
Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.7] 拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:55:26 GMT)
Towards An Efficient LLM Training Paradigm for CTR Prediction [37.2] 大型言語モデル(LLM)は従来のクリックスルーレート(CTR)予測手法よりも大幅に優れている。
CTR予測のためにLLMを訓練するために、既存の研究の多くは'sliding-window'パラダイムを採用している。
本稿では,動的ターゲット分離(Dynamic Target isolation, DTI)と呼ばれる新たなトレーニングパラダイムを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:50:37 GMT)
Organizing Unstructured Image Collections using Natural Language [37.2] 本稿では,大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的とした,オープンエンドセマンティック・マルチクラスタリングの課題を紹介する。
我々のフレームワークであるX-Clusterは、テキストをプロキシとして使用し、大規模な画像コレクションを同時に推論し、クラスタリングの基準を発見し、セマンティックなサブ構造を明らかにする。
我々は、偏見の発見やソーシャルメディア画像の人気の分析など、様々な現実世界のアプリケーションにX-Clusterを適用した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:32:56 GMT)
NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation [37.1] NaviDetは、さまざまなバックドアターゲットにわたるバックドア入力を特定するための、最初の一般的なインプットレベルのバックドア検出フレームワークである。
我々のアプローチは、拡散生成過程の初期段階において、トリガートークンが大きなニューロン活性化を誘導する傾向があるという新しい観察に基づいている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:27:44 GMT)
Conceptrol: Concept Control of Zero-shot Personalized Image Generation [36.4] Conceptrolは、計算オーバーヘッドを追加することなくゼロショットアダプタを強化するフレームワークである。
バニラIPアダプタよりも、パーソナライズベンチマークが最大89%改善されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:54:08 GMT)
Comparative clinical evaluation of "memory-efficient" synthetic 3d generative adversarial networks (gan) head-to-head to state of art: results on computed tomography of the chest [35.9] GAN(Generative Adversarial Networks)は、医用画像の生成に利用されている。
本研究では,高分解能な3次元医用画像を生成するために,条件付ランダムフィールド(CRF)を取り入れた新しいメモリ効率のGANアーキテクチャを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:46:24 GMT)
Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs [35.2] 一層ニューラルネットワークと一層トランスフォーマーの研究を行った。
1つの隠れた層ニューラルネットワークは、データセット上で最大$L_2,k+1$-marginに達する。
同様の計算機構を1層変換器に注意して観察する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:14:46 GMT)
Deep Cut-informed Graph Embedding and Clustering [35.1] 我々は,革新的で非GNNベースのDeep Cut-informed Graph Embedding and Clusteringフレームワーク,すなわちDCGCを提案する。
符号化モジュールに対しては,その結合正規化カットを最小化することにより,グラフ構造と属性を融合させる,カットインフォームドグラフ埋め込みの目的を導出する。
クラスタリングモジュールでは,クラスタリングの割り当てを得るために最適な輸送理論を利用する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:24:09 GMT)
SPDFusion: An Infrared and Visible Image Fusion Network Based on a Non-Euclidean Representation of Riemannian Manifolds [35.0] マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習フレームワークを提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:12:15 GMT)
Alignment for Efficient Tool Calling of Large Language Models [34.7] 大きな言語モデル(LLM)は、外部ツールを統合することができ、知識境界を広げてタスクパフォーマンスを向上させる。
しかしながら、ツールに依存すると、パフォーマンス、スピード、コストのトレードオフが発生することが多い。
本稿では,LSMを知識境界に整合させ,ツールの実行に関するよりインテリジェントな判断を行うという課題に対処する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:55:49 GMT)
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.1] 近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。
音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。
AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:02:10 GMT)
Adaptive Hyper-Graph Convolution Network for Skeleton-based Human Action Recognition with Virtual Connections [32.9] 動作認識のための適応型ハイパーグラフ畳み込みネットワーク(Hyper-GCN)を提案する。
特に、Hyper-GCNはトレーニング中にハイパーグラフを適応的に最適化し、アクション駆動型マルチ頂点関係を明らかにする。
仮想接続をハイパーグラフに注入することで、多様なアクションカテゴリの意味的なヒントが強調される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:14:25 GMT)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [32.9] SemHiTokは、Semantic-Guided Hierarchical Codebookを介して統合された画像トークンである。
我々はSemHiTokが、他の統一トークン化器と比較して256X256解像度で最先端のrFIDスコアを達成することを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:42:34 GMT)
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations? [32.6] ヴィジュアル言語モデル(VLM)は目覚ましい一般化能力を示してきたが、動的現実シナリオにおける堅牢性はほとんど探索されていない。
本稿では, 物理再現可能な3次元変換(Adv-3DT)サンプルを単一視点で生成できる最初のフレームワークであるAdvDreamerを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:26:29 GMT)
Human Cognition Inspired RAG with Knowledge Graph for Complex Problem Solving [32.3] 大規模言語モデル(LLM)は、様々な領域にわたる変換ポテンシャルを実証している。
検索・拡張生成(RAG)はLLMの精度を高めるための有望なソリューションとして浮上している。
我々は認知にインスパイアされたグラフベースのRAGフレームワークであるCogGRAGを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:50:39 GMT)
How to Strategize Human Content Creation in the Era of GenAI? [31.7] 我々は、GenAIと人間コントリビュータの動的競争について研究する。
人間とは異なり、GenAIのコンテンツは、時間が経つにつれて、人間によってより多くのコンテンツが生成される場合にのみ改善される。
人間の最適な戦略を見つけるための時間的アルゴリズムが存在しないことを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:23:50 GMT)
Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets [31.6] この格差に対処する2つの一般的な戦略は、低リソースデータのアップサンプリングと低リソース損失のアップウェイト化である。
これら2つの手法が等価であり、いつ分岐するかを識別する。
コンバージェンスを加速するために、低リソース言語を大々的にアップサンプリングすることから始まる戦略であるCooldownを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:07:33 GMT)
Improving Graph Neural Networks on Multi-node Tasks with the Labeling Trick [31.4] マルチノード表現学習のためのグラフニューラルネットワーク(GNN)について検討する。
一般的な方法は、GNNが取得した単一ノード表現を直接集約することである。
GNNを適用する前に、まず、ターゲットノードセットとの関係に応じてグラフ内のノードをラベル付けするテキストラベリング手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:31:18 GMT)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.3] 大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:37:03 GMT)
From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.1] 本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:36:53 GMT)
OT-DETECTOR: Delving into Optimal Transport for Zero-shot Out-of-Distribution Detection [30.5] 現実世界のアプリケーションにおける機械学習モデルの信頼性と安全性を確保するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
テストサンプルとIDラベル間の意味的および分布的差異を定量化するために、OT(Optimal Transport)を用いた新しいフレームワークOT-DETECTORを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:47:19 GMT)
BDPFL: Backdoor Defense for Personalized Federated Learning via Explainable Distillation [30.4] フェデレートラーニング(Federated Learning)は、複数のクライアントにわたるグローバルモデルの協調トレーニングを促進する分散学習パラダイムである。
我々は,これらの課題に対処するために,BDPFLという,バックドア・ロバストなpFLフレームワークを提案する。
まず、BDPFLは、クライアントが潜在的なバックドアを緩和しながら、パーソナライズされたローカルモデルを学習できるようにする階層的相互蒸留を導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:59:18 GMT)
How LLMs Learn: Tracing Internal Representations with Sparse Autoencoders [30.4] 大規模言語モデル(LLM)は、目覚ましい多言語機能と幅広い知識を示している。
LLMの内部表現にエンコードされた情報が、トレーニングプロセス中にどのように進化するかを分析する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:13:44 GMT)
Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency [30.4] 視覚言語モデル(VLM)は視覚的推論に優れているが、しばしば計算コストが高い。
最近のトークン還元法は、最小性能損失を達成している。
トレーニング不要なビジュアルトークン削減手法であるLoFiを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:16:48 GMT)
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance [30.4] M2-omniは、GPT-4oと競合する性能を実現する、最先端のオープンソースオムニ-MLLMである。
M2-omniは統合マルチモーダルシーケンスモデリングフレームワークを使用している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:11:38 GMT)
SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures [29.2] 高品質な画素レベルのセグメンテーションマップを生成するために,SCSegamba(Structure-Aware Vision Mamba Network)を提案する。
具体的には、軽量なGated Bottleneck Convolution(GBC)とStructure-Aware Scanning Strategy(SASS)を組み合わせたSAVSS(Structure-Aware Visual State Space Module)を開発した。
クラックベンチマークを用いた実験により,本手法は他のSOTA法よりも優れており,パラメータが2.8Mで最高性能を達成できた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:32:48 GMT)
Color Alignment in Diffusion [29.2] 拡散モデルは視覚的に魅力的な画像の合成において非常に有望である。
所定の色パターン内の拡散モデルにおける生成過程を限定する新しい色アライメントアルゴリズムを提案する。
その結果,色画素のコンディショニングと制御における最先端性能を,オンパー生成品質と多様性を維持しながら実証した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:02:52 GMT)
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.0] 2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。
視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。
15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:25:32 GMT)
Data Foundations for Large Scale Multimodal Clinical Foundation Models [27.7] 大規模統合型マルチモーダルベンチマーク(CLIMB)について紹介する。
CLIMBは、画像、言語、時間、グラフのモダリティにまたがる多様な臨床データを統一する包括的なベンチマークである。
CLIMBの事前訓練は、モデルの新たなタスクへの一般化能力を効果的に改善し、タスクに適した融合戦略と組み合わせた場合、強力な単モーダルエンコーダ性能はマルチモーダルパフォーマンスによく変換される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:45:05 GMT)
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.5] 3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:59:26 GMT)
General Place Recognition Survey: Towards Real-World Autonomy [26.8] 我々は、SLAM 2.0のフレームワークにおけるPRの重要な役割を強調します。
ロボットナビゲーションの新しいフェーズでは、高度な人工知能(AI)技術を統合することにより、スケーラブルで適応性があり、効率的なPRソリューションが求められている。
我々は、PRにおける現状のSOTA(State-of-the-art (SOTA))を、残りの課題と共に包括的にレビューし、ロボット工学におけるその幅広い応用を裏付ける。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:14:06 GMT)
Scheduling Weight Transitions for Quantization-Aware Training [26.8] 量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。
本稿では,量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:29:37 GMT)
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.1] FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。
83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:11:57 GMT)
Improving Multi-Subject Consistency in Open-Domain Image Generation with Isolation and Reposition Attention [25.7] IR拡散(IR-Diffusion)と呼ばれる分離・再配置注意を伴う学習自由拡散モデルを提案する。
分離注意は、対象画像内の複数の被写体が互いに参照しないことを保証し、被写体収束を効果的に排除する。
再配置注意(Reposition Attention)とは、参照画像とターゲット画像の両方の被写体を、画像内の同じ位置にスケーリングおよび再配置することである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:39:55 GMT)
Global-Aware Monocular Semantic Scene Completion with State Space Models [25.6] Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:55:40 GMT)
Remote Sensing Object Counting with Online Knowledge Learning [25.3] 本稿では,リモートセンシングオブジェクトカウントのためのオンライン蒸留学習手法を提案する。
2つの異なるネットワークをシームレスに統合するエンドツーエンドのトレーニングフレームワークを構築している。
この設計は、教師ブランチから特権的な洞察を受けるだけでなく、学習プロセス中に教師ブランチが保持する知識の潜伏した貯水池を利用できるようにする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:17:37 GMT)
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [25.0] 単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:27:02 GMT)
Pre-Training Meta-Rule Selection Policy for Visual Generative Abductive Learning [24.9] 本稿では,視覚生成学習アプローチAbdGenのためのメタルール選択ポリシーの事前学習手法を提案する。
事前学習プロセスは、純粋なシンボルデータに基づいて行われ、生の視覚入力のシンボル接地学習は含まない。
本手法は,視覚的帰納学習におけるメタルール選択問題に効果的に対処でき,視覚的帰納学習の効率を高めることができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:41:11 GMT)
From Motion Signals to Insights: A Unified Framework for Student Behavior Analysis and Feedback in Physical Education Classes [24.4] 教育シナリオにおける生徒の行動分析は、質と学生のエンゲージメントを高めるために不可欠である。
既存のAIベースのモデルは、生徒の振る舞いを特定し分析するために、しばしば教室のビデオ映像に依存している。
動作信号に基づく人間行動認識技術を活用したエンドツーエンド統合フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:04:36 GMT)
On the Mutual Influence of Gender and Occupation in LLM Representations [24.0] LLMにおけるファーストネームの職業と性別の知覚が相互にどのように影響するかを考察する。
LLMのファーストネームのジェンダー表現は、その名前に関連する実世界のジェンダー統計と相関し、ステレオタイプによる女性や男性の仕事の共起に影響されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:11:30 GMT)
Neural Spacetimes for DAG Representation Learning [23.5] 我々はニューラル時空と呼ばれる訓練可能な深層学習型ジオメトリのクラスを提案する。
グラフエッジの重みとその空間次元と因果関係を、その時間次元におけるエッジ方向の形でエンコードする。
我々の理論的な保証は普遍埋め込み定理であり、任意の$k$-point DAGを1+mathcalO(log(k))$歪みを持つNSTに埋め込むことができることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:33:35 GMT)
Gamma: Toward Generic Image Assessment with Mixture of Assessment Experts [23.5] textbfGeneric imtextbfAge AssessmenttextbfMentモデルであるtextbfGammaは、ミックスデータセットのトレーニングを通じて、さまざまなシーンからのイメージを効果的に評価することができる。
Gammaモデルは、6つの画像アセスメントシナリオにまたがる12のデータセットでトレーニングされ、評価されます。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:07:58 GMT)
DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.4] ディーゼルは軽量な推論誘導技術であり、あらゆる自己回帰式LLMにシームレスに統合することができる。
これは、望ましくない概念を応答から意味的にフィルタリングする。
本評価は,現在最先端の対話モデルにおけるディーゼルの有効性を示すものである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:54:02 GMT)
Slender Object Scene Segmentation in Remote Sensing Image Based on Learnable Morphological Skeleton with Segment Anything Model [23.4] 本稿では,学習可能な形態学スケルトンを深層ニューラルネットワークに組み込む新しい手法を提案する。
建物,道路,水などのリモートセンシングデータセットの実験結果から,本手法が元のセグメン・アプライシング・モデルより優れていることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:06:08 GMT)
WECAR: An End-Edge Collaborative Inference and Training Framework for WiFi-Based Continuous Human Activity Recognition [23.4] We propose WECAR, a end-edge collaboration inference and training framework for WiFi-based continuous HAR。
We implement WECAR based on heterogeneous hardware using Jetson Nano as edge device and the ESP32 as end device。
3つの公開WiFiデータセットを対象とした実験により、WECARは性能とパラメータ効率においていくつかの最先端の手法より優れるだけでなく、パラメータカウント後最適化の大幅な削減を実現していることがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:40:27 GMT)
M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.3] M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:06:47 GMT)
MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.5] 大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:33:15 GMT)
Dynamic Dictionary Learning for Remote Sensing Image Segmentation [22.5] この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。
その中核となる貢献は、クラス認識のセマンティック埋め込みが徐々に更新される新しい辞書構築メカニズムにある。
粗いデータセットときめ細かいデータセットの両方にわたる実験は、最先端の手法よりも一貫した改善を示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:25:16 GMT)
Interpretable Model Drift Detection [22.2] 我々は,リスクの観点から,解釈可能なモデルドリフト検出の問題を研究するために,原則的アプローチを採っている。
本手法は既存の解釈可能な手法よりも優れており,最先端のブラックボックスドリフト検出手法と同等である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:19:06 GMT)
DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [21.7] DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:30:15 GMT)
SupReMix: Supervised Contrastive Learning for Medical Imaging Regression with Mixup [21.3] 医用画像退行に対するコントラスト学習の可能性は,2つの重要な側面,すなわち常性意識と硬さの欠如により,隠蔽されていると論じる。
SupReMixを用いた医用画像回帰のための教師付きコントラスト学習を提案する。
アンカー・インクルージョン混合物(アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:37:46 GMT)
Optimal Transport for Brain-Image Alignment: Unveiling Redundancy and Synergy in Neural Information Processing [21.1] 既存の方法は、主に局所的なポイントワイドアライメントのみに焦点を当てたMean Squared Error (MSE)を用いて、脳信号と現実世界の信号とをアライメントする。
最適輸送(OT)を通してこれらの問題に対処し、なぜOTがMSEよりも効果的なアライメント戦略を提供するのかを理論的に実証する。
提案手法は,従来のベストメソッドを平均6.11%,クロスオブジェクトトレーニング3.81%で上回り,10つの評価指標にまたがって最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:14:23 GMT)
LegalCore: A Dataset for Event Coreference Resolution in Legal Documents [21.1] われわれは、法的ドメインであるLegalCoreの最初のデータセットを、包括的なイベントとイベントコア情報で注釈付けした形で提示する。
このデータセットにアノテートした法律上の契約文書は、ニュース記事の何倍も長く、1ドキュメントあたりの平均トークン数は25万である。
このデータセットでは、イベント検出とイベントコア参照解決の両方のタスクに対して、主流のLarge Language Modelsをベンチマークします。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:53:11 GMT)
Self-Supervised Diffusion MRI Denoising via Iterative and Stable Refinement [20.8] ディフュージョン (Di-Fusion) は、後者の拡散ステップと適応サンプリングプロセスを利用する、完全に自己制御された分極法である。
実データおよびシミュレーションデータを用いた実験により, マイクロ構造モデリング, トラクトグラフィー追跡, その他の下流タスクにおいて, ディフュージョンが最先端の性能を達成することを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:00:25 GMT)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [20.7] マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:06:45 GMT)
Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.5] 大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。
LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。
データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:46:31 GMT)
Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law [20.4] 世界中のほとんどの国では、草の根裁判所はケースバックログに直面している。
知識グラフ(KG)とLarge Language Model(LLM)を用いた効率的な法論文推薦手法を提案する。
0.549から0.694に改善し,提案手法がベースラインアプローチを著しく上回ることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:10:23 GMT)
A Survey on LLM-as-a-Judge [20.2] 大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。
LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:21:22 GMT)
Treatment Effect Estimation for Graph-Structured Targets [20.0] Graph-target Treatment Effect Estimation (GraphTEE)は、グラフ構造化対象に対する治療効果を推定するフレームワークである。
バイアス緩和の観点から,GraphTEEの優れた性能に関する理論的解析を行った。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:36:33 GMT)
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.8] 高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。
しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。
本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:29:46 GMT)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.7] Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:35:03 GMT)
Evaluating and Aligning Human Economic Risk Preferences in LLMs [19.6] 本研究では,Large Language Models (LLMs) が,さまざまなペルソナにまたがる人間の期待と一致したリスク嗜好を示すかどうかを検討する。
以上の結果から,LLMは単純化された個人化されたリスクコンテキストにおいて合理的な意思決定を行うが,より複雑な経済意思決定タスクでは性能が低下することが明らかとなった。
我々のアプローチは、リスク関連アプリケーションにおけるLLMの経済的合理性を改善し、より人間対応のAI意思決定に向けたステップを提供します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:47:31 GMT)
Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [19.3] グループ相対政策最適化が導入され、DeepSeek R1モデルのトレーニングに成功しました。
この論文では、検証可能な報酬を持つGRPOが、正規化された対照的な損失(mathsfKL$)として書けることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:36:45 GMT)
Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models [19.1] この課題に対処するために、新しいソリューションである動的ベンチマークフレームワークを導入します。
コード理解や推論のベンチマークが与えられた場合、我々のフレームワークは動的に各入力、すなわちプログラムを様々な意味保存突然変異で変換し、構文的に新しく、意味的に同一のベンチマークを構築する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:41:18 GMT)
BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning [19.0] 汎用医療用NLUモデルであるBioMistral-NLUをMNLU-Instruct上で微調整して開発する。
多様なNLUタスクに対するデータセットに依存しないプロンプト戦略と命令チューニングのステップにより、多様な医療NLUタスク間のLLMの一般化性が向上する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:21:04 GMT)
DMin: Scalable Training Data Influence Estimation for Diffusion Models [18.9] DMinは、与えられた生成された画像に対するトレーニングデータサンプルの影響を推定するフレームワークである。
数十億のパラメータを持つDMの推定に影響を及ぼす最初の方法である。
ストレージ要件を数百 TB から MB あるいは KB まで削減し,最も影響力のあるトレーニングサンプルを 1 秒以内で取得する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:41:48 GMT)
ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis [18.7] ExGesはジェスチャ合成のための新しい検索強化拡散フレームワークである。
ExGesはFr'teche Distanceを6.2%減らし、EMAGEよりも5.3%減らした。
また、ユーザスタディでは、自然性および意味的関連性に対して71.3%の好意を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:59:39 GMT)
Asymmetric Decision-Making in Online Knowledge Distillation:Unifying Consensus and Divergence [18.6] 本稿では,中間空間表現を活用する革新的な手法を提案する。
本稿では,学生モデルの特徴コンセンサス学習を強化するために,非対称意思決定(ADM)を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:32:25 GMT)
LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models [18.5] MLLMのためのLVP(Language-Guided Vision Token Pruning)を提案する。
LVPruningは、言語トークンとの相互作用に基づいて視覚トークンの重要性を計算するために、クロスアテンションモジュールを使用している。
実験により、LLaVA-1.5の中間層によって、LVPruningは視覚トークンの90%を効果的に削減できることが示された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:32:52 GMT)
Characterizing the Role of Similarity in the Property Inferences of Language Models [18.3] 本研究では, 行動・因果的表現解析実験を用いて, LMの資産継承について検討する。
分類学と分類学的類似性は、LMsの資産相続行動において相互に排他的ではない。
本研究は,言語モデルの概念的構造に関する知見を提供し,人体に対する新たな心理言語学的実験を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:54:32 GMT)
Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control [18.3] ヒューマノイドロボットは頑丈な下半身移動と正確な上半身操作を必要とする。
最近の強化学習アプローチは、全身のロコ操作ポリシーを提供するが、正確な操作はしていない。
Inverses (IK) と Motion を用いた高体力制御を導入し, 高精度な操作を行う。
CVAEは安定性とロバスト性に重要な特徴であり,RLによる全身制御よりも高い精度で操作できることが示唆された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:41:46 GMT)
Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.2] トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。
我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。
我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:53:49 GMT)
Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.5] モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:21:56 GMT)
Gender Encoding Patterns in Pretrained Language Model Representations [17.1] プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:17:46 GMT)
SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding [16.8] SEED(textbfSemantic textbfEvaluation for Visual Brain textbfDecoding)は、視覚脳デコーディングモデルのセマンティックデコーディング性能を評価するための新しい指標である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:25:39 GMT)
GCoD: Graph Convolutional Network Acceleration via Dedicated Algorithm and Accelerator Co-Design [16.7] グラフ畳み込みネットワーク(GCN)が最先端のグラフ学習モデルとして登場した。
大きなグラフデータセット上でGCNを推論することは、非常に難しい。
本稿では、前述のGCNの不規則性を大幅に軽減できるGCNアルゴリズムとGCoDと呼ばれる加速器協調設計フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:58:24 GMT)
Adversarial Diffusion Compression for Real-World Image Super-Resolution [16.5] 現実世界の超解像は、劣化した低分解能入力から高分解能画像を再構成することを目的としている。
OSEDiffやS3Diffのような一段階拡散ネットワークはこの問題を緩和するが、それでも高い計算コストがかかる。
本稿では,一段階拡散ネットワークOSEDiffを流線形拡散GANモデルに蒸留することにより,新しいリアルISR法AdcSRを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:31:57 GMT)
DependEval: Benchmarking LLMs for Repository Dependency Understanding [16.2] 大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。
リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。
Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:45:22 GMT)
CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data [16.2] データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。
これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。
我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:01:56 GMT)
Instance-wise Supervision-level Optimization in Active Learning [16.1] Active Learning (AL)はラベル効率のよい機械学習パラダイムであり、学習効率を最大化するために高価値インスタンスを選択的にアノテートすることに焦点を当てている。
このフレームワークは、アノテーションをアノテートするインスタンスを選択するだけでなく、固定されたアノテーション予算内でそれらの最適なアノテーションレベルを決定する。
分類実験では、ISOは従来のAL手法を一貫して上回り、完全な監督と弱い監督を組み合わせた最先端のALアプローチを超越し、全体的なコストで高い精度を達成している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:39:22 GMT)
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback [16.0] 既存のベンチマークでは、人間ユーザとの対話的なインテリジェンスにおいて、LMM(Large Multimodal Model)をテストしていない。
対話型フレームワークであるInterFeedbackを設計し、任意のLMMとデータセットに適用して、この機能を自律的に評価する。
主要なモデルで対話的なパフォーマンスを手動でテストするために設計された120のケースからなるデータセットであるInterFeedback-Humanを提示する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:07:59 GMT)
Synchronized and Fine-Grained Head for Skeleton-Based Ambiguous Action Recognition [15.9] 本稿では,GCN 層と TCN 層の間に挿入された SF-Head と呼ばれる軽量なプラグアンドプレイモジュールを提案する。
SF-Head は SSTE を機能冗長損失 (F-RL) で実行し、バランスの取れた相互作用を保証する。
その後、AC-FAを実行し、F-CL(Feature Consistency Loss)を使用して、集約された特徴を元の時空間の特徴と整合させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:43:50 GMT)
A Good Start Matters: Enhancing Continual Learning with Data-Driven Weight Initialization [15.9] 連続訓練されたディープニューラルネットワーク(DNN)は、事前の知識を維持し、活用しながら、新しい概念を迅速に学習する必要がある。
新しく遭遇したカテゴリのウェイトは通常ランダムに行われ、初等訓練の損失(スパイク)と不安定性に繋がる。
ニューラル・コラプス(NC)に触発され,CLにおける学習効率向上のための重み付け初期化戦略を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:44:22 GMT)
PDB: Not All Drivers Are the Same -- A Personalized Dataset for Understanding Driving Behavior [15.8] パーソナライズされた運転行動データセットは、自然な運転条件下での運転行動のパーソナライズをキャプチャするために設計されたマルチモーダルデータセットである。
データセットには12人の参加者、約270,000のLiDARフレーム、1.6万の画像、6.6TBの生センサデータが含まれている。
ドライバの振る舞いを明示的にキャプチャすることで、PDBはヒューマンファクタ分析、ドライバ識別、パーソナライズされたモビリティアプリケーションのためのユニークなリソースとなる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:28:39 GMT)
Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting [15.8] 本稿では,現実性,スタイリスティック性,会話性に優れた汎用モデルを提案する。
実世界のユーザリライト要求をシミュレートするために,会話によるリライトデータセットChatRewriteを構築した。
タスク固有の目的に合わせるために、ジェネリック書き換えのためのデカップリング・リワード学習フレームワークであるDr Genreを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:23:52 GMT)
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models [15.4] ResAdapter(ResAdapter)は、非制限解像度とアスペクト比のイメージを生成するために拡散モデル用に設計されたドメイン一貫性アダプタである。
ResAdapterは、パーソナライズされた拡散モデルで解像度のない画像を生成する。
0.5Mしか持たないResAdapterは任意の拡散モデルに対してフレキシブルな解像度で画像を処理できることを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:36:28 GMT)
SABER: Model-agnostic Backdoor Attack on Chain-of-Thought in Neural Code Generation [15.3] コード言語モデル(CLM)の信頼性をさらに高めるために、Chain-of-Thought (CoT)推論を提案する。
CoTモデルは、CoT推論を言語モデルに効果的に統合するように設計されており、コード生成において顕著な改善が達成されている。
本研究では,コード生成タスクにおけるバックドアインジェクションに対するCoTモデルの脆弱性について検討する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:31:10 GMT)
Diffusing DeBias: Synthetic Bias Amplification for Model Debiasing [15.2] Diffusing DeBias (DDB) を、教師なしモデルデバイアスの一般的な方法のためのプラグインとして導入する。
具体的には、条件付き拡散モデルを用いて、合成バイアス整合画像を生成する。
補助モデル学習におけるバイアス分散トレーニングサンプルの根本的な問題に対処することにより、提案手法は複数のベンチマークデータセットで最先端のモデルに勝る。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:41:50 GMT)
Long-tailed Adversarial Training with Self-Distillation [15.2] 本研究は,長期分布におけるテールクラスの性能向上に苦慮していることを示す。
本研究では, 長期分布における対向ロバスト性向上のための新しい自己蒸留法を提案する。
本実験は, 長距離対向ロバスト性に対して, クリーンかつロバストな両精度で, 最先端の性能を示すものである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:39:36 GMT)
Spectral State Space Model for Rotation-Invariant~Visual~Representation~Learning [15.1] 状態空間モデル (SSM) は視覚変換器 (ViT) の代替として登場した。
SSMは概念的に関連があるが、隣接していないパッチ間の関係を識別することができない。
現在の視覚ベースのSSMは回転のような変換に非常に敏感である。
画像内のグローバル構造を効果的にキャプチャする新しいアプローチであるSpectral VMambaを紹介する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:37:43 GMT)
Enhancing Malware Fingerprinting through Analysis of Evasive Techniques [15.0] 我々は、400万のWindows Portable Executable (PE)ファイル、2100万のセクション、4800万のリソースを分析します。
共通APIや実行可能なセクションなど、80%以上の深い構造的な類似点を見つけています。
本研究は, 回避策として, 非機能変異, 例えば, 区番号, 仮想サイズ, 区名等を明らかにした。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:41:49 GMT)
Life-Cycle Routing Vulnerabilities of LLM Router [15.0] 大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めているが、その性能と計算コストは著しく異なる。
LLMルータは、これらのトレードオフの動的バランスにおいて重要な役割を果たす。
LLMルータのライフサイクルルーティング脆弱性に関する包括的調査を行う。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:00:35 GMT)
Bayesian WeakS-to-Strong from Text Classification to Generation [14.9] この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:52:56 GMT)
Pull-Based Query Scheduling for Goal-Oriented Semantic Communication [14.8] 本稿では、プルベースステータス更新システムにおけるゴール指向セマンティック通信のためのクエリスケジューリングについて述べる。
本稿では,有効度尺度(GoE)を導入し,長期的有効性分析に累積的視点理論(CPT)を統合する。
本稿では、動的プログラミングに基づくモデルベースソリューションと、最先端の深層強化学習(DRL)アルゴリズムを用いたモデルフリーソリューションを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:51:14 GMT)
SDTrack: A Baseline for Event-based Tracking via Spiking Neural Networks [14.8] スパイクニューラルネットワーク(SNN)は、離散的なスパイク信号を通じてイベントデータを自然に補完し、イベントベースのトラッキングに最適である。
本稿では,Transformerベースのスパイク駆動型トラッキングパイプラインを提案する。
我々のGTP(Global Trajectory Prompt)法は,グローバルなトラジェクトリ情報を効果的にキャプチャし,イベントストリームをイベントイメージに集約する。
次に,SDTrackを紹介する。SDTrackは,Spyking MetaFormerのバックボーンと,スパイク信号を用いた正規化座標を直接予測するシンプルなトラッキングヘッドを備えるトランスフォーマーベースのスパイク駆動トラッカーである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:01:40 GMT)
SGA-INTERACT: A 3D Skeleton-based Benchmark for Group Activity Understanding in Modern Basketball Tactic [14.8] グループ活動理解は、主にグループ活動認識タスクとして研究されている。
SGA-INTERACTは、グループアクティビティ理解のための最初の3Dスケルトンベースのベンチマークである。
One2Manyは、事前訓練された3D骨格のバックボーンを使用して、個々の特徴抽出を統一する新しいフレームワークである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:53:32 GMT)
CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model [14.7] 本稿では,3つの革新を通じて中国語の書道問題を解く視覚言語モデル(VLM)であるCalliReaderを提案する。
正確な文字抽出とソートのための文字スライシング、ビジュアルテキストトークン圧縮とアライメントのためのCalliAlign、埋め込み命令チューニング(e-IT)
ユーザスタディを含む大規模な実験は、CalliReaderのtextbfsuperiorityを、他の最先端の方法や人間専門家に検証するために実施されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:19:32 GMT)
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy [14.7] ARMORは、既存のマルチモーダルな大規模言語モデルを微調整することで、理解と生成の両方を達成するフレームワークである。
ARMORは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズムの3つの観点から既存のMLLMを拡張している。
実験により、ARMORは既存のMLLMをUniMにアップグレードし、将来性のある画像生成機能を持つことを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:15:39 GMT)
Topology-Preserving Image Segmentation with Spatial-Aware Persistent Feature Matching [14.6] 本稿では,画像の空間領域における情報をさらに活用する,効率的かつ効率的な空間認識型トポロジカルロス関数を提案する。
種々の管状構造の画像に対する実験により,提案手法はセグメンテーションのトポロジ的精度向上に優れた性能を示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:09:33 GMT)
Quantum Langevin Dynamics for Optimization [14.4] 我々は、最適化問題を解決するためにQuantum Langevin Dynamics(QLD)を利用する。
具体的には、無限熱浴と結合した系の力学について検討する。
系の平均エネルギーが低温限界でゼロに近づくことを実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:15:43 GMT)
How Much is Unseen Depends Chiefly on Information About the Seen [14.4] 期待して、欠落した質量は、トレーニングデータに現れるクラスの数$f_k$によって完全に決定される。
これは、サンプルの観点から予想される質量の正確な評価であるが、誘導推定器は不規則に高い分散に悩まされる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:56:37 GMT)
Multimodal AI-driven Biomarker for Early Detection of Cancer Cachexia [14.3] がんキャッシュキシアは多因子症候群であり、進行性筋肉の洗浄、代謝異常、全身炎症を特徴とする。
キャッシュキシアに決定的なバイオマーカーは存在しない。
本研究では,早期がんキャッシュリア検出のためのマルチモーダルAIベースのバイオマーカーを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:32:37 GMT)
PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.2] 本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:01:42 GMT)
Generative Video Bi-flow [14.1] ニューラル正規微分方程式(ODE)の流れとして時間変化を頑健に学習する新しい生成ビデオモデルを提案する。
様々なビデオデータセットに対して,非条件のビデオ生成をストリーミング方式で実演する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:03:59 GMT)
Summary of the NOTSOFAR-1 Challenge: Highlights and Learnings [14.0] 最初のNatural Office Talkers in Settings of Far-field Audio Recordings (NOTSOFAR-1) Challengeは、新しいベンチマークを設定する重要なイニシアチブである。
この課題は、30の多様な環境にまたがる280の録音されたミーティングのユニークな組み合わせを提供し、現実世界の音響条件と会話のダイナミクスをキャプチャする。
課題に提出されたシステムの概要と、トップパフォーマンスアプローチの分析を行う。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:01:06 GMT)
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [14.0] ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。
ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。
ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:55:51 GMT)
Using Subgraph GNNs for Node Classification:an Overlooked Potential Approach [13.9] SubGND(Subgraph GNN for NoDe)はノード分類のための新しいサブグラフベースの分類フレームワークである。
我々は,SubGNDがグローバルメッセージパスGNNに匹敵する,あるいは超越した性能を達成することを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:37:38 GMT)
Infinite Leagues Under the Sea: Photorealistic 3D Underwater Terrain Generation by Latent Fractal Diffusion Models [13.6] 超現実的な水中シーンを生成するための生成モデルであるDreamSeaを紹介する。
DreamSeaは、水中ロボットサーベイから収集した実世界の画像データベースに基づいて訓練されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:43:37 GMT)
Causal Discovery and Inference towards Urban Elements and Associated Factors [13.5] 本稿では, 因果関係の包括的解明を目的とした新しい都市因果計算フレームワークを提案する。
特に、潜在的な因果グラフを発見するための強化学習アルゴリズムを設計する。
下流都市におけるモビリティ予測タスクにおける因果効果の意義レベルを活用する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:15:04 GMT)
EPR-GAIL: An EPR-Enhanced Hierarchical Imitation Learning Framework to Simulate Complex User Consumption Behaviors [13.4] 本研究では,データ駆動型GAIL(Generative Adversarial Learning)手法の忠実さと信頼性を高めることを提案する。
EPR-GAILフレームワークの中核となる考え方は、ユーザの消費行動を複雑なEPR決定プロセスとしてモデル化することです。
オンラインプラットフォーム上での2つの実世界のユーザ消費行動データセットの実験では、EPR-GAILフレームワークが、データの忠実度において、最高の最先端ベースラインを19%以上上回っていることが示されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:56:42 GMT)
Causality Enhanced Origin-Destination Flow Prediction in Data-Scarce Cities [13.4] そこで我々は,都市間における都市知識の伝達を目的とした,Causality-Enhanced OD Flow Prediction (CE-OFP) フレームワークを提案する。
提案したCE-OFPは最先端のベースラインを著しく上回り、データ共有都市におけるODフロー予測のRMSEを最大11%削減することができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:36:36 GMT)
SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts [13.3] スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:08:04 GMT)
Swift Hydra: Self-Reinforcing Generative Framework for Anomaly Detection with Multiple Mamba Models [12.9] 本稿では、生成AIと強化学習(RL)に基づく異常検出手法をトレーニングする新しいフレームワークであるSwift Hydraを紹介する。
このフレームワークは、生成モデルの潜伏変数で動作するRLポリシーを特徴とし、検出モデルをバイパスできる新規で多様な異常サンプルを合成する。
Swift Hydraには、Mixture of Experts(MoE)として構造化されたMambaモデルも組み込まれている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:15:15 GMT)
LSA: Latent Style Augmentation Towards Stain-Agnostic Cervical Cancer Screening [12.8] Latent Style Augmentation (LSA) は、WSIレベルの遅延機能に直接、効率的なオンラインのステンレス拡張を実行するフレームワークである。
まず、WSIレベルのステンレス拡張手法であるWSAugを紹介し、WSI内のパッチ間の一貫したステンレスを確実にする。
WSAugによるオフラインで拡張されたWSIを使用して、潜在空間におけるターゲットスタイルをシミュレートできるStain Transformerを設計し、訓練します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:33:59 GMT)
Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning [12.7] 継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。
過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。
Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:19:22 GMT)
DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.7] DynamicIDは、デュアルステージトレーニングパラダイムでサポートされているチューニング不要のフレームワークである。
VariFace-10k顔データセットは,それぞれ35種類の顔画像で表現された10k個の個人からなる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:16:19 GMT)
Towards Superior Quantization Accuracy: A Layer-sensitive Approach [12.5] 大きな視覚と言語モデルは、自然言語理解、問題解決、論理的推論、知識検索といったタスクにおいて、目覚ましい人間のような知性を示してきた。
これらのモデルの訓練と提供には、かなりの計算資源が必要である。
計算要求を減らすために様々なモデル圧縮技術が開発されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:45:03 GMT)
Federated Learning for Diffusion Models [12.5] 拡散モデルは、様々なタスクに対して非常に現実的なサンプルを生成することができる強力な生成モデルである。
拡散確率モデルを用いたFedDDPM-Federated Learningを提案する。
本稿では、FedDDPMの厳密な収束解析を行い、トレーニングオーバーヘッドを低減するための強化アルゴリズムであるFedDDPM+を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:41:10 GMT)
FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression [12.3] 学習画像圧縮(lic)法は、最近、速度歪み性能においてVVCなどの従来のコーデックよりも優れている。
本稿では,まず,Swin-Transformer V2ベースのアテンションモジュールを統合することで,高容量教師モデルを構築する。
次に、教師から軽量の学生モデルに重要な知識を伝達するアンダーラインFeatureとアンダーラインEntropyベースのアンダーラインDistillation underlineStrategy(textbfFEDS)を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:39:39 GMT)
ImplicitCell: Resolution Cell Modeling of Joint Implicit Volume Reconstruction and Pose Refinement in Freehand 3D Ultrasound [12.1] ImplicitCell は Inlicit Neural Representation (INR) と超音波分解能セルモデルを統合した新しいフレームワークである。
実験結果から, ImplicitCell は既存手法と比較して, 復元アーチファクトを著しく低減し, ボリューム品質を向上することが示された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:40:49 GMT)
MultiCo3D: Multi-Label Voxel Contrast for One-Shot Incremental Segmentation of 3D Neuroimages [12.1] 3Dニューロイメージングは、脳の構造と機能に関する包括的なビューを提供し、正確な局在化と機能的な接続解析を支援する。
ワンショットクラスインクリメンタルセマンティック(One-shot Class Incremental Semantic、OCIS)は、1つのサンプルのみを使用して新しいクラスをセグメンテーションすることを指す。
単発クラスインクリメンタルトラクションセグメンテーションのためのMultiCo3Dと呼ばれる新しいマルチラベルボクセルコントラストフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:06:20 GMT)
CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.0] ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。
具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。
意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:58:51 GMT)
HuixiangDou2: A Robustly Optimized GraphRAG Approach [11.9] グラフベースのRetrieval-Augmented Generation (GraphRAG)は、動的検索のためのグラフとして構造化することで、この問題に対処する。
堅牢に最適化されたGraphRAGフレームワークであるHixiangDou2を紹介する。
具体的には、二重レベル検索の有効性を活用し、32kコンテキストでその性能を最適化する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:20:24 GMT)
Learning time-scales in two-layers neural networks [11.9] 高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:50:54 GMT)
Large Language Models Are Effective Human Annotation Assistants, But Not Good Independent Annotators [11.9] 関連のないドキュメントを削除し、同じイベントに関するドキュメントをマージし、イベントを注釈付けする包括的なワークフローを評価する。
LLMベースの自動アノテーションは従来のTF-IDFベースのメソッドやイベントセットキュレーションよりも優れているが、人間の専門家に比べて信頼性は低い。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:14:14 GMT)
Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking [11.6] ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。
無人航空機(UAV)の追跡にはViTは面倒すぎる。
本稿では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:02:30 GMT)
Revisiting Early Detection of Sexual Predators via Turn-level Optimization [11.4] オンライングルーミングを検出するために,速度制御強化学習(SCoRL)を提案する。
ターンレベルのリスクラベルに基づいて,速度と精度のトレードオフをバランスさせる新しい速度制御報酬関数を設計する。
実験の結果、SCoRLはオンラインでのグルーミングを効果的にプリエンプションし、より積極的にタイムリーなソリューションを提供することがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:05:27 GMT)
Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs [11.1] 本稿では,SMETimesについて述べる。SMETimesは,3B以下のパラメータのSLMを,効率的かつ正確な時系列予測を行うための最初の体系的な研究である。
統計的特徴によって数値時系列をテキスト意味論でブリッジする統計的に強化されたプロンプト機構; 学習可能なパラメータを通して時間パターンと言語モデルトークン空間を整列する適応型融合埋め込みアーキテクチャ。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:56:53 GMT)
Introducing Unbiased Depth into 2D Gaussian Splatting for High-accuracy Surface Reconstruction [11.1] 2次元ガウス格子 (2DGS) は2次元サーベイルを用いて薄い表面を近似することにより、一般的な3DGSよりも優れた幾何再構成品質を示す。
しかし、光沢のある表面を扱う際には短くなるため、これらの領域に目に見える穴が生じる。
反射の不連続性が問題を引き起こすことを発見した。拡散からスペクトル反射へのジャンプを異なる視角に合わせるために、最適化されたガウス原始体に奥行きバイアスを導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:38:01 GMT)
Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation [11.0] 大型言語モデル(LLM)の代替として、小型言語モデル(SLM)が登場した。
本稿では,SLMの脆弱性をジェイルブレイク攻撃に対して大規模な実証的研究を行った。
モデルのサイズ、モデルアーキテクチャ、トレーニングデータセット、トレーニングテクニックの4つの重要な要素を特定します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:47:16 GMT)
KréyoLID From Language Identification Towards Language Mining [10.8] フランスのクレオールに新しいパイプラインとコーパスを提案する。
言語マイニング・パースペクティブの有効性を示すため,フランスのクレオールに新たなパイプラインとコーパスを導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:37:05 GMT)
HFedCKD: Toward Robust Heterogeneous Federated Learning via Data-free Knowledge Distillation and Two-way Contrast [10.7] データフリーな知識蒸留と双方向コントラスト(HFedCKD)に基づくヘテロジニアスフェデレーション方式を提案する。
HFedCKDは、データフリーな知識蒸留における低い参加率による知識オフセットを効果的に軽減し、モデルの性能と安定性を向上させる。
我々は画像とIoTデータセットに関する広範な実験を行い、提案したHFedCKDフレームワークの一般化と堅牢性を包括的に評価し、検証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:32:57 GMT)
Dynamic Updates for Language Adaptation in Visual-Language Tracking [10.6] 本稿では,複数モーダル参照を動的に更新することで目標の最新の状態を捕捉し,一貫性を維持する視覚言語追跡フレームワークDUTrackを提案する。
DUTrackは、LaSOT、LaSOT$_rmext$、TNL2K、TB99-Lang、GOT-10K、UAV123を含む4つの主要なビジョン言語と2つのビジョンのみのトラッキングベンチマークで、最先端のパフォーマンスを新たに達成している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:47:19 GMT)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.6] リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:36:31 GMT)
RealTraj: Towards Real-World Pedestrian Trajectory Forecasting [10.3] 本稿では,軌道予測の現実的適用性を高める新しいフレームワークであるRealTrajを提案する。
Det2TrajFormerは、過去の検出を入力として使用することで、ノイズの追跡に不変なモデルである。
従来のトラジェクトリ予測手法とは異なり,本手法は地平線検出のみを用いてモデルを微調整し,コストのかかる人体IDアノテーションの必要性を低減させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:26:35 GMT)
Fairness-aware organ exchange and kidney paired donation [10.3] KPDプログラムは、腎臓移植における非互換性の課題を克服するための革新的な解決策を提供する。
不平等な移植機会に対処するためには、グループフェアネスと個人フェアネスという2つの広く使われているフェアネス基準がある。
機械学習の校正原理に触発されて、我々は新しいフェアネス基準を導入する: 一致した結果が保護された特徴から条件的に独立していなければならない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:01:08 GMT)
Quantum Graph Convolutional Networks Based on Spectral Methods [10.3] Graph Convolutional Networks (GCN) は、グラフ構造化データからの特徴抽出のための特殊なニューラルネットワークである。
本稿では、量子コンピューティング技術を統合することで、スペクトル法に基づくGCNの強化を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:08:15 GMT)
Future-Aware Interaction Network For Motion Forecasting [10.2] 本稿では,シーンエンコーディングに将来的な軌跡を取り入れたインタラクションベースの「Future-Aware Interaction Network」を提案する。
空間的相互作用モデリングにMambaを適用するために,未順序データを構造化シーケンスに変換する適応的リオーダー戦略を提案する。
マンバは、生成した将来の軌道を時間的に洗練し、より一貫した予測を保証するために使用される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:38:34 GMT)
What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization [10.1] ドメインの一般化は、新しい、目に見えないデータ分布に一般化できるモデルを開発することを目的としている。
モデルアーキテクチャと事前学習の目的が機能豊かさに与える影響について検討する。
我々のフレームワークは、最大4%以上のテスト精度向上により、未確認領域への一般化を改善する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:29:01 GMT)
Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving [10.0] 安全認知運転ベンチマーク(SCD-Bench)という新しい評価手法を提案する。
SCD-Benchの大規模アノテーション問題に対処するため,我々はAutonomous Driving Image-Textを開発した。
システム。
予備実験の結果、既存のオープンソースモデルには十分な安全性の認識が欠けていることが示されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:53:19 GMT)
TKG-DM: Training-free Chroma Key Content Generation Diffusion Model [9.9] トレーニングフリークロマキーコンテンツ生成拡散モデル(TKG-DM)
学習自由クロマキーコンテンツ生成拡散モデル(TKG-DM)を提案する。
提案手法は、制御された背景生成のための初期雑音における色相の操作を初めて検討するものである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:37:06 GMT)
Function-Space MCMC for Bayesian Wide Neural Networks [9.9] ニューラルネットワークの重みの分離後分布から,プレコンディション付きクランク・ニコソン法とそのランゲヴィン法を用いてサンプリングを行った。
提案アルゴリズムの受容確率は,ネットワークの幅が大きくなるにつれて1に近づく。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:32:27 GMT)
AutoMisty: A Multi-Agent LLM Framework for Automated Code Generation in the Misty Social Robot [9.9] 大規模言語モデル(LLM)を利用した初のマルチエージェントコラボレーションフレームワークであるAutoMistyを紹介する。
AutoMistyには4つの特別なエージェントモジュールが組み込まれており、タスクの分解、割り当て、問題解決、結果合成を管理している。
AutoMistyの有効性を評価するために,4段階の複雑さにまたがるベンチマークタスクを設計し,実際のMistyロボット環境で実験を行った。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:07:46 GMT)
Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios [9.8] 複雑なシナリオにおける推論のための複数のインプットを統合するための高度なモデルの可能性について検討する。
本稿では,モデル入力を推論に利用し,最小マージンの復号化による推論を強化し,意味的関連データを取得する3つのプラグアンドプレイ手法を提案する。
提案手法では,SOTAクローズドソースモデルよりもCVQAが22.17%向上し,推論モデルの性能が向上する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:35:07 GMT)
When Unsupervised Domain Adaptation meets One-class Anomaly Detection: Addressing the Two-fold Unsupervised Curse by Leveraging Anomaly Scarcity [9.7] 本稿では、教師なし異常検出(UAD)のための、最初の教師なしドメイン適応(UDA)フレームワークを紹介する。
まずこの問題を定式化し、2倍の「教師なしの呪い」と呼ぶ。
我々は、この呪いの先駆的な解決策を提案し、これまでのところ、異常は稀であると仮定して、難解であると見なされている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:44:12 GMT)
Imagine-2-Drive: Leveraging High-Fidelity World Models via Multi-Modal Diffusion Policies [9.6] World Model-based Reinforcement Learning (WMRL)は、効率的な政策学習を可能にする。
マルチモーダル拡散型ポリシーアクタと高忠実度世界モデルを統合する新しいWMRLフレームワークであるImagine-2-Driveを提案する。
DiffDreamer内のDPAをトレーニングすることにより,オンラインインタラクションを最小限に抑えた堅牢なポリシー学習を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:06:08 GMT)
Less is More: Adaptive Program Repair with Bug Localization and Preference Learning [9.6] 整合性を維持しつつプログラムの修復性を高めるための2段階の手法を提案する。
第1段階では、自己認識学習を備えたバグロケータを用いて、バグ位置を正確に特定する。
第2段階では、修正後の固定コードと修正前のバグギーコードとの一貫性を確保するためにプログラムをトレーニングします。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:32:38 GMT)
PathVQ: Reforming Computational Pathology Foundation Model for Whole Slide Image Analysis via Vector Quantization [9.6] がんの診断と予後には,計算病理学と全スライディング画像(WSI)解析が重要である。
病理基盤モデルの最近の進歩は性能を改善したが、ほとんどのアプローチは[[] タイル ViT をスライドレベル入力としてトークン表現に依存している。
これはパッチトークンから重要な空間の詳細を捨て、下流のWSI分析タスクを制限します。
空間パッチトークンを効率よく圧縮するパッチ特徴量にベクトル量子化(VQ)蒸留を導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:51:08 GMT)
The Implicit Bias of Heterogeneity towards Invariance: A Study of Multi-Environment Matrix Sensing [9.6] 本稿では,不均一なデータに対するグラディエント・ディキセント(SGD)の暗黙バイアスについて検討し,その暗黙バイアスがモデル学習を不変解へと導くことを示す。
具体的には、各環境において、信号が(i)全環境間で共有される低ランク不変部分と(ii)環境依存のスプリアス成分とを含む多環境低ランク行列センシング問題について理論的に検討する。
重要な洞察は、明示的な正規化を伴わずに各環境で大きなステップサイズの大バッチSGDを逐次使用するだけで、不均一性に起因する振動は、モデル学習の急激なシグナルを確実に阻止することができることである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:47:55 GMT)
AnywhereDoor: Multi-Target Backdoor Attacks on Object Detection [9.5] AnywhereDoorは、オブジェクト検出のためのマルチターゲットバックドアアタックである。
敵は、すべてのオブジェクトクラスまたは特定のオブジェクトクラスをまたいで、オブジェクトを消したり、新しいオブジェクトを作ったり、ラベルを間違えたりすることができる。
このような柔軟な制御のための既存の手法の適応と比較して、攻撃成功率を26%向上させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:24:24 GMT)
Neural Snowflakes: Universal Latent Graph Inference via Trainable Latent Geometries [9.4] トレーニング可能なディープラーニングアーキテクチャであるニューラルスノーフレークを導入し、$mathbbRd$でフラクタル的なメトリクスを適応的に実装する。
ニューラル・スノーフレーク・モデルは,最先端の潜伏グラフ推論モデルと一致するか,あるいは上回る予測性能を達成できることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:34:50 GMT)
Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.4] 多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:17:58 GMT)
SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model [9.4] 本稿では,クリッピング基準として重なり合う注意力を利用した知覚一貫性クリッピングを提案する。
また,マスクデコーダのクロスアテンション応答を活用することで,視覚的プロンプトインタラクションを取り入れたPrompt-Aware Reconstructionを提案する。
本手法は, セグメンテーションタスクにおいて, ベースラインよりも11.7%高いmAPを実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:38:32 GMT)
Investigating Image Manifolds of 3D Objects: Learning, Shape Analysis, and Comparisons [9.3] 画像の高次元性にもかかわらず、3次元物体の像の集合は長い間、低次元多様体を形成すると仮定されてきた。
本稿では,多様体学習の古典的問題を再考するが,新しい幾何学的観点から考察する。
画像多様体のジオメトリは、視覚と画像処理タスクを単純化し、パフォーマンスを予測し、学習方法に関する洞察を提供するために利用することができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:00:33 GMT)
Unifying Self-Supervised Clustering and Energy-Based Models [9.3] 自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:47:51 GMT)
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest [9.1] R-LLaVAは、単純な医用アノテーションをCLIPを介して画像空間に直接組み込むことで、バイオメディカルVQA理解を高めるように設計されている。
これらの注釈付き視覚領域は、トレーニング中にLLaVAモデルに入力され、バイオメディカルクエリに対するモデルの理解を深めることを目的としている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:23:35 GMT)
Seesaw: High-throughput LLM Inference via Model Re-sharding [8.8] 本稿ではスループット指向タスクに最適化された推論エンジンであるSeesawを紹介する。
Seesawの背景にある主要なアイデアは、並列化戦略の動的再構成を容易にする技術である動的モデル再シャーディングである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:14:06 GMT)
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [8.8] 概念アンラーニングは、非倫理的または有害なテキスト・ツー・イメージ拡散モデルの使用に対する有望な解決策である。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:17:36 GMT)
Temporal Analysis of NetFlow Datasets for Network Intrusion Detection Systems [8.6] 本稿では,機械学習に基づくネットワーク侵入検知システム(NIDS)におけるNetFlowデータセットの時間的解析について検討する。
本稿では,NetFlowデータセットの時間的分布を経時的に検討し,時間的・時間的分析を行った。
その結果、多くの攻撃にはユニークなパターンがあることが示され、MLモデルの識別がより容易になる可能性がある。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:31:18 GMT)
Core Knowledge Deficits in Multi-Modal Language Models [8.5] そこで本研究では,幼少期からヒトに根本的知識が欠如していることから,欠陥が引き起こされるという仮説を考察する。
以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。
本稿では,MLLMがコア知識に真に前進しないことを示す評価手法であるConcept Hackingを紹介する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:39:42 GMT)
MMARD: Improving the Min-Max Optimization Process in Adversarial Robustness Distillation [8.5] 逆ロバスト性蒸留は、小容量モデルのロバスト性を高めるための有望な課題である。
本稿では,汎用的なMin-Max最適化Adrial Robustness Distillation (MMARD)法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:15:02 GMT)
A Block-Based Heuristic Algorithm for the Three-Dimensional Nuclear Waste Packing Problem [8.2] 実世界の原子力プラントの文脈において, 廃棄物容器包装問題に対処するブロック型探索アルゴリズムを提案する。
将来の研究者が使用する1600のイシューインスタンスからなるデータセットを提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:20:48 GMT)
Revisiting Invariant Learning for Out-of-Domain Generalization on Multi-Site Mammogram Datasets [8.1] 本稿では,乳がんリスク評価における不変学習の適用性について,マンモグラフィーを用いて再検討する。
評価指標には、精度、平均精度、曲線下の面積が含まれる。
本研究では,マンモグラム分類における不変学習の利点,限界,課題について検討する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:28:04 GMT)
Geometric Knowledge-Guided Localized Global Distribution Alignment for Federated Learning [7.9] 本研究では,グローバルな埋め込み分布を局所的にシミュレートすることに焦点を当てた幾何学誘導型データ生成手法を提案する。
まず,埋め込み分布の幾何学的形状の概念を紹介する。
そして、プライバシー制約の下でグローバルな幾何学的形状を得るという課題に対処する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:30:28 GMT)
SafeSpeech: A Comprehensive and Interactive Tool for Analysing Sexist and Abusive Language in Conversations [7.5] SafeSpeechは、有害なコンテンツの検出と分析のための総合的なプラットフォームである。
メッセージレベルと会話レベルの洞察をブリッジする。
このプラットフォームは、微調整の分類器と大きな言語モデルを統合する。
EDOS、OffensEval、HatEvalといったベンチマークデータセットの評価は、最先端のパフォーマンスの再現を実証している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:31:17 GMT)
Video LLMs for Temporal Reasoning in Long Videos [7.3] テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
本研究では,TemporalVLMの評価を容易にするために,産業集積プロセス,すなわちIndustrialASMの大規模ビデオデータセットを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:25:51 GMT)
Harvesting correlations from BTZ black hole coupled to a Lorentz-violating vector field [7.2] ローレンツ違反は、時空の量子的性質として、時空で符号化された量子情報容量に固有の制約を課す可能性がある。
ローレンツ対称性の破れは、交絡影領域を拡張し、量子相関に対する破壊的な効果を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:50:15 GMT)
Fermionic fields in a four-dimensional Bonnor-Melvin-Lambda space-time [7.1] 4次元の真空宇宙空間で発生する重力場が、ディラック方程式によって支配されるフェルミオン場の力学にどのように影響するかを考察する。
解析により、幾何学的トポロジー、宇宙定数、量子数を含む様々なパラメータが、量子粒子の固有値解を決定する上で重要な役割を果たすことが明らかとなった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:57:47 GMT)
Higher Order Reduced Rank Regression [7.0] Reduced Rank Regression (RRR) は、多応答回帰のための広く使われている手法である。
本稿では,HORRR(Higher Order Reduced Rank Regression)を紹介する。
HORRRは多重応答回帰における非線形相互作用を捉えることができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:21:38 GMT)
Probabilistic Shielding for Safe Reinforcement Learning [6.9] 現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:54:33 GMT)
Emulating Self-attention with Convolution for Efficient Image Super-Resolution [6.8] コンボリューショナル・アテンション(ConvAttn)という,畳み込み型自己アテンションモジュールを導入する。
ConvAttnモジュールを利用することで、自己注意と関連するメモリバウンド操作への依存を著しく低減する。
我々は、フラッシュアテンションを軽量SRシステムに統合し、自己注意の固有のメモリボトルネックを効果的に軽減するという課題を克服する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:45:53 GMT)
Accelerated Extragradient-Type Methods -- Part 2: Generalization and Sublinear Convergence Rates under Co-Hypomonotonicity [6.8] 本稿では,アンカード・エクストラグラディエントとネステロフのアクセルド・エクストラグラディエントという,2種類のエクストラグラディエント・ベースの手法について検討する。
我々は、より広い範囲のスキームにモノトン包摂を包含するアンカー付き指数関数のクラスを統一し、一般化する。
我々は、包含性を解決するために、Nesterovの高速化された指数関数の新たなクラスを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:28:13 GMT)
Training Free Guided Flow Matching with Optimal Control [6.7] 最適制御を用いたガイドフローマッチングのための学習自由フレームワークであるOC-Flowを提案する。
OC-Flowは,テキスト誘導画像操作,条件分子生成,全原子ペプチド設計において優れた性能を示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:35:34 GMT)
OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection [6.4] OV-SCANはオープンVocabulary 3Dフレームワークで、新規オブジェクト発見のためにセマンティック一貫性アライメントを強制する。
OV-SCANは、正確な3Dアノテーションを発見し、低品質または劣化したアライメントペアをフィルタリングする2つの中核戦略を採用している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:22:08 GMT)
MetaXCR: Reinforcement-Based Meta-Transfer Learning for Cross-Lingual Commonsense Reasoning [6.4] クロスランガルな低リソースのCommonsense Reasoningは、さまざまなイングランドのデータセットを活用して、ラベル付きデータに制限のある新たな言語間のターゲットデータセットへの適応を支援することを目的としている。
本稿では,多言語で低リソースなCommonsense Reasoning(MetaXCR)のためのマルチソースアダプタを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 09:27:57 GMT)
Gaussian RBFNet: Gaussian Radial Basis Functions for Fast and Accurate Representation and Reconstruction of Neural Fields [6.4] 本稿では、従来のニューロンをラジアル基底核に置き換えることで、2D(RGB画像)、3D(幾何学)、5D(放射場)信号の高精度な表現を実現することができることを示す。
提案手法は,15秒未満で3次元図形表現を,15分未満で3次元図形表現を学習できることを実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:36:45 GMT)
Enhancing CBMs Through Binary Distillation with Applications to Test-Time Intervention [6.3] 我々は二成分蒸留(BD)を得るために高速解釈式グレディサムトレー(FIGS)を用いた。
FIGS-BDは、CBMのバイナリ拡張されたコンセプト・トゥ・ターゲット部分を解釈可能なツリーベースモデルに蒸留する。
適応的なテスト時間介入は、現実的なヒューマン・イン・ザ・ループ・セッティングの性能を著しく向上させる重要な概念を識別することを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:03:48 GMT)
log-RRIM: Yield Prediction via Local-to-global Reaction Representation Learning and Interaction Modeling [6.3] log-RRIMは、化学反応の収量を予測するために設計された革新的なグラフトランスフォーマーベースのフレームワークである。
log-RRIMの重要な特徴は、試薬と反応中心の相互作用に焦点を当てたクロスアテンション機構の統合である。
Log-RRIMは、特に中~高収率反応において、我々の実験において優れた性能を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:43:34 GMT)
TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification [6.1] TextInPlaceは、Scene Text Spotting(STS)を統合して、反復的な屋内環境における視覚的知覚のあいまいさを軽減するフレームワークである。
現在のテキストベースの反復屋内シーンデータセットと、ロボットナビゲーションで遭遇する典型的なシナリオとのギャップを埋めるため、屋内ビジュアルプレイス認識ベンチマークデータセットを構築した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:03:41 GMT)
Speech Audio Generation from dynamic MRI via a Knowledge Enhanced Conditional Variational Autoencoder [6.1] 本研究では,2段階の「知識強化+変分推論」フレームワークを提案する。
我々の知る限り、これはダイナミックMRIビデオシーケンスから直接音声を合成する最初の試みの1つである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:40:16 GMT)
TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems [5.9] 本稿では,人工知能の領域におけるマルチモーダルアライメント,特にテキストと画像のモダリティに焦点を当てる。
我々は,エネルギーベースモデル(EBM)フレームワークを活用し,複雑な相互関係を捉える革新的な事前学習戦略であるTI-JEPA(Text-Image Joint Embedding Predictive Architecture)を紹介する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:34:28 GMT)
Navigating Conflicting Views: Harnessing Trust for Learning [5.8] 既存の信頼性フレームワークを強化するために,計算信頼に基づく割引手法を開発した。
提案手法は,Top-1精度,AUC-ROC for Uncertainty-Aware Prediction,Fleiss' Kappa,Multi-View Agreement with Ground Truthの6つの実世界のデータセットを用いて評価した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:32:00 GMT)
StructGS: Adaptive Spherical Harmonics and Rendering Enhancements for Superior 3D Gaussian Splatting [5.8] StructGS は 3D Gaussian Splatting (3DGS) を強化し、3D再構成における新規なビュー合成を改善するフレームワークである。
我々のフレームワークは計算冗長性を著しく低減し、ディテールキャプチャを強化し、低解像度入力からの高解像度レンダリングをサポートする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:39:44 GMT)
The Parametric Complexity of Operator Learning [5.8] 本稿では、Cr$-あるいはLipschitz-regularityのみによって特徴づけられる作用素の一般クラスに対して、演算子学習が「パラメトリック複雑性の帰結」に苦しむことを証明する。
この論文の第二の貢献は、ハミルトン・ヤコビ方程式で定義される解作用素に対して、この一般的な呪いが克服可能であることを証明することである。
HJ-Netと呼ばれる新しいニューラル演算子アーキテクチャが導入され、基礎となるハミルトン系の特性情報を明示的に考慮している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:19:24 GMT)
BTFL: A Bayesian-based Test-Time Generalization Method for Internal and External Data Distributions in Federated learning [5.7] フェデレートラーニング(FL)は、データプライバシを維持しながら、複数のクライアントが協力してグローバルモデルを開発することを可能にする。
オンラインFLデプロイメントは、分散シフトとテストサンプルの進化による課題に直面している。
フェデレートラーニング(TGFL)における内部および外部分布に対するテスト時一般化を提案する。
BTFLは、テスト中のサンプルレベルでの一般化とパーソナライゼーションのバランスをとる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:16:34 GMT)
Multifunctional Nonreciprocal Quantum Device Based on Superconducting Quantum Circuit [5.6] 我々は超伝導量子回路の統合と調整可能な相互作用に基づく多機能非相互量子デバイスを設計する。
アイソレータと循環器の両方が、ほぼ完全な一方向信号伝送を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:31:46 GMT)
Self-Supervised Speed of Sound Recovery for Aberration-Corrected Photoacoustic Computed Tomography [5.6] 光音響CT(PACT)は、超音波と同様の非侵襲的な画像モダリティであり、広範囲の医療応用がある。
組織中の異種音速(SOS)による波面歪みの測定は困難であり,既存の関節再建法は計算コストがかかる。
本稿では,SOSと高画質画像を微分可能物理モデルを用いて復元する,効率的な自己教師型共同再構成手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:23:39 GMT)
Actionable AI: Enabling Non Experts to Understand and Configure AI Systems [5.5] Actionable AIでは、非専門家がブラックボックスエージェントを設定することができる。
不確実な条件下では、非専門家は高いレベルの性能を達成する。
我々は、AIベースのエージェントへのアクセスをオープンにする手段として、Actionable AIを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:09:04 GMT)
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation [5.5] カーネル・オーディオ・ディスタンス(Kernel Audio Distance, KAD)は、最大平均離散性(MMD)に基づく分布自由、非バイアス、計算効率の指標である。
高度な埋め込みと特徴的カーネルを活用することで、KADは実際のオーディオと生成されたオーディオの微妙な違いをキャプチャする。
Kadtkツールキットでオープンソース化されたKADは、生成的オーディオモデルを評価するための効率的で信頼性があり、知覚的に整合したベンチマークを提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:46:13 GMT)
Universal Vessel Segmentation for Multi-Modality Retinal Images [5.3] 多モード網膜画像に対する基礎的ユニバーサル血管分割モデル(UVSM)を提案する。
より広い範囲のモダリティの研究を行うだけでなく、これらの一般的なモダリティの全てに血管を分割する普遍モデルも提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:59:47 GMT)
Maximal coin-position entanglement and non-Hermitian skin effect in discrete-time quantum walks [5.2] 量子ウォークは、非エルミート皮膚効果の基盤となるメカニズムを探索するための強力なプラットフォームを提供する。
最適化された時間多重ループ構成を用いて20以上の進化段階の量子ウォークのフレキシブルフォトニック実装を提案する。
非エルミート系における非対称なリアプノフ指数プロファイルと皮膚効果による絡み合いの抑制を観察した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:33:32 GMT)
Optimizing Minimum Vertex Cover Solving via a GCN-assisted Heuristic Algorithm [5.2] 本稿では,大規模グラフにおけるMVC問題の解法としてGCNIVCを提案する。
GCNIVCは、精度と効率の両面で最先端のMVCアルゴリズムより優れていることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:31:03 GMT)
A Causal World Model Underlying Next Token Prediction in GPT [5.2] GPT(Generative Pre-trained Transformer)モデルは、実世界のゲームにおいて、勝利を意図してテストされる。
GPTモデルは、注意機構に因果構造がエンコードされるシーケンスのゲームルールに準拠する動作を生成する可能性が高い。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:02:01 GMT)
Generalizable Machine Learning Models for Predicting Data Center Server Power, Efficiency, and Throughput [5.0] 本研究では,SPECPower_ssj2008データベースを用いた機械学習手法を用いて,ユーザフレンドリで汎用的なサーバモデリングを実現する。
結果として得られたモデルは精度が高く、エラーはテストデータセットで約10%以内に落ち、実用性と一般化性を示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 04:39:53 GMT)
Censoring-Aware Tree-Based Reinforcement Learning for Estimating Dynamic Treatment Regimes with Censored Outcomes [4.9] Censoring-Aware Tree-Based Reinforcement Learning (CA-TRL)は、検閲データに関連する複雑さに対処する新しいフレームワークである。
本稿では,SANADエピレプシー・データセットを用いた広範囲なシミュレーションと実世界の応用を通して,その効果を実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:53:09 GMT)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.9] 我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。
GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。
GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:38:10 GMT)
High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion [4.8] ウェーブレット拡散(UGDiff)を用いた不確実性誘導画像圧縮手法を提案する。
本稿では,ウェーブレット変換による高周波圧縮に着目した。
2つのベンチマークデータセットに関する総合的な実験は、UGDiffの有効性を検証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:25:14 GMT)
Chameleon: On the Scene Diversity and Domain Variety of AI-Generated Videos Detection [4.7] AI生成ビデオ検出のための既存のデータセットは、多様性、複雑性、リアリズムの限界を示す。
我々は、複数の生成ツールと様々な実ビデオソースを通してビデオを生成する。
同時に、シーンスイッチやダイナミックな視点変化など、ビデオの現実的な複雑さを保ちます。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:58:43 GMT)
Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision [4.6] ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:00:14 GMT)
CLICv2: Image Complexity Representation via Content Invariance Contrastive Learning [4.6] 教師なし画像の複雑性表現は、正のサンプル選択のバイアスや、画像の内容に対する感受性に悩まされることが多い。
複雑性表現のためのコンテンツ不変性を強制するコントラスト学習フレームワークであるCLICv2を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:40:36 GMT)
WildIFEval: Instruction Following in the Wild [4.5] WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:06:29 GMT)
Observing the exponential growth of the eigenmodes in the absence of coalescence for a non-Hermitian circuit with an unavoidable inductor dissipation [4.4] コンデンサを介して利得と損失の$RLC$共振器を結合した電子回路の固有モードについて検討する。
インダクタの磁気損失が避けられないため、従来の非エルミタン系とは異なり、固有モードの合体はもはや現れないことが判明した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:12:41 GMT)
X-GAN: A Generative AI-Powered Unsupervised Model for High-Precision Segmentation of Retinal Main Vessels toward Early Detection of Glaucoma [4.3] 本稿では,OCTA画像から主血管を抽出するAIを用いた非教師付きセグメンテーションモデルであるX-GANを提案する。
X-GANはラベル付きデータや高性能コンピューティングリソースに頼ることなく、100%近いセグメンテーション精度を達成する。
また,GSS-RetVeinは高分解能2Dおよび3D緑内障網膜データセットである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:56:36 GMT)
Generative Distribution Prediction: A Unified Approach to Multimodal Learning [4.3] 本稿では、構造的および非構造的モダリティ間の予測性能を高めるために、生成分布予測(GDP)を導入する。
GDPはモデルに依存しず、どんな高忠実な生成モデルとも互換性があり、ドメイン適応のためのトランスファーラーニングをサポートする。
我々は,4つの教師付き学習課題(タブラルデータ予測,質問応答,イメージキャプション,適応的量子回帰)におけるGDPの有効性を実証的に検証した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:40:18 GMT)
Automated Proof of Polynomial Inequalities via Reinforcement Learning [4.2] 本稿では,強化学習に基づく不等式証明のためのKrivine-Basis表現の探索手法を提案する。
APPIRL(Reinforcementによる多項式不等式の自動証明)というツールも実装している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:50:28 GMT)
Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics [4.2] 私たちはAlgebraic Combinatorics dataset Repository (ACD Repo)という新しいデータセットのコレクションを紹介します。
各データセットには、オープンな研究レベルの質問と、サンプルの大規模なコレクションが含まれている。
機械学習モデルを適用する方法の異なる9つのデータセットについて説明する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:11:40 GMT)
Continuous Online Adaptation Driven by User Interaction for Medical Image Segmentation [4.1] インタラクティブセグメンテーションモデルは、マウスクリックなどのリアルタイムユーザインタラクションを、モデル予測を動的に洗練するために追加入力として使用する。
モデル配置後、モデル予測のユーザ修正を使用して、モデルをデプロイ後のデータ分布に適応させることができる。
本稿では,対話型セグメンテーションモデルをユーザインタラクションから継続的に学習するオンライン適応フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:19:08 GMT)
A Mesh Is Worth 512 Numbers: Spectral-domain Diffusion Modeling for High-dimension Shape Generation [4.1] 本稿では,高品質な形状生成のためのスペクトル領域拡散フレームワークSpotDifyを提案する。
15k頂点メッシュを学習せずに512次元の潜在コードに符号化するなど、複雑なメッシュを連続的な暗黙の表現に効率的にエンコードする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:05:29 GMT)
Bayesian Optimization for Robust Identification of Ornstein-Uhlenbeck Model [4.0] 本稿では、Ornstein-Uhlenbeck(OU)プロセスエラーモデルの導出について述べる。
ベイジアン最適化フレームワークに基づく,サンプル効率のよいグローバル最適化手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:38:21 GMT)
Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.9] 本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。
本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:14:19 GMT)
Personalized Class Incremental Context-Aware Food Classification for Food Intake Monitoring Systems [3.9] 既存の食品分類モデルでは、新しい分類の精度は低く、パーソナライゼーションの欠如がある。
本稿では,これらの課題を克服するために,個人別・クラス別食品分類モデルを提案する。
本手法は, 個人化により, 新クラスと既存クラスの両方に適用可能性と精度を維持しながら, 新たな食品クラスに適応する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:50:56 GMT)
GroMo: Plant Growth Modeling with Multiview Images [3.7] 本稿では,植物齢予測と葉数推定の2つの主要な課題を対象とした成長モデル(GroMo)課題を提案する。
GroMo Challengeは、植物の成長を追跡し予測するための革新的なソリューションを奨励することで、植物の表現型研究を進めることを目的としている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:23:16 GMT)
From First Patch to Long-Term Contributor: Evaluating Onboarding Recommendations for OSS Newcomers [3.7] オープンソースソフトウェア(OSS)プロジェクトへの新参者推奨に関する2つの重要な研究ギャップがある。
まず、既存のレコメンデーションのほとんどは限られた数のプロジェクトに基づいています。
第二に、これらのレコメンデーションが経験豊富なコントリビュータにも当てはまるかどうかは不明です。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:11:34 GMT)
SHIP: A Shapelet-based Approach for Interpretable Patient-Ventilator Asynchrony Detection [3.6] PVA(Patent-ventilator asynchrony)は、機械的換気の際の一般的な問題であり、最大85%の患者に影響を及ぼす。
PVA検出のためのシェープレットベースアプローチ ShiP を提案する。
本手法は,シェープレットに基づくデータ拡張によるデータセットの不均衡に対処し,より効果的な分類のために,シェープレットプールを構築してデータセットを変換する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:58:03 GMT)
Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.6] textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:07:50 GMT)
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3] 本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。
本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。
DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:17:02 GMT)
Conformance Checking for Less: Efficient Conformance Checking for Long Event Sequences [3.3] ConLESは、長いイベントシーケンスのスライディングウィンドウ適合性チェックアプローチである。
トレースを管理可能なサブトレースに分割し、それぞれが期待する振る舞いと整合する。
トレースとプロセスモデルの両方の構造特性をキャプチャするグローバル情報を使用します。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:42:59 GMT)
Double Machine Learning Methods for Estimating Average Treatment Effects: A Comparative Study [3.3] 機械学習が組み合わさることで、二重頑健な推定器の性能が向上することを示す。
機械学習を2重に頑健な推定器に組み込むことで,最適性能が得られることがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:16:24 GMT)
Key Establishment in the Space Environment [3.2] 様々なネットワークパラダイムとセキュリティアプローチを調査し、トレードオフとギャップを識別する。
宇宙通信の強力なセキュリティを実現するための今後の方向性を確立する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:48:13 GMT)
NexusSplats: Efficient 3D Gaussian Splatting in the Wild [3.1] 複雑な照明条件下での効率よく高忠実な3Dシーン再構成に適したNexusSplatsを提案する。
NexusSplatsは最先端のレンダリング品質を実現し、合計パラメータ数を65.4%削減し、2.7$times$高速な再構築を実現している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:19:58 GMT)
Optimizing Posterior Samples for Bayesian Optimization via Rootfinding [2.9] 我々は,グローバルなルートフィンディングに基づく後方サンプルの効率的な大域的最適化手法を提案する。
注目すべきは、各集合から 1 点しか持たなくても、大域的最適度は大抵の場合発見されることである。
提案手法は,エントロピー探索の変種など,他の後部サンプルベース獲得関数の性能も向上する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:38:43 GMT)
HCT-QA: A Benchmark for Question Answering on Human-Centric Tables [2.9] 人中心テーブル(HCT)は、高いビジネス価値、複雑なレイアウト、大規模な運用能力の制限、時には重要な洞察のための唯一のデータソースとして機能する。
本稿では,HCTの広範なベンチマークであるHCT-QAについて述べる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:02:11 GMT)
Derivation of Output Correlation Inferences for Multi-Output (aka Multi-Task) Gaussian Process [2.7] マルチタスクGP(MTGP)は、複数の出力の依存関係を考慮するために定式化される。
本稿ではMTGPの定式化とその勾配のフレンドリな導出を行う。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:53:55 GMT)
Dialogue Systems for Emotional Support via Value Reinforcement [2.6] 感情支援システムは、探索者が課題を克服するのを助けることを目的としている。
人間の価値観は個人の苦痛を軽減するが、現代の心理療法ではますます強調される。
本稿では,感情支援システムに価値強化を統合するモデルを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:37:22 GMT)
Variational Entropy Search for Adjusting Expected Improvement [2.6] 期待改善(EI)はブラックボックス機能において最もよく利用される取得機能である。
本研究では,情報理論の原理を取り入れた変分エントロピー探索法とVES-Gammaアルゴリズムを開発した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:29:40 GMT)
Task-Oriented Connectivity for Networked Robotics with Generative AI and Semantic Communications [2.5] 本稿では,汎用AI(GenAI)エージェントと目標指向のセマンティックコミュニケーション(SemCom)をセマンティック・アウェア・ネットワークの下で統合する,ロボットのための新しいコワーキング・フレームワークを提案する。
このエージェント駆動のパラダイムは、新たなレベルの自律性とインテリジェンスを可能にし、ネットワーク化されたロボットの複雑なタスクを、人間の介入を最小限に抑えて実行可能にする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:56:04 GMT)
Quantum walks under superposition of causal order [2.5] 我々は、周期的な量子ウォークまたは少なくとも1つの障害のあるのみが、量子スイッチの作用の下で因果順序の重畳を示すことを示した。
特に、周期量子ウォークは、還元されたコイン状態のダイナミクスに関連する因果非対称性を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:44:01 GMT)
Green Prompting [2.4] 大規模言語モデル (LLM) は、検索エンジン、コード生成、テキスト生成にまたがる様々な領域で広く使われている。
本研究は, LLM推定エネルギーコストに直接影響する刺激特性と応答特性の相違について実験的に検討した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:49:31 GMT)
Distributed quantum algorithm for the dihedral hidden subgroup problem [2.3] 本稿では,二面隠れ部分群問題に対する分散アルゴリズムを提案する。
元の関数を複数のサブファンクションに分割することにより、アルゴリズムは個々のノードに対する量子回路深さと量子ビット要求を著しく低減する。
元のアルゴリズムと比較して、分散バージョンは回路深度とノイズの影響を低減させるだけでなく、測定成功率も向上させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:32:26 GMT)
MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations [2.3] 本稿では,幾何変形の多モード潜在空間における拡張変換を生成する新しいモデルを提案する。
実験結果から,提案手法は予測精度を大幅に向上させることで,全てのベースラインよりも優れた性能を示すことがわかった。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:55:41 GMT)
Curating Model Problems for Software Designing [2.3] 多くの分野は、教育の標準的な例を使い、研究成果を共有し、比較する。
複数の視点から学ぶのに十分豊富な例は、しばしばモデル問題と呼ばれる。
本稿では,既存のモデル問題記述を改善し,新たなモデル記述を開始する2025の設計活動を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:41:22 GMT)
Contrasting to spark creativity in software development teams [2.3] ハイパフォーマンスなソフトウェア開発チームにおける30年の実証的研究は、創造性は効果的な規律付き開発文化によって促進されるという証拠を提供する。
本稿では、「コントラスト」を創造性の主要な要因として記述し、創造性の動き、優れたチームによって有用なコントラストを生み出すための戦術、創造性の「文化」をサポートするために観察される重要な開発行動について述べる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:53:18 GMT)
Probabilistic Robustness in Deep Learning: A Concise yet Comprehensive Guide [2.2] 確率的堅牢性(PR)は、摂動下での失敗の可能性を定量化することによって、より実践的な視点を提供する。
本稿では,その形式的定義,評価,拡張手法を網羅した,簡潔かつ包括的なPRの概要を提供する。
本稿では,PR検証証拠をシステムレベルの安全性保証に統合し,DLモデルレベルの堅牢性をシステムレベルの請求に翻訳する上での課題に対処する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:51:41 GMT)
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation [2.1] テキスト制約を考慮に入れた目標を組み込んだ,革新的な学習自由度手法を提案する。
本手法は,提案する目的関数にのみ依存し,構成性を大幅に向上し,人的評価の24%向上を実現した。
私たちのきめ細かいノイズ改善は効果を証明し、パフォーマンスを最大5%向上させます。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:18:43 GMT)
Robotic Ultrasound-Guided Femoral Artery Reconstruction of Anatomically-Representative Phantoms [2.1] この研究は、米国における大腿骨動脈スキャンのための自律型ロボットシステムを、患者固有のファントムの多様なセットで検証した初めてのものである。
血管画像に適したビデオベースディープラーニングUSセグメンテーションネットワークを導入し,動脈再建を改良した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:20:25 GMT)
LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.1] 医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
このモデルは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
Data Science Bowls、GlaS、ISIC2018、PH2、Sunnybrook、Lung X-rayといった公開データセットの実験は有望な結果を示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:54:13 GMT)
Twenty dry Martinis for the Unitary Almost Mathieu Operator [1.9] 非臨界状態におけるダイオファンタイン周波数を持つユニタリ準マシュー作用素に対するドライ・テン・マルティニ問題を解く。
これは、非臨界状態におけるディオファンチン周波数を持つユニタリなほぼマチュー作用素に対する問題である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:00:01 GMT)
An Accurate Efficient Analytic Model of Fidelity under Depolarizing Noise oriented to Large Scale Quantum System Design [1.8] 本稿では,分極雑音下での量子回路の忠実度を予測するための包括的な理論的枠組みを提案する。
デバイスキャリブレーションデータに基づく効率的な忠実度推定アルゴリズムを提案する。
提案するアプローチは、量子ハードウェアをベンチマークするためのスケーラブルで実用的なツールを提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:59:24 GMT)
Explaining Control Policies through Predicate Decision Diagrams [1.8] 学習決定木(DT)は、生成したコントローラの解釈可能なモデルに対して広く利用されている。
しかし、DTは共有意思決定を活用しません。これはバイナリ意思決定図(BDD)で採用され、そのサイズを減らし、説明可能性を改善するための重要な概念です。
本研究では、述語でBDDを拡張する述語決定図(PDD)を導入し、コントローラ表現におけるDTとBDDの利点を統一する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:31:48 GMT)
Resource Constraint Estimation of In-Quantum Implementated Mini-AES [1.7] 従来の算術数場アプローチを用いた実装が容易な手法を提案する。
我々は、類似の暗号Sボックスの量子実装のためのQiskitコードを生成するPythonコードを提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:44:11 GMT)
VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings [1.7] 視覚変換器(ViT)は数年前に導入されたが、そのテクスチャ認識能力についてはほとんど知られていない。
テクスチャ解析にViTを効果的に活用するVORTEXを提案する。
VORTEXを9つの多様なテクスチャデータセット上で評価し、SOTAの性能を達成または超越する能力を実証した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:36:02 GMT)
Segment Any Mesh [1.6] ゼロショットメッシュ部分分割法であるSegment Any Meshを提案する。
本手法は,マルチモーダルレンダリングと2D-to-3Dリフトの2段階で動作する。
提案手法を,頑健でよく評価された形状解析手法である形状寸法関数と比較し,本手法が性能に匹敵するか否かを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:11:26 GMT)
Performant LLM Agentic Framework for Conversational AI [1.6] 複雑なグラフをトラバースする際に,適切なノードを選択し,順に処理を実行する際に,LLM(Large Language Models)を支援する新しいシステムであるPerformant Agentic Framework(PAF)を紹介する。
PAFはLLMベースの推論と数学的に基底化されたベクトルスコアリング機構を組み合わせることで、高い精度とレイテンシの低減を実現している。
PAFは、複雑なビジネス環境において、スケーラブルでリアルタイムな会話型AIシステムを実現する方法として、ベースラインメソッドを著しく上回ることを示した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:58:34 GMT)
Unsupervised Multi-Clustering and Decision-Making Strategies for 4D-STEM Orientation Mapping [1.6] 本研究では、4D-STEMデータセットの高度な解析のための教師なし学習と意思決定戦略の新たな統合を提案する。
提案手法では,頑健かつ解釈可能な配向写像に必要な成分数(k)を決定するための体系的枠組みを導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:31:57 GMT)
Entangled mixed-state datasets generation by quantum machine learning [1.5] 本稿では,絡み合った分類タスクのための混合状態データセットを生成する方法を提案する。
量子エンタングルドデータセットの組み立てをさらに促進し、古典的および量子機械学習の両方で新しいエンタングルメント基準の発見を促す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:19:20 GMT)
Deep Learning Foundation and Pattern Models: Challenges in Hydrological Time Series [1.5] 本稿では,水文学データを用いて時系列における重要な特徴を特定することを目的とする。
本研究では, CAMELS と Caravan のグローバルデータセットから水文学時系列を解析する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:54:42 GMT)
Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems [1.4] エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。
従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。
本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:02:04 GMT)
Differential Machine Learning for Time Series Prediction [1.4] 本稿では、差分学習によるニューラルネットワーク予測を強化する新しい手法を提案する。
我々は,共有LSTMセルを用いて,両データストリームを同時に処理する差分長短期メモリ(Diff-LSTM)ネットワークを開発した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:42:26 GMT)
ACAI for SBOs: AI Co-creation for Advertising and Inspiration for Small Business Owners [1.1] スモールビジネスオーナー(SBO)は、しばしば高品質の広告を作るのに必要な資源と設計経験を欠いている。
我々は,GenAIを利用したマルチモーダル広告作成ツールであるACAI(AI Co-Creation for Advertising and Inspiration)を開発した。
ロンドンで16名のSBOを対象に,広告制作におけるACAIの認識と相互作用について調査を行った。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:00:36 GMT)
TwinLiteNetPlus: A Stronger Model for Real-time Drivable Area and Lane Segmentation [1.1] 本稿では,効率と精度のバランスをとるモデルであるTwinLiteNetPlusを紹介する。
TwinLiteNetPlusは、標準および深さ的に分離可能な拡張畳み込みを導入し、高い精度を維持しながら複雑さを低減している。
TwinLiteNetPlusは、様々な組み込みデバイスで厳格に評価され、有望なレイテンシと電力効率を示している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:09:01 GMT)
Hierarchical graph sampling based minibatch learning with chain preservation and variance reduction [1.0] グラフサンプリングに基づくグラフ畳み込みネットワーク(GCN)は、ミニバッチトレーニング中に前と後ろの伝播からサンプリングを分離する。
階層的なグラフサンプリングに基づく学習手法であるHIS_GCNsを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:23:09 GMT)
Limitations of Gaussian measurements in quantum imaging [1.0] 我々は、イメージング熱源におけるガウス測度の性能に関するノーゴー定理を確立する。
非ガウス測度は、推定分散の点で$epsilon$ (または$L2$) の係数で任意のガウス測度より優れている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:03:42 GMT)
TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts [0.9] FinMTEBのような既存のベンチマークは、主に高リソース言語向けに設計されている。
韓国金融ドメインの新しいベンチマークであるKorFinMTEBを紹介する。
実験結果から,FinMTEBの翻訳版ではモデルが頑健に動作する一方で,KorFinMTEB上での性能は微妙に重要な相違点を明らかにした。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:07:18 GMT)
Consistent Image Layout Editing with Diffusion Models [0.8] 本稿では,実際の画像を特定のレイアウトに並べ替えるだけでなく,オブジェクトの外観が編集前と一致することを保証できる新しい画像レイアウト編集手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:31:28 GMT)
Privacy Protection in Prosumer Energy Management Based on Federated Learning [0.7] プロシューマーの情報は プライバシーを明かさずに システムのインテリジェントな意思決定に 効率的に参加できる
非IIDの場合のモデルの精度はクラスタリングとパラメータ重み付け平均によって向上する。
ローカルな多重イテレーションと3層フレームワークは、通信ラウンドを効果的に削減できる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:29:29 GMT)
Machine learning for triage of strokes with large vessel occlusion using photoplethysmography biomarkers [0.7] 大血管閉塞 (LVO) 脳卒中は, 治療が遅れることによる予後不良の可能性から, 臨床実践において大きな課題となる。
LVOの治療には高度に専門的なケア、特に血管内血栓摘出術が含まれ、特定の病院でのみ利用可能である。
救急サービスによるLVOの先天的な同定は、LVO脳卒中患者を直接病院に搬送し、血管内療法を受けるために重要である。
臨床スコアは、重度の脳卒中からLVOを区別するのに役立つが、それらは、数分を要し、認知症や命令に従えない患者にとって非現実的かもしれない一連の検査に基づいている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:12:32 GMT)
Reconstructing Depth Images of Moving Objects from Wi-Fi CSI Data [0.6] 本研究では,Wi-Fiチャネル状態情報(CSI)を用いた移動物体の深度画像再構成手法を提案する。
Wi-Fiベースのディープイメージング技術は、セキュリティや高齢者ケアといった分野に新しい応用がある。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 05:30:33 GMT)
Synthetic Data Generation for Minimum-Exposure Navigation in a Time-Varying Environment using Generative AI Models [0.5] 本研究では,自動運転車ナビゲーションにおける環境特徴の総合的な生成問題について検討する。
提案手法は,分割変動リカレントニューラルネットワーク(S-VRNN)と呼ばれる生成人工知能モデルである。
S-VRNNは、広く使われている生成モデルである変分オートエンコーダと、データの時間的依存関係を学習するために使用されるリカレントニューラルネットワークの能力を融合する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:45:15 GMT)
Fully-Decentralized MADDPG with Networked Agents [0.5] 我々はエージェント間のネットワーク通信アプローチを適用し,MADDPGアルゴリズムを適用した。
我々は,訓練中の通信を可能とし,訓練を分散化するために代理政策を導入する。
分散化アルゴリズムは、計算コストを削減しつつ、経験的テストにおいて元のMADDPGに匹敵する結果を得る。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:05:32 GMT)
WinTSR: A Windowed Temporal Saliency Rescaling Method for Interpreting Time Series Deep Learning Models [0.5] 我々は、新しい解釈方法、textitWindowed Temporal Saliency Rescaling(WinTSR)を導入する。
我々は、異なるアーキテクチャの5つの最先端ディープラーニングモデルを用いて、WinTSRを10の最近の解釈手法と比較した。
総括分析の結果,WinTSRは他の局所解釈手法よりも性能が優れていた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:16:36 GMT)
Steerable Pyramid Weighted Loss: Multi-Scale Adaptive Weighting for Semantic Segmentation [0.5] 適応重み写像を効率的に生成する新しい操舵式ピラミッド型重み付き(SPW)損失関数を提案する。
提案したSPW損失関数は,計算オーバーヘッドを最小限に抑えつつ,より優れた画素精度とセグメンテーション精度が得られることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:15:01 GMT)
MoFE: Mixture of Frozen Experts Architecture [0.4] MoFEアーキテクチャは、微細チューニング(PEFT)とMixture of Experts(MoE)アーキテクチャを統合し、トレーニング効率とモデルのスケーラビリティを向上させる。
MoEフレームワーク内のFeed Forward Networkレイヤを凍結することにより、トレーニング可能なパラメータの数を大幅に削減し、トレーニング効率を向上させると同時に、エキスパートモデルからの効果的な知識伝達を可能にする。
我々は、性能と効率のトレードオフを評価し、MoFEを他のPEFT手法と比較し、構成モデルにおけるドメインの専門知識の影響を評価し、最適なトレーニング戦略を決定する実験を行う。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:24:36 GMT)
E-Gen: Leveraging E-Graphs to Improve Continuous Representations of Symbolic Expressions [0.3] 大規模かつ多様な数学的表現データセットを合成する新しい電子グラフベースのデータセット生成スキームであるE-Genを紹介する。
数学的に等価な表現を生成するための2つの戦略と、等価な表現を明示的にグループ化するための対照的な学習を用いて埋め込みモデルを訓練する。
組込み型アプローチは、いくつかのタスクにおいて最先端の大規模言語モデルよりも優れていることを実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:31:19 GMT)
Accodemy: AI Powered Code Learning Platform to Assist Novice Programmers in Overcoming the Fear of Coding [0.3] このプロジェクトは、初心者プログラマの進捗を体系的に監視し、コーディングの恐怖を和らげ、自信を高めるために、個人化された、改訂されたカリキュラムによるコーディングの知識を強化することを目的としている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:28:06 GMT)
Small Vision-Language Models: A Survey on Compact Architectures and Techniques [0.3] 小型視覚言語モデル(sVLM)の出現は、マルチモーダルAIにおける重要な進歩である。
この調査は、コンパクトデザインと計算効率の革新を強調するアーキテクチャの分類を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:14:46 GMT)
Efficient Feature Extraction and Classification Architecture for MRI-Based Brain Tumor Detection and Localization [0.2] 脳内の無制御細胞分裂は脳腫瘍を引き起こす。
CNNは、脳のMRIスキャンを用いて腫瘍の存在を特定するために訓練された。
医師の診断の重要性は、腫瘍の存在を同定し、患者を治療する上で、CNNモデルのアシストの精度を高めた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:00:46 GMT)
Prestige bias drives the viral spread of content reposted by influencers in online communities [0.2] われわれは5500万件以上の投稿と5億2000万件のTwitter投稿(現在はX)を分析した。
その結果、インフルエンサーが共有する投稿は、非インフルエンサーが共有する投稿よりも、より多く共有される可能性が示唆された。
非常に影響力のあるユーザの小さなグループは、カスケードを再投稿する際の情報フローの約半分を占めていた。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 23:18:13 GMT)
Sub-shot-noise sensitivity via superpositions of two deformed kitten states [0.2] 本研究では,光子付加および減算操作によって誘導される2つの重畳子猫状態の相空間における非古典的効果について検討した。
状態に多重光子演算を適用すると、ほぼ等方的な準プランク構造が顕著になることを示す。
我々の状態におけるサブプランク構造の存在は、標準量子限界を超え、変位に対する感度を向上させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:41:24 GMT)
Faster and Space Efficient Indexing for Locality Sensitive Hashing [0.1] この研究はユークリッド距離(textita.k.a.ELSH)とコサイン類似性(textita.k.a.SRP)の高速かつ空間効率の指標構築アルゴリズムを提案する。
これらのLSHのインデックス構築ステップは、データポイントをハッシュコードに基づいてハッシュテーブルの複数のビンにまとめることに依存している。
$d$次元のデータポイントの$m$次元ハッシュコードを生成するために、これらのLSHはまずデータポイントを$d$次元ランダムガウスベクトルに投影し、それから得られた内部積を離散化する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:33:01 GMT)
Hardware-Accelerated Event-Graph Neural Networks for Low-Latency Time-Series Classification on SoC FPGA [0.0] 時系列分類のためのイベントグラフニューラルネットワークのハードウェア実装を提案する。
入力された時系列信号をスパースイベントデータ形式に変換するために,人工的コチェリーモデルを利用する。
提案手法は, ベースモデルのSHDデータセット上で92.7%の浮動小数点精度を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:08:46 GMT)
A Systematic Review of Machine Learning Approaches for Detecting Deceptive Activities on Social Media: Methods, Challenges, and Biases [0.0] 本稿では、機械学習(ML)モデルとディープラーニング(DL)モデルを用いて、ソーシャルメディア上の偽ニュース、スパム、偽アカウントを検出する研究を体系的に評価する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:42:04 GMT)
ReynoldsFlow: Exquisite Flow Estimation via Reynolds Transport Theorem [0.0] レイノルズフロー(英: Reynolds flow)は、レイノルズ輸送定理にインスパイアされた訓練のないフロー推定である。
ニューラルネットワークの可視化と機能拡張を改善するために,ReynoldsフローのRGB符号化表現を導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:47:41 GMT)
Violation of Diagonal Non-Invasiveness: A Hallmark of Non-Classical Memory Effects [0.0] オープン量子システムにおける侵襲性と非古典的メモリ効果の存在を接続する操作的(測定に基づく)スキームを定義する。
その基礎となる理論的基礎は、(メモリレス)量子マルコフ力学の非侵襲的可測性に依存する。
量子メモリ効果によるLeggett-Garg不等式違反の関連条件がこの観点から出現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:25:11 GMT)
Unique Rashomon Sets for Robust Active Learning [0.0] Unique Rashomon Ensembled Active Learning (UNREAL)を紹介する。
UNREALは、ほぼ最適なモデルの集合である羅生門集合からモデルを選択的にアンサンブルする。
我々はUNREALが従来のアクティブラーニング手法よりも高速な理論収束率を実現することを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:50:34 GMT)
Training Sparse Mixture Of Experts Text Embedding Models [0.0] トランスフォーマーベースのテキスト埋め込みモデルは、パラメータ数を増やすことで、MIRACLやBEIRのようなベンチマークのパフォーマンスを改善した。
このスケーリングアプローチでは、推論レイテンシやメモリ使用量の増加など、デプロイメント上の大きな課題が導入されている。
最初の汎用MoEテキスト埋め込みモデルであるNomic Embed v2を紹介する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:39:00 GMT)
Topology of Syntax Networks across Languages [0.0] 本論文は,構文ネットワークの構造と特性について考察する。
同様のネットワーク機能を共有する言語のクラスタや系統を見つけようとしている。
異なる言語にわたる結果は、普遍的に保存された構造パターンを発見するために比較される。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 18:47:17 GMT)
The $S=\frac{1}{2}$ XY and XYZ models on the two or higher dimensional hypercubic lattice do not possess nontrivial local conserved quantities [0.0] 我々は、モデルがハミルトニアンのような自明なものを除いて局所保存量を持たないことを証明した。
この結果は、モデルが非可積分であることを強く示唆している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:17:20 GMT)
Superscopes: Amplifying Internal Feature Representations for Language Model Interpretation [0.0] モデルの特徴を新しいコンテキストに増幅する手法であるSuperscopesを紹介する。
スーパースコープは、事前の手法が追加の訓練を必要とせずに全てを説明することができなかった内部表現の解釈を可能にする。
このアプローチは、LLMがコンテキストを構築し、複雑な概念を表現する方法に関する新たな洞察を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:27:43 GMT)
Superclassical non-Markovian open quantum dynamics [0.0] 超古典的非マルコフ的開量子系力学は、その測定侵襲性の欠如によって定義される。
この対角非侵襲性は、測定結果のジョイント確率が古典的なコルモゴロフ整合条件を満たすことを保証している。
時間的に可逆な)単位系-環境結合に基づく非偏極力学のサブクラスが要求される性質を満たすことが示されている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:27:32 GMT)
Statistical Study of Sensor Data and Investigation of ML-based Calibration Algorithms for Inexpensive Sensor Modules: Experiments from Cape Point [0.0] 本稿では,安価なセンサからのデータの統計的解析について述べる。
また,センサの自動校正における機械学習アルゴリズムの性能について述べる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:38:46 GMT)
Star exponentials and Wigner functions for time-dependent harmonic oscillators [0.0] 我々は、恒星指数と経路積分形式を通して構築されたプロパゲータとの間の関係を探求する。
偏微分時間変数を導入することにより、標準シュリンガー図形のルイス=リースフェルト構成に付随する時間依存位相関数を復元する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 01:43:07 GMT)
Squintability and Other Metrics for Assessing Projection Pursuit Indexes, and Guiding Optimization Choices [0.0] PP指数の滑らかさと特異性を計算するための尺度を定義した。
PPインデックスの最適化のために,Swarm-based algorithm, Jellyfish Search (JSO) について検討した。
我々は, PP指数最適化の成功率が向上する一方で, 滑らかさが有意な影響を示さないことを観察した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:07:38 GMT)
Solving the encoding bottleneck: of the HHL algorithm, by the HHL algorithm [0.0] HHL(Harrow-Hassidim-Lloyd)アルゴリズムは、量子線形系問題を解くために指数的スピードアップを提供する。
ここでは,HHLアルゴリズム自体をわずかに修正したバージョンを用いることで,約$O(log N)$のランタイムで状態が作成可能であることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:29:36 GMT)
Sensing Spin Systems with a Transmission Electron Microscope [0.0] 本稿では、スピン共鳴分光法と透過電子顕微鏡(TEM)を組み合わせた新しい方法を提案する。
提案手法は, マイクロ波帯における連続波MW励起を利用して, 信号受信機として自由空間電子ビームを用いてスピン沈降を検知する。
スピン状態偏極はTEMの磁極の磁場を介して達成され、TEMサンプルホルダーに統合されたカスタム設計のマイクロ共振器はスピン遷移を駆動し電子ビームを変調する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:32:54 GMT)
Semantic Wave Functions: Exploring Meaning in Large Language Models Through Quantum Formalism [0.0] 大規模言語モデル(LLM)は、高次元ベクトル埋め込みにおける意味関係を符号化する。
本稿では,LLM埋め込み空間と量子力学の類似性について検討する。
この量子派生表現を形式化する「意味的波動関数」を導入する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:23:31 GMT)
SKG-LLM: Developing a Mathematical Model for Stroke Knowledge Graph Construction Using Large Language Models [0.0] 数学的および大規模言語モデル(LLM)を用いた脳卒中関連記事から知識グラフ(KG)を構築する
SKG-LLMは、脳卒中研究におけるKGの精度と深さを高めるために、生体医学文献から複雑な関係を抽出し、整理する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:25:37 GMT)
Robust Clustering on High-Dimensional Data with Stochastic Quantization [0.0] 本稿では,従来のベクトル量子化アルゴリズムの限界に対処する。
量子化(SQ)を高次元計算の代替として検討する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:53:00 GMT)
Quantum proper time: A Finsler space from entropy and purity [0.0] 量子時計は、非ゼロ位置変動状態にある場合、単一の測地線に沿って移動する点質量としてモデル化することはできない。
量子力学の幾何学的定式化は、異なる方向間の相関を表す追加の量子的性質が非リーマン幾何学的構造を意味することを示すために用いられる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:38:59 GMT)
Quantum metrology of low frequency electromagnetic modes with frequency upconverters [0.0] RQUは、超伝導ループとジョセフソン接合からなるジョセフソン干渉計を用いて、低周波電磁モードとマイクロ波Cバンドのモードの間のパラメトリック相互作用を実装している。
我々は量子増幅器理論を用いてRQUの性能を解析し、RQUがこの周波数範囲で量子制限オプアンプとして動作可能であることを示す。
RQUを用いて低周波からマイクロ波Cバンドへの信号アップコンバージョンを示し、完全なBAEの実現に向けた必要なステップである46.9$;dBの位相感度利得(指数比)を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:11:47 GMT)
Quantum Speedup in Dissecting Roots and Solving Nonlinear Algebraic Equations [0.0] 量子コンピュータは、古典的関数よりも指数関数の根の存在をほぼ効率的に検出できることが示されている。
密度線形系を解くための量子アルゴリズムなど、様々な応用と含意について論じる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 13:27:11 GMT)
Quantum Chernoff divergence in advantage distillation for quantum key distribution and device-independent quantum key distribution [0.0] デバイス非依存型量子鍵分布(DIQKD)は、量子デバイスにおける不完全性の敵対的利用を軽減することを目的としている。
量子チャーノフの発散を忠実さに置き換える別の証明構造を提案する。
本結果は、DIQKDが可能である状況に関する量子情報理論の基本的な問題に関する知見を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:24:27 GMT)
Quantum Algorithms for Representation-Theoretic Multiplicities [0.0] 我々は、Kostka、Littlewood-Richardson、Plethysm、Kronecker係数を計算するための量子アルゴリズムを提供する。
この制限の下では、Kostka数に対して効率的な古典的アルゴリズムがあることを示し、Littlewood-Richardson係数に対する類似アルゴリズムの存在を予想する。
このような古典的アルゴリズムがPlethysm と Kronecker の係数に対して直接作用しない理由を論じ、量子アルゴリズムがこれらの問題に対してスーパーポリノミカルなスピードアップをもたらすと推測する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:30:42 GMT)
PythonPal: Enhancing Online Programming Education through Chatbot-Driven Personalized Feedback [0.0] PythonPalの設計は、会話、チュートリアル、エクササイズのためのモジュールを特徴とするもので、学生のインタラクションとフィードバックを通じて評価された。
鍵となる発見は、PythonPalの構文エラー認識とユーザクエリ理解の習熟度を示している。
学生のフィードバックは、クエリの理解とフィードバックの精度が良好であることを示し、応答の高速化と対話品質の向上も指摘した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:28:42 GMT)
Probing the Design Space of InSb Topological Superconductor Nanowires for the Realization of Majorana Zero Modes [0.0] InSbトポロジカル超伝導ナノワイヤ(TSNW)を理論的・数値的に研究し、マヨラナゼロモード(MZM)のホスト性を評価する。
1.6m長および2.2m長のInSb TSNWに対して、印加磁場と電気化学的ポテンシャルによって定義される最適設計空間の存在を実証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:25:33 GMT)
Primal-Dual Sample Complexity Bounds for Constrained Markov Decision Processes with Multiple Constraints [0.0] 本稿では,遷移力学が不明な場合,CMDP(Constrained Markov Decision Processs)を$d > 1$制約で解くという課題に対処する。
複数の制約を持つ無限水平CMDPのモデルベースアルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:10:35 GMT)
Precise Insulin Delivery for Artificial Pancreas: A Reinforcement Learning Optimized Adaptive Fuzzy Control Approach [0.0] 本稿では,1型高木-菅野ファジィ制御器のパラメータを最適化するための強化学習の適用について検討する。
本研究は, 食事サイズやタイミングの変動に対して, 制御器の頑健性を大幅に向上させることを実証した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:34:09 GMT)
Polygonal network disorder and the turning distance [0.0] 回転距離は、2つのポリゴン間の類似度を測定するための効率的な計量である。
ネットワーク面と「順序付き」形状の間の旋回距離を平均化することによって定義される多角形平面ネットワークの旋回障害を導入する。
正規多角形の特殊類に対する回転距離の閉形式表現は、$m$と$n$の可除性、また正規多角形と円の間でも導かれる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:17:28 GMT)
Path To Gain Functional Transparency In Artificial Intelligence With Meaningful Explainability [0.0] AIシステムがますます高度化するにつれて、透明性と説明可能性の確保が重要になる。
透明なシステムにおけるユーザ中心のコンプライアンス・バイ・デザイン透過性の設計を提案する。
AIシステムにおける透明性に関連する課題を包括的に理解することで、説明責任、信頼性、社会的価値に整合したAIシステムの開発を促進することを目指している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:34:16 GMT)
Optimizing two-qubit gates for ultracold atoms using Fermi-Hubbard models [0.0] 我々は、Fermi-Hubbard記述に基づく超格子内における高速で衝突に基づく2量子ゲートの設計に量子最適制御を用いる。
その結果、最適化においてより高いエネルギーバンドを許すことで、ゲート長を5倍に短縮する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:45:55 GMT)
On computing quantum waves exactly from classical action [0.0] 量子力学におけるシュル・オーディンガー方程式は古典的な最小作用と古典的な密度に基づいて正確に解けることを示す。
元の量子問題の正確なSchr"odinger波動関数 $Psi$ は、この古典的多値作用 $Phi$ と古典的位置力学の密度 $rho$ を組み合わせることで構築可能であることを示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:02:06 GMT)
Non-hermitian Green's function theory with $N$-body interactions: the coupled-cluster similarity transformation [0.0] 既約自己エネルギーとBethe-Salpeter核の図式理論を示す。
電子構造ハミルトニアンの類似性変換によって生じる結合クラスター自己エネルギーに着目する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 12:36:06 GMT)
Noise-Robust Estimation of Quantum Observables in Noisy Hardware [0.0] ノイズ・ロバスト推定(Noss-Robust Estimation)は、推定バイアスを体系的に低減するノイズ非依存のフレームワークである。
NREは、この研究で発見されたバイアス分散相関を利用する。
IQM超伝導量子プロセッサ上でNREを実験的に検証する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:18:16 GMT)
Multimodal Programming in Computer Science with Interactive Assistance Powered by Large Language Model [0.0] DeepSeek R1をベースとした対話型宿題支援システムを開発した。
生徒の仕事はパーソナライズされたプロンプトで包み、すぐに答えを出すことなく教育目的を前進させる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:48:47 GMT)
Metrological usefulness of entanglement and nonlinear Hamiltonians [0.0] 量子フィッシャー情報(QFI)が与えられたパラメータエンコーディングハミルトニアンに対して有界な分離性を超えたときに、メトロロジカルに有用な絡み合いが特定される。
ここでは、非線形ハミルトニアンに対するメロジカルに有用な絡み合いを特徴付け、集合角モータに対する分離性バウンダリを提示する。
また、GHZ型状態と一重項状態の間の重ね合わせとして記述できるQFIを最大化する絡み合った状態に対する一般表現を提供する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 17:28:33 GMT)
Improving Access to Trade and Investment Information in Thailand through Intelligent Document Retrieval [0.0] 本稿では,自然言語処理と情報検索技術を統合するシステムを提案する。
提案システムは,最も関連性の高いコンテンツを特定し,より効率的に海外貿易や投資の複雑な景観をナビゲートすることができる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:21:57 GMT)
IMVB7t: A Multi-Modal Model for Food Preferences based on Artificially Produced Traits [0.0] 環境画像から属性を抽出するために様々なモデルを用いる。
視覚刺激に反応して食品嗜好のパターンを識別する調査を行った。
特定属性のアマルガメーションに基づいて,料理に対する決定木を用いたレコメンデーションを定式化する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:07:58 GMT)
Genuine Quantum effects in Dicke-type Models at large atom numbers [0.0] 我々は、バランスのとれた非バランスなDickeモデルにおいて、真の量子効果の発生と平均場物理学を超えて検討する。
我々は、新しい開系力学法を用いて、大きいが有限の$N$で生き残る量子効果を示す。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:26:04 GMT)
Generative modelling with jump-diffusions [0.0] 非ガウス的雑音過程の幅広いクラスに対する生成拡散過程の一般化を提案する。
重み付きターゲット分布を捕捉する問題に対して、ジャンプ拡散ラプラスモデルは、アルファ安定雑音によって駆動されるモデルより優れる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 11:08:03 GMT)
Generative AI as Digital Media [0.0] 生成AIは、しばしば革命的または黙示録として描かれる。
このエッセイはそのような見解は誤解されていると論じている。
むしろ、生成AIは、より広範なアルゴリズムメディアの展望における進化的なステップとして理解されるべきである。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 08:58:17 GMT)
Frequency estimation by frequency jumps [0.0] 本稿では、既知のデチューニングが発振器の周波数を突然シフトさせるプロトコルにおいて達成可能な精度について検討する。
その結果、この周波数ジャンプによって引き起こされるスクイーズは、周波数情報のエンコーディングを効果的に強化できることが示された。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:34:58 GMT)
ExKG-LLM: Leveraging Large Language Models for Automated Expansion of Cognitive Neuroscience Knowledge Graphs [0.0] 本稿では,認知神経科学知識グラフの拡張を自動化するためのフレームワークであるExKG-LLMを紹介する。
CNKGの精度、完全性、有用性を向上させることで、既存のツールの制限に対処する。
評価指標には精度、リコール、グラフ密度が含まれる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:32:56 GMT)
Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training [0.0] モデルロバスト性を評価し改善するために、3,000サンプルのコントラストセットを作成します。
これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 14:52:53 GMT)
Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals [0.0] 隣接層間のKL(Kulback-Leibler)のばらつきを利用して冗長性を定量化する手法を提案する。
また、冗長層を正確に識別し、スキップする拡張ベータ量子マッピング(EBQM)手法も導入する。
提案したELAアーキテクチャは,トレーニング効率と全体的なパフォーマンスを両立させ,トレーニング時間の30%削減を実現している。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 06:20:11 GMT)
Enhancing LLMs for Governance with Human Oversight: Evaluating and Aligning LLMs on Expert Classification of Climate Misinformation for Detecting False or Misleading Claims about Climate Change [0.0] 気候の誤報は、大規模言語モデル(LLM)の開発によって著しく悪化する可能性がある問題である。
本研究では, LLMが問題ではなく, オンラインの偽情報の緩和に有効である可能性を評価する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 16:39:06 GMT)
Effectiveness of Zero-shot-CoT in Japanese Prompts [0.0] また,ChatGPT-3.5 と 4o-mini を用いて,日本語と英語におけるゼロショット・チェーン・オブ・ソート(CoT)の有効性を比較した。
CoTは、"Let's Think by Step"のようなフレーズを、答える前に推論を促進するプロンプトに付加する。
日本語マルチタスク言語理解ベンチマークを用いて,これらの効果を日本語に伝達する方法を検討する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 20:42:38 GMT)
Dynamics of Matrix Product States in the Heisenberg Picture: Projectivity, Ergodicity, and Mixing [0.0] マトリックス生成状態(MPS)は、量子多体系の基底状態を効率的に表現する。
我々はMPSを射影型と非射影型に分類し、有限相関構造を持つものとエルゴード量子チャネルを必要とするものとを区別し、有意な極限を定義する。
アプリケーションとして,非分極MPSを解析し,有限相関の欠如と代替エルゴディック記述の必要性を強調した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:36:04 GMT)
Dubito Ergo Sum: Exploring AI Ethics [0.0] デカルトのAI倫理分野における有名な規定は、「私は疑っているので、私はそうである」が道徳の必要な側面として提案されていることである。
AIとは大きく異なる人間の心の様々な側面を探求する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:59:43 GMT)
Decoding the Black Box: Integrating Moral Imagination with Technical AI Governance [0.0] 我々は、防衛、金融、医療、教育といった高度な領域に展開するAI技術を規制するために設計された包括的なフレームワークを開発する。
本手法では,厳密な技術的分析,定量的リスク評価,規範的評価を併用して,システム的脆弱性を暴露する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:11:32 GMT)
Data Efficient Subset Training with Differential Privacy [0.0] 我々は、GLISTERをプライベートな設定に適応させ、その性能を広範囲に評価する。
プライバシー予算の実践的な選択は、プライベート環境でのデータ効率のよいトレーニングには制限的すぎることを実証的に見出した。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 19:05:10 GMT)
Conserved Quantities in Linear and Nonlinear Quantum Search [0.0] 3つのアルゴリズムを調べることで、量子コンピューティングアルゴリズム、保存法則、および多体量子システムの分野を橋渡しする。
第1のアルゴリズムは線形量子ウォークを用い, 基本計算を適用し, アルゴリズムの成功確率が1。
第二のアルゴリズムは、実効的なハミルトニアン$H(t) = lambda|psi|2$を持つ非線形量子ウォークを用いており、これはボース=アインシュタイン凝縮を記述するグロス=ピタエフスキー方程式に現れる。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:38:11 GMT)
Classical Mechanics as an Emergent Compression of Quantum Information [0.0] 対応原理は、古典力学が適切な極限で量子力学から現れることを述べる。
量子力学は重ね合わせ、絡み合い、位相コヒーレンスを通じて、はるかに多くの情報を符号化する。
古典力学は、量子物理学の体系的な損失から生じる、損失が多く、計算的に減少するエンコーディングであると主張する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 00:51:55 GMT)
ChatGPT-4 in the Turing Test: A Critical Analysis [0.0] 本稿では,Restrepo Echavarr'ia(2025年)の最近の論文ChatGPT-4 in the Turing Testを批判的に考察する。
この分析は、厳格な基準と限られた実験データに基づく批判が完全には正当化されていないことを明らかにしている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:43:17 GMT)
Characterizing Learning in Spiking Neural Networks with Astrocyte-Like Units [0.0] ニューラルネットワークにアストロサイト様ユニットを加えたスパイクニューラルネットワークモデルを導入する。
神経細胞とアストロサイトの組み合わせは、神経とアストロサイトのみのネットワークとは対照的に、学習を促進する上で重要である。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 22:36:58 GMT)
Black Hole Waterfall: a unitary phenomenological model for black hole evaporation with Page curve [0.0] 自発ダウンコンバージョン(SPDC)実験プロセスの類似性に基づくブラックホール蒸発の一元モデルを提案する。
このモデルには、地平線の背後にあるホーキングのパートナー粒子(イドラー)が新たな低エネルギーのホーキング粒子対を生成できる追加の新機能が組み込まれている。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 02:27:47 GMT)
Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On [0.0] PixelSHAPは、Shapleyベースの分析を構造化ビジュアルエンティティに拡張するフレームワークである。
画像オブジェクトを体系的に摂動させ、VLMの応答に対するその影響を定量化することにより、視覚に基づく推論に適用する。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 15:43:55 GMT)
An Efficient Intelligent Semi-Automated Warehouse Inventory Stocktaking System [0.0] 本研究では、不正確なデータ、遅延モニタリング、予測における主観的経験への過度な信頼に関連する課題に対処するインテリジェントな在庫管理システムを導入する。
提案システムは,知的知覚のためのバーコードと分散フラッターアプリケーション技術を,包括的ビッグデータ分析と統合して,データ駆動型意思決定を実現する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:53:29 GMT)
Agile Climate-Sensor Design and Calibration Algorithms Using Machine Learning: Experiments From Cape Point [0.0] 各種汚染物質を簡易に測定できる,安価でアジャイルな気候センサシステムの設計について述べる。
本稿では,このコスト効率の高いセンシングプラットフォームから,南アフリカ気象庁のケープポイント計測施設における基準センサへのCO2データを校正するための機械学習回帰手法を提案する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 21:13:20 GMT)
Advancing AI Negotiations: New Theory and Evidence from a Large-Scale Autonomous Negotiations Competition [0.0] 我々は国際AIネゴシエーションコンペティションを行い、参加者は大規模言語モデル(LLM)交渉エージェントのために反復的に設計・洗練されたプロンプトを作成した。
その結果,AIとAIの交渉において,確立された人間と人間の交渉理論の基本原則が依然として不可欠であることが判明した。
また,AIとAIの交渉において,交渉理論によって完全に説明されていない特異なダイナミクスを明らかにした。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 03:25:48 GMT)
AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection [0.0] AIGCodeSetは2.828のAI生成コードと4.755の人手によるPythonコードで構成される。
ベイズ分類器が他のモデルより優れていることを示す実験を行った。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 10:31:29 GMT)
A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection in 2025 [0.0] Brand Domain Identificationは多くのフィッシング検出アプローチにおいて重要なステップとなる。
本研究は,過去10年間のBDIにおける特徴の有効性を体系的に評価する。
論文参考訳(メタデータ) (Sun, 09 Mar 2025 07:14:04 GMT)