YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.5] YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。
歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:26:50 GMT)
Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation [123.5] LVLM(Large Vision-Language Models)は幻覚に弱い。
AID(Attention HIjackers Detection and Disentanglement)と呼ばれる新しい非トレーニング型戦略を提案する。
AIDは、命令駆動の視覚的サリエンスを計算することによって、意図的ヒジャッカーを特定する。
次に、これらの特定されたヒジャッカーの視覚的注意を隠蔽するために注意散らし機構を提案する。
Re-Disentanglementは、過剰なマスキング効果を避けるために、命令駆動と画像駆動の視覚的サリエンスの間のバランスを再計算する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:35:55 GMT)
Image Super-Resolution with Text Prompt Diffusion [118.0] 画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:20:58 GMT)
Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.1] テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、9つのベンチマークにおける最先端の微調整アプローチと比較される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:44:48 GMT)
Generalized Kullback-Leibler Divergence Loss [105.7] 我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:43:33 GMT)
Measuring the Discrepancy between 3D Geometric Models using Directional Distance Fields [98.2] 本稿では,DirDistを提案する。DirDistは3次元幾何データに対して,効率的で効果的で,頑健で,微分可能な距離測定法である。
一般的な距離計量として、DirDistは3次元幾何学モデリングの分野を前進させる可能性がある。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:19:59 GMT)
MambaIRv2: Attentive State Space Restoration [96.4] マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:41:09 GMT)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6] Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:17:25 GMT)
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.8] 本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。
このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。
様々なプルーニングや概念未学習の手法と互換性がある。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:52:10 GMT)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.6] 本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:50:22 GMT)
Analyzing the Usage of Donation Platforms for PyPI Libraries [92.0] 本研究では,PyPIエコシステムにおける寄付プラットフォームの導入状況について分析した。
GitHub Sponsorsが支配的なプラットフォームであるが、多くのPyPIリストのリンクは時代遅れである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:27:31 GMT)
Scale-Aware Pre-Training for Human-Centric Visual Perception: Enabling Lightweight and Generalizable Models [88.3] 我々は、軽量視覚モデルが人中心視覚知覚(HVP)の一般的なパターンを取得できるようにするために、SAIP(Scale-Aware Image Pretraining)を導入した。
SAIPは、クロススケール一貫性の原理に基づく3つの学習目標を取り入れている。
12のHVPデータセットで実施された実験により、SAIPは9つの人間中心の視覚タスクにまたがる顕著な一般化能力を示すことが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:12:51 GMT)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.5] writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:11:00 GMT)
Domain Adaptation and Entanglement: an Optimal Transport Perspective [86.2] 現在の機械学習システムは分散シフト(DS)に直面して脆弱であり、そこでは、システムがテストされる対象の分布は、システムのトレーニングに使用されるソースの分布とは異なる。
ディープニューラルネットワークでは、教師なしドメイン適応(UDA)のための一般的なフレームワークがドメインマッチングである。
本稿では,UDA問題を解析する最適な輸送量に基づく新しい境界を導出する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:10:03 GMT)
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters [86.1] 我々は3次元ヒューマノイドモデルを1秒未満でキャラクターアニメーションに対応させる新しいデータ駆動方式であるMake-It-Animatableを提案する。
我々のフレームワークは、高品質なブレンドウェイト、骨、ポーズトランスフォーメーションを生成します。
既存の手法と比較して,本手法は品質と速度の両方において著しく改善されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:08:42 GMT)
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.1] 既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:59:57 GMT)
CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.7] 大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:44:01 GMT)
GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing [85.7] GarmentCrafterは、プロでないユーザが、単一のビューイメージから3Dの衣服を作成、修正できる新しいアプローチである。
本手法は,最先端のワンビュー3D衣料復元法と比較して,視覚的忠実度と視間コヒーレンスに優れる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:56:03 GMT)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.5] 本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:58:17 GMT)
MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.6] 1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。
このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。
この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:50:59 GMT)
HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4] HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。
データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。
その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:14:25 GMT)
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.4] ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:43:45 GMT)
Enhancing Prohibited Item Detection through X-ray-Specific Augmentation and Contextual Feature Integration [81.1] X線は、長い尾の分布とX線イメージングの特徴のために、アイテム検出が禁止されている。
コピーペーストやミックスアップのような従来のデータ拡張戦略は、まれなアイテムの検出を改善するのに効果がない。
これらの課題に対処するために,X-ray Imaging-driven Detection Network (XIDNet)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:10:48 GMT)
Inductive Moment Matching [81.0] Inductive Moment Matching (IMM) は1段階または数段階のサンプリングのための新しい生成モデルである。
IMMはImageNet-256x256上の拡散モデルを8ステップのみを用いて1.99 FIDで上回り、CIFAR-10上で1.98の最先端の2ステップFIDをスクラッチから訓練したモデルで達成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:29:42 GMT)
"Principal Components" Enable A New Language of Images [79.5] 証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:59:41 GMT)
TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On [78.3] TED-VITONはGarment Semantic (GS) Adapterを統合した新しいフレームワークである。
これらのイノベーションは、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:42:55 GMT)
Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.3] クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:27:37 GMT)
MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.3] MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:00:20 GMT)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.1] シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:40:43 GMT)
ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.8] 本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:07:31 GMT)
Benign Overfitting and the Geometry of the Ridge Regression Solution in Binary Classification [75.0] リッジ回帰はクラスタ平均ベクトルのスケールによって定性的に異なる挙動を示す。
スケールが非常に大きいレジームでは、良心過剰を許容する条件は回帰タスクと同一であることが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:45:42 GMT)
TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.0] 視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:42:27 GMT)
UniScene: Unified Occupancy-centric Driving Scene Generation [73.2] UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:38:27 GMT)
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.2] コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。
インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。
個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:10:36 GMT)
Validating LLM-as-a-Judge Systems in the Absence of Gold Labels [70.7] 本稿では,評価の異なる評価手法とアグリゲーション方式で,判定システム性能の異なる尺度間の接続を描画する理論的解析を行う。
既存の検証手法では,選択したシステムよりも最大34%の精度で,最適に判断可能なシステムを選択することが可能であることを実証的に実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:21:35 GMT)
Structural and Statistical Texture Knowledge Distillation and Learning for Segmentation [70.2] セマンティックセグメンテーションと関連する知識蒸留タスクのためのディープネットワークにおける低レベルのテクスチャ情報を再強調する。
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
特に、低レベルの特徴を分解するためにContourlet Decomposition Module (CDM)が導入されている。
テクスチャ強度等化モジュール(TIEM)は、統計テクスチャ知識を抽出し、強化するために設計されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:49:25 GMT)
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.1] 大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:15:52 GMT)
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees [70.0] 異なる弱みのプロファイリング法を比較するための定量的評価スイートを紹介する。
EvalTreeはベースラインの弱点プロファイリング法より優れていることを示す。
コードと、EvalTreeによって構築された機能ツリーをインタラクティブに探索できるインターフェースをリリースしています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:12:48 GMT)
ObjectMover: Generative Object Movement with Video Prior [69.8] 本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:42:59 GMT)
EgoBlind: Towards Egocentric Visual Assistance for the Blind People [69.6] EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。
実際の盲目のユーザーの日常生活を1対1の視点で記録する1,210の動画で構成されている。
視覚支援の必要性を反映するために、視覚障害者が直接提示または生成した4,927の質問も入っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:40:31 GMT)
MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input [69.3] 本研究では,一人のイメージとターゲット衣服のみを用いて,現実的なVITONを実現するMask-Free VITONフレームワークを提案する。
既存のMaskベースのVITONモデルを利用して高品質なデータセットを合成する。
このデータセットには、多様で現実的な人物画像とそれに対応する衣服が含まれており、背景も様々で、現実世界のシナリオを模倣している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:40:59 GMT)
Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.1] 我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:18:29 GMT)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3] 我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:41:44 GMT)
OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3] 我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:50:14 GMT)
Multimodal Generation of Animatable 3D Human Models with AvatarForge [67.3] AvatarForgeはAI駆動の手続き生成を使用してテキストや画像入力からアニマタブルな3Dアバターを生成するフレームワークである。
評価の結果、AvatarForgeはテキストと画像とアバターの生成において最先端の手法よりも優れていることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:29:18 GMT)
Taylor Unswift: Secured Weight Release for Large Language Models via Taylor Expansion [67.1] TaylorMLPを導入して、リリース済みの大規模言語モデル(LLM)のオーナシップを保護する。
オリジナルのウェイトをリリースするのではなく、開発者はTaylor-Seriesパラメータをユーザにリリースすることができる。
テイラー系列の項を増やすことにより、保護されたLLMに対して低速トークン生成を誘導することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:16:12 GMT)
GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.1] GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:44:10 GMT)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.1] 大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:21:46 GMT)
Stick to Facts: Towards Fidelity-oriented Product Description Generation [65.8] 我々はFPDG(Fidelity-oriented Product Description Generator)というモデルを提案する。
FPDGは、製品属性情報が常にエンティティワードによって伝達されるため、各単語のエンティティラベルを考慮に入れている。
大規模実世界の製品記述データセットを用いて行った実験は、従来の生成指標と人的評価の両方の観点から、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:04:24 GMT)
Multi-P$^2$A: A Multi-perspective Benchmark on Privacy Assessment for Large Vision-Language Models [65.3] LVLM(Large Vision-Language Models)21個のオープンソースと2個のクローズドソースのプライバシ保護機能の評価を行った。
Multi-P$2$Aに基づいて、21のオープンソースと2つのクローズドソースLVLMのプライバシ保護機能を評価する。
以上の結果から,現在のLVLMは一般にプライバシー侵害のリスクが高いことが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:32:32 GMT)
Towards Zero-Shot Multimodal Machine Translation [64.9] 本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:07:09 GMT)
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.1] SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:04:36 GMT)
TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.9] グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
D-Mixerは、効率的なグローバルアテンションモジュールと入力依存の奥行きの畳み込みを均等に分割した特徴セグメントに別々に適用することで機能する。
ImageNet-1K分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:09:26 GMT)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.6] 本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:26:25 GMT)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.3] 大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:31:27 GMT)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9] 約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:52:37 GMT)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.5] 検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:17:02 GMT)
Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning [61.8] 低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。
本稿では,メタトランスファー学習において,対象タスクに対するタスクの寄与を動的に推定する手法を提案する。
実験の結果,Meta-RTLは,強いベースラインと以前のタスク選択戦略を大幅に上回ることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:31:15 GMT)
Breaking the Low-Rank Dilemma of Linear Attention [61.6] 線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:17:02 GMT)
GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.1] 高忠実度3Dモデルを構築するのが難しい課題です。
GeneMANは高品質な人間のデータを総合的に収集する。
GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:04:50 GMT)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.0] KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:02:04 GMT)
Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation [60.6] 入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:21:37 GMT)
3D Point Cloud Generation via Autoregressive Up-sampling [60.1] 我々は3Dポイントクラウド生成のための先駆的な自己回帰生成モデルを導入する。
視覚的自己回帰モデリングにインスパイアされた我々は、ポイントクラウド生成を自己回帰的アップサンプリングプロセスとして概念化する。
PointARUは、3Dポイントの雲を粗いものから細かいものへと徐々に洗練する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:30:45 GMT)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8] 投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:54:55 GMT)
Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.5] 教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:17:51 GMT)
Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.4] 偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:05:45 GMT)
Towards Open-Vocabulary Audio-Visual Event Localization [59.2] 本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:22:20 GMT)
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset [59.2] FaceID-6Mは、600万の高品質テキストイメージペアを含む、最初の大規模なオープンソースのFaceIDデータセットである。
FaceID-6Mデータセットの有効性を示す実験を行った。
FaceIDカスタマイズコミュニティにおける研究を支援し、前進させるために、コード、データセット、モデルを公開しています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:36:47 GMT)
S3R-GS: Streamlining the Pipeline for Large-Scale Street Scene Reconstruction [58.4] 3D Gaussian Splatting(3DGS)は、3D再構成の分野を変え、素晴らしいレンダリング品質とスピードを実現した。
既存の手法では、シーンサイズが大きくなるにつれて、ビューポイント当たりの再生コストが急速に増大する。
大規模なストリートシーン再構築のためのパイプラインをストリーム化する3DGSフレームワークであるS3R-GSを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:37:13 GMT)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.4] 本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:58:21 GMT)
FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates [58.2] フェデレートラーニング(FL)は、モデルを分散的にトレーニングするための広く使われているフレームワークである。
我々はFedRandフレームワークを提案し、クライアントパラメータの完全な集合を開示するのを避ける。
我々はFedRandがMIAに対するロバスト性を改善することを、関連するベースラインと比較して実証的に検証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:49:15 GMT)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.9] 空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:58:39 GMT)
DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.8] DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:44:34 GMT)
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.8] 本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:24:02 GMT)
Robust Latent Matters: Boosting Image Generation with Sampling Error [57.7] 最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:09:11 GMT)
MultiConIR: Towards multi-condition Information Retrieval [57.6] 我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:02:03 GMT)
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.7] 構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:58:57 GMT)
LightMotion: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation [56.6] LightMotionは、ビデオ生成におけるカメラモーションをシミュレートするための軽量かつチューニング不要な方法である。
潜在空間で操作すると、追加の微調整、塗装、深さ推定がなくなる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:28:14 GMT)
Regulatory DNA sequence Design with Reinforcement Learning [56.2] 本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:33:33 GMT)
Regularization by Texts for Latent Diffusion Inverse Solvers [56.0] 本稿では,人間の視覚的あいまいさを知覚バイアスによって解決する能力に触発されて,テキストによる正規化(TReg)と呼ばれる新しい潜伏拡散逆解法を導入する。
実験の結果,TRegは逆問題におけるあいまいさを効果的に軽減し,精度と効率を両立させることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:04:26 GMT)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.3] 長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:35:59 GMT)
Einstein's 1927 gedanken experiment: how to complete it and measure the collapse time of a spatially spread photon [55.2] アインシュタインは、開口部で回折された1つの光子がスクリーンに衝突するというゲダンケンの実験について議論した。
彼は、デ・ブログリのパイロット波の仮説と、量子力学によって提供される物理現実の記述の不完全性に関する自身の考えを支持するために、この例を考案した。
アインシュタインの例の部分的な実現は行われているが、完全な実験はまだ試みられていない(実際的な理由から)。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:10:12 GMT)
PCGS: Progressive Compression of 3D Gaussian Splatting [55.1] ガウスの量と品質を適応的に制御するPCGS(Progressive Compression of 3D Gaussian Splatting)を提案する。
全体として、PCGSは、SoTA非プログレッシブ手法に匹敵する圧縮性能を維持しながら、進行性を達成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:01:11 GMT)
HERO: Human Reaction Generation from Videos [54.6] HEROは、videOsからのHuman rEaction geneRationのフレームワークである。
HEROはビデオのグローバルレベルとフレームレベルの局所表現の両方を考慮し、インタラクションの意図を抽出する。
局所的な視覚表現は、ビデオに固有の動的特性を最大限に活用するために、モデルに連続的に注入される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:39:32 GMT)
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.5] 我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。
我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:55:27 GMT)
Agent-Oriented Planning in Multi-Agent Systems [54.4] マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:22:17 GMT)
AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.3] 本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。
本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。
以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:53:02 GMT)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.6] Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:06:17 GMT)
Training Plug-n-Play Knowledge Modules with Deep Context Distillation [52.9] 本稿では,文書レベルの知識モジュール(KM)をトレーニングすることで,知識をモジュール化する手法を提案する。
KMはパラメータ効率のよいLoRAモジュールとして実装された軽量コンポーネントである。
提案手法は,2つのデータセットにまたがって,標準的な次世代予測および事前指導訓練技術より優れる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:07:57 GMT)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.7] 生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:51:07 GMT)
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.6] MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:08:54 GMT)
Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.6] 本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:13:10 GMT)
AnomalyPainter: Vision-Language-Diffusion Synergy for Zero-Shot Realistic and Diverse Industrial Anomaly Synthesis [52.1] AnomalyPainterはVision Language Large Model、Latent Diffusion Model、テクスチャライブラリTex-9Kを相乗化するフレームワークである。
Tex-9Kは75のカテゴリと8,792のテクスチャを含むプロ向けテクスチャライブラリである。
大規模な実験により、AnomalyPainterは現実主義、多様性、一般化において既存の手法より優れていることが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:23:10 GMT)
MoE-Loco: Mixture of Experts for Multitask Locomotion [52.0] 脚付きロボットのマルチタスク移動のためのフレームワークであるMoE-Locoを提案する。
本手法は,四足歩行と二足歩行をサポートしながら,多様な地形を扱える1つの政策を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:53:54 GMT)
MFRS: A Multi-Frequency Reference Series Approach to Scalable and Accurate Time-Series Forecasting [51.9] 時系列予測は、周波数の異なる周期特性から導かれる。
マルチ周波数参照系列相関解析に基づく新しい時系列予測手法を提案する。
主要なオープンデータセットと合成データセットの実験は、最先端のパフォーマンスを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:40:14 GMT)
MT-NAM: An Efficient and Adaptive Model for Epileptic Seizure Detection [51.9] マイクロツリーベースNAM(MT-NAM)は,最近提案されたニューラル付加モデル(NAM)に基づく蒸留モデルである。
MT-NAMは、標準のNAMと比較して、精度を損なうことなく、100$Times$の推論速度の向上を実現している。
今回我々はCHB-MITの頭皮脳波データを用いて,セッション数や発作回数の異なる24例の脳波データについて検討した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:14:53 GMT)
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.6] 思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:46:19 GMT)
Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.1] KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:24:46 GMT)
Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.6] 本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:26:10 GMT)
(How) Do Language Models Track State? [50.5] トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:36:40 GMT)
Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy [50.1] Optimus-2はMultimodal Large Language Model (MLLM)を組み込んだ新しいMinecraftエージェントである。
我々は,8つのアトミックタスクにわたる25,000のビデオを含む,高品質なMinecraft Goal-Observation-Action(MGOA)データセットを紹介した。
Optimus-2は、アトミックタスク、ロングホライゾンタスク、マインクラフトのオープンエンド命令タスクにまたがる優れたパフォーマンスを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:51:05 GMT)
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.1] Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。
ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。
本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:06:04 GMT)
Exploring Bias in over 100 Text-to-Image Generative Models [49.6] 本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:40:44 GMT)
JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data [49.2] 本稿では,ジッタリング強化,ドメイン認識バックボーン,メモリに基づくセクタライズAlignMentのためのJiSAMというプラグイン・アンド・プレイ手法を提案する。
有名なADデータセットであるNuScenesで実施された広範な実験において、SOTA 3Dオブジェクト検出器を用いて、JiSAMはシミュレーションデータと2.5%の実データにラベルを付けるだけで、実データで訓練されたモデルに匹敵する性能が得られることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:35:39 GMT)
The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.2] ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。
JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。
本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:57:50 GMT)
Ledoit-Wolf linear shrinkage with unknown mean [49.2] 経験的共分散推定器は、次元とサンプルの数が比例的であり、コルモゴロフ (Kolmogorovs) として知られる無限大の傾向にあるときに失敗する。
Ledoit and Wolf (2004) は線形縮退推定器を提案し、それらの下に収束することを証明した。
平均が不明なときに公式な証明は提案されていない。
我々は、新しい推定器が他の標準推定器より優れていることを実証的に示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:51:06 GMT)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.1] 我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。
主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:41:19 GMT)
Behavior Importance-Aware Graph Neural Architecture Search for Cross-Domain Recommendation [49.0] クロスドメインレコメンデーション(CDR)は、レコメンデーションシステムにおけるデータの分散とコールドスタートの問題を軽減する。
グラフニューラルネットワーク(GNN)を用いた最近のCDRアプローチは、複雑なユーザとテムのインタラクションをキャプチャする。
BiGNASは、GNNアーキテクチャとCDRのデータ重要度を共同で最適化するフレームワークである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:30:18 GMT)
Twinner: Shining Light on Digital Twins in a Few Snaps [48.8] ツインナーは、シーンの照明とオブジェクトの幾何学と材料特性を、ほんの数枚の画像から取り戻すことができる。
本稿では,ボクセルグリッドのサイズに比例してメモリを2次スケールするメモリ効率の高いボクセルグリッド変換器を提案する。
実生活データセットのモデルを、物理的に異なるシェーディングモデルを用いて微調整する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:43:11 GMT)
Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents [48.5] ロールプレイング言語エージェント(RPLA)の内部思考プロセスは未解明のままである。
ROLETHINKは、文字の思考生成を評価するための文献から構築された新しいベンチマークである。
記憶を抽出し、文字反応を予測し、モチベーションを合成することで、文字思考を創り出す、チェーンオブ思考アプローチであるMIRRORを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:57:07 GMT)
Learning Pareto manifolds in high dimensions: How can regularization help? [48.2] 我々は,バニラ正規化手法の適用がいかに失敗するかを論じ,低次元構造をうまく活用できる2段階のMOLフレームワークを提案する。
マルチディストリビューション学習とフェアネスリスクトレードオフに対して,その効果を実験的に実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:38:06 GMT)
Privacy-Enhancing Paradigms within Federated Multi-Agent Systems [47.8] LLMベースのマルチエージェントシステム(MAS)は、複数のエージェントを統合することで複雑な問題を解決するのに非常に効果的であることが証明されている。
本稿では、フェデレーションMASの概念を紹介し、フェデレーションMASと従来のFLの根本的な違いを明らかにする。
1)エージェント間の異種プライバシープロトコル,2)多人数会話の構造的差異,3)動的会話ネットワーク構造などである。
これらの課題に対処するため、我々はEPEAgent(Embedded Privacy-Enhancing Agents)を提案し、これはRetrieval-Augmented GenerationフェーズとRetrieval-Augmented Generationフェーズにシームレスに統合する革新的なソリューションである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:38:45 GMT)
Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.7] 我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。
MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。
相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:53:00 GMT)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.6] ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。
本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:14:22 GMT)
NullFace: Training-Free Localized Face Anonymization [47.5] 重要な非同一性関連属性を保存した顔匿名化のためのトレーニング不要手法を提案する。
提案手法では,最適化や訓練を必要とせず,事前学習したテキスト・画像拡散モデルを用いる。
その柔軟性、堅牢性、実用性は、現実世界のアプリケーションに適しています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:29:37 GMT)
Towards Human-AI Deliberation: Design and Evaluation of LLM-Empowered Deliberative AI for AI-Assisted Decision-Making [47.3] AIによる意思決定において、人間はしばしばAIの提案を受動的にレビューし、それを受け入れるか拒否するかを決定する。
意思決定における人間-AIの意見の対立に関する議論と人間のリフレクションを促進する新しい枠組みであるHuman-AI Deliberationを提案する。
人間の熟考の理論に基づいて、この枠組みは人間とAIを次元レベルの意見の引用、熟考的議論、意思決定の更新に携わる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:23:23 GMT)
Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback [46.7] EGPO(Extragradient preference optimization)は、NLHFがKL正規化ゲームのNEへの最終次線形収束を達成するアルゴリズムである。
同数のエポックのトレーニングにおいて,EGPOがベースライン法よりも優れていることを示す実験的検討を行った。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:44:54 GMT)
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.4] Critic-Vは、視覚言語モデル(VLM)の推論能力を高めるためにアクター・クライブパラダイムにインスパイアされたフレームワークである。
リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。
評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:46:15 GMT)
A Theory of Learning with Autoregressive Chain of Thought [46.4] チェーンオブ思考が観察された場合と,即時回答ペアのみをトレーニングする場合の両方において,学習問題を定式化する。
本稿では,普遍的な表現可能性と計算的に抽出可能な連鎖学習を実現するための,シンプルなベースクラスを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:21:32 GMT)
Diffusion Model-Based Image Editing: A Survey [46.2] 様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:16:29 GMT)
MVGSR: Multi-View Consistency Gaussian Splatting for Robust Surface Reconstruction [46.1] 3D Gaussian Splatting (3DGS)は高品質なレンダリング機能、超高速トレーニング、推論速度で注目されている。
我々はロバスト表面再構成(textbfMVGSR)の領域に対するマルチビュー一貫性ガウススティングを提案する。
MVGSRは、最先端の表面再構成アルゴリズムと比較して、競合する幾何学的精度とレンダリング忠実度を実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:53:27 GMT)
Can Large Language Models generalize analogy solving like people can? [46.0] 人には「体 : 足 : テーブル :」のような類似を解く能力が幼少期に出現する。
近年の研究では、大規模言語モデル(LLM)が様々な種類の類似を解くことができることが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:51:32 GMT)
Conformal forecasting for surgical instrument trajectory [45.9] 本研究では, 整合性予測と整合性量子レグレッションを応用し, 手術器具の動作予測における不確実性を推定する。
本研究は外科的指導に適合予測を適用した最初の研究である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:10:02 GMT)
Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs [44.1] 静的なセマンティックマップは、環境と人間またはロボットエージェントの間の相互作用を捉えることができない。
我々はこの制限に対処するアプローチを提案する。エゴセントリックな記録のみに基づいて、動く物体の6DoFのポーズを追跡することができる。
提案手法は,移動マニピュレータの教示と繰り返しによる操作を可能とし,先行操作に関する情報によって移動マニピュレータがドローカに隠された物体を検索できることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:49:37 GMT)
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation [43.7] 本稿では,物理原理をT2Vモデルに分解し,組み込むための有効なフレームワークであるWorld Simulator Assistant(WISA)を紹介する。
WISAは物理的原理をテキストの物理的記述、質的な物理的カテゴリ、量的物理的特性に分解する。
定性的な物理カテゴリに基づいて収集された新しいビデオデータセットWISA-32Kを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:10:03 GMT)
The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities [43.6] 異なる言語における意味論的に等価な入力に対するモデル表現は中間層で類似していることを示す。
この空間は、ロジットレンズを介してモデルの主要な事前学習言語を使って解釈することができる。
1つのデータ型における共有表現空間の介入は、他のデータ型におけるモデル出力にも予測可能に影響を与える。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:59:31 GMT)
Generative AI in Transportation Planning: A Survey [43.3] 我々は、交通計画においてGenAIを活用するための最初の包括的枠組みを提示する。
交通計画の観点から, 記述的, 予測的, 生成的, シミュレーション, 説明可能なタスクの自動化におけるGenAIの役割を検討する。
データ不足、説明可能性、バイアス軽減、ドメイン固有の評価フレームワークの開発など、重要な課題に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:50:45 GMT)
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims [43.1] NSF-SciFyは、NSF(National Science Foundation)アワードデータベースから科学クレームを抽出するための大規模なデータセットである。
グラントは出版が効く前に研究ライフサイクルの初期段階で主張を要約する。
NSF-SciFyは、これまでで最大の科学的クレームデータセットであり、クレーム検証とメタ科学研究の新しい機会を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:35:08 GMT)
FreeGaussian: Annotation-free Controllable 3D Gaussian Splats with Flow Derivatives [43.1] 本稿では,光学フローとカメラモーションから動的ガウス運動を数学的に導出するFreeGaussianを提案する。
本手法は,フロー先行からの動的ガウス運動の自己教師付き最適化と連続性を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:08:06 GMT)
Personality Traits in Large Language Models [42.3] コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:11:39 GMT)
Recognition-Synergistic Scene Text Editing [41.9] シーンテキスト編集は、スタイルの一貫性を維持しながらシーンイメージ内のテキスト内容を変更することを目的としている。
従来の方法では、ソースイメージからスタイルとコンテンツを明示的に切り離し、ターゲットコンテンツとスタイルを融合することでこれを実現している。
本稿では,テキスト認識の本質的な相乗効果を完全に活用した新しいアプローチである認識-Synergistic Scene Text Editing (RS-STE)を紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:50:38 GMT)
Learning Hypergraphs From Signals With Dual Smoothness Prior [41.4] ハイパーグラフ構造学習(HGSL)は、観測された信号からハイパーグラフ構造を学習し、本質的な高次関係を捉えることを目的としている。
本稿では,潜在的なハイパーエッジの巨大な探索空間をどのように扱うか,ノード上で観測される信号とハイパーグラフ構造との関係を計測するための意味のある基準を定義するか,という2つの課題に対処する。
実験により、HGSLは観測された信号から有意義なハイパーグラフトポロジーを効率的に推測できることが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:08:58 GMT)
Hypergraph-MLP: Learning on Hypergraphs without Message Passing [41.4] 多くのハイパーグラフニューラルネットワークは、ハイパーグラフ構造上のメッセージパッシングを利用してノード表現学習を強化する。
我々は、ハイパーグラフ構造に関する情報を、明示的なメッセージパッシングを伴わずに、トレーニングの監督に組み込む方法を提案する。
具体的には,ハイパーグラフ構造化データのための新しい学習フレームワークであるHypergraph-MLPを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:07:41 GMT)
Hypergraph Structure Inference From Data Under Smoothness Prior [41.4] 本稿では,ラベル付きデータを監視対象とせずに,潜在的なハイパーエッジの確率を推定する手法を提案する。
本稿では,この手法を用いてハイパーグラフ構造とノード特徴の関係を確率論的モデリングにより導出する。
本手法は,既存のハイパーグラフ構造推定法よりも効率的にデータから有意義なハイパーグラフ構造を学習できることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:11:14 GMT)
Transformers Provably Solve Parity Efficiently with Chain of Thought [40.8] この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:26:41 GMT)
BiasEdit: Debiasing Stereotyped Language Models via Model Editing [40.6] 本稿では,言語モデルからステレオタイプバイアスを除去する効率的なモデル編集手法であるBiasEditを提案する。
BiasEditは、言語モデルの部分的なパラメータの局所的な編集を行うために、エディタネットワークをバイアスなく誘導する。
StereoSetとCrows-Pairsの実験はバイアス除去におけるBiasEditの有効性、効率、堅牢性を示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:25:36 GMT)
Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels [40.6] エージェント間で補完的な観察を共有するマルチエージェント協調データセットは、このボトルネックを突破する可能性を秘めている。
外部からのラベルを使わずに、DOtAと呼ばれるマルチエージェントLiDARスキャンからオブジェクトを検出する新しい教師なし手法を提案する。
DOtAはエージェント間の補完的な観察を使用して、プリミティブラベルのマルチスケールエンコーディングを行い、高品質で低品質なラベルをデコードする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:34:35 GMT)
LongProLIP: A Probabilistic Vision-Language Model with Long Context Text [40.4] 本稿では,より長いテキスト,例えば256個のテキストトークンを受理するProLIPの微調整戦略を提案する。
Urban-1kとDataComp評価スイートの実験結果から,提案したLongProLIPレシピは長いコンテキストの理解を向上できることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:04:43 GMT)
Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility [39.5] 我々は,大規模言語モデル(LLM)におけるPIIを保護するために,プロアクティブプライバシ・アムネシア(Proactive Privacy Amnesia)を提案する。
このメカニズムは、シークエンスでPIIと最も密接な関係にあるキーメモリを積極的に識別し、忘れ、LLMの機能を維持するためにメモリを埋め込むことによって機能する。
その結果, PPA法は, 電話番号暴露のリスクを100%削減し, 9.8%~87.6%の物理アドレス暴露のリスクを著しく低減することがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:32:22 GMT)
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.5] 2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:54:04 GMT)
Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation [39.4] Instruction-Augmented Long-Horizon Planning (IALP) システムを提案する。
その結果, IALPシステムでは, 平均成功率80%を超えるタスクを効率的に解けることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:37:33 GMT)
AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification [39.4] 地上映像に基づく人物識別(ReID)のためのベンチマークデータセット AG-VPReID を紹介する。
このデータセットは、Person ReIDアプローチの堅牢性を調べるために、現実世界のベンチマークを示す。
本稿では,3つの補完ストリームを組み合わせたエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:38:01 GMT)
Spectral-factorized Positive-definite Curvature Learning for NN Training [39.3] Adam(W) や Shampoo のような訓練手法は正定値の曲率行列を学習し、プレコンディショニングの前に逆根を適用する。
スペクトル分解正定曲率推定を動的に適用するリーマン最適化手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:22:52 GMT)
MIGA: Mutual Information-Guided Attack on Denoising Models for Semantic Manipulation [39.1] 深層認知モデルを直接攻撃するためのMIGA(Mutual Information-Guided Attack)を提案する。
MIGAは、敵対的摂動を通じて意味的コンテンツを保存するモデルの能力を戦略的に破壊する。
以上の結果から,デノベーションモデルは必ずしも堅牢ではなく,現実のアプリケーションにセキュリティリスクをもたらす可能性が示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:01:25 GMT)
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.0] RealmDreamerはテキスト記述から前方の3Dシーンを生成する技術である。
本研究では, 初期現場推定値に条件付き2次元塗布拡散モデルを利用して, 3次元蒸留における未知領域の低分散監視を行う。
特に,ビデオやマルチビューのデータを必要とせず,複雑なレイアウトで様々なスタイルの高品質な3Dシーンを合成することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:06:18 GMT)
DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness [38.3] 汎用的なエンボディロボットの開発には,任意の物体をつかむことのできる器用な手が不可欠である。
DexGrasp Anythingは拡散型生成モデルのトレーニングおよびサンプリングフェーズに物理的制約を統合する手法である。
我々は、15k以上の異なるオブジェクトに対して340万以上の多様なグルーピングポーズを含む、新しいデクスタラスなグルーピングデータセットを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:21:50 GMT)
Generalizable AI-Generated Image Detection Based on Fractal Self-Similarity in the Spectrum [38.3] スペクトルのフラクタル自己相似性に基づく新しい検出法を提案する。
本稿では,AI生成画像が周期的拡張と低域通過フィルタリングによってフラクタル様のスペクトル成長を示すことを示す。
提案手法は, 異なる発電機間で異なるスペクトル特性の影響を緩和し, 未知モデルからの画像の検出性能を向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:37:06 GMT)
Effective Yet Ephemeral Propaganda Defense: There Needs to Be More than One-Shot Inoculation to Enhance Critical Thinking [38.2] プロパガンダ検出・文脈化ツールを用いた場合,批判的思考とプロパガンダ認知に対する持続的影響を検討した。
私たちは、ツールが批判的思考に与える影響を測定するために、Kahnemanの双対システム理論を使用します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:24:19 GMT)
Revolution of Wireless Signal Recognition for 6G: Recent Advances, Challenges and Future Directions [38.0] 無線信号認識(WSR)は,次の6世代(6G)無線通信ネットワークにおいて,インテリジェント通信とスペクトル共有において重要な技術である。
WSRは、ネットワーク性能と効率の向上、サービス品質の改善(QoS)、ネットワークセキュリティと信頼性の向上に利用することができる。
WSRは、信号インターセプション、信号競合、信号誘拐といった軍事用途に応用できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:47:27 GMT)
Proto Successor Measure: Representing the Behavior Space of an RL Agent [37.6] 汎用強化学習アルゴリズムでは「ゼロショット学習」が有効である。
本稿では,強化学習エージェントのすべての行動に対する基礎セットとして,Proto Successor Measureを提案する。
我々は,環境から報酬のないインタラクションデータを用いて,これらの基礎関数を学習する実用的なアルゴリズムを導出する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:41:54 GMT)
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization [37.2] LightGenは、画像生成モデルのための効率的なトレーニングパラダイムである。
最先端(SOTA)テキスト・ツー・イメージモデルから知識を抽出し、コンパクトなMasked Autoregressiveアーキテクチャに変換する。
実験では、LightGenがSOTAモデルに匹敵する画像生成品質を達成することを確認した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:58:02 GMT)
Counterfactual Language Reasoning for Explainable Recommendation Systems [36.8] 本稿では,大規模言語モデルと構造因果モデルを統合し,推薦パイプラインにおける因果一貫性を確立する新しい枠組みを提案する。
提案手法は,因果グラフ構築と反現実的調整を通じて,因果グラフの予測を推奨するための因果的先行要因として説明因子を強制する。
本稿では,CausalXが推奨精度,説明可能性,バイアス軽減において,ベースラインに比べて優れた性能を発揮することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:15:37 GMT)
Injecting Imbalance Sensitivity for Multi-Task Learning [36.6] マルチタスク学習(MTL)は、リアルタイムアプリケーションにディープラーニングモデルをデプロイするための有望なアプローチとして登場した。
近年,MLLにおけるタスク共有表現を確立するための最適化に基づく学習パラダイムが提案されている。
本稿は、これらの研究が主に紛争問題を強調しつつ、MTLにおける不均衡/支配の潜在的に重大な影響を無視していることを実証的に論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:11:54 GMT)
Single Image Rolling Shutter Removal with Diffusion Models [36.3] 単フレーム転がりシャッター(RS)補正のための最初の拡散モデルに基づく手法であるRS-Diffusionを提案する。
そこで本研究では,パッチアテンションモジュールを設計した拡散技術を用いて,イメージ・トゥ・モーションのフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:29:34 GMT)
Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations [36.3] グループ選好アライメントは、ユーザグループ間での会話選好における文脈固有のバリエーションを特定する。
当社のフレームワークは,ユーザの好みに対する出力のアライメントを大幅に改善し,ベースライン手法よりも優れています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:32:54 GMT)
Efficient Traffic Prediction Through Spatio-Temporal Distillation [36.1] グラフベースのネットワーク(GNN)は、グラフベースのメッセージパッシングフレームワークを通じてパターンパターンを学習することができる。
GNNはトラフィックフロー予測の処理において大きな可能性を秘めているが、実際のアプリケーションへの展開はスケーラビリティの制約によって妨げられている。
本研究では,高能力教師から軽量学生への時間的知識提供を支援する新しい知識蒸留パラダイムを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:38:35 GMT)
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0] 線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。
テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。
JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:59:46 GMT)
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms [35.7] 推論ファーストの視点は、新しい生成事前学習アルゴリズムに刺激を与えることができると論じる。
本研究では,拡散モデルの予測過程における目標修正による制限への対処が,安定な単一段階アルゴリズムを実現する方法を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:52:41 GMT)
MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.7] EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。
T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:37:15 GMT)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.6] 本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:55:22 GMT)
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [35.4] 視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:28:50 GMT)
Training-Free Message Passing for Learning on Hypergraphs [35.4] ハイパーグラフニューラルネットワーク(HNN)は、メッセージパッシングによってハイパーグラフ構造を効果的に利用し、ノードの特徴を生成する。
モデル学習段階からハイパーグラフ構造情報の利用を分離する手法を提案する。
これにより、TF-MP-Moduleと呼ばれる新しいトレーニング不要のメッセージパッシングモジュールが作成され、データ前処理の段階でプリ計算される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:06:25 GMT)
Exposing Product Bias in LLM Investment Recommendation [35.2] 大規模言語モデル(LLM)は、新しい世代のレコメンデーションエンジンとして、強力な要約とデータ分析機能を持っている。
本稿では, LLM投資推奨において, LLMが特定の商品に対して体系的な嗜好を示す新たな製品バイアスを明らかにする。
このような好みは、ユーザーの投資決定に微妙に影響を及ぼし、製品や金融バブルの評価が膨らむ可能性がある。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:10:00 GMT)
QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning [35.1] 本稿では,多モーダル大規模言語モデル(MLLM)を4つの視覚-言語-アクションタスクに展開する際の,固有の推論遅延問題に対処する。
言語基盤モデルの性能を劣化させることなく推論効率を向上させるために, QUIRT-Online と呼ばれる新しい待ち時間フリーの4重結合MLLMモデルを提案する。
実験の結果, QUIRT-Onlineは既存のMLLMシステムと連動して動作し, 制御周波数に同期してリアルタイムの推論を実現することがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:09:50 GMT)
Mitigating Ambiguities in 3D Classification with Gaussian Splatting [34.9] 本稿では,Gaussian Splatting(GS)ポイントクラウドベースの3D分類を提案する。
GS点雲のスケールと回転係数は表面のタイプを特徴付ける。
コミュニティで最初の実世界のGSポイントクラウドデータセットを構築します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:06:57 GMT)
Risk-sensitive Bandits: Arm Mixture Optimality and Regret-efficient Algorithms [34.9] 本稿では,リスクに敏感なバンドイットに対する一般的な枠組みを紹介し,リスクに敏感な目標の概念を,ゆがみリスクメトリクスの豊富なクラスを採用することによって統合する。
重要かつ不明瞭な観察は、幅広いリスク測定において、最適な盗賊政策は武器の混合を選択することである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:18:54 GMT)
Towards All-in-One Medical Image Re-Identification [34.7] 医療画像の再識別(MedReID)は、パーソナライズされた医療とプライバシ保護に重要な応用があるにもかかわらず、これまであまり研究されていない。
この問題に対して徹底的なベンチマークと統一モデルを導入する。
提案手法を実世界の2つのアプリケーション,履歴を付加したパーソナライズド診断と医療プライバシ保護に展開する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:35:00 GMT)
BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes [34.7] 一般化を制限する重要な要因は、環境固有のボクセルサイズと探索半径に依存すること、学習ベースのキーポイント検出器のドメイン外ロバスト性に乏しいこと、および生の座標の使用である。
我々は、ボクセルサイズ/探索半径を適応的に決定し、最遠点サンプリングを用いて学習検出器をバイパスし、(c)一貫した座標境界に対するパッチワイドスケール正規化を利用する、BUFFER-Xと呼ばれるゼロショット登録パイプラインを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:40:45 GMT)
Towards Understanding Link Predictor Generalizability Under Distribution Shifts [34.6] LPShiftと呼ばれる新しい分割戦略を導入し、制御された分散シフトを誘導する。
我々は,元のデータセット分割の16 LPShift 変種に対する SOTA LP モデルの実証評価により,LPShift の効果を検証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:49:55 GMT)
HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents [34.4] 強化学習(Reinforcement Learning, RL)は、パフォーマンス評価、手法分析、エージェント能力評価のための堅牢なベンチマークを必要とする。
textbfHASARDは、戦略的意思決定、空間的関係の理解、短期的な未来予測を必要とする多様な複雑なタスクのスイートである。
Hasardは、エゴセントリックな視覚ベースの学習を対象とする最初の安全なRLベンチマークである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:05:01 GMT)
Efficient Dataset Distillation through Low-Rank Space Sampling [34.3] 本稿では,低ランク空間サンプリングを用いたマッチング学習軌道に基づくデータセット蒸留手法を提案する。
合成データは、これらの部分空間から基底ベクトルと共有次元マッパーによって表現される。
提案手法は, CIFAR-10, CIFAR-100, SVHNデータセット上で試験され, 平均9.9%の精度でベースライン法より優れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:59:17 GMT)
HRAvatar: High-Quality and Relightable Gaussian Head Avatar [34.3] HRAvatarは,高忠実で光沢のある3Dヘッドアバターを再構成する3DGSベースの手法である。
エンドツーエンドの最適化によってトラッキングエラーを低減し、個々の顔の変形をよりよくキャプチャする。
頭部の外観をいくつかの物理的性質に分解し、環境照明を考慮に入れた物理的シェーディングを取り入れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:42:40 GMT)
MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.1] 本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:13:45 GMT)
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.1] 大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。
有効性を評価するための標準化された評価基準が欠如している。
このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:05:42 GMT)
Chrono: A Simple Blueprint for Representing Time in MLLMs [34.0] ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:03:46 GMT)
Revisiting Frank-Wolfe for Structured Nonconvex Optimization [33.4] 2つの凸関数の差分として表される構造的非函数を最適化する新しい射影法(フランク・ウルフ法)を導入する。
提案手法は$O-(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O -)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O-)$(O -)$(O-)$(O-)$(O-)$
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:09:44 GMT)
CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [33.1] オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、AIの具体化における基本的なタスクであり、エージェントが以前目に見えない環境でターゲットオブジェクトを見つける必要がある。
大規模言語モデルを用いた認知過程の模倣を目的としたフレームワークであるCogNavを提案する。
CogNavは、少なくとも最先端技術に比べて、ObjectNavの成功率を14%向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:19:09 GMT)
Route Sparse Autoencoder to Interpret Large Language Models [32.9] Route Sparse Autoencoder (RouteSAE) は、ルーティングメカニズムを共有SAEと統合し、複数のレイヤから機能を効率的に抽出するフレームワークである。
64の空間的制約の下では、RouteSAEはベースラインSAEよりも22.5%高い特徴を抽出し、22.3%高い解釈可能性スコアを達成している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:08:07 GMT)
Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.8] Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:46:09 GMT)
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL [32.7] 規則に基づく多モーダル推論のための2段階のフレームワークをtextbfFoundational Reasoning Enhancement (FRE) と textbfMultimodal Generalization Training (MGT) で提案する。
Qwen2.5-VL-Instruct-3Bの実験では、LMM-R1はマルチモーダルとテキストのみのベンチマークでそれぞれ平均4.83%、平均4.5%向上し、複雑なフットボールゲームでは3.63%向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:32:59 GMT)
CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning [32.7] CL-MVSNetという2段階のコントラスト学習手法を提案する。
具体的には、2つの対照的な分岐を教師なしMVSフレームワークに統合し、追加の監視信号を構築する。
提案手法は,すべてのエンドツーエンドのMVSフレームワークの最先端性能を達成し,微調整を行なわずに教師付きフレームワークをかなりの差で上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:39:06 GMT)
TT-GaussOcc: Test-Time Compute for Self-Supervised Occupancy Prediction via Spatio-Temporal Gaussian Splatting [32.6] 自己監督型3D占有予測は、コストのかかる3Dアノテーションを必要とせずに複雑な運転シーンを理解するための有望なソリューションを提供する。
本稿ではTT-GaussOccと呼ばれる実用的で柔軟なテスト時間占有予測フレームワークを提案する。
TT-GaussOccは、オフライントレーニングなしでmIoUで46%の自監督ベースラインを越え、より微細なボキセル解像度を2.6FPSの推論速度でサポートすることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:37:39 GMT)
Data Driven Decision Making with Time Series and Spatio-temporal Data [32.4] このチュートリアルは「データ分析-決定」の全体的パラダイムに焦点を当てている。
まず時系列と時空間データの基礎を紹介する。
次に,データ品質の向上を目的としたデータガバナンス手法について議論する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:19:52 GMT)
Interactive Medical Image Analysis with Concept-based Similarity Reasoning [32.4] 概念ベースの類似推論ネットワーク(CSR)は、固有の概念解釈を備えたパッチレベルのプロトタイプを提供する。
CSRは3つのバイオメディカルデータセットで、最先端の解釈可能な手法を最大4.5%改善する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:06:03 GMT)
MAD Speech: Measures of Acoustic Diversity of Speech [32.4] 我々は音響多様性の軽量な指標を開発し、これをMAD音声と呼ぶ。
音声,性別,感情,アクセント,背景雑音の5つの側面を計測することに焦点を当てた。
提案する指標は,ベースラインよりも根底的な多様性と強く一致していることが実証された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:02:06 GMT)
V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM [32.4] 低ランク適応(LoRA)は、外部知識を大規模言語モデル(LMM)に統合する有望な方法を提供する
既存のLoRAモデルは計算コストが大きすぎるため、非常にレイテンシが高い。
多様なビジョンタスクの強化とLoRA LMMによるビジョンアプリケーション強化を目的としたエンドツーエンドソリューションを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:26:38 GMT)
On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding [32.0] シーケンス・ツー・シーケンス関数の連続性のモジュラリティを定義することにより、ループ変換器の近似率を確立する。
実験によって理論結果が検証され、ループ数が増加すると性能が向上することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:51:21 GMT)
Minimax Estimation for Personalized Federated Learning: An Alternative between FedAvg and Local Training? [31.8] 局所的なデータセットは、しばしば異なるが全く関係のない確率分布に由来する。
本稿では,パーソナライズド・フェデレーション・ラーニングの過大なリスクが,ミニマックスの観点からのデータ不均一性にどのように依存しているかを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:36:12 GMT)
Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge [31.8] 言語モデルのデータ透かしは、トークンシーケンスやスタイルパターンなどのトレース可能な信号を著作権のあるテキストに注入する。
従来のデータ透かし技術は主に事前訓練後の効果的な記憶に焦点を当てていた。
トレーニングデータにコヒーレントで確実な知識を注入する新しいデータ透かし手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:10:02 GMT)
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability [31.5] 本研究では,多種多様なロボット,すなわち空間物理到達可能性マップ(S-Pマップ)間での物理的な到達可能性の統一表現を提案する。
PhysVLMは、この到達可能性情報を視覚的推論に統合する視覚言語モデルである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:34:41 GMT)
Mellow: a small audio language model for reasoning [31.3] Mellowは、推論用に特別に設計された小さなAudio-Language Modelだ。
ReasonAQAは、モデルにおけるオーディオグラウンド推論を強化するために設計されたデータセットである。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:29:00 GMT)
Interpreting the Repeated Token Phenomenon in Large Language Models [31.1] 大きな言語モデル (LLM) は、引き起こされた時に1つの単語を正確に繰り返すことができず、代わりに無関係なテキストを出力する。
「この現象の原因を説明し、注意流しの概念と結びつけよう。」
我々の研究は、注意シンクの原因となる神経回路を特定し、この回路がどれくらいの時間繰り返しで破壊されるかを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:40:58 GMT)
A Transfer Framework for Enhancing Temporal Graph Learning in Data-Scarce Settings [31.0] エンティティ間の動的相互作用は、ソーシャルプラットフォーム、金融システム、ヘルスケア、電子商取引のようなドメインで一般的である。
TGNNはそのような予測タスクに対して強力な結果を得ているが、通常、現実世界のシナリオで制限される広範なトレーニングデータを必要とする。
本稿では,ノード表現を関連する特徴から2部符号化機構によって切り離す新しい転送手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:03:25 GMT)
Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios [30.8] テキスト画像超解像(SR)の拡散モデルの一般化能力向上を目的とした新しいフレームワークを提案する。
本稿では,様々な訓練段階における多様な画像型を取り入れ,収束を安定化し,一般化を改善するプログレッシブなデータサンプリング戦略を提案する。
実世界のデータセットを用いた実験により、我々のアプローチはよりリアルな視覚的外観を持つテキスト画像を生成するだけでなく、テキスト構造の精度も向上することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:00:49 GMT)
HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views [30.8] HOTFormerLocは,大規模3次元位置認識のための新規で汎用な階層型オクタリー変換器である。
粒度にまたがる空間的特徴と意味的特徴をキャプチャするオクツリーに基づくマルチスケールアテンション機構を提案する。
CS-Wild-Placesも紹介します。これは、密林で捉えた空中および地上のライダースキャンの点雲データを含む、3Dのクロスソースデータセットです。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:59:45 GMT)
DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process [30.7] DeepReviewは、構造化分析、文献検索、エビデンスに基づく議論を取り入れて専門家レビュアーをエミュレートするように設計されたフレームワークである。
ベストモードでは、DeepReviewer-14BはGPT-o1とDeepSeek-R1に対して88.21%、80.20%の勝利率を達成した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:59:43 GMT)
GigaSLAM: Large-Scale Monocular SLAM with Hierachical Gaussian Splats [30.6] 大規模で非有界な屋外環境のための最初のNeRF/3DGSベースのSLAMフレームワークであるGigaSLAMを紹介する。
我々のアプローチは階層的なスパースボクセルマップ表現を採用しており、ガウシアンはニューラルネットワークによって複数の詳細レベルで復号化されている。
GigaSLAMは、都市の屋外ベンチマークで高精度なトラッキングと視覚的に忠実なレンダリングを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:05:15 GMT)
TSCnet: A Text-driven Semantic-level Controllable Framework for Customized Low-Light Image Enhancement [30.5] そこで本研究では,アクセプティブ駆動,セマンティックレベル,量的明るさ調整による照明制御をカスタマイズする,新たな光強調タスクとフレームワークを提案する。
ベンチマークデータセットの実験結果は、可視性を高め、自然な色バランスを維持し、アーティファクトを作成することなく詳細を増幅するフレームワークの優れたパフォーマンスを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:30:50 GMT)
Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency [30.4] 視覚言語モデル(VLM)は視覚的推論に優れているが、しばしば計算コストが高い。
最近のトークン還元法は、最小性能損失を達成している。
トレーニング不要なビジュアルトークン削減手法であるLoFiを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:34:14 GMT)
ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting [29.7] RGBの出現と動きパラメータの推定により,部分レベルでの同時再構成の課題に対処する。
我々は3次元ガウス表現において、外観情報と幾何学情報の両方を同時に再構成する。
我々はArticulatedGSを紹介した。ArticulatedGSは自己監督型で総合的なフレームワークで、パートレベルで形状や外観を自律的にモデル化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:56:12 GMT)
SAS: Segment Any 3D Scene with Integrated 2D Priors [29.5] 3Dモデルのオープンな語彙能力はますます高くなっています。
固定カテゴリで訓練された伝統的な手法は、複雑なダイナミックな3Dシーンで見えないオブジェクトを認識するのに失敗する。
本稿では,複数の2次元モデルのオープン語彙機能を統合し,それを3次元領域に移行するための,シンプルで効果的なアプローチであるSASを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:01:54 GMT)
Large Scale Multi-Task Bayesian Optimization with Large Language Models [29.1] 本稿では,大規模言語モデル(LLM)を活用して,従来の最適化軌道から学習し,改良する手法を提案する。
本手法は,データベースクエリ最適化と抗菌ペプチドの設計の2つの異なる領域で評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:46:19 GMT)
Knowledge Bridger: Towards Training-free Missing Multi-modality Completion [29.1] 「知識ブリッジ」はモダリティに依存しないものであり、欠落したモダリティの生成とランキングを統合している。
一般領域と医療領域をまたいだ実験結果から,本手法は競合する手法よりも一貫して優れていたことが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:45:10 GMT)
PromptLNet: Region-Adaptive Aesthetic Enhancement via Prompt Guidance in Low-Light Enhancement Net [29.0] 複数の低照度画像データセットからテキストペアと美的スコアを用いて、低照度画像の美的評価モデルを訓練する。
本研究では,特定のインスタンスや領域に対して,微粒な明るさと審美的な調整を行えるプロンプト駆動型輝度調整モジュールを提案する。
実験結果から,本手法は視覚的品質の点で従来の手法より優れるだけでなく,柔軟性や制御性も向上することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:45:08 GMT)
Certainly Bot Or Not? Trustworthy Social Bot Detection via Robust Multi-Modal Neural Processes [29.0] 社会的なボット検出は、誤情報、オンライン操作、不正行為の調整を緩和するために不可欠である。
既存のニューラルネットワークベースの検出器は、データセット間の分散シフトによる一般化に苦慮している。
本稿では,社会的ボット検出のための不確実性推定フレームワークについて紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:32:52 GMT)
A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.7] 本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:18:47 GMT)
Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [28.3] グローバル圧縮コマンド(Global Compression Commander、GlobalCom$2$)は、HR-LVLM用の新しいプラグアンドプレイトークン圧縮フレームワークである。
実験の結果,GlobalCom$2$は90%以上の視覚トークンを圧縮しながら90%以上の性能を維持していることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:18:12 GMT)
Co-learning Single-Step Diffusion Upsampler and Downsampler with Two Discriminators and Distillation [28.2] 超解像度(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
単段階拡散に基づくアップサンプラーと学習可能なダウンサンプラーを協調的に最適化するコラーニングフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:53:12 GMT)
PromptHSI: Universal Hyperspectral Image Restoration with Vision-Language Modulated Frequency Adaptation [28.1] 本稿では,初のユニバーサルAiO HSI復元フレームワークであるPromptHSIを提案する。
提案手法では,テキストプロンプトを強度とバイアスコントローラに分解し,回復過程を効果的に導く。
我々のアーキテクチャは、さまざまな劣化シナリオにおいて、きめ細かい回復とグローバルな情報復元の両方に優れています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:47:38 GMT)
Concept-Driven Deep Learning for Enhanced Protein-Specific Molecular Generation [28.1] 本稿では,特定のタンパク質に適したフラグメントベースの分子生成フレームワークを提案する。
本手法は, 創薬性および結合親和性を大幅に改善し, 薬物類似度は4%, 合成親和性は6%向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:21:57 GMT)
Exponential Speedups by Rerooting Levin Tree Search [28.0] Levin Tree Search (LTS) は、ユーザが指定したポリシーを使って探索を誘導する決定論的環境の探索アルゴリズムである。
我々は、検索ツリーの各ノードにルートされたLTS検索を暗黙的に開始する、$sqrttextLTS$ (pronounce root-LTS)と呼ばれる新しいアルゴリズムを導入する。
我々は、$sqrttextLTS$が取るノードの訪問回数が、再ルートの不確実性に関連する要因の価格で、サブタスクへの最良の分解と競合していることを証明する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:25:01 GMT)
Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation [28.0] 本稿では,QE指標の性別バイアスを定義し,検討する。
男性求心翻訳は女性求心翻訳よりも高いスコアを示し,性中立翻訳はペナル化されている。
本研究は,ジェンダーを中心としたQE指標の開発と評価に新たな焦点をあてることの必要性を強調した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:13:54 GMT)
AI-native Memory 2.0: Second Me [28.0] SECOND MEはインテリジェントで永続的なメモリオフロードシステムとして機能する。
コンテキスト対応の応答を生成し、必要な情報をプリフィルし、外部システムとのシームレスな通信を容易にする。
さらに、第2のMEは、永続的で文脈的に認識され、自己最適化されたメモリシステムとの人間と世界の相互作用を強化するための重要なステップである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:05:52 GMT)
Learning to Plan with Personalized Preferences [28.0] PbP(Preference-based Planning)ベンチマークは、原子のアクションから複雑なシーケンスにまたがる数百のさまざまな好みを具現化したベンチマークである。
我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。
これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:22:58 GMT)
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation [27.9] Retrieval-augmented Generation (RAG)は、幻覚を抑えるために外部知識を統合することで、言語モデル(LLM)を強化する。
RAGの本質的な部分として、光学文字認識(OCR)を用いて構造化されていないPDF文書から構造化されたデータを抽出して外部知識ベースを構築することが一般的である。
本稿では,RAGシステムにおけるOCRのカスケード効果を理解するための最初のベンチマークであるOHRBenchを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:46:18 GMT)
Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors [27.8] textbfWUDI-Merging(textbfWhoever started the interference shotextbfUld entextbfD textbfIt)は、追加データや再スケーリング係数なしで干渉を排除するモデルマージ手法である。
視覚と言語ベンチマークの総合的な経験的評価は、我々の方法の優位性を示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:01:35 GMT)
Learning and teaching biological data science in the Bioconductor community [27.8] Bioconductorプロジェクトは、オミクスデータ分析に焦点を当てたオープンソースのソフトウェアコミュニティである。
このガイドは、この分野の学習者と教育者の両方にとって貴重な参考資料となっている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:57:40 GMT)
Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos [27.7] 本稿では,長大な講義とニュースビデオからなるデータセットについて紹介する。
近年のLarge Language Models(LLM)の進歩は、簡潔で情報的なコンテンツをキャプチャすることを約束している。
我々は,長大なマルチモーダルビデオデータセットを包括的に理解するための,迅速なエンジニアリング手法の探求を提唱する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:47:48 GMT)
Inference-Time Selective Debiasing to Enhance Fairness in Text Classification Models [27.6] モデル全体の品質を高めるために設計された推論時間安全機構である選択的偏り(elective debiasing)を提案する。
潜在的なバイアスのあるモデル予測を特定し、それらを捨てる代わりに、後処理のデバイアス法であるLEACEを使ってこれらの予測からバイアスを取り除く。
エンコーダに基づく分類モデルを用いたテキスト分類データセットの実験では、選択的デバイアスは、後処理手法とデバイアス技術のパフォーマンスギャップを低減するのに役立つことが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:39:45 GMT)
Deformable Mamba for Wide Field of View Segmentation [27.3] Mambaアーキテクチャは、2次複雑さに苦しむトランスフォーマーアーキテクチャに代わる有望な選択肢である。
マンバデコーダは、特に歪みが発生しやすい高密度予測タスクに対して、未探索である。
本稿では,効率の良い歪み認識デコーダであるデフォルマブル・マンバデコーダを提案する。
我々のデコーダは、広く使われているデコーダヘッドと比較して、72%のパラメータと97%のFLOPを削減しつつ、360deg Stanford2D3Dセグメンテーションベンチマークで+2.5%の性能改善を実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:05:43 GMT)
Video-to-Audio Generation with Hidden Alignment [27.1] 我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:57:51 GMT)
Tensor networks for quantum computing [27.1] テンソルネットワークの多種多様な応用を概観し、量子コンピューティングにおける重要な道具であることを示す。
具体的には、量子合成、量子回路、量子誤り訂正、量子機械学習のシミュレーションを含む、量子コンピューティングの様々な領域におけるテンソルネットワークの適用について要約する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:10:41 GMT)
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval [26.9] 検索者が悪意のあるクエリを満足する能力を実証的に研究する。
悪意のある要求が与えられた場合、ほとんどのレトリバーは(クエリの50%以上において)関連する有害なパスを選択することができる。
Llama3のような安全性に配慮したLLMでさえ、有害な検索パスをコンテキスト内で提供すると、悪意のある要求を満足させることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:36:53 GMT)
Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models [26.8] ロングフォームな書記エージェントは情報検索、推論、合成において柔軟な統合と相互作用を必要とする。
現在のアプローチは、書く前にアウトラインを生成するために、所定の、堅固な思考パターンに依存しています。
本稿では,人間ライクなアダプティブ・ライティングを実現する汎用エージェント・フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:43:01 GMT)
AtlasSeg: Atlas Prior Guided Dual-U-Net for Cortical Segmentation in Fetal Brain MRI [26.8] 既存のセグメンテーションネットワークは、年齢に関する特徴を暗黙的に学習するのみである。
我々は、GA固有の情報をガイダンスとして明示的に統合した二重U字型畳み込みネットワークであるAtlasSegを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:25:55 GMT)
Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.8] 現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。
シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。
提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:49:12 GMT)
Density Ratio-based Proxy Causal Learning Without Density Ratios [26.5] 本稿では,隠れた共起の存在下で観測データから因果効果を推定することを目的とした,プロキシ因果学習(PCL)の設定に対処する。
プロキシ変数の因果効果を推定する2つの手法が提案されている。
本稿では, 比比の明示的推定を回避し, 連続・高次元処理に適した第2の手法の実用的, 効果的な実装を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:27:54 GMT)
A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models [26.5] 本稿では,Cascading Cooperative Multi-agent (CCMA) フレームワークを導入し,個別のインタラクションに RL を統合すること,地域協力に微調整のLarge Language Model (LLM) を導入すること,グローバル最適化に報奨関数を導入すること,複雑な運転シナリオをまたいだ意思決定を動的に最適化するRetrieval-augmented Generation メカニズムを提案する。
実験の結果、CCMAは既存のRL法よりも優れており、複雑な運転環境下でのマイクロレベルとマクロレベルの両方のパフォーマンスが大幅に向上していることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:08:04 GMT)
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.4] 本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:56:08 GMT)
RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency [26.4] RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:06:51 GMT)
($\boldsymbolθ_l, \boldsymbolθ_u$)-Parametric Multi-Task Optimization: Joint Search in Solution and Infinite Task Spaces [26.3] パラメータ化された連続的かつ有界なタスク空間で定義される非固定的で潜在的に無限の最適化タスクの集合を考える。
新しい(boldsymboltheta_l$, $boldsymboltheta_u$)-PMTOアルゴリズムは、タスクとそのソリューションに対する共同検索を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:00:56 GMT)
Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.2] トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。
7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:15:54 GMT)
ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [26.0] 学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:56:58 GMT)
Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models [26.0] マルチホップ事実検証のための構造化知識強化LLMベースネットワーク(LLM-SKAN)を提案する。
具体的には、LLM駆動の知識エクストラクタを用いて、エンティティとその複雑な関係を含むきめ細かい情報をキャプチャする。
4つの共通利用データセットに対する実験結果から,本モデルの有効性と優位性を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:47:24 GMT)
MGHanD: Multi-modal Guidance for authentic Hand Diffusion [25.9] MGHanDは、現実的な人間の手を生成する際の永続的な課題に対処する。
実画像と生成された画像とキャプションのペアからなるデータセット上で訓練された識別器を用いる。
また,手からより詳細な指示への方向学習を行うLoRAアダプタによるテキストガイダンスも採用している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:51:47 GMT)
Extra Clients at No Extra Cost: Overcome Data Heterogeneity in Federated Learning with Filter Decomposition [25.7] 本稿では,フェデレートラーニング(FL)における畳み込みフィルタをフィルタ部分空間要素の線形結合に分解する手法を提案する。
この単純な手法は、FLにおける大域的なフィルター凝集をフィルター原子とその原子係数に変換する。
ベンチマークデータセットにおける実験結果から,このフィルタ分解手法はFL法の精度を大幅に向上することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:42:36 GMT)
7ABAW-Compound Expression Recognition via Curriculum Learning [25.6] 本稿では,1つの表現タスクでモデルをトレーニングするカリキュラムベースのフレームワークを提案する。
本手法は,Fスコア0.6063の競合トラックにおいて,テキストfbbの最高性能を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:53:34 GMT)
CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.5] 大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:08:43 GMT)
Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [25.3] 我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
これら2つのセンサの特徴のバランスをとるため,我々は2段階不均一モード適応核融合と呼ばれるマルチフュージョンパラダイムを設計した。
我々の実験は、TPCNetがTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:48:27 GMT)
Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training [25.2] 実証的に言えば、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークR-MeeToによって復元された。
Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:13:04 GMT)
X-Field: A Physically Grounded Representation for 3D X-ray Reconstruction [25.1] 医療診断にはX線撮影が不可欠であるが、その使用は潜在的な健康リスクのために厳しく規制されている。
最近の研究は、スパース入力から新しいビューを生成し、CT(Computed Tomography)ボリュームを再構築することに焦点を当てている。
我々はX線画像に特化して設計された最初の3D表現であるX-Fieldを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:31:56 GMT)
Acoustic Neural 3D Reconstruction Under Pose Drift [25.1] ドリフトセンサを用いた音響画像を用いた3次元再構成のためのニューラル暗示面最適化の問題点を考察する。
我々のアルゴリズムは、6DoFのポーズを学習可能なパラメータとしてパラメータ化し、ニューラルネットワークと暗黙の表現を通して勾配をバックプロパゲートすることで実現している。
かなりのドリフト下でも高忠実度3D再構成が可能である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:18:57 GMT)
Graph of AI Ideas: Leveraging Knowledge Graphs and LLMs for AI Research Idea Generation [25.0] 我々は,オープンアクセス論文が支配するAI研究分野を対象とした,AI思想グラフ(GoAI)というフレームワークを提案する。
このフレームワークは、関連する文献を知識グラフ内のエンティティに整理し、引用に含まれる意味情報をグラフ内の関係にまとめる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:36:38 GMT)
OccMamba: Semantic Occupancy Prediction with State Space Models [24.7] OccMambaは、マンバをベースとした最初のセマンティック占有予測ネットワークである。
Mambaアーキテクチャのグローバルなモデリングと線形複雑性に触発されて、セマンティック占有予測のための最初のOccMambaネットワークを提示する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:14:51 GMT)
Data Duplication: A Novel Multi-Purpose Attack Paradigm in Machine Unlearning [24.5] データ重複が未学習のプロセスに与える影響は、まだ明らかにされていない。
対象モデルのトレーニングセットのサブセットを複製し,それをトレーニングセットに組み込む敵を提案する。
次に,非重複手法を適用した場合の学習プロセスへの影響について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:54:03 GMT)
Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation [24.5] ミントは、実践者がシステムのパフォーマンスに対して過度に最適化されていることを誤解させる可能性がある。
我々は、Mint下でより信頼性の高い評価方法であるMintAdjustを提案する。
WMT24 MT のタスクテストセットでは、MintAdjust は最先端のメトリクスよりも正確に翻訳とシステムをランク付けしている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:40:10 GMT)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.5] マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:47:44 GMT)
A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models [23.9] 本研究では,標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価選択フレームワークを提案する。
具体的には、Fr'echet Distance(FD)とInception Score(IS)のメトリクスを考慮した、MABに基づく生成モデルの選定を開発する。
実験の結果, 深部生成モデルの標本効率評価と選択に対するMABアプローチの有効性が示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:55:52 GMT)
Flexible and Efficient Probabilistic PDE Solvers through Gaussian Markov Random Fields [23.7] 大規模非線形PDEにおいても,GPプリエントを利用して確率的PDE解法を実用化する方法を示す。
このアプローチはまた、共分散関数でモデル化できるものを超えて、柔軟で物理的に意味のある先行を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:53:21 GMT)
Attention to Trajectory: Trajectory-Aware Open-Vocabulary Tracking [23.7] OV-MOTは、事前定義されたカテゴリのセットに制限されることなく、オブジェクトを追跡するアプローチを可能にすることを目的としている。
我々は,OV-MOTにおけるオブジェクトの関連性や分類を改善するために,トラジェクトリ情報を活用するオープン語彙トラッカーであるtextbfTRACT を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:03:47 GMT)
Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.5] 本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。
エンドツーエンドのトレーニングから生じる推論のタイプを分析します。
本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:16:47 GMT)
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.4] マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す
最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。
本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:18:53 GMT)
Prototype-based Heterogeneous Federated Learning for Blade Icing Detection in Wind Turbines with Class Imbalanced Data [23.2] 本研究では,風力タービン翼のアイシングを検出するため,異種環境におけるクラス不均衡データのプロトタイプ学習モデルを提案する。
2つの風力発電所を横断する20基のタービンの実データを用いた実験により,本手法は5つのFLモデルと5つのクラス不均衡法より優れていた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:37:43 GMT)
Reframing Dense Action Detection (RefDense): A Paradigm Shift in Problem Solving & a Novel Optimization Strategy [23.1] 時間的重複とクラスオーバーラップという2つの課題に対処するには複雑すぎると我々は主張する。
本稿では, 密接な曖昧な部分概念を検出するために, 密接なあいまいな動作を検出するタスクを分解することを提案する。
我々の実験は、最先端手法に対するアプローチの優位性を実証している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:34:08 GMT)
Massively Parallel Expectation Maximization For Approximate Posteriors [23.1] 我々は、QEMがRWSおよびVIの最先端かつ大規模並列な変種よりも高速であることを示す。
我々は、QEMがRWSおよびVIの最先端かつ大規模並列な変種よりも高速であることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:28:58 GMT)
PointDiffuse: A Dual-Conditional Diffusion Model for Enhanced Point Cloud Semantic Segmentation [22.9] 拡散モデルを拡張し、点位置を固定し、拡散モデルは色の代わりに点ラベルを生成する。
提案した2つの条件付き拡散モデルベースネットワーク(PointDiffuse)にノイズラベル埋め込み,ポイント周波数変換器,およびノードをデノベートすることで,大規模ポイントクラウドセマンティックセマンティックセマンティクスを実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:59:28 GMT)
Accelerated Distributed Optimization with Compression and Error Feedback [22.9] ADEFはネステロフ加速、収縮圧縮、エラーフィードバック、勾配差圧縮を統合している。
我々は,ADEFが分散最適化のための圧縮圧縮による最初の加速収束率を達成することを証明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:40:34 GMT)
SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.9] 単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。
本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:04:42 GMT)
Generating Robot Constitutions & Benchmarks for Semantic Safety [22.9] ロボット脳のセマンティック安全性を評価するためのASIMOVベンチマークをリリースする。
実世界のデータからロボットの構成を自動的に生成するフレームワークを開発した。
動作規則書にニュアンスを導入可能な,新しい自動改善プロセスを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:50:47 GMT)
Adapting Large Language Models for Parameter-Efficient Log Anomaly Detection [22.8] Log Anomaly Detection (LAD) は、システムのセキュリティと状態を評価する上で重要なログデータの非定型パターンを特定することを目指している。
大規模言語モデル(LLM)は様々な分野で大きな成功を収めてきたが、ログ異常の検出にLLMを使うことは、ほとんど探索されていない。
LLMをLADに適応させるために,パラメータ効率のよい微調整技術(PEFT)について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:00:19 GMT)
Parametric Point Cloud Completion for Polygonal Surface Reconstruction [22.7] 既存の多角形表面再構成法は入力完全性と不完全点雲との闘いに依存している。
我々は、現在の点雲補修技術は欠落点を回復する可能性があるが、多角形表面の再構成には最適化されていないと論じる。
パラメトリック・コンプリートを導入し、個々の点の代わりにパラメトリック・プリミティブを復元し、高レベルな幾何学的構造を伝達する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:20:24 GMT)
TiGer: Self-Supervised Purification for Time-evolving Graphs [22.7] TiGer (Time-evolving Graph purifier) は、時間進化グラフ用に明示的に設計された自己教師型手法である。
実験の結果,TiGerは最大10.2%の精度でノイズを除去し,ノード分類性能を最大5.3%向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:17:04 GMT)
Accurate myocardial T1 mapping at 5T using an improved MOLLI method: A validation study [22.6] The proposed 5T-SRIS method is based on a modified 5-(3)-3 MOLLI sequence with ECG gating and gradient echo readout。
5Tでの反転効率を向上させるため, 逆パルスは, 拡張型双曲性セシタント (HSn) とタンジェント/双曲性タンジェントパルスを用いて再設計された。
この方法はファントム研究や21人の健康なボランティア、9人の患者で検証された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:39:14 GMT)
End-to-end Learning of Sparse Interventions on Activations to Steer Generation [22.5] 生成モデルのためのエンド・ツー・エンドアクティベーション・ステアリング(LinEAS)を提案する。
LinEASは、すべての階層的な分散シフトを同時に行うグローバルな損失で訓練されている。
本稿では,LinEASの介入を合成し,疎度の影響について検討し,テキスト・画像拡散における応用例を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:09:04 GMT)
Mobility-aware Seamless Service Migration and Resource Allocation in Multi-edge IoV Systems [22.3] Mobile Edge Computing (MEC)は、IoV(Internet-of-Vehicles)アプリケーションに対する低レイテンシと高帯域幅のサポートを提供する。
MECサーバ間の適切なサービス移行なしに、中断のない高品質なサービスを維持するのは難しい。
既存のソリューションは一般的に事前の知識に依存しており、サービス移行プロセス中に効率的なリソース割り当てを考慮することは滅多にありません。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:03:25 GMT)
Keypoint Semantic Integration for Improved Feature Matching in Outdoor Agricultural Environments [22.0] 画像内の意味的に意味のある領域における記述子を改善するキーポイント意味統合手法を提案する。
本手法は, 複数ヶ月にわたるブドウ畑条件下でのマッチング精度を12.6%向上させ, 有効性を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:29:28 GMT)
Toward an Evaluation Science for Generative AI Systems [22.0] 生成型AIシステムの評価科学の成熟を提唱する。
特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:31:22 GMT)
Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models [22.0] COD-VAEは、品質を犠牲にすることなく、3D形状を1D潜伏ベクトルからなるCampact集合に符号化する。
COD-VAEは品質を維持しながらベースラインに比べて16倍の圧縮を実現している。
これにより、生成の20.8倍のスピードアップが可能となり、大量の潜在ベクトルが高品質な再構成と生成の前提条件ではないことが強調された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:29:39 GMT)
Bringing the Context Back into Object Recognition, Robustly [21.9] ローカライズ・トゥ・認識ロバストリー (L2R2) は文脈認識分類の利点を生かした新しい認識手法である。
教師付きトレーニングによる標準認識と、VLMによるマルチモーダルゼロショット認識の両方の性能を向上させる。
その結果、幅広いデータセットに対して認識前のローカライゼーションが可能であることを確認した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:08:58 GMT)
Bridge Frame and Event: Common Spatiotemporal Fusion for High-Dynamic Scene Optical Flow [21.8] 本稿では,高ダイナミックなシーン光流に対するフレームとイベントのモダリティ間の新しい共通モダリティ融合を提案する。
運動融合では、フレームベースの動きは空間的に密度が高いが時間的に不連続な相関を持つのに対して、イベントベースの動きは疎いが時間的に連続的な相関を持つことがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:32:11 GMT)
Accurate INT8 Training Through Dynamic Block-Level Fallback [21.8] トランスフォーマーモデルは、さまざまなAIアプリケーションで顕著な成功を収めているが、かなりのトレーニングコストに直面している。
オフレイアを含むアクティベーションブロックに対して,動的に8ビットから16ビットにフォールバックする混合精度GEMMを実装したフォールバック量子化を提案する。
実験により、我々のアプローチは微調整と事前学習の両方で堅牢に機能していることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:45:48 GMT)
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.8] スペシャリスト言語モデル(LM)は特定のタスクやドメインに焦点を合わせ、それらがしばしば同じ大きさのジェネラリスト言語モデルより優れている。
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
CRISPは、これらのクラスタのジェネリストデータセットとサンプルを、より小さなスペシャリストデータセットの頻度に基づいてクラスタ化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:20:30 GMT)
Scaling Probabilistic Circuits via Data Partitioning [21.7] 分散データセットを分割することで、PCが複数のマシンでどのように学習できるかを示す。
これにより、新しいフレキシブル・フェデレート・ラーニング(FL)フレームワークであるフェデレーション・サーキット(FC)が実現される。
FCは1つのフレームワークで初めて水平、垂直、ハイブリッドFLを統一する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:59:56 GMT)
Open-World Skill Discovery from Unsegmented Demonstrations [21.6] オンラインデモビデオのセグメンテーションのための自己教師型学習ベースアプローチを開発した。
アノテーションのない時間的ビデオセグメンテーションアルゴリズムであるスキル境界検出(SBD)を導入する。
提案手法は,多様なYouTubeビデオを利用して,指示追従エージェントの訓練を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:51:40 GMT)
OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data [21.5] 本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:04:38 GMT)
Zero-Shot Action Generalization with Limited Observations [21.4] 強化学習(Reinforcement Learning, RL)は, 逐次的な意思決定問題の解決に成功している。
ゼロショットアクション一般化に関する以前の研究は、アクション観測の大規模なデータセットに依存していた。
我々は,限定観測による新しいゼロショット・フレームワーク,アクション・ジェネリゼーションを導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:14:25 GMT)
A Neural Symbolic Model for Space Physics [21.3] 我々は、記号回帰によって物理式を発見するための新しいAIモデルPhyE2Eを公表する。
我々は、太陽黒点数、太陽回転速度、放射線寄与関数、地球近傍のプラズマ圧力、月潮プラズマ信号の予測を含む、宇宙物理学の5つの応用にPhyE2Eを配備する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:50:45 GMT)
Secret-Key Generation from Private Identifiers under Channel Uncertainty [21.2] 本研究では,物理識別子を用いたデバイス認証のための秘密鍵生成について検討する。
システムは2つの正統な端末(エンコーダとデコーダ)と盗聴器(イーブ)を含む。
当社のコントリビューションには、シークレットキー、ストレージ、および一般的な個別ソースのプライバシ推論レート間の最適なトレードオフに関する内部および外部境界の導出が含まれています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:20:48 GMT)
Unlocking the Potential of AI Researchers in Scientific Discovery: What Is Missing? [20.9] AI4Scienceの総出版物のシェアは2024年の3.57%から2050年までに約25%になると予想しています。
我々は,AI研究者を科学的発見の最前線に位置づける構造的かつ行動可能な戦略を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:11:16 GMT)
Standard Gaussian Process is All You Need for High-Dimensional Bayesian Optimization [20.9] Mat'ernカーネルは、標準BOが一貫して上位層の結果を達成することを可能にする。
Mat'ernカーネルは感受性が低く、より高次元を扱うことができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:36:19 GMT)
Can LLMs Understand Time Series Anomalies? [20.8] 大規模言語モデル (LLMs) は時系列予測で人気を博しているが、異常検出の可能性はほとんど解明されていない。
本研究では,ゼロショットと少数ショットのシナリオに着目し,時系列データ中の異常をLLMが理解し,検出できるかどうかを検討する。
LLMは自明な時系列異常を理解できるが、より微妙な実世界の異常を理解できるという証拠はない。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:04:52 GMT)
Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning [19.8] 我々は圏論のプリズムを通してタスク構成を考察する。
マルコフ決定過程の分類的性質は、複雑なタスクを管理可能なサブタスクに切り離す。
実験結果は強化学習のカテゴリー理論を支持する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:01:33 GMT)
SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.8] 一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。
本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:04:35 GMT)
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis [19.8] 画像のみを用いて高品質なマルチモーダルデータを合成するための新しい手法Oasisを提案する。
Oasisは、MLLMにイメージのみをプロンプトすることで、従来のメソッドを分解する。
本手法はデータ品質を確保するための微妙な品質制御手法を特徴とする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:25:40 GMT)
Training with Differential Privacy: A Gradient-Preserving Noise Reduction Approach with Provable Security [19.7] 我々は,GReDPと呼ばれる,より堅牢で確実な個人訓練手法を提案する。
これまでの研究とは異なり、我々のGReDPはDPSGDに比べてノイズスケールの半分しか必要としない。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:52:18 GMT)
FPGS: Feed-Forward Semantic-aware Photorealistic Style Transfer of Large-Scale Gaussian Splatting [19.3] FPGSはガウススプラッティングで表される大規模放射場に対するフィードフォワード光実写方式の伝送方式である。
FPGSは、任意の複数のスタイルの参照イメージを最適化することなく、大規模な3Dシーンをスタイリングする。
実験では,FPGSが大規模静的・ダイナミックな3Dシーンに対して,光リアルなクオリティシーンのスタイリングを実現することを実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:52:56 GMT)
Building Interval Type-2 Fuzzy Membership Function: A Deck of Cards based Co-constructive Approach [19.3] Interval Type-2 Fuzzy Sets (IT2FSs) は、メンバーシップの割り当ての不確実性を取り入れて導入された。
既存のIT2FS構築手法はDMへの積極的な関与を欠いていることが多く、決定モデルの解釈可能性と有効性を制限する。
本研究は,言語用語のIT2FSモデル構築のための社会技術的共同構築手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:37:21 GMT)
Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.3] FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。
まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。
我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:47:12 GMT)
BoundarEase: Fostering Constructive Community Engagement to Inform More Equitable Student Assignment Policies [19.1] 我々は,「BoundarEase」を設計するために,約15万人の学生を対象とする米国公立教育学区とのコラボレーションについて述べる。
BoundarEaseは、コミュニティメンバーが潜在的な境界について調査し、フィードバックを提供するWebプラットフォームである。
12人のコミュニティメンバによるユーザスタディによると、BoundarEaseは、コミュニティメンバの間で、ポリシーが家族を超えてどのように影響するかについて、振り返りを促している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:30:53 GMT)
X2CT-CLIP: Enable Multi-Abnormality Detection in Computed Tomography from Chest Radiography via Tri-Modal Contrastive Learning [19.0] 我々はCTとCXRのモダリティギャップを埋める3モーダルな知識伝達学習フレームワークであるX2CT-CLIPを提案する。
CXRエンコーダに3次元CTボリュームと関連する放射線学レポートから知識を伝達することにより,CTにおける多重異常分類を可能にするための最初の試みである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:50:53 GMT)
DMin: Scalable Training Data Influence Estimation for Diffusion Models [18.9] DMinは、与えられた生成された画像に対するトレーニングデータサンプルの影響を推定するフレームワークである。
数十億のパラメータを持つDMの推定に影響を及ぼす最初の方法である。
ストレージ要件を数百 TB から MB あるいは KB まで削減し,最も影響力のあるトレーニングサンプルを 1 秒以内で取得する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:10:09 GMT)
HessianForge: Scalable LiDAR reconstruction with Physics-Informed Neural Representation and Smoothness Energy Constraints [18.9] 深層学習アプローチは、生のLiDAR点雲から符号付き距離場を学習する。
トポロジ的不整合とエッジ歪みの補正のためのテスト時間改善戦略
textttCUDAによる最小二乗最適化。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:18:51 GMT)
Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation [18.8] 大規模言語モデル(LLM)は、事実的正確かつ多様な様々なオープンエンドアプリケーションにまたがるテキストを生成するためにますます必要とされる。
我々は、新たなデータや知識、モデルを必要とすることなく、このトレードオフを解決する新しいプラグイン・アンド・プレイアプローチであるDynamic Focus Decoding (DFD)を紹介します。
DFDはレイヤ間の分布差に基づいてデコード焦点を適応的に調整し、LLM内の事実知識のモジュール的および階層的性質を活用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:27:28 GMT)
VACE: All-in-One Video Creation and Editing [18.8] VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。
VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:44:25 GMT)
BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [18.8] コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:00:39 GMT)
Categorical semantics of compositional reinforcement learning [18.4] 我々は、強化学習(RL)の構成理論のための知識表現フレームワークを開発する。
我々のアプローチは、タスクのモデルとして働くマルコフ決定過程(MDP)を対象とする$mathsfMDP$の理論的研究に依存する。
圏 $mathsfMDP$ で表される構成保証に依存するジグザグ図形を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:24:01 GMT)
Does SGD really happen in tiny subspaces? [18.3] 近年の研究では、トレーニング軌道に沿って、勾配がトレーニング損失 Hessian の低ランクトップ固有空間と整合していることが示されている。
本稿では,ニューラルネットワークが支配的な部分空間内でトレーニング可能かどうかを考察し,より効率的なトレーニング手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:07:24 GMT)
Text-RGBT Person Retrieval: Multilevel Global-Local Cross-Modal Alignment and A High-quality Benchmark [18.2] 本研究では,困難環境下でのロバストな人物検索のために,熱的・可視的モダリティの相補的な利点を取り入れたテキストRGBT人物検索という新しいタスクを設計する。
高品質なテキストRGBT人物検索データセットRGBT-PEDESを作成する。
RGBT-PEDESの実験により,本手法は既存の人物検索法より優れていることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:19:45 GMT)
MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.2] 物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:15:54 GMT)
High-Quality 3D Head Reconstruction from Any Single Portrait Image [18.0] 本稿では,1枚のポートレート画像から,視点,表情,アクセサリーに関係なく,新しい高忠実度3次元頭部再構成手法を提案する。
本手法は,サイドフェイスアングルや複雑なアクセサリなど,難易度の高いシナリオに対して堅牢な性能を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:08:37 GMT)
Are foundation models for computer vision good conformal predictors? [17.5] コンフォーマル予測(CP)に基づく視覚・視覚言語基礎モデルの振る舞いについて検討する。
この結果から, 基礎モデルはコンフォーマライズ手順, 特にビジョントランスフォーマーの統合に適していることが判明した。
また、下流タスクへのビジョン・ランゲージ・モデル(VLM)の少数ショット適応が、ゼロショット予測と比較してコンフォメーションスコアを高めていることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:55:06 GMT)
Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.5] 高品質なビデオ編集データセットであるSenorita-2Mを紹介する。
高品質で特殊な4つのビデオ編集モデルを構築することで構築される。
編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:09:58 GMT)
Filter Like You Test: Data-Driven Data Filtering for CLIP Pretraining [17.4] Filter Like You Test (FLYT)は、大規模な視覚言語データセットをキュレートする手法である。
FLYTはスコアリングモデルをトレーニングし、下流タスクトレーニングセットの勾配信号を使って各サンプルを測ることを学ぶ。
Mixing-FLYT (M-FLYT) は、異なるスコア法によって生成されたサンプル毎のスコアを取得し、それらを単一のスコアに統一することを学ぶ。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:34:12 GMT)
Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text [17.4] 本稿では,TA-VQ という新しいテキスト拡張コードブック学習フレームワークを提案する。
テキスト整合性のあるコードブック学習を改善するために視覚言語モデルを用いて、各画像に対してより長いテキストを生成する。
2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割することを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:09:18 GMT)
Leaky Batteries: A Novel Set of Side-Channel Attacks on Electric Vehicles [17.4] 現在の研究は、バッテリー消費データ露出の幅広い影響を概ね見落としている。
本稿では、EVバッテリデータを利用してセンシティブなユーザ情報を抽出する、新たなサイドチャネル攻撃手法を提案する。
我々の攻撃は全ての攻撃目標に対して平均95.4%の成功率を達成した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:18:26 GMT)
TIPO: Text to Image with Text Presampling for Prompt Optimization [17.3] TIPO(Text-to-Image Prompt Optimization)は、テキスト・トゥ・イメージ(T2I)生成において、自動的なプロンプト改善のための効率的なアプローチを導入する。
シンプルなユーザープロンプトから始めて、TIPOは軽量の事前訓練モデルを利用して、これらのプロンプトをよりリッチで詳細なバージョンに拡張する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:21:57 GMT)
Do Fairness Interventions Come at the Cost of Privacy: Evaluations for Binary Classifiers [17.2] 我々は、メンバーシップ推論攻撃(MIA)と属性推論攻撃(AIA)により、公平性向上したバイナリ分類器のプライバシーリスクを評価する。
公正なモデルと偏見のあるモデルの間の予測不一致を利用して、MIAとAIAの両方に対する高度な攻撃結果をもたらす潜在的な脅威メカニズムを明らかにする。
本研究は、フェアネス研究における未調査のプライバシー上の脅威を明らかにし、モデル展開前に潜在的なセキュリティ脆弱性を徹底的に評価することを提唱する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:28:18 GMT)
HOFAR: High-Order Augmentation of Flow Autoregressive Transformers [17.0] 本稿では,高次監視によるフロー自己回帰変換器を体系的に強化する新しいフレームワークを提案する。
本稿では,HFAR(High-Order FlowAR)がベースラインモデルと比較して,生成品質の計測可能な改善を示すことを示す理論的解析と実証評価を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:29:22 GMT)
Layton: Latent Consistency Tokenizer for 1024-pixel Image Reconstruction and Generation by 256 Tokens [16.9] Layton(Latent Consistency Tokenizer)は、事前学習された潜在拡散モデル(LDM)のコンパクト潜在空間で離散的視覚トークンをブリッジする
MSCOCO-2017の1024x1024画像再構成のためのFrechet Inception DistanceをMSCOCO-2017 5Kベンチマークで10.8再構成した。
私たちはLaytonをテキストから画像生成モデルであるLaytonGenに拡張し、自動回帰で作業します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:38:12 GMT)
Voltage-Controlled Magnetoelectric Devices for Neuromorphic Diffusion Process [16.9] 我々は、ニューロモルフィック拡散プロセスのためのスピントロニック電圧制御磁気メモリハードウェアを開発した。
磁気メモリの非揮発性により,高速かつ低コストな計算が可能となる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:56:34 GMT)
LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.8] 長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:45:02 GMT)
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding [16.5] 認識設計を分離したMLLMであるChatRexを紹介する。
データの観点から、認識と理解の共同トレーニングを支援するために、完全に自動化されたデータエンジンを構築します。
ChatRexは、強い認識とパフォーマンスの理解を示し、これら2つの機能の組み合わせによって、多くの魅力的なアプリケーションも解放される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:19:42 GMT)
Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs [16.5] 線形決定過程(MDP)を用いた無限水平平均逆強化学習の問題点について検討する。
提案手法は, 平均再帰設定を割引係数で近似し, 楽観的な値反復を適用した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:05:13 GMT)
Self-Taught Self-Correction for Small Language Models [16.5] 本研究は,自己生成データのみを用いた反復的微調整により,小言語モデル(SLM)における自己補正を探索する。
複数のアルゴリズム設計選択を組み込んだ自己学習自己補正アルゴリズム(STaSC)を導入する。
質問応答タスクの実験結果から,STaSCは自己補正を効果的に学習し,性能が大幅に向上することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:57:44 GMT)
Imitation Learning of Correlated Policies in Stackelberg Games [16.4] Stackelbergゲームは、リーダーの戦略がフォロワーの反応を駆動する非対称な相互作用を含む。
多エージェントシステムではエージェントの動作は相互依存的であり、従来のマルチエージェント・イミテーション・ラーニング(MAIL)手法は複雑な相互作用を捉えるのに失敗することが多い。
そこで本稿では,Stackelbergゲーム用に特別に設計されたポリシ占有率の相関式を提案し,それに対応するためにLatent Stackelberg Differential Network (LSDN)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:52:56 GMT)
Optimizing Ride-Pooling Operations with Extended Pickup and Drop-Off Flexibility [16.4] ライドプールマッチング問題(RMP)はオンデマンド配車サービスの中心である。
既存のRMPソリューションの多くは、乗客が元の場所で拾い上げられ降ろされることを想定している。
本稿では,乗客の着脱範囲を拡大する新しいマッチング手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:17:30 GMT)
HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction [16.4] ビデオ中の手や物体の3次元再構成とポーズトラッキングのためのデータキャプチャシステムと新しいデータセットHO-Capを導入する。
システムは複数のRGBDカメラとHoloLensヘッドセットをデータ収集に利用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。
ビデオ中の手や物体の形状やポーズをアノテートする半自動手法を提案し,手動ラベリングと比較してアノテーションの時間を大幅に短縮する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:48:26 GMT)
WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images [16.1] 多様な環境にまたがる任意の3Dオブジェクトのセグメンテーションを可能にする効率的なアプローチであるWildSeg3Dを紹介する。
このフィードフォワードアプローチの重要な課題は、複数の2次元ビューにまたがる3Dアライメントエラーの蓄積である。
また,リアルタイム対話型セグメンテーションのための動的グローバルアライニング(DGA)とマルチビューグループマッピング(MGM)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:10:41 GMT)
Learning Regularization for Graph Inverse Problems [16.1] グラフ逆問題(GRIP)を解決するためにGNNを利用するフレームワークを導入する。
このフレームワークは、データに適合するソリューションを見つけるために使用される、可能性と事前条件の組み合わせに基づいている。
本稿では,フレームワークの有効性を示す代表的問題について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:43:23 GMT)
Concept Bottleneck Large Language Models [15.9] CB-LLMsは本質的に解釈可能な大規模言語モデルを構築するためのフレームワークである。
テキスト分類とテキスト生成という2つの重要なNLPタスクに対してCB-LLMを構築する。
埋め込み解釈により、ユーザーは有害なコンテンツ、ステアモデル行動、そして望ましくない概念を透過的に識別することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:19:17 GMT)
FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback [15.6] FASIONADは、VLMベースの推論モジュールで高速なエンドツーエンドプランナーをシナジする、新しいデュアルシステムフレームワークである。
オープンループ実験では、FASIONADは平均$L2$軌道誤差を6.7%削減し、28.1%$衝突率を下げる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:27:01 GMT)
Referring to Any Person [15.5] 既存のモデルは現実のユーザビリティを達成できず、現在のベンチマークは1対1の参照に集中することによって制限される。
我々は、これらの課題に対処し、現実世界のアプリケーションをよりよく反映するように設計された、新しいデータセットであるHumanRefを紹介します。
モデル設計の観点からは、マルチモーダルな大規模言語モデルとオブジェクト検出フレームワークを統合し、RexSeekという名前の堅牢な参照モデルを構築する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:57:14 GMT)
Controlling Latent Diffusion Using Latent CLIP [15.4] 変分オートエンコーダ(VAE)の潜時空間で動作する潜時拡散モデル(LDM)
対照的な言語イメージ事前訓練(CLIP)モデルは、多くの画像処理タスクで使われているが、まだピクセル空間で運用されている。
本稿では,潜伏空間で直接動作するCLIPモデルであるLatent-CLIPを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:04:29 GMT)
Accelerate 3D Object Detection Models via Zero-Shot Attention Key Pruning [15.4] 3次元オブジェクト検出モデルにおけるトランスフォーマーデコーダのゼロショット実行時プルーニング法を提案する。
提案手法は,ToC3Dモデルのトランスデコーダにおける1.99倍の高速化を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:03:28 GMT)
PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models [15.1] PRISMは、異種データ分散における安定した性能を保証する生成モデルに適したフレームワークである。
ポーラス化特性により、PRISMは余分なプルーニングや量子化なしに軽量なモデルが得られる。
PRISMは、非IIDおよびプライバシ保護FL環境下で画像の生成に成功した最初の企業である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:37:54 GMT)
Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks [15.0] 本稿では,顔対立攻撃(Adv-CPG)を用いたカスタムポートレート生成フレームワークを提案する。
顔のプライバシー保護を実現するため,軽量なローカルID暗号化器と暗号化エンハンサーを考案した。
細粒度でパーソナライズされたポートレート生成を実現するため,マルチモーダル画像カスタマイズ器を開発した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:34:57 GMT)
D3PO: Preference-Based Alignment of Discrete Diffusion Models [14.9] 連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D3PO)を紹介する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D3POは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習手法の代替となることが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:07:35 GMT)
ACE: Concept Editing in Diffusion Models without Performance Degradation [14.9] 拡散に基づくテキスト-画像モデルでは、現実的な画像を生成する際、顕著な能力を示した。
彼らは、安全でないコンテンツの作成など、社会的および倫理的な懸念を提起する。
拡散モデルにおける概念編集を強化する新しい編集手法であるACEを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:30:18 GMT)
Debiased Prompt Tuning in Vision-Language Model without Annotations [14.8] VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:24:54 GMT)
Robust Multi-Objective Controlled Decoding of Large Language Models [14.6] 本稿では,ロバスト多目的復号法(RMOD)を提案する。
RMODは、報酬重み付けとサンプリングポリシーの間の最大2プレーヤゲームとして頑健な復号問題を定式化する。
我々は,ゲームが最悪の重みを求めるために凸最適化問題に還元されるのに対して,最良の応答ポリシは解析的に計算可能であることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:15:26 GMT)
Statistical Inference for Linear Functionals of Online SGD in High-dimensional Linear Regression [14.5] 勾配降下 (SGD) は、データ科学者のツールボックスにおいて重要な方法として登場した。
我々は,オンラインSGDの線形汎関数に対する高次元中心極限定理(CLT)を確立し,非等方的ガウス入力を用いた過度な最小二乗回帰を行う。
我々は,CLTに現れる分散項を推定するオンライン手法を開発し,開発したオンライン推定器の高確率バウンダリを確立する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:10:37 GMT)
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.5] タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:21:23 GMT)
A Framework for Reducing the Complexity of Geometric Vision Problems and its Application to Two-View Triangulation with Approximation Bounds [14.4] 三角測量は、複数の画像にわたるノイズの多い2次元投影から3次元点を推定するタスクである。
本稿では,再投射誤差を最小限に抑えるために使用されるコスト関数の再重み付けにより,幾何学的視覚問題の計算複雑性を低減するための新しいフレームワークを提案する。
この研究は2次元三角測量に焦点を当てているが、このフレームワークは他の幾何学的視覚問題に一般化している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:00:51 GMT)
Mirror Descent and Novel Exponentiated Gradient Algorithms Using Trace-Form Entropies and Deformed Logarithms [14.3] 本稿では,ミラー・ディフレッシュ・アップデート (MD) とそれに関連する新しい一般化指数勾配 (GEG) アルゴリズムの提案と検討を行う。
提案アルゴリズムはエントロピーMDの拡張と乗算更新の一般化とみなすことができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:50:07 GMT)
Simulating Automotive Radar with Lidar and Camera Inputs [14.2] 低コストのミリメートルレーダーは、自動運転車の悪天候や照明条件に対処する能力により、ますます注目を集めている。
本稿では,4次元ミリ波レーダ信号のシミュレートをカメラ画像,光検出・測光(ライダー)点雲,エゴ速度を用いて行う新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:59:43 GMT)
Investigating Gender Euphoria and Dysphoria on TikTok: Characterization and Comparison [14.2] 本稿は、TikTok上のオンラインコミュニティがこれらの2種類のジェンダー体験についてどのように議論しているかを分析するために、ジェンダー・ユーポアとジェンダー・ジフォアに関する最近の研究を拡張した。
以上の結果から、ビデオのコメントとコンテンツクリエーターのハッシュタグの両方において、性嫌悪を表現するための単語の類似性が示唆された。
以上の結果から,性差は性差よりもトランスフェミニンの体験と男性的経験の類似した用語で説明され,性差は性差経験と移行目標によってより区別されると考えられる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:27:06 GMT)
A Survey on Knowledge-Oriented Retrieval-Augmented Generation [14.2] 近年,RAG (Retrieval-Augmented Generation) が注目されている。
RAGは大規模検索システムと生成モデルを組み合わせる。
動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:59:35 GMT)
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning [13.9] SurgSAM2 は SAM2 と EFP (Efficient Frame Pruning) 機構を併用した高度なモデルであり,リアルタイムな手術ビデオ分割を容易にする。
SurgSAM2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
実験の結果,SurgSAM2 は SAM2 と比較して 3$times$ FPS を達成できた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:57:43 GMT)
Neural Network for Blind Unmixing: a novel MatrixConv Unmixing (MCU) Approach [13.9] ハイパースペクトル画像(HSI)アンミックスは難しい研究課題である。
本稿では, マトリックスコンバウンド・アンミキシング (MCU) 手法を提案する。
提案手法は, 合成データと実データの両方で有効性をテストする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:41:57 GMT)
MINT-Demo: Membership Inference Test Demonstrator [13.8] MINTは、機械学習モデルのトレーニング中に特定のデータが使用されているかどうかを実験的に判定する技術である。
一般的な顔認識モデルと2200万以上の画像を含む5つの公開データベースを用いて実験を行った。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:45:05 GMT)
Rationalization Models for Text-to-SQL [13.8] 本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。
プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。
その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:37:30 GMT)
A Theoretical Framework for Preventing Class Collapse in Supervised Contrastive Learning [13.8] 教師付きコントラスト学習(SupCL)は、表現学習において顕著なアプローチとして現れている。
本稿では,SupCLの学習表現におけるクラス崩壊を防止するためのガイドラインについて理論的に検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:17:58 GMT)
MaRI: Material Retrieval Integration across Domains [13.7] 既存の手法は、形状不変および光に照らされた材料表現をキャプチャするデータセットに依存している。
合成材料と実世界の材料間の特徴空間ギャップを橋渡しするフレームワークであるMaRIを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:23:11 GMT)
Near-Optimal Sample Complexity for Iterated CVaR Reinforcement Learning with a Generative Model [13.6] リスクに敏感な強化学習(RL)のサンプル複雑性問題を生成モデルを用いて検討する。
一定のリスクレベルが$0tauleq 1$の場合、上と下の境界は一致し、分析の厳密性と最適性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:31:03 GMT)
Dynamic DBSCAN with Euler Tour Sequences [13.4] ノイズのあるアプリケーションの密度に基づく空間クラスタリング(DBSCAN)のための高速かつダイナミックなアルゴリズムを提案する。
従来のDBSCANアルゴリズムは動的データセットに適用すると計算コストが高くなる。
我々のアルゴリズムはEuler Tour Treesのデータ構造を活用し、データセット全体を再処理することなく、動的なクラスタリング更新を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:08:39 GMT)
KAHANI: Culturally-Nuanced Visual Storytelling Tool for Non-Western Cultures [13.3] 我々は、非西洋文化のための文化的根拠のあるビジュアルストーリーを生成する「カハニ」と呼ばれるビジュアルストーリーテリングツールを開発した。
思考の連鎖(CoT)とT2Iプロンプト技術を用いて、ユーザのプロンプトから文化的文脈を捉え、キャラクターやシーン構成の鮮明な記述を生成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:10:57 GMT)
Gait in Eight: Efficient On-Robot Learning for Omnidirectional Quadruped Locomotion [13.3] On-robot Reinforcement Learning(オンロボット強化学習)は、脚のあるロボットの体格認識ポリシーを訓練するための有望なアプローチである。
実時間トレーニングのわずか8分で,四足歩行を効率よく学習する枠組みを提案する。
屋内と屋外の異なる環境におけるアプローチの堅牢性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:32:06 GMT)
Multiple Testing of Linear Forms for Noisy Matrix Completion [13.3] 急激な新しい統計値を持つ個別試験のための新しい統計値を導入することで、難易度を克服する一般的な手法を開発する。
ほぼ最適なサンプルサイズ条件下で、有効FDR制御が保証されたパワーで達成可能であることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:50:56 GMT)
Two-Dimensional Deep ReLU CNN Approximation for Korobov Functions: A Constructive Approach [13.2] 本稿では,2次元(2次元)深部畳み込みニューラルネットワーク(CNN)の近似能力について検討する。
我々は,ゼロパディングとReLUアクティベーションを備えた多チャンネル畳み込み層と,完全に接続された層とからなる2次元CNNに焦点を当てた。
本研究では,コロボフ関数を近似するために2次元CNNを構築するための完全な構成的手法を提案し,構築されたネットワークの複雑さを厳密に解析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:15:09 GMT)
OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning [13.2] 本稿では,レトリバーを調整してコンテキスト内の関連性を捉えることで,エンドツーエンドに最適化されたRAGフレームワークであるOpenRAGを紹介する。
幅広いタスクにわたる実験により、OpenRAGは、レトリバーをエンドツーエンドにチューニングすることで、元のレトリバーよりも4.0%の一貫した改善をもたらすことを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:04:05 GMT)
Coefficient-to-Basis Network: A Fine-Tunable Operator Learning Framework for Inverse Problems with Adaptive Discretizations and Theoretical Guarantees [13.1] Coefficient-to-Basis Network (C2BNet)は、演算子学習パラダイム内の逆問題を解決するための新しいフレームワークである。
C2BNetは、事前訓練されたモデルを使用して、微調整によって異なる離散化に効率的に適応する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:34:38 GMT)
Statistical Guarantees of Group-Invariant GANs [13.1] 本稿では,GAN(Generative Adversarial Network)について検討し,モデルに対称性を組み込んだ場合の利得を定量化する。
群不変 GAN は、ジェネレータと判別器が群対称性で固定された GAN の一種である。
この研究は、スコアベースの生成モデルのようなグループ対称性を持つ他の生成モデルの研究にも光を当てている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:11:23 GMT)
How good is PAC-Bayes at explaining generalisation? [13.1] 我々はPACベイズが有意義な一般化を保証するために必要な条件について議論する。
本分析により, 最適一般化保証は, 先行分布によるリスク分布のみに依存することが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:51:21 GMT)
Unsupervised Time Series Anomaly Prediction with Importance-based Generative Contrastive Learning [13.1] 時系列異常予測は、環境防止やサイバー物理システムの早期維持など、多くの現実のシナリオにおいて重要な役割を果たす。
既存の時系列異常予測手法は、主に手動でラベル付けされた大量のデータで教師付きトレーニングを必要とする。
本稿では,教師なし時系列異常予測の新しい問題について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:46:34 GMT)
User-Preference Meets Pareto-Optimality: Multi-Objective Bayesian Optimization with Local Gradient Search [13.1] PUB-MOBO(Presistal-utility- Balanced MOBO)を提案する。
PUB-MOBOは、ユーティリティベースのMOBOとローカルなマルチ段階の降下を組み合わせ、ユーザの好むソリューションをほぼパレート最適に洗練する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:21:02 GMT)
What Information Contributes to Log-based Anomaly Detection? Insights from a Configurable Transformer-Based Approach [13.0] ログデータのセマンティック、シーケンシャル、時間的情報をキャプチャするトランスフォーマーに基づく異常検出モデルを提案する。
入力特徴の組み合わせの異なる実験を行い、異常検出における異なる種類の情報の役割を評価する。
その結果, 事象発生情報は異常を識別する上で重要な役割を担っていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:55:49 GMT)
SparseVoxFormer: Sparse Voxel-based Transformer for Multi-modal 3D Object Detection [12.9] 従来の3Dオブジェクト検出手法では,Bird's Eye View (BEV) 空間を中間特徴表現として用いた。
本稿では,LiDAR点クラウドデータのスパース性に着目した。
SparseVoxFormerと呼ばれる3次元オブジェクト検出のための新しいスパースボクセルベースのトランスフォーマーネットワークを導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:52:25 GMT)
Do computer vision foundation models learn the low-level characteristics of the human visual system? [12.9] DINOやOpenCLIPといったコンピュータビジョンファウンデーションモデルは、大規模な画像データセット上で自己監督的な方法で訓練される。
自然画像に基づいて訓練された基礎モデルが、人間の視覚システムの低レベル特性の一部を模倣しているかどうかという問題に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:52:23 GMT)
LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification [12.9] CIBERはRetrieval-Augmented Generation (RAG)フレームワークの拡張であり、科学的クレーム検証の証拠としてコロンボレーと反証文書を識別する。
大規模言語モデル(LLM)の行動解析に焦点をあてることで、CIBERはホワイトボックスモデルとブラックボックスモデルの両方に適用できる。
言語能力の異なるLLMを用いて総合評価を行った結果,従来のRAG法と比較してCIBERの優れた性能が示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:29:50 GMT)
SKALD: Learning-Based Shot Assembly for Coherent Multi-Shot Video Creation [12.9] 候補画像からコヒーレントなビデオシーケンスを構成するマルチショットビデオアセンブリであるSKALDを提案する。
我々は、複数のショットと学習クリップアセンブリスコアで導かれる効率的なビーム探索アルゴリズムを組み合わせるという指数関数的な複雑さに対処する。
VSPDと当社のキュレートしたMSV3Cデータセットの実験により、SKALDはIoUで最大48.6%の改善を実現し、最先端の手法よりも43%高速化された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:25:44 GMT)
OLMD: Orientation-aware Long-term Motion Decoupling for Continuous Sign Language Recognition [12.9] 連続手話認識における主要な課題に対処するために,オブジェクト指向を意識した長期運動デカップリング(OLMD)を提案する。
OLMDは、長期動作を効率よく集約し、多方向信号を容易に解釈可能なコンポーネントに分解する。
結果:OLMDは,PHOENIX14,PHOENIX14-T,CSL-Dailyの3つの大規模データセット上でのSOTA性能を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:20:06 GMT)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.9] 大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:29:55 GMT)
CAD-Recode: Reverse Engineering CAD Code from Point Clouds [12.9] 3D CADリバースエンジニアリングは、点雲などの3D表現からスケッチとCAD操作シーケンスを再構成する。
提案したCAD-Recodeは,ポイントクラウドをPythonコードに変換することで,CADモデルを再構築する。
CADPythonのコード出力は既製のLCMで解釈可能であることを示し、CAD編集とCAD固有の問合せをポイントクラウドから行うことができることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:54:17 GMT)
Decoding Echo Chambers: LLM-Powered Simulations Revealing Polarization in Social Networks [12.8] ソーシャルメディアがエコーチャンバーなどの重要な問題に与える影響に対処する必要がある。
伝統的な研究はしばしば感情的な傾向や意見の進化を数字や公式に単純化する。
偏光現象の評価と対策を行うために, LLM を用いた社会意見ネットワークのシミュレーションを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:44:27 GMT)
Transformers are Provably Optimal In-context Estimators for Wireless Communications [12.8] マルチ層変換器は文脈内推定問題を効率的に解くことができることを示す。
また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:24:05 GMT)
RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding [12.6] 提案するRAG-Adapterは,与えられた質問に最も関係のあるフレームをサンプリングすることで,テスト中の情報損失を低減するためのプラグイン・アンド・プレイ・フレームワークである。
また、RAG-Adapterのサンプリング効率をさらに高めるために、GCL(Grouped-supervised Contrastive Learning)手法も導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:10:43 GMT)
Cross-Examiner: Evaluating Consistency of Large Language Model-Generated Explanations [12.6] 大規模言語モデル(LLM)は、精度と透明性を高めるために出力を説明するように求められることが多い。
証拠は、これらの説明がモデルの真の推論過程を誤って表現できることを示唆している。
本稿では、モデルによる初期質問の説明に基づいて、フォローアップ質問を生成する新しい方法であるクロスアナライザを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:50:43 GMT)
Hierarchical Contact-Rich Trajectory Optimization for Multi-Modal Manipulation using Tight Convex Relaxations [12.6] 本稿では,ロボット,オブジェクト,コンタクトの軌跡を効率的に設計し,コンタクトリッチな操作を行うための新しい枠組みを提案する。
本研究では,Mixed-Integer Linear Program (MILP) がロボットとオブジェクト間の最適な接触を選択する階層的最適化フレームワークを提案する。
我々は,MILPがより厳密な解を提供できるようなバイナリ符号化技術を用いて,双線形制約の凸緩和を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:40:23 GMT)
Inferring Input Grammars from Code with Symbolic Parsing [12.6] 一般的なテスト生成技術は、サンプル入力に依存しており、マッチした文法に抽象化され、テストカバレッジによってガイドされる/または進化する。
本研究では,降下符号から入力文法を記号的に自動生成する最初の手法を提案する。
結果として得られる文法は入力空間全体をカバーし、包括的で効果的なテスト生成、リバースエンジニアリング、ドキュメントを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:40:56 GMT)
LiSu: A Dataset and Method for LiDAR Surface Normal Estimation [12.3] 地上の真理面の正規アノテーションを付加した,最初の大規模合成LiDAR点クラウドデータセットLiSuを提案する。
また、自律運転データの時間特性を利用して、表面正規推定精度を向上させる新しいアノテート手法を提案する。
我々は,LiDAR表面の正規化評価において,LiSuに対する手法の有効性を実証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:35:22 GMT)
GBlobs: Explicit Local Structure via Gaussian Blobs for Improved Cross-Domain LiDAR-based 3D Object Detection [12.3] ドメイン一般化は、そのようなドメインシフトに不変な検出器を訓練することによってこれを緩和することを目的としている。
本稿では,特にガウスブロブ(GBlob)で点雲近傍を符号化することで,DGの明示的な局所点雲構造を利用することを提案する。
提案する定式化は極めて効率的であり,追加のパラメータを必要としない。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:29:56 GMT)
A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects [12.3] 本稿では,Wi-Fiセンサの一般化に関する200以上の研究を概観する。
我々は、環境変動の悪影響を軽減するために使用される最先端技術を分析した。
マルチモーダルアプローチや大規模言語モデルの統合など,新たな研究方向性について論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:18:20 GMT)
SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models [12.3] マルチレベル表現制約を強制する階層的アライメントフレームワークであるSARAを紹介する。
ImageNet-256の実験では、SARAはREPAの2倍の速さで1.36のFIDを達成した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:17:32 GMT)
Is Limited Participant Diversity Impeding EEG-based Machine Learning? [12.3] 脳波記録を小さなセグメントに分割してサンプル数を増やすのが一般的である。
我々はこれをマルチレベルデータ生成プロセスとして概念化し、モデル性能のスケーリング挙動について検討する。
次に、同じフレームワークを使用して、限られたデータ問題に対処するために設計されたさまざまなML戦略の有効性を調査します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:04:59 GMT)
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR [12.2] 近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データによる自動音声認識システムの訓練データの増加が注目されている。
我々は,最近提案されたフローベースTS/VCモデルを活用し,複数のASRモデルにより達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:09:06 GMT)
Enhancing Autonomous Navigation by Imaging Hidden Objects using Single-Photon LiDAR [12.2] 単一光子LiDARを用いたNon-Line-of-Sight(NLOS)センシングによる視認性の向上と自律ナビゲーションの向上を目的とした新しいアプローチを提案する。
本手法は,マルチバウンス光情報を利用することで,移動ロボットを「隅々まで見る」ことを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:10:27 GMT)
Experimental observation of Dirac exceptional point [12.1] 異常点(EP)は、材料の出現する現象を解釈し、装置の革新的な機能を実現するために重要である。
本稿では,ダイヤモンド中の窒素空孔中心を利用した新しいタイプのEPであるDirac EPについて報告する。
このエキゾチックなバンドトポロジーは通過時の対称性の保存を可能にし、非エルミート系における断熱進化を達成することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:50:18 GMT)
FP3: A 3D Foundation Policy for Robotic Manipulation [12.1] ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。
わずか80のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学ぶことができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:01:08 GMT)
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [12.0] Embodied Mobile Manipulation in Open Environments (EMMOE) を導入する。
EMMOEは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合する。
さらに,DPO(Direct Optimization Preference)と軽量ナビゲーションおよび操作モデル,複数エラー検出機構を備えた高度なエージェントシステムであるHomieBotを設計した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:42:36 GMT)
Differentially Private Compression and the Sensitivity of LZ77 [12.0] 我々は、人気のある"Compress-Then-Encrypt"フレームワークの安全性の欠如を動機とする、差分プライベートなデータ圧縮方式について検討する。
提案した差分圧縮-Then-Encryptフレームワークでは、圧縮されたファイルにランダムな正のパディングを加え、漏洩が厳密なプライバシー保証を満たすことを保証する。
我々の主な技術的貢献は、LZ77圧縮スキームの微粒化感度を分析することである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:03:39 GMT)
Heterogeneous Graph Structure Learning through the Lens of Data-generating Processes [11.8] 観測データからグラフ構造を推定することは、グラフ機械学習における重要なタスクである。
本稿ではヘテロジニアスグラフ構造学習(HGSL)の最初のアプローチを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:14:53 GMT)
Diffusion Transformer Meets Random Masks: An Advanced PET Reconstruction Framework [11.7] 本研究ではDREAM(Diffusion tRansformer mEets rAndom Masks)と呼ばれる高度なPET再建フレームワークを提案する。
我々の知る限りでは、これはマスク機構をシングラム領域と潜在空間の両方に統合する最初の試みである。
実験の結果,DREAMは再建PET画像の全体的な品質を向上するだけでなく,臨床的詳細も保存することが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:50:50 GMT)
Language-Depth Navigated Thermal and Visible Image Fusion [11.5] 既存の熱可視画像融合は、主に検出タスクに焦点を当てており、深さなどの他の重要な情報を無視している。
テキスト誘導・深度駆動型赤外線・可視画像融合ネットワークを提案する。
これは、自律運転や救助任務のようなアプリケーションにおける正確な認識と効率的な操作をサポートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:55:22 GMT)
ComicsPAP: understanding comic strips by picking the correct panel [11.5] ComicsPAPは、コミックストリップ理解のために設計された大規模なベンチマークである。
評価の結果,現状のLMMはこれらのタスクにほぼ近い確率で実行可能であることがわかった。
漫画のストリップ理解にLMMを適用し,ComicsPAPの10倍のモデルよりも優れた結果を得た。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:50:20 GMT)
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.5] 本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:13:11 GMT)
PaCA: Partial Connection Adaptation for Efficient Fine-Tuning [11.4] モデルにアダプタ層を導入する代わりに、事前訓練した重み内でランダムに選択された部分接続を微調整するPAAを提案する。
LoRAと比較して、PaCAはトレーニング時間を22%削減し、メモリ使用量は16%削減した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:24:13 GMT)
Source-free domain adaptation based on label reliability for cross-domain bearing fault diagnosis [11.4] ソースフリードメイン適応(SFDA)は、ソースデータにアクセスすることなく、ドメイン間の障害診断に活用されている。
本研究では, 信頼性と信頼性の低い疑似ラベルを併用した, 異常診断のための新しいSFDAベースのアプローチを提案する。
本手法は,既存のSFDAベースのベアリング障害診断法に対して,大幅な性能向上を実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:02:18 GMT)
U-StyDiT: Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers [11.4] 変換器を用いた拡散(DiT)に基づく新しい芸術的イメージスタイル転送手法U-StyDiTを提案する。
まず,MSM(Multi-view Style Modulator)を設計し,局所的およびグローバル的視点からスタイル画像からスタイル情報を学習する。
次に,スタイル画像からコンテンツとスタイル条件を同時に学習するStyDiTブロックを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:12:38 GMT)
Deep Perceptual Enhancement for Medical Image Analysis [11.4] 本研究では,医療画像解析タスクの高速化にエンド・ツー・エンド・ラーニング・ストラテジーを導入することで,このような低品質な画像を改善することを提案する。
最大の懸念は、知覚の増強に包括的に取り組む医療画像における最初の研究である。
提案手法は, 医用画像解析タスクの性能を大幅に向上させ, 実世界の応用においてそのような拡張手法の可能性を明らかにする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:20:16 GMT)
ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification [11.3] モデルパラメータの桁違いの差を評価できる多スペクトル変圧器モデル群を提案する。
UNetなど,従来のアーキテクチャよりも桁違いに大きいモデルでは,精度が大幅に向上することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:24:50 GMT)
Quantum detection of millimeter wave electric fields with driving surface-state electrons [11.3] 量子干渉法を用いてミリ波の電界を感度的に検出するスピンベース受信機を提案する。
提案した量子センサは、液体ヘリウム膜底部の電極ネットワークにより、液体ヘリウム上に個別に閉じ込められた多くの表面状態電子から構成される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:29:05 GMT)
Quantum squeezing amplification with a weak Kerr nonlinear oscillator [11.3] 超伝導マイクロ波空洞におけるKerr非線形性の弱い圧縮状態の生成と増幅を実証した。
ハードウェア効率のよい変位拡大操作は、大きな圧縮状態を生成する代替経路を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:02:27 GMT)
Backtracking for Safety [11.1] 大規模言語モデル(LLM)は、様々なタスクにわたって顕著な能力を示してきたが、その安全性と人間の価値との整合性は依然として不可欠である。
教師付き微調整や強化学習に基づくアプローチのような現在の安全アライメント手法は、敵の攻撃に対する脆弱性を示す可能性がある。
本稿では,これらの制約に対処する新しいバックトラック手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:04:22 GMT)
OASIS: Order-Augmented Strategy for Improved Code Search [11.1] コード検索の改善のための新しい秩序強化戦略を提案する。
オーダーベースの類似性ラベルを活用してモデルをトレーニングし、負のペア間の類似性の微妙な違いを捉えます。
これは、効果的なコード埋め込みトレーニングのために、オーダラベルと負のペア間の微妙な違いを利用する価値を強調している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:26:37 GMT)
FairDeFace: Evaluating the Fairness and Adversarial Robustness of Face Obfuscation Methods [11.1] 本稿では,顔難読化手法の対向的堅牢性と公正性を評価するためのフレームワークであるFairDeFaceを紹介する。
このフレームワークは、データベンチマーク、顔検出および認識アルゴリズム、敵モデル、ユーティリティ検出モデル、公正度メトリクスを含む一連のモジュールを導入している。
現在の実装では、FairDeFaceには6つの攻撃と、いくつかのプライバシ、ユーティリティ、フェアネスのメトリクスが組み込まれている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:49:43 GMT)
IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models [11.1] 大規模言語モデル(LLM)はデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。
本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。
IRepairはエラーを43.6%効率よく修復する一方で,一般性能の46%低下を招いた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:08:05 GMT)
ARCHED: A Human-Centered Framework for Transparent, Responsible, and Collaborative AI-Assisted Instructional Design [11.0] ARCHEDは、AI能力を活用しながら、人間の教育者が設計プロセスの中心に留まることを保証するフレームワークである。
このフレームワークは専門的なAIエージェントを統合しており、ひとつは多様な教育的選択肢を生成し、もうひとつは学習目標との整合性を評価する。
実証的な評価によると、ARCHEDは教育者の監督を保ちながら、教育におけるAI統合の責任を負うための一歩として、教育設計の質を高める。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:19:46 GMT)
LLM-HDR: Bridging LLM-based Perception and Self-Supervision for Unpaired LDR-to-HDR Image Reconstruction [11.0] 本稿では,Large Language Models (LLM) の知覚を改良したセマンティックアーティファクト・一貫性のある対角的アーキテクチャに統合する手法を提案する。
本手法は,複数のベンチマークデータセットにまたがって最先端の性能を達成し,高品質なHDR画像の再構成を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:46:42 GMT)
Privacy for Free: Leveraging Local Differential Privacy Perturbed Data from Multiple Services [10.8] ローカル微分プライバシー(LDP)は、現代のデータ分析において広く採用されているプライバシー保護技術である。
本稿では,複数のサービスからの摂動情報に基づいてデータを収集・集約するフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:10:03 GMT)
Task-Oriented Co-Design of Communication, Computing, and Control for Edge-Enabled Industrial Cyber-Physical Systems [10.8] 本稿では,ミッションクリティカルな産業用サイバー物理システムにおける帯域制限,ノイズ干渉,遅延といった課題に対処するタスク指向の協調設計フレームワークを提案する。
Information Bottleneck (IB) を用いたタスク指向のジョイントソースチャネル符号化(JSCC)を設計する。
認識するエンド・ツー・エンド(E2E)遅延を軽減するため,遅延対応軌道誘導制御予測(D TCP)を開発した。
CARLAシミュレータの実験結果によると、E2Eの遅延が1秒(20タイムスロット)である場合、提案手法が提案される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:50:23 GMT)
Robust Unsupervised Fault Diagnosis For High-Dimensional Nonlinear Noisy Data [10.8] 本稿では,機械学習を用いたロバストな教師なし故障診断手法を提案する。
抽出された特徴は、グラフ構造の学習を通じて非線形情報を組み込むことにより強化される。
ベンチマークテネシー・イーストマン法と実熱間圧延法の両方の実験により, 提案法は他の方法と比較して高い堅牢性を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:55:46 GMT)
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits [10.8] LinMEDは、アームサンプリング確率のクローズドフォーム計算を許容するランダム化アルゴリズムである。
我々の実証研究は、LinMEDが最先端のアルゴリズムと競合する性能を持っていることを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:07:55 GMT)
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.7] リモートセンシング画像における物体検出のための視覚モデルの適用について検討する。
従来のアノテーション情報を自然言語に変換し,VLMトレーニングのための命令調整データセットを構築する。
次に、VLMの様々な微調整戦略の検出性能を評価し、リモートセンシング画像における物体検出のための最適化されたモデル重みを求める。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:02:54 GMT)
Beam Selection in ISAC using Contextual Bandit with Multi-modal Transformer and Transfer Learning [10.7] 第6世代 (6G) 無線技術は, インテグレート・センシング・コミュニケーション (ISAC) をトランスフォーメーションパラダイムとして導入する予定である。
本稿では、ISACセンシングデータを利用して複雑な屋内環境におけるビーム選択プロセスを強化する先駆的なフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:35:19 GMT)
Chemistry-Inspired Diffusion with Non-Differentiable Guidance [10.6] 拡散モデルの最近の進歩は、新しい分子の条件生成に顕著な可能性を示している。
本研究では, 量子化学の領域知識を微分不可能なオラクルとして活用し, 非条件拡散モデルを導出する手法を提案する。
オラクルはニューラルネットワークに頼る代わりに、推定勾配の形で正確なガイダンスを提供し、量子化学によって指定された条件分布から拡散過程をサンプリングすることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:58:58 GMT)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.5] 本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:34:16 GMT)
Keypoint Detection and Description for Raw Bayer Images [10.4] キーポイント検出と局所的特徴記述は、ロボット知覚における基本的なタスクであり、SLAM、ロボットのローカライゼーション、特徴マッチング、ポーズ推定、および3Dマッピングのようなアプリケーションに不可欠である。
既存の手法は主にRGB画像で動作するが,画像信号処理(ISP)の必要性を回避して,生画像を直接処理する新しいネットワークを提案する。
この研究は、生画像に特化してキーポイント検出と特徴記述ネットワークを開発する最初の試みであり、リソース制約のある環境に対してより効率的なソリューションを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:54:12 GMT)
LabelCoRank: Revolutionizing Long Tail Multi-Label Classification with Co-Occurrence Reranking [10.4] 長い尾の課題は、より頻度の低いラベルを正確に分類することの難しさを持続的に引き起こしている。
本稿では、ランキング原理に触発された新しいアプローチであるLabelCoRankを紹介する。
LabelCoRankは、マルチラベルテキスト分類における長い尾の問題を効果的に緩和する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:52:39 GMT)
Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.3] 我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。
LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。
重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:47:13 GMT)
Convergence Dynamics and Stabilization Strategies of Co-Evolving Generative Models [10.3] 反復的なフィードバックによって互いのトレーニングを形作る共進化生成モデルについて検討する。
これはソーシャルメディアプラットフォームのようなマルチモーダルAIエコシステムで一般的である。
我々は、現実世界の外部影響によって暗黙的に導入された安定化戦略を分析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:30:25 GMT)
Neurosymbolic Decision Trees [10.2] 我々はニューロシンボリック決定木(NDT)を,NeSy構造学習アルゴリズムとともに,決定木の拡張として導入する。
NeuID3は決定木アルゴリズムの標準トップダウン誘導に適応し、神経確率論理表現と組み合わせる。
我々は、ニューラルネットワークによる純粋にデータ駆動学習のような、よりトラジトナルなアプローチによるNeSys構造学習の利点を実証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:40:38 GMT)
DyArtbank: Diverse Artistic Style Transfer via Pre-trained Stable Diffusion and Dynamic Style Prompt Artbank [10.2] アートスタイルの転送は、学習したスタイルを任意のコンテンツイメージに転送することを目的としている。
既存のスタイル転送手法の多くは、一貫した芸術的なスタイル化画像のみを描画できる。
そこで我々はDyArtbankという,多彩でリアルな芸術的スタイルのイメージを生成可能な,新しい芸術的スタイルのトランスファーフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:56:47 GMT)
MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods [10.1] MambaはTransformersと競合する効率的なシーケンスモデルである。
CNNやTransformerモデルに有効な既存の量子化手法は、Mambaでは不十分である。
本稿では,(1)KLT(Karhunen-Loeve Transformation)拡張回転,(2)チャネル分布に適応可能な回転行列の描画,(2)チャネルの分散を等化して,追加パラメータをモデル重みにマージする,といった学習後の量子化フレームワークであるMambaQuantを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:49:47 GMT)
Unsupervised Graph Embeddings for Session-based Recommendation with Item Features [10.1] セッションベースのレコメンデーションシステムでは、予測はセッションにおけるユーザの前の振る舞いに基づいて行われる。
本稿では,グラフ表現にアイテム機能を直接組み込んだ新しいグラフ畳み込みネットワーク拡張法(GCNext)を提案する。
我々の柔軟な拡張は最先端のメソッドに簡単に組み込むことができ、MRR@20を最大12.79%向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:52:16 GMT)
Functional Unit: A New Perspective on Materials Science Research Paradigms [10.1] 機能単位は、材料構造-プロパティ相関と知識継承の理解のギャップを埋める。
各種材料システムにおける機能単位のキャラクタリゼーションの最近の進歩に注目した。
材料科学の新しいAI駆動パラダイムへの機能ユニットの統合について論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:12:17 GMT)
Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [10.0] 本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:21:57 GMT)
TLA: Tactile-Language-Action Model for Contact-Rich Manipulation [10.0] 本稿では,触覚フィードバックの逐次処理をモーダル言語間接地により行う,触覚・言語・行動モデルを提案する。
指先ペグ・イン・ホール・アセンブリ用にカスタマイズされた24万組の触覚行動指示データを含む包括的データセットを構築した。
その結果,TLAは,効果的な行動生成と行動精度の観点から,従来の模倣学習法よりも優れていた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:36:28 GMT)
Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection [10.0] PETRフレームワークの重要なコンポーネントを再設計する量子化対応位置埋め込み変換であるQ-PETRを提案する。
Q-PETRは、標準的な8ビットのトレーニング後量子化の下で、1%未満の性能低下を伴う浮動小数点性能を維持している。
FP32と比較して、Q-PETRは2倍のスピードアップを実現し、メモリ使用量を3倍削減する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:05:41 GMT)
Secret-Key Agreement Using Physical Identifiers for Degraded and Less Noisy Authentication Channels [10.0] 生体認証や物理的識別子に基づく秘密鍵契約は、ユーザやデバイスを小さなチップで認証するための有望なセキュリティプロトコルである。
過去の研究では、そのようなプロトコルの基本的限界が分析された。
キャパシティ領域の式に1つの補助的ランダム変数のみを必要とする認証チャネルのクラスを探索する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:25:48 GMT)
Variance-Aware Linear UCB with Deep Representation for Neural Contextual Bandits [9.9] ニューラルアッパー信頼バウンド(UCB)アルゴリズムは、文脈的帯域幅で成功している。
本稿では,$sigma2_t$,すなわちラウンド$t$における報奨雑音の上限値を利用する分散認識アルゴリズムを提案する。
我々は,本アルゴリズムのオラクル版として,オラクル分散上界$sigma2_t$と,この分散境界に対する新しい推定値を持つ実用版を特徴とする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:32:48 GMT)
Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments [9.9] 本稿では,世界安定という特性に着目し,世界モデルにおけるコンテンツ保存能力の向上に関する新しい研究について述べる。
近年の拡散型生成モデルでは、強化学習や対話型ゲームエンジンなどの応用において重要な没入型および現実的な環境の合成が進んでいる。
本研究では、世界モデルに一連のアクションを実行させ、その逆で初期視点に戻すことで、世界安定性を測定するための評価フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:38:11 GMT)
Ev-Layout: A Large-scale Event-based Multi-modal Dataset for Indoor Layout Estimation and Tracking [9.8] 本稿では,屋内レイアウト推定と追跡を目的とした大規模イベントベースマルチモーダルデータセットであるEv-を提案する。
データセットは、771.3K RGBイメージと100億のイベントデータポイントを含む2.5Kシーケンスで構成されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:26:39 GMT)
Trend-Aware Supervision: On Learning Invariance for Semi-Supervised Facial Action Unit Intensity Estimation [9.8] 本研究は,3種類のトレンド意識を追求するtextbfTrend-textbfAware textbfSupervision(TAS)を提案する。
TASは、トレーニング中の傾向認識を高めて、対応する顔の外観変化を表すAU固有の特徴を学習することにより、素早い相関問題を緩和する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:21:09 GMT)
XAI4Extremes: An interpretable machine learning framework for understanding extreme-weather precursors under climate change [9.8] 気候変動により、極度の気象現象は頻度と強度が増している。
数値気象予測や人工知能ツールの進歩に伴い予測スキルが向上している一方で、極端な気象は依然として課題を呈している。
本稿では,深層学習モデルで同定された極端ウェザー前駆体を示す関係気象図を構築するために,ポストホック解釈可能性法を提案する。
次に、これらの関係マップを異なる複数年周期にまとめて、気候変動がこれらの前駆体に与える影響を理解する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:27:08 GMT)
Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning [9.8] 設計による「本質的に」解釈可能なモデルの敵の操作に対する過度信頼と感受性に関連するリスクを強調した。
潜伏プロトタイプの使用によってモデルの推論を養うことは、ディープニューラルネットワークの本質的非解釈可能性を示す。
プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性に疑問が投げかけられた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:24:33 GMT)
Towards a Formal Foundation for Blockchain Rollups [9.8] ZK-Rollupsは、トランザクションをオフチェーンで処理し、メインチェーンで検証することで、課題に対処することを目指している。
本研究は,アロイ仕様言語を用いて,鍵層2の機能の検証と設計を行う形式解析である。
我々は、セキュリティと検閲に対する抵抗を強化するための強化されたモデルを提案し、ロールアップのセキュリティのための新しい標準を設定した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:36:54 GMT)
T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.7] T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:47:57 GMT)
A Deep Bayesian Nonparametric Framework for Robust Mutual Information Estimation [9.7] 相互情報(MI)は、変数間の依存関係をキャプチャするための重要な手段である。
正規化を組み込むためにディリクレ過程後部の有限表現でMI損失を構成することでMI推定器を訓練するソリューションを提案する。
データ空間と変分オートエンコーダの潜時空間の間のMIを最大化するための推定器の適用について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:27:48 GMT)
X-SHIELD: Regularization for eXplainable Artificial Intelligence [9.7] XAIは、その説明可能性を高めながら、モデルパフォーマンスを改善するために使用することができる。
このファミリー内では、説明可能な人工知能の正規化であるXAI-ShiELD(X-SHIELD)を提案する。
この改善は、X-SHIELD正則化の有無とモデルの比較実験によって検証される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:24:01 GMT)
Agentic Bug Reproduction for Effective Automated Program Repair at Google [9.6] 本稿では,業界,特にGoogleにおけるBRTの自動生成について検討する。
我々は、最先端のBRT生成技術であるLIBROを適応し、評価し、エージェントベースのアプローチであるBRT Agentを提示する。
以上の結果から,APRシステムにBRTを提供することで,バグが30%増えることが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:30:46 GMT)
From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization [9.6] 人物再識別(ReID)は、正確な識別表現の特徴を抽出することを目的としている。
個人ノイズを低減するための訓練自由特徴集中型ReIDフレームワーク(Pose2ID)を提案する。
提案手法は, 標準, クロスモダリティ, 隠蔽されたReIDタスクにまたがって, 最先端の新たな結果を設定する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:09:17 GMT)
Learning Gaussian Multi-Index Models with Gradient Flow: Time Complexity and Directional Convergence [9.6] この研究は、相関損失を用いてマルチインデックス関数を近似するニューラルネットワークモデルのフローダイナミクスに焦点を当てる。
指数ベクトル間のドット積が一定の閾値を超えると、相関損失は失敗することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:45:11 GMT)
Code Digital Twin: Empowering LLMs with Tacit Knowledge for Complex Software Maintenance [9.6] 我々は,暗黙的知識の概念表現である textbfCode Digital Twin の概念とフレームワークを紹介する。
コードデジタルツインは、構造化ソースと非構造化ソースの両方からの知識抽出を組み合わせた方法論を用いて構築される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:46:58 GMT)
General-Purpose Aerial Intelligent Agents Empowered by Large Language Models [9.6] 本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:13:58 GMT)
Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model [9.5] 本研究は,腎の凍結凝固過程における凍結領域(アイスボール)の進行を予測するための3次元フローマッチングモデルを提案する。
このモデルは、IoU(Intersection over Union)スコアが0.61、Dice係数が0.75となる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:21:38 GMT)
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion [9.5] 本稿では,参照キャプションを入力して,特定のインスタンスのアルファマットを取得する,新しいタスクであるビデオ参照マットを提案する。
本稿では,ビデオ拡散モデルに先行するテキスト間アライメントを利用して,マットの密接な予測タスクを映像生成として扱う。
大規模なビデオ参照マッチングデータセットを1万本導入した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:12:35 GMT)
GPT-PPG: A GPT-based Foundation Model for Photoplethysmography Signals [9.4] 本研究では,光胸腺造影(PPG)信号に適したGPTモデルを提案する。
PPG信号の連続特性に適合する標準GPTアーキテクチャを適用することで,提案手法は有望な結果を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:45:31 GMT)
A Transformer Model for Predicting Chemical Reaction Products from Generic Templates [9.2] この研究は20の一般的な反応テンプレートを含むデータセットであるBroad Reaction Set (BRS)を提案する。
化学に適したT5モデルが導入され、剛性テンプレートとテンプレートフリーメソッドのバランスがとれる。
ProPreT5は、正確で有効で現実的な反応生成物を生成する能力を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:22:15 GMT)
Training Differentially Private Models with Secure Multiparty Computation [9.2] 複数のデータ所有者に起源を持つデータから機械学習モデルを学習する問題に対処する。
差分プライバシー(DP)に基づく既存のソリューションは、精度の低下を犠牲にしてこれを達成している。
提案手法はモデルトレーニングのためのMPCプロトコルと,学習したモデル係数をLaplaceノイズで摂動するMPCプロトコルに依存している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:40:52 GMT)
Sample Compression Unleashed: New Generalization Bounds for Real Valued Losses [9.2] 実数値未有界損失を抑える新しいサンプル圧縮境界を導出するための一般的な枠組みを提案する。
ランダムな森林や複数種類のニューラルネットワークで評価することで,境界の厳密さと汎用性を実証的に実証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:12:13 GMT)
Loss Gradient Gaussian Width based Generalization and Optimization Guarantees [9.1] 我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
我々の結果は、深部モデルに対する定量的に厳密な境界に対してかなり期待できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:59:31 GMT)
DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models [9.1] 本稿では,様々な対象対象カテゴリにまたがって動的アフォーダンスを学習するための新しいフレームワークを提案する。
4D HOIデータセットの不足に対処するために, 合成した4D HOIサンプルから3次元ダイナミックアベイランスを学習する。
生成的4次元物体相互作用モデルであるDAViDがHOI動作のベースラインを上回っていることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:35:21 GMT)
Gaussian Smoothing in Saliency Maps: The Stability-Fidelity Trade-Off in Neural Network Interpretability [9.1] サイレンシマップはニューラルネットワーク分類器の決定を解釈するために広く使われている。
標準地図はしばしば、トレーニングデータのランダム性やトレーニングプロセスの勾配性に非常に敏感であることが観察される。
本研究では,Smooth-Gradアルゴリズムにおけるガウス平滑化が,勾配図の安定性とトレーニングサンプルのランダム性に果たす役割について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:19:52 GMT)
Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization [9.0] 本稿では,SYMbolic tree-based on-policy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:27:09 GMT)
From Slices to Sequences: Autoregressive Tracking Transformer for Cohesive and Consistent 3D Lymph Node Detection in CT Scans [9.0] LN-トラッカー(LN-Tracker)は、関節終端検出と3Dインスタンスアソシエーションのための新しいLN追跡変換器である。
LN-Trackerはトランスフォーマーのデコーダのクエリをトラックと検出グループに分離する。
4つのリンパ節データセットの大規模な評価は、LN-Trackerの優れた性能を示し、他の上位3D/2.5D検出器と比較して、平均的な感度が2.7%向上している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:22:05 GMT)
Evaluating Interpretable Reinforcement Learning by Distilling Policies into Programs [8.9] 我々は、人間がいない政策の解釈可能性を実証的に評価する問題に取り組む。
このような明確な定義の欠如にもかかわらず、研究者は「シミュラビリティ」の概念に同意している。
この新しい手法は、我々が政策解釈可能性の大規模な実証的な評価を行うために使用するシミュラビリティのプロキシに依存している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:34:06 GMT)
Unifying Structure and Activation: A Comprehensive Approach of Parameter and Memory Efficient Transfer Learning [8.6] 本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。
提案手法は既存のPETL技術よりも優れており,GPUメモリのフットプリントの4倍の削減を実現している。
また,本手法は,ハードウェア制約デバイス上での実践的な移動学習に非常に適していることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:10:03 GMT)
Privacy Law Enforcement Under Centralized Governance: A Qualitative Analysis of Four Years' Special Privacy Rectification Campaigns [8.6] 中国は、SPRC(Special Privacy Rectification Campaigns)と呼ばれる一連のプライバシー執行キャンペーンを開始した。
SPRCは、大規模なプライバシーレビューと厳格な制裁によって特徴づけられる。
キャンペーンスタイルのプライバシ適用をよりよく理解するため,SPRCに関わるアプリ関連エンジニアに対して18回の半構造化インタビューを行った。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:56:09 GMT)
ProTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models [8.5] 大規模言語モデルは分子科学の分野で顕著な進歩を遂げた。
タンパク質科学において、アミノ酸配列はLDMの唯一のトークン化剤として機能する。
本稿では、タンパク質配列、構造、テキスト情報を統一された離散空間にトークン化する新しいフレームワークProを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:43:05 GMT)
When Discourse Stalls: Moving Past Five Semantic Stopsigns about Generative AI in Design Research [8.4] 5つの一般的な「セマンティック・ストップサイン」を特定し、分解する
より深い調査を中止し、生産的なエンゲージメントを制限するデザインにおけるGenAIに関するリダクティブなフレーミング。
これらの停止サインをより微妙なフレームワークに再キャストすることで、これらの新興技術について考え、取り組むための実践的なアプローチをデザイン研究コミュニティに提供します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:54:03 GMT)
Creating and Evaluating Privacy and Security Micro-Lessons for Elementary School Children [8.3] デジタルプライバシとセキュリティに関する話題について、小学生や中学生に限定的なカリキュラム資料が提供されている。
我々は、K--8の子供たちが学校でデジタルプライバシとセキュリティについて学ぶのを助けるために、一連のマイクロレスポンを開発した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:36:50 GMT)
Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models [8.2] Uni$textbfF2$aceは、顔のきめ細かな理解と生成に特化した最初のUMMである。
一般的に、Uni$textbfF2$aceを自己構築された特別なデータセットでトレーニングします。
Uni$textbfF2$ace-130Kの実験は、Uni$textbfF2$aceが既存のUMMや生成モデルより優れていることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:34:59 GMT)
Explaining Human Preferences via Metrics for Structured 3D Reconstruction [8.1] 本稿では,構造化3次元再構成評価のための自動計測値の詳細な評価を行う。
人間の専門的判断から抽出した学習指標を提案し,分析した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:23:29 GMT)
Computational bottlenecks for denoising diffusions [8.1] 拡散の認知は、プロセス$(hatboldsymbol x_t:tge 0)$ in $mathbb Rd$を構成することによって、確率分布$mu$ in $mathbbRd$からサンプルをサンプリングする一般的な戦略を提供する。
我々は,任意の時間計算可能なドリフトを,スコアマッチングの目的を最小限に変化させる方法で修正できることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:21:01 GMT)
Hierarchical Locality Sensitive Hashing for Structured Data: A Survey [8.0] 局所感性ハッシュ法 (LSH) は, 集合やベクトル間の類似度を正確に推定する手法として提案されている。
本稿では,階層型LSHアルゴリズムの研究の現状について述べる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:23:22 GMT)
Optical-cavity manipulation strategies of singlet fission systems mediated by conical intersections: insights from fully quantum simulations [8.0] 偏光円錐円錐-断面駆動一重項フィッション(SF)材料のシミュレーションと工学に関する理論的展望を提供する。
我々は、この分野における未解決の問題と課題の概要を述べ、今後の研究線の開発についての見解を共有します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:54:29 GMT)
Counterfactual Explanations for Model Ensembles Using Entropic Risk Measures [8.0] 対実的な説明は、機械学習モデルで異なる結果に変換できる入力の最小限の変化を示している。
本稿では,エントロピー的リスク尺度の観点から,モデルアンサンブルの正当性を見出すための新しい戦略を提案する。
リスク回避の度合いによって, 対効果のコスト(努力)とアンサンブルの妥当性のトレードオフについて検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:25:28 GMT)
Superkick Effect in Vortex Particle Scattering [7.9] 光子や電子の渦状態は、原子、原子、粒子物理学にまたがる、新しくて有望な実験ツールである。
従来の低エネルギー検出方式は、非常に短いデブロリー波長のため、高エネルギーの渦粒子には実用的ではない。
スーパーキック(superkick)と呼ばれるメカニズムに基づく新しい実験手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:47:55 GMT)
EFPC: Towards Efficient and Flexible Prompt Compression [7.9] 本稿では,タスク認識とタスク非依存の圧縮を統一する新しい手法である,効率よくフレキシブルなプロンプト圧縮(EFPC)を提案する。
EFPCはGPT-4を使用して圧縮プロンプトを生成し、トレーニング用のオリジナルのプロンプトと統合する。
最先端のLLMLingua-2と比較して、EFPCはF1スコアの4.8%の相対的な改善を達成し、4倍の圧縮レートで1%の追加データ、LongBenchシングルドックQAベンチマークで10%追加データで11.4%のゲインを得た。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:34:03 GMT)
TROI: Cross-Subject Pretraining with Sparse Voxel Selection for Enhanced fMRI Visual Decoding [7.9] fMRI(機能的磁気共鳴イメージング)視覚復号には、視覚刺激によって引き起こされる脳信号から元の画像を復号する。
本研究は, クロスオブジェクトfMRIデコードタスクのための新しい2段階データ駆動ROIラベル法であるTROIを提案する。
まず,スパースマスクトレーニングと低域通過フィルタリングを組み合わせたボクセル選択手法を提案する。
第2段階では、下流タスクの入力層を微調整するために学習率の巻き戻し戦略を適用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:44:46 GMT)
Overlap-aware meta-learning attention to enhance hypergraph neural networks for node classification [7.8] ハイパーグラフニューラルネットワーク(OMA-HGNN)のための新しいフレームワークを提案する。
まず、構造的類似性と特徴的類似性の両方を統合するハイパーグラフアテンション機構を導入し、特に、それぞれの損失をHGNNモデルの重み付け要素と線形に結合する。
第2に,ノードを様々な重複レベルに基づいて異なるタスクに分割し,対応する重み付け因子を決定するマルチタスク・メタウェイト・ネット(MWN)を開発する。
第3に、内部MWNモデルを外部HGNNモデルからの損失で共同訓練し、重み付き因子で外部モデルを訓練する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:38:39 GMT)
Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.8] 現在の評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:59:53 GMT)
Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search [7.8] LLM誘導検索フレームワーク(LLM-GS)について紹介する。
我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。
本研究では,プログラム探索空間を効率的に探索し,一貫したプログラムを改善するための探索アルゴリズムであるSchduled Hill Climbingを開発した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:52:28 GMT)
FilmComposer: LLM-Driven Music Production for Silent Film Clips [7.7] LLM方式を用いてサイレントフィルムクリップのための音楽制作を行う。
FilmComposerは、大規模な生成モデルとマルチエージェントアプローチを組み合わせた最初のものである。
MusicPro-7kには7,418本の映画クリップ、音楽、説明、リズムスポット、メインメロディが含まれている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:05:11 GMT)
SoTCKGE:Continual Knowledge Graph Embedding Based on Spatial Offset Transformation [7.7] 現在、CKGE(Continuous Knowledge Graph Embedding)メソッドは翻訳ベースの埋め込み方式に依存している。
本研究では,空間オフセット変換ベクトルに基づく新しいCKGEフレームワークを提案する。
パラメータ更新処理を洗練させるために,階層的な更新戦略とバランスの取れた埋め込み手法を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:54:03 GMT)
SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting [7.7] 本稿では,新たなVQパラダイムであるSign-Splitting VQ(SSVQ)を紹介する。
SSVQは従来のVQに比べて圧縮精度のトレードオフがかなり優れていることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:52:48 GMT)
PanoDreamer: Optimization-Based Single Image to 360 3D Scene With Diffusion [7.7] PanoDreamerは、単一の入力画像からコヒーレントな360デグ3Dシーンを作成するための新しい方法である。
この問題を単一画像パノラマと深度推定とみなす。
シーンは、小さな閉ざされた領域を3D空間に投影することで再構築することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:13:01 GMT)
Investigating Execution-Aware Language Models for Code Optimization [7.6] 本研究では,コード実行情報を言語モデルに組み込むことが,コードの最適化能力にどのように影響するかを検討する。
この結果から,コード最適化における標準のCodeT5+モデルと比較して,実行認識モデルの方がメリットが小さいことが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:46:07 GMT)
Sparsity-Induced Global Matrix Autoregressive Model with Auxiliary Network Data [7.6] 我々は、貿易ネットワークが世界経済に与える影響と国際的依存の両方を研究するためのMARモデルの拡張を提案する。
我々は、そのモデルの性質に関する理論的および実証的な分析と、興味をそそる経済的な洞察を提示する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:14:42 GMT)
Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script [7.6] 対立するテキストは、NLPの複数のサブフィールドにおいて重要な役割を果たす。
本稿では,HTL-GATについて紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:50:50 GMT)
ApproxABFT: Approximate Algorithm-Based Fault Tolerance for Neural Network Processing [7.6] 本稿では,計算誤差が大きい場合にのみエラー回復を開始するApproxABFTを提案する。
このアプローチでは、不要なリカバリ手順を回避し、エラーリカバリプロセスを合理化し、影響のあるエラーの修正に重点を置いている。
実験の結果、ApproxABFTは計算オーバーヘッドを67.83%削減し、許容ビットエラー率を平均で桁違いに改善した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:17:08 GMT)
GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation [7.5] 本研究では,多様なトラフィックシナリオに対応する動的時間的シーングラフをオンデマンドで生成し,ユーザ定義の好みに合わせて作成する手法を提案する。
時間的グラフニューラルネットワーク(GNN)モデルは、実世界の相互作用パターンによって導かれる、エゴ・車両エージェントと静的構造の関係を予測することを学習する。
予測されたシナリオをシミュレーションでレンダリングし、AVエージェントのテスト環境としての有効性をさらに実証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:22:17 GMT)
Robust Simulations of Many-Body Symmetry-Protected Topological Phase Transitions on a Quantum Processor [7.5] トポロジーと対称性は物質の量子相を特徴づける上で重要な役割を果たす。
近年の進歩により、多体系における対称性保護トポロジカル(SPT)相が明らかにされている。
量子コンピュータ上でのIsing-clusterモデルの多体基底状態のロバストなシミュレーションを実演する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:00:02 GMT)
GraphGarment: Learning Garment Dynamics for Bimanual Cloth Manipulation Tasks [7.4] GraphGarmentは、ロボット制御入力に基づいて衣服のダイナミクスをモデル化する新しいアプローチである。
我々は,ロボットのエンドエフェクタと衣料品の相互作用をグラフで表現する。
我々は6種類の衣服を用いて4つの実験を行い、シミュレーションと実世界の両方の環境で我々のアプローチを検証する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:15:22 GMT)
Hallucination Detection in Large Language Models with Metamorphic Relations [7.4] 大規模言語モデル(LLM)は幻覚を起こす傾向があり、例えば、その応答において事実的に誤った情報がある。
メタQAは, メタモルフィック関係を利用した自己完結型幻覚検出手法である。
我々は,MetaQAと最先端のゼロリソース幻覚検出手法であるSelfCheckGPTを比較し,複数のデータセットを比較した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:28:18 GMT)
Learning to Match Unpaired Data with Minimum Entropy Coupling [7.4] 最小エントロピー結合(Minimum Entropy Coupling)は、限界の制約を満たすとともに、合同エントロピーを最小化する。
本稿では、よく知られた生成拡散モデルを用いて、連続MEC問題の解法を提案する。
我々は,本手法が汎用的であり,課題解決に容易に利用できることを実証的に実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:54:14 GMT)
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness [7.4] ハードウェア記述言語(HDL)コード生成を自動化するツールとして,LLM(Large Language Models)が登場した。
資源最適化と非効率なLCM生成HDLを区別するために設計された最初のリソース指向ベンチマークであるResBenchを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:54:17 GMT)
Call for Rigor in Reporting Quality of Instruction Tuning Data [7.3] 研究は、インストラクションチューニング(IT)データの品質の重要性を強調している。
この実践から生じる潜在的な問題を実証し、データ品質を検証する上で慎重に検討する必要があることを強調する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:10:07 GMT)
Statistical and Geometrical properties of regularized Kernel Kullback-Leibler divergence [7.3] Bach [2022] が導入したカーネル共分散作用素によるクルバック・リーブラ発散の統計的および幾何学的性質について検討する。
密度比を含む古典的なクルバック・リーブラー(KL)の発散とは異なり、KKLは再現可能なカーネルヒルベルト空間(RKHS)における共分散作用素(埋め込み)による確率分布を比較する。
この斬新な発散は、確率分布と最大平均誤差のようなカーネル埋め込みメトリクスの間の標準のクルバック・リーバーと平行だが異なる側面を共有する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:23:23 GMT)
CQVPR: Landmark-aware Contextual Queries for Visual Place Recognition [7.3] 都市環境のようないくつかのシナリオでは、多くのランドマークがあり、異なる都市のランドマークは、しばしば高い視覚的類似性を示す。
本稿では,コンテキスト情報と詳細なピクセルレベルの視覚的特徴を統合するコンテキストクエリVPR(CQVPR)を提案する。
学習可能なコンテキストクエリのセットを活用することで,ランドマークとその周辺領域に関する高レベルのコンテキストを自動的に学習する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:32:50 GMT)
Dynamic Scene Reconstruction: Recent Advance in Real-time Rendering and Streaming [7.3] 2次元画像からのダイナミックシーンの表現とレンダリングは、コンピュータビジョンとグラフィックスの基本的な問題である。
このサーベイは、動的なシーン表現とレンダリングの進化と進歩を包括的にレビューする。
我々は、既存のアプローチを体系的に要約し、それらのコア原則に従って分類し、関連するデータセットをコンパイルし、これらのベンチマークにおける様々なメソッドのパフォーマンスを比較し、この急速に進化する分野における課題と今後の研究方向性を探る。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:29:41 GMT)
Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection [7.2] フェデレートラーニング(FL)システムは、悪意のあるモデル更新に対して脆弱である。
バックドア攻撃に対してFLシステムを保護するために設計された新しい防御手法であるAlignInsを紹介する。
本稿では,AlignInsが最先端の防御手法と比較して高い堅牢性を実現することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:24:53 GMT)
A Study to Evaluate the Impact of LoRA Fine-tuning on the Performance of Non-functional Requirements Classification [7.1] Low-Rank Adaptation (LoRA) のNFR分類への微調整アプローチ
実験の結果、LoRAは性能を損なうことなく実行コスト(最大68%の削減)を大幅に削減できることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:16:12 GMT)
Oja's Algorithm for Streaming Sparse PCA [7.1] Oja's Algorithm for Streaming principal Component Analysis (PCA) for $n$ data-points in a $d$ dimensional space achieves the same sin-squared error $O(r_mathsfeff/n)$ as the offline algorithm in $O(d)$ space and $O(nd)$ time。
Ojaのアルゴリズムの出力をしきい値にする単純なシングルパス手順は、$O(d)$ space と $O(nd)$ time の正則性条件下での最小誤差を達成できることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:36:40 GMT)
PerSense: Personalized Instance Segmentation in Dense Images [7.0] PerSenseは、高密度画像のパーソナライズされたインスタンスセグメンテーションのためのエンドツーエンド、トレーニング不要、およびモデルに依存しないフレームワークである。
実験により,SOTA法と比較して高密度シナリオにおけるPerSenseの優位性を確立した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:25:54 GMT)
KinMo: Kinematic-aware Human Motion Understanding and Generation [7.0] 現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
単一の粗い記述は、速度の変化、手足の位置決め、運動力学などの詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークである textbfKinMo を紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:29:56 GMT)
HowkGPT: Investigating the Detection of ChatGPT-generated University Student Homework through Context-Aware Perplexity Analysis [6.9] HowkGPTは学術的な課題と付随するメタデータのデータセットの上に構築されている。
生徒とChatGPTが生成する応答の難易度スコアを計算する。
さらに、カテゴリ固有のしきい値を定義することで分析を洗練させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:08:05 GMT)
Behavior-Inspired Neural Networks for Relational Inference [6.9] エージェント間の相互作用が時間と空間の力学系をどのように進化させるかを研究する。
最近の研究は、エージェント間の関係を、その身体行動の観察に基づいて分類することを学ぶ。
エージェントの観測可能な振る舞いと,その動作を決定する潜在カテゴリの抽象化レベルを導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:00:19 GMT)
Perfect Recovery for Random Geometric Graph Matching with Shallow Graph Neural Networks [6.8] 2つのグラフが与えられたとき、そのタスクは2つのグラフの頂点の間の未知の1対1のマッピングを復元することである。
特徴ベクトルの疎度と雑音レベルについて一定の条件下では、2層グラフニューラルネットワークは高い確率で正しいマッピングを復元することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:27:23 GMT)
Equivariant Masked Position Prediction for Efficient Molecular Representation [6.8] グラフニューラルネットワーク(GNN)は、計算化学においてかなりの可能性を示している。
Equivariant Masked Position Prediction と呼ばれる新しい自己教師型アプローチを導入する。
EMPPは、より明確に定義され、量子力学的特徴の学習を強化するニュアンスされた位置予測タスクを定式化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:27:41 GMT)
Smallest quantum codes for amplitude damping noise [6.6] 振幅減衰(AD)ノイズを補正する最小の量子誤り訂正符号(QEC)について述べる。
我々はこの構成を、減衰強度の任意の一定の順序でADノイズを補正する一連の符号に一般化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:35:03 GMT)
Pre-trained Models Succeed in Medical Imaging with Representation Similarity Degradation [6.5] 本研究は,表現類似性軌跡の定量化と解析を中心とした厳密な問題定義を確立する。
実験結果から,タスクの精度と事前学習した起源との類似性の両方を保った高性能モデルが存在する可能性が示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:37:54 GMT)
AquaFuse: Waterbody Fusion for Physics Guided View Synthesis of Underwater Scenes [6.5] 水中画像中の水体特性を合成する物理法であるAquaFuseについて紹介する。
AquaFused画像は94%以上の奥行き一貫性と90-95%の構造的類似性を保っていることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:05:09 GMT)
Learning to Search Effective Example Sequences for In-Context Learning [6.5] 本稿では,ビームサーチに基づくサンプルシーケンスコンストラクタ(BESC)について紹介する。
BESCは、シークエンス選択に関わるすべての重要な要素を推論中に共同で考慮し、シークエンスをインクリメンタルに構築することで解決する。
さまざまなデータセットと言語モデルにわたる実験では、パフォーマンスが顕著に改善されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:24:59 GMT)
QuSplit: Achieving Both High Fidelity and Throughput via Job Splitting on Noisy Quantum Computers [6.5] 我々は、ジョブ分割を組み込んだ遺伝的アルゴリズムに基づくスケジューリングフレームワークを開発し、忠実度とスループットを最適化する。
実験の結果,本手法はシステムスループットを著しく向上しつつ,全ジョブにわたって高い忠実性を維持していることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:08:05 GMT)
OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4] 自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:09:11 GMT)
SGNetPose+: Stepwise Goal-Driven Networks with Pose Information for Trajectory Prediction in Autonomous Driving [6.3] SGNetPose+は,骨格情報や身体セグメント角をバウンディングボックスに統合するように設計されたSGNetアーキテクチャの拡張である。
ポーズ推定モデルを用いて骨格情報を抽出し, 抽出した関節データに基づいて関節角を計算した。
提案手法は,JAADデータセットとPIEデータセットをバウンディングボックスを用いたポーズデータを用いて実現し,SGNetモデルより優れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:45:51 GMT)
Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance [6.2] Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:51:49 GMT)
Continual Learning for Multiple Modalities [6.2] 複数のモダリティに対応する新しい連続学習フレームワークを提案する。
我々は、そのリッチなセマンティック情報を利用して、様々なモダリティをテキストと整合させるモデルを訓練する。
モダリティに関する以前の知識のオーバーライトを軽減するため,モダリティ内およびモダリティ間の知識を集約する手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:50:13 GMT)
Denoising via Repainting: an image denoising method using layer wise medical image repainting [6.2] 異方性ガウスフィルタとプログレッシブベジエパス再描画を統合したマルチスケール手法を提案する。
本手法は, 構造的詳細を保存しながら, 騒音を緩和するスケールスペースピラミッドを構築する。
複数のMRIデータセットに対する実験結果は、競合する手法よりもPSNRとSSIMが一貫した改善を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:54:37 GMT)
Adaptive Topology Reconstruction for Robust Graph Representation Learning [6.2] グラフニューラルネットワーク(GNN)は、グラフ表現のための半教師付き学習において基礎となっている。
GNN研究の最近の動向は適応型マルチホップ構造学習に焦点を当てている。
マルチホップ構造学習を動的に洗練するテキストバッファ適応再構築フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:34:12 GMT)
STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification [6.1] マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。
ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。
タスク関連情報を包括的に探索することで、モダリティ情報ギャップに対処する新しいセミSLフレームワークであるSTiLを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:40:36 GMT)
1LoRA: Summation Compression for Very Low-Rank Adaptation [6.0] 検討したPEFT法に対して, 線形層毎のパラメータの最小値を微調整する「極低階法」について検討した。
本稿では, 計算, パラメータ, メモリ効率のよい微調整手法である1LoRAを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:45:20 GMT)
Modeling Dynamic Neural Activity by combining Naturalistic Video Stimuli and Stimulus-independent Latent Factors [6.0] 本稿では,映像刺激と刺激非依存の潜伏因子からニューロン反応の結合分布を予測する確率モデルを提案する。
その結果,他のニューロンからの反応を条件づけた場合,対数様態で映像のみのモデルより優れ,可能性や相関性が向上することが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:54:53 GMT)
$^R$FLAV: Rolling Flow matching for infinite Audio Video generation [5.8] 共同オーディオビデオ(AV)生成は、生成AIにおいて依然として重要な課題である。
Archはトランスフォーマーベースの新しいアーキテクチャで、AV生成のすべての重要な課題に対処する。
実験の結果,ArchはマルチモーダルAV生成タスクにおいて既存の最先端モデルよりも優れていた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:18:47 GMT)
Large Neighborhood Search and Bitmask Dynamic Programming for Wireless Mobile Charging Electric Vehicle Routing Problems in Medical Transportation [5.7] ワイヤレス充電電気自動車問題(WMC-EVRP)を提案する。
この問題により、移動充電カート(MCT)を経由した走行中にMTEV(Medidic Transportation Electric Vehicles)を充電することができる。
我々はBit Mask Dynamic Programming (BDP)とLarge Neborhood Search (LNS)を組み合わせた数学的モデルとメタヒューリスティックアルゴリズムを開発した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:11:10 GMT)
QUIET-SR: Quantum Image Enhancement Transformer for Single Image Super-Resolution [5.7] 超解像のための量子画像強調変換器(QUIET-SR)を提案する。これはSwinトランスフォーマーアーキテクチャを拡張し、新しいシフト量子ウィンドウアテンション機構を備えるハイブリッドフレームワークである。
我々は、MNIST (30.24 PSNR, 0.989 SSIM)、FashionMNIST (29.76 PSNR, 0.976 SSIM)、MedMNISTデータセットコレクションのフレームワークを評価し、QUIET-SRがPSNRとSSIMのスコアを最先端の手法に匹敵することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:06:16 GMT)
Integrating Semantic Communication and Human Decision-Making into an End-to-End Sensing-Decision Framework [5.6] 本稿では,意味コミュニケーションとヒューマン意思決定(HDM)を1つの確率的エンドツーエンドセンシング決定フレームワークに統合することを提案する。
本研究は,関連する意味情報の最大化とHDMモデルの認知能力の整合性との基本的なトレードオフを明らかにする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:07:09 GMT)
INPC: Implicit Neural Point Clouds for Radiance Field Rendering [5.6] 本稿では,現実世界のシーンを再現し,新しいビュー・シンセサイザーを構築するための新しいアプローチを提案する。
連続オクツリー型確率場における非有界な幾何学を暗黙的に符号化するハイブリッドシーン表現を提案する。
インタラクティブなフレームレートで高速な推論を実現し、トレーニングされたモデルを大規模で明示的なポイントクラウドに変換することで、パフォーマンスをさらに向上します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:51:35 GMT)
Theoretical guarantees for the advantage of GNNs over NNs in generalizing bandlimited functions on Euclidean cubes [5.6] グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションにまたがってグラフベースの情報を処理するための強力なリソースとして登場した。
本研究では,これらの分類におけるGNNの習熟度について検討する。
以上の結果から,GNNを用いた帯域制限関数を$varepsilon$-errorマージン内で一般化する上で,高い効率性を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:34:57 GMT)
A Deterministic Sampling Method via Maximum Mean Discrepancy Flow with Adaptive Kernel [5.6] 本稿では,カーネルの不一致を最小限に抑えて,ターゲット分布を$rho*$に近似する新しい決定論的サンプリング手法を提案する。
EVI-MMDアルゴリズムを用いて2種類のサンプリング問題を解く。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:09:45 GMT)
Exploring Socio-Cultural Challenges and Opportunities in Designing Mental Health Chatbots for Adolescents in India [5.5] インドの青年期におけるメンタルヘルスの課題は、ユニークな文化的障壁と体系的な障壁によって形成されている。
本研究では,思春期の若者がメンタルヘルスの課題を認識し,デジタルツールと対話する方法について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:52:05 GMT)
Vision Transformer for Intracranial Hemorrhage Classification in CT Scans Using an Entropy-Aware Fuzzy Integral Strategy for Adaptive Scan-Level Decision Fusion [5.5] 頭蓋内出血 (ICH) は、脳血管の破裂により頭蓋内出血を引き起こす重篤な疾患である。
脳CTスキャンにおける局所的および大域的空間依存性を捉えるために,その階層的注意機構を利用した高度なピラミッド・ビジョン・トランスフォーマー(PVT)モデルを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:47:32 GMT)
LongEval at CLEF 2025: Longitudinal Evaluation of IR Model Performance [5.4] LongEval Labは、情報検索(IR)における時間的持続性の課題を引き続き探求している。
トレーニングデータから時間的に異なるテストデータとしてモデルパフォーマンスが劣化するかを評価することで、LongEvalはIRシステムにおける時間ダイナミクスの理解を深めようとしている。
2025年版は、Web検索と科学検索の領域における検索品質を経時的に維持できる適応モデルの開発にIRとNLPのコミュニティが関与することを目的としている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:29:41 GMT)
Stakeholder Perspectives on Whether and How Social Robots Can Support Mediation and Advocacy for Higher Education Students with Disabilities [5.3] 本研究では,問題空間の理解,ロボット支援の構想,擁護支援ロボットの参加的共同設計に関する知見を報告する。
この知見は、サインポストを提供し、サウンドボードや研究コンパニオンとして機能するこれらの技術の可能性を浮き彫りにしている。
本稿では, 交差バイアス, 二重共感問題, 構造的不等式によって形成される状況下での社会ロボットの展開など, 倫理的考察について論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:57:11 GMT)
Value Improved Actor Critic Algorithms [5.3] 我々は,アクタ批判アルゴリズムの標準フレームワークを価値改善とともに拡張する。
このアプローチが一般化政策イテレーションの一般的な分析スキームに収束することを証明する。
実証的には、一般的なオフポリティックなアクター批判アルゴリズムTD3とSACに価値改善を組み込むことで、それぞれのベースラインのパフォーマンスを大幅に改善または一致させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:25:21 GMT)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.3] CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:38:34 GMT)
Tangentially Aligned Integrated Gradients for User-Friendly Explanations [5.3] ニューラルネットワークのブラックボックス問題に対処するために、マシンラーニングでは統合的な勾配が一般的である。
ベースポイントの選択は明らかに先駆的ではなく、非常に異なる説明につながる可能性がある。
基本点は、説明の接的なアライメントを最大化するために選択されるべきである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:04:13 GMT)
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models [5.2] 外部データを持たない任意の文字に対するフレーム間の動きを生成する新しい手法であるAnyMoLeを導入する。
本手法では,文脈理解を高めるために2段階のフレーム生成プロセスを用いる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:28:59 GMT)
Exploring the Inquiry-Diagnosis Relationship with Advanced Patient Simulators [5.2] 本稿では,実際の医師と患者との会話から対話戦略を抽出し,患者シミュレータのトレーニングを指導する。
本シミュレータは, 動的対話戦略を用いて, 人為性が高く, 幻覚率も低いことを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:54:09 GMT)
MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation [5.1] MaskAttn-UNetはマスクアテンション機構を通じて従来のU-Netアーキテクチャを強化する新しいセグメンテーションフレームワークである。
本モデルでは,無関係な背景を抑えながら重要な領域を選択的に強調し,乱れや複雑なシーンのセグメンテーション精度を向上させる。
以上の結果から,MaskAttn-UNetは変圧器モデルよりも計算コストが大幅に低く,最先端の手法に匹敵する精度を達成できた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:43:26 GMT)
Selecting the Number of Communities for Weighted Degree-Corrected Stochastic Block Models [5.1] 本研究では,重み付きネットワークのコミュニティ数を選択する方法を検討する。
本稿では,標準のDCSBMと同様の平均隣接行列をモデル化した新しい重み付き次数補正ブロックモデル(DCSBM)を提案する。
コミュニティ数を選択する方法は, 逐次テストフレームワークに基づく。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:43:46 GMT)
Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery [5.1] 材料情報学(MI)は、材料発見と開発を大幅に効率化することが期待されている。
MIに使用されるデータは、計算と実験の両方から得られる。
本研究では,得られたデータを用いて材料マップを構築し,材料の構造的特徴との関係を可視化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:31:52 GMT)
CrackESS: A Self-Prompting Crack Segmentation System for Edge Devices [5.1] 本稿では,コンクリートひび割れの検出・分断を行う新しいシステムであるCrackESSを紹介する。
我々は,3つのデータセット(Khanhhaのデータセット,Crack500,CrackCR)で実験を行い,登山ロボットシステムにおけるCrackESSの有効性と有効性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:55:57 GMT)
Variational Inference in Location-Scale Families: Exact Recovery of the Mean and Correlation Matrix [5.0] 抽出可能なターゲット密度$p$が与えられたとき、変動推論(VI)は、抽出可能なファミリー$Q$から最高の近似$q$を見つけようとする。
実際、$Q$ は$p$ を含ませるほど豊かではないし、その近似は $textKL(q||p)$ のユニークな大域最小化器である場合でも誤特定される。
軽度な規則性条件だけでなく,過度な不特定に直面した場合にも,VIの強い保証が証明される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:50:04 GMT)
A complete continuous-variable quantum computation architecture based on the 2D spatiotemporal cluster state [5.0] 連続変数測定に基づく量子計算は、実用的な、スケーラブルで、普遍的で、フォールトトレラントな量子計算の候補である。
本研究では,クラスタ状態の準備,ゲート実装,エラー訂正を含む完全なアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:18:30 GMT)
LLM-Powered Knowledge Graphs for Enterprise Intelligence and Analytics [5.0] 本稿では,大規模言語モデル(LLM)を用いて,様々なデータソースを包括的,活動中心の知識グラフに統合するフレームワークを提案する。
このフレームワークは、エンティティ抽出、関係推論、セマンティックエンリッチメントといったタスクを自動化する。
コンテキスト検索、タスク優先順位付け、専門知識発見、パーソナライズされたレコメンデーション、高度な分析などのアプリケーションをサポートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:50:45 GMT)
OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [5.0] 本研究では,オープンソースソフトウェア(OSS)ライセンスの再利用と包括的データセットを提案する。
OSSプロジェクトで550万の異なるライセンスブロブを発見し、特定しました。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:13:22 GMT)
Comparing Satellite Data for Next-Day Wildfire Predictability [4.9] 我々は,1日前に広がる山火事の予報にVIIRSとMODISのデータがどの程度有効かを評価する。
VIIRSを入力とし、VNP14をターゲットとしたモデルが最良の結果を得る。
我々は、MOD14は翌日の火災予報には適さないと結論し、VNP14の方がずっと良い選択肢であると結論付けた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:15:54 GMT)
Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language Model [4.9] 化学反応画像を機械可読データに解析するために,反応画像マルチモーダル大言語モデル(RxnIM)を導入する。
RxnIMは反応画像から重要な化学成分を抽出し、反応条件を記述したテキスト内容を解釈する。
提案手法は,各種ベンチマークでF1スコアが平均88%,文献手法が5%を超え,優れた性能を実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:11:23 GMT)
Bogus Bugs, Duplicates, and Revealing Comments: Data Quality Issues in NPR [4.9] 大規模なAPRデータセットとベンチマークを扱う際に、私たちが遭遇したデータ関連の問題をいくつか報告します。
よりデータにフォーカスしたアプローチは、現在のAPRシステムと将来のAPRシステムの性能と堅牢性を改善することができると考えています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:23:13 GMT)
Beyond Subspace Isolation: Many-to-Many Transformer for Light Field Image Super-resolution [4.8] 本稿では,光フィールド画像超解像処理のための新しいM2MTを提案する。
M2MTは、自己認識機構を実行する前に、空間部分空間内の角情報を集約する。
光フィールド画像内の全てのサブアパーチャ画像全体への完全なアクセスを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:54:24 GMT)
MMRL: Multi-Modal Representation Learning for Vision-Language Models [4.8] MMRL(Multi-Modal Representation Learning)は、共有、学習可能、モダリティに依存しない表現空間を導入するフレームワークである。
MMRLはスペーストークンをテキストと画像表現トークンに投影し、より効果的なマルチモーダルインタラクションを促進する。
15のデータセットにわたる実験では、MRLが最先端の手法より優れていることが示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:48:01 GMT)
Towards Scalable and Cross-Lingual Specialist Language Models for Oncology [4.8] 汎用大規模モデル(LLM)は、臨床用語、文脈に依存した解釈、マルチモーダルデータ統合といった課題に対処する。
本研究では,教師調律,検索強化生成(RAG),グラフベースの知識統合を組み合わせた,オンコロジー特化,効率的,適応可能なNLPフレームワークを開発する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:34:57 GMT)
Pathology-Aware Adaptive Watermarking for Text-Driven Medical Image Synthesis [4.8] MedSignは、テキストから医療画像の合成に特化したディープラーニングベースの透かしフレームワークである。
医療用テキストトークンと拡散復調ネットワーク間の相互注意を用いた病的局所化マップを生成する。
LDMデコーダを最適化し、画像合成中に透かしを組み込む。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:55:14 GMT)
MITO: A Millimeter-Wave Dataset and Simulator for Non-Line-of-Sight Perception [4.8] MITOは、多種多様な日常オブジェクトの最初のミリ波(mmWave)データセットである。
我々は、RGB-D画像、セグメンテーションマスク、生のmmWave信号だけでなく、550個の高分解能mmWave画像をライン・オブ・ザ・ライト・オブ・ザ・ライト(NLOS)で生成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:31:32 GMT)
Soft Actor-Critic-based Control Barrier Adaptation for Robust Autonomous Navigation in Unknown Environments [4.8] 制御バリア関数(CBF)の制約パラメータを実行時に適用するためのソフトアクタ・クリティカル(SAC)ベースのポリシーを提案する。
我々は,本フレームワークがCBF制約を効果的に適用し,ロボットが安全性を損なうことなく最終目標に達することを実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:33:55 GMT)
A Quantum Optimization Algorithm for Optimal Electric Vehicle Charging Station Placement for Intercity Trips [4.7] 電気自動車(EV)は輸送システムの持続可能性を高める上で重要な役割を果たしている。
大規模輸送ネットワークにおける最適充電ステーション位置の発見は、よく知られたNPハード最適化問題を示す。
本稿では,このNP-hard問題の解法効率を高めるために,量子探索に基づく最適化アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:34:29 GMT)
Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs [4.7] マルチパーティ対話生成は、複数の話者の複雑な相互作用と会話スレッド間の相互作用によって大きな課題を呈する。
本稿では,事前学習されたLarge Language Models (LLM) を利用した新しい生成モデルである Speaker-Attentive LLM (SA-LLM) と,これらの課題に対処するための話者認識型コントラスト学習戦略を提案する。
SA-LLMは、明示的な関係アノテーションなしで文脈的コヒーレンスと話者の役割を暗黙的に学習する、話者対応の入力符号化と対照的な学習目的を取り入れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:28:12 GMT)
Automating High Quality RT Planning at Scale [4.7] 高品質な処理計画を生成するスケーラブルなソリューションであるAIRTP(Automated Iterative RT Planning)システムを紹介した。
当社のAIRTPパイプラインは,OAR(Organ-at-risk Contouring),ヘルパー構造生成,ビーム設定,最適化,計画品質改善など,臨床ガイドラインに準拠し,重要なステップを自動化します。
計画品質の比較分析により、自動パイプラインが手作業で生成されたものと同等の品質の処理計画を生成することが明らかになった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:53:10 GMT)
AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements [4.7] AthletePose3Dは、高速で高速な運動運動をキャプチャするために設計された、新しいデータセットである。
本研究では,SOTA (State-of-the-art monocular 2D and 3D pose Estimation model on the dataset。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:51:19 GMT)
Boundary Prompting: Elastic Urban Region Representation via Graph-based Spatial Tokenization [4.6] 境界 Prompting Urban Region Representation Framework (BPURF) は、弾力性のある都市領域の定義を可能にする新しいアプローチである。
BPURFは空間トークン辞書と領域トークンセット表現モデルという2つのキーコンポーネントから構成される。
このフレームワークは、境界プロンプト、異なる領域境界のサポート、異なるタスクへの適応を通じて、都市領域の定義を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:49:58 GMT)
Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.6] 軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:19:56 GMT)
Object-Pose Estimation With Neural Population Codes [4.6] オブジェクト対称性は、感覚入力のオブジェクト回転への直接マッピングを複雑にする。
ニューラルネットワークによる物体回転の表現は,これらの制限を克服することを示す。
我々は、Apple M1 CPU上で3.2ミリ秒で推論を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:24:30 GMT)
CFNet: Optimizing Remote Sensing Change Detection through Content-Aware Enhancement [4.5] 変更検出は、リモートセンシングにおいて重要かつ広く適用されるタスクである。
本稿では、コンテンツ認識戦略を重要視するコンテンツフォーカスネットワーク(CFNet)を提案する。
CFNetは、よく知られた3つの変更検出データセットで優れたパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:56:11 GMT)
Unmasking the Unknown: Facial Deepfake Detection in the Open-Set Paradigm [4.5] 本稿では,ディープフェイク検出のためのクローズドセットパラダイムからのシフトを提案する。
本稿では,教師付きコントラスト学習に基づくオープンセットのディープフェイク分類アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:23:07 GMT)
A Grid Cell-Inspired Structured Vector Algebra for Cognitive Maps [4.5] 海馬と海馬の形成は哺乳類の脳のナビゲーションシステムであり、グリッド細胞を介して物理的および抽象的な空間をコードしている。
本稿では,CANとベクトルアーキテクチャ(VSA)にインスパイアされた脳海馬形成における多目的情報処理の力学モデルを提案する。
グリッドセルVSAモデルは、グリッドセルモジュールの離散スケールと配向を模倣した3次元モジュールによる空間的に構造化された符号化方式を採用している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:45:52 GMT)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.5] 大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。
本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:21:35 GMT)
Out-of-distribution robustness for multivariate analysis via causal regularisation [4.5] 本稿では,分散シフトに対するロバスト性を確保するために,因果性に根ざした正規化戦略を提案する。
アンカー回帰フレームワークに基づいて、古典アルゴリズムの損失関数に単純な正規化項を組み込む方法を示す。
本フレームワークでは,損失関数と正規化戦略との整合性を効率よく検証することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:03:32 GMT)
Learning Gentle Grasping Using Vision, Sound, and Touch [4.5] 本稿では,視覚的,触覚的,聴覚的信号を用いて物体を安定かつ優雅に把握・再生することを提案する。
音声信号は、把握中の優しさの指標として使用し、次に、生のビジュオ触覚入力から行動条件モデルのエンド・ツー・エンドを訓練する。
1500以上の握力試験を多指ハンドで行った実験結果から,本モデルは柔らかい握力に有用であることが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:12:25 GMT)
Deformable Registration Framework for Augmented Reality-based Surgical Guidance in Head and Neck Tumor Resection [4.4] 厚み情報を登録プロセスに組み込んだ新規な変形可能な登録フレームワークを提案する。
舌標本では, 対象登録誤差(TRE)を最大33%改善した。
異なる試料の異なる変形挙動を解析し, 整形変形戦略の必要性を強調した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:32:14 GMT)
Observing the exponential growth of the eigenmodes in the absence of coalescence for a non-Hermitian circuit with an unavoidable inductor dissipation [4.4] コンデンサを介して利得と損失の$RLC$共振器を結合した電子回路の固有モードについて検討する。
インダクタの磁気損失が避けられないため、従来の非エルミタン系とは異なり、固有モードの合体はもはや現れないことが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:40:54 GMT)
M-HOF-Opt: Multi-Objective Hierarchical Output Feedback Optimization via Multiplier Induced Loss Landscape Scheduling [4.4] 連立モデルパラメータと乗算器の進化をモデル化した確率的グラフィカルモデルを提案する。
代用単目的ペナルティ損失による多目的モデルパラメータ最適化に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:02:30 GMT)
CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments [4.3] We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。
この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:47:39 GMT)
Fair Summarization: Bridging Quality and Diversity in Extractive Summaries [4.2] 本稿では,FairExtractとFairGPTの2つの新しい抽出方法を紹介する。
我々は,これらの手法を,ホワイトアライメント,ヒスパニック,アフリカ系アメリカ人の方言ツイートのダイジェム要約データセットを用いて評価した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:55:48 GMT)
The Space Between: On Folding, Symmetries and Sampling [4.2] 本稿では、ReLU活性化空間におけるハミング距離に基づく空間折り畳み測度を提案する。
一般化誤差が低い場合,空間の折り畳み値はネットワーク深さによって増加するが,誤差が大きくなると減少することを示す。
これらの知見に触発されて,ネットワークに高い折り畳み値の解を求める新たな正規化手法を概説した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:54:25 GMT)
Predicting and Understanding College Student Mental Health with Interpretable Machine Learning [4.1] パーソナライズされたmEntalヘルス予測のための最初の解釈可能な階層型mOdelであるI-HOPEを提案する。
I-HOPEは、2段階の階層モデルであり、最長長周期移動センシングデータセットであるCollege Experience Studyで検証されている。
このデータセットは5年間にわたって、パンデミック前と新型コロナウイルス(COVID-19)パンデミック前の両方のデータをキャプチャする。
我々のモデルは、複雑なパターンを解釈可能かつ個別化された洞察に抽出し、調整された介入の今後の発展とメンタルヘルスサポートの改善を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:07:37 GMT)
SysCaps: Language Interfaces for Simulation Surrogates of Complex Systems [4.0] 代理モデルは複雑なエネルギー系の振舞いを予測するために用いられる。
本稿では,システムキャプションやSysCapsと呼ばれる言語記述を用いて,そのようなサロゲートと対話する手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:01:37 GMT)
STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications [4.0] 本稿では,自律運転などの過敏な要求を時間と計算可能な自動システムにおいて,異常検出のための新しい手法を提案する。
本稿では, (2+1)D ConvolutionsとPerformer Linear Attentionを用いてバックボーンを開発するSTEADを提案する。
我々のベースモデルは91.34%のAUCを達成し、以前の最先端を上回り、高速バージョンは88.87%のAUCを達成し、99.70%のパラメータを減らし、以前の最先端を上回ります。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:48:32 GMT)
Multiplexed readout of Superconductor--Normal-Conductor--Superconductor bolometers [4.0] 超伝導量子プロセッサにおける多重量子ビット読み出しのための資源効率の高いソリューションとして、超感度温度計が提案されている。
単一チップ上での周波数多重入力・プローブ回路を用いた3つのSNSセンサの設計,製造,動作について述べる。
これらの実験は、関連するリソースを最小化するための有望なステップである複数のキュービットの多重ボロメトリキャラクタリゼーションとカロリー測定の読み出しの道を開く。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:10:50 GMT)
Using Powerful Prior Knowledge of Diffusion Model in Deep Unfolding Networks for Image Compressive Sensing [4.0] 画像圧縮センシング(CS)分野におけるDUN(Deep Unfolding Networks)の精度向上
我々は,DUNにおける事前学習拡散モデルの強力な事前知識を用いて,画像CSの少ないステップで高品質な再構成を実現することを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:40:46 GMT)
Adaptive Anomaly Recovery for Telemanipulation: A Diffusion Model Approach to Vision-Based Tracking [4.0] 本稿ではDiffusion-Enhanced Telemanipulationフレームワークを紹介する。
Frame-Difference Detection (FDD) 技術を使って、ビデオストリーム内の異常を識別し、セグメント化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:52:01 GMT)
Modeling Variants of Prompts for Vision-Language Models [3.9] 本稿では、視覚言語モデルに対する異なるプロンプトテンプレートに対するロバスト性を評価するための、体系的なベンチマークであるRobustPrompt Benchmarkを紹介する。
本稿では,プロンプトの変種をモデル化することによって感度を緩和する簡易かつ効果的な手法であるCM(Modeling Variants of Prompts)を提案する。
MVPは、パフォーマンスの低下なしに、入力プロンプトのバリエーションに対するモデルロバスト性を大幅に向上させることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:46:25 GMT)
Generalization of Video-Based Heart Rate Estimation Methods To Low Illumination and Elevated Heart Rates [3.9] 心拍(Heart rate)は、個人の健康状態や感情状態に関する情報を提供する生理学的信号である。
リモート光胸腺造影法(r)を用いた心拍数推定のための最先端の代表的評価法について検討した。
実験結果から,古典的手法は低照度条件の影響を受けないことが明らかとなった。
いくつかのディープラーニング手法は、照明条件の変化に対してより堅牢であることがわかったが、高い心拍数を推定する上での課題に遭遇した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:29:10 GMT)
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation [3.9] そこで我々はPlainQAFactを紹介した。PlainFactは粒度の細かい人手によるデータセットに基づいて訓練されたフレームワークだ。
PlainQAFactは、まず事実のタイプを分類し、次に検索強化されたQAベースのスコアリング手法を用いて事実のタイプを評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:59:53 GMT)
Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation [3.9] 動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。
状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。
本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:32:36 GMT)
Efficient Trajectory Inference in Wasserstein Space Using Consecutive Averaging [3.9] 軌道推論はそのような観測から連続的な過程を再構成する。
ワッサーシュタイン空間に固有の連続平均化によるB-スプライン近似と点雲の近似法を提案する。
線形収束率を証明し, 分岐, マージ, 軌道分割のシナリオを特徴とするセルデータに対する手法を厳密に評価した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:21:32 GMT)
Enhancing Large Language Models for Hardware Verification: A Novel SystemVerilog Assertion Dataset [3.8] **VERT**は、LLMを用いたSystemVerilogアサーション生成を強化するために設計されたオープンソースのデータセットである。
学術と産業の研究者たちが、オープンソースモデルを微調整し、精度と効率の両方で、より大きなプロプライエタリモデルよりも優れています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:13:26 GMT)
Multilevel Generative Samplers for Investigating Critical Phenomena [3.8] 長距離相関はマルコフ連鎖モンテカルロにおいて臨界減速を引き起こす。
ほぼクリティカルなシステムに特化した新しいサンプリング手法を提案する。
有効サンプルサイズRiGCSは,最先端生成モデルベースラインよりも桁違いに高い値を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:03:54 GMT)
IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.8] IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:38:28 GMT)
A comprehensive interpretable machine learning framework for Mild Cognitive Impairment and Alzheimer's disease diagnosis [3.7] ミルド認知障害(MCI)とアルツハイマー病(AD)の診断を促進するための解釈可能な機械学習フレームワークが導入された。
使用するデータセットは、脳MRIからの体積測定と、健康な人やMCI/AD患者の遺伝データを含む。
最高のパフォーマンスモデルは87.5%の精度と90.8%のF1スコアを得た。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:40:18 GMT)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7] ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:19:31 GMT)
Smoothing ADMM for Non-convex and Non-smooth Hierarchical Federated Learning [3.7] 本稿では,スムーズな手法を用いた交互方向法乗算器(ADMM)を拡張した階層学習(FL)フレームワークを提案する。
従来の階層的なFLメソッドとは異なり、我々のアプローチは非同期更新とイテレーション毎に複数の更新をサポートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:21:56 GMT)
Generalizable and Explainable Deep Learning for Medical Image Computing: An Overview [3.7] 本稿では,医用画像用ディープラーニング(DL)における汎用的・説明可能な人工知能の概要について述べる。
我々は,脳腫瘍,皮膚癌,胸部X線という3つの医学的データセットに4つのCNNを用いて医用画像分類を行うことを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:31:09 GMT)
HeGMN: Heterogeneous Graph Matching Network for Learning Graph Similarity [3.7] 本稿ではヘテロジニアスグラフマッチングネットワーク(HeGMN)を提案する。
2層マッチング機構からなるエンドツーエンドのグラフ類似性学習フレームワークである。
HeGMNは、すべてのデータセットにおけるグラフ類似性予測の高度なパフォーマンスを一貫して達成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:36:35 GMT)
Efficient Density Control for 3D Gaussian Splatting [3.6] 3D Gaussian Splatting (3DGS) は新規なビュー合成において優れた性能を示した。
本研究では,(1)ガウシアンの位置,形状,不透明度を正確に制御するLong-Axis Split,(2)ガウシアンに対する不完全性の再設定後の回復速度の差を利用したリカバリ・アウェア・プルーニングを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:14:43 GMT)
Infinite-dimensional Extension of the Linear Combination of Hamiltonian Simulation: Theorems and Applications [3.6] 我々は、無限次元空間における時間進化作用素をシミュレートするために、ハミルトニアン・シミュレーション(LCHS)の公式を拡張した。
我々は、Inf-LCHS定理の幅広い非エルミート力学への適用性を実証する。
我々の分析は、有限個の量子力学を用いた一般線形力学のシミュレーションに関する洞察を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:59:58 GMT)
Empirical Error Estimates for Graph Sparsification [3.6] グラフスペーシフィケーション(Graph Sparsification)は、グラフベースの学習アルゴリズムを高速化する技術である。
スパシフィケーションエラーはランダムで未知であるため、ユーザは下流の計算の信頼性について不確実性に直面する必要がある。
経験的誤差推定を計算し,これらの問題に対処することを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:28:57 GMT)
KunlunBaize: LLM with Multi-Scale Convolution and Multi-Token Prediction Under TransformerX Framework [3.6] 大規模言語モデルは、計算効率の低下、勾配の消失、複雑な特徴の相互作用を捉えることの難しさといった課題に直面している。
このフレームワークは、学習可能な残留スキップ接続機構、TransformerXモジュール、マルチスケールの畳み込みと適応アクティベーション機能を統合したトランスフォーマーベースのコンポーネント、マルチトークン予測相互作用モジュールを備えている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:59:26 GMT)
MastermindEval: A Simple But Scalable Reasoning Benchmark [3.6] MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:33:51 GMT)
Pokemon Red via Reinforcement Learning [3.5] 古典的なゲームボーイJRPGであるPok'emon Redは、エージェントのテストベッドとして重要な課題を提示している。
本稿では,Cerrulean Cityの完成までのゲームの初期セグメントを完了させるベースラインエージェントを実証する,単純化された環境と深層強化学習の方法論を紹介する。
我々の実験には、報酬形成の脆弱性を明らかにする様々な改善が含まれており、エージェントは特定の報酬信号を利用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:44:11 GMT)
A Bi-channel Aided Stitching of Atomic Force Microscopy Images [3.5] そこで本研究では,AFM生成バイオフィルム画像にバイチャネル支援機能を用いた画像縫合法を提案し,その応用を実証する。
我々は、AFMデータの振幅チャネルを用いてマッチング特性を最大化し、元の地形画像の位置を推定する。
このワークフローは, 不正な縫合による誤解析や発見を避けるために, 実験者にとって有益であると考えている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:46:21 GMT)
Hysteresis Activation Function for Efficient Inference [3.5] 本稿では,Hysteresis Rectified Linear Unit (HLU) を提案する。
トレーニングと推論のための固定しきい値を持つ従来のアクティベーション関数とは異なり、HLUはバックプロパゲーションを洗練させる可変しきい値を使用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:41:59 GMT)
Towards Efficient Parametric State Estimation in Circulating Fuel Reactors with Shallow Recurrent Decoder Networks [3.4] 本稿では, 中性子と熱水圧との強い結合を特徴とする第4世代原子炉である溶融塩高速炉(MSFR)の試験事例として考察する。
リアルタイムの全ての特性場の正確な再構成により、この手法は原子炉デジタルツインの枠組みにおける監視と制御の目的に適している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:32:28 GMT)
From Models To Experiments: Shallow Recurrent Decoder Networks on the DYNASTY Experimental Facility [3.4] ショート・リカレント・デコーダ・ネットワーク(Shallow Recurrent Decoder Network)は、状態推定のために最近導入された新しいパラダイムである。
この作業は、Shallow Recurrent Decoder アーキテクチャを、ミラノの Politecnico di Milano に構築された DYNASTY 施設に適用することを目的としている。
この研究の結果は、Shallow Recurrent Decoderアーキテクチャのエンジニアリングシステムへの検証を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:39:20 GMT)
evoBPE: Evolutionary Protein Sequence Tokenization [3.4] 現在のサブワードトークン化技術は主に自然言語処理のために開発されたが、タンパク質配列の複雑な構造と機能的特性を適切に表現できないことが多い。
本研究は、進化的突然変異パターンを配列分割に統合する新しいトークン化手法であるevoBPEを紹介する。
evoBPEは、タンパク質機能予測、構造モデリング、進化解析における機械学習応用の新しい可能性を開く。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:19:48 GMT)
Design and Implementation of FourCropNet: A CNN-Based System for Efficient Multi-Crop Disease Detection and Management [3.4] 本研究では,複数の作物の病原体を検出するための新しいディープラーニングモデルであるFourCropNetを提案する。
FourCropNetは、Grapeの99.7%、Cornの99.5%、組み合わせたデータセットの95.3%の最高精度を達成した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:00:56 GMT)
RL-MILP Solver: A Reinforcement Learning Approach for Solving Mixed-Integer Linear Programs with Graph Neural Networks [3.4] 混合整数線形プログラミング (MILP) は様々な分野にまたがる最適化手法である。
本稿では,最初の実現可能な解を見つけるだけでなく,より有効な解を段階的に発見する新しい強化学習(RL)に基づく解法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:21:06 GMT)
Reconstruct Anything Model: a lightweight foundation model for computational imaging [3.3] 本稿では,フォワード演算子(獲得物理とノイズパラメータ)に関する知識を,アンローリングに頼らずに組み込んだ新しいアーキテクチャを提案する。
本モデルは, 脱臭, 磁気共鳴イメージング, トモグラフィ, 塗装, 超高分解能といった, 脱臭以外の幅広い逆問題を解決するために訓練されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:53:58 GMT)
DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos [3.3] 我々は、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。
我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:55:04 GMT)
Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics [3.3] mRNAベースのワクチンは製薬業界において主要な焦点となっている。
この性質のためにmRNA配列を最適化するのは 難しい課題です
これらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:21:27 GMT)
A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training [3.2] 勾配降下法(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて顕著な成功を収めた。
モデルトレーニングの有望な代替手段として、交代最小化(AM)メソッドが登場した。
本稿では,ニューラルネットワークトレーニングのための新しいTriple-Inertial Accelerated Alternating Minimization(TIAM)フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:42:17 GMT)
SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [3.2] 本稿では、構造化された実行フィードバックと、詳細な解釈可能な批評を提供する訓練された批評家エージェントを組み合わせる新しいアプローチを提案する。
この方法は、構文的誤りと意味的誤りの両方を効果的に識別し、修正し、精度と解釈可能性を高める。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:52:39 GMT)
LangTime: A Language-Guided Unified Model for Time Series Forecasting with Proximal Policy Optimization [3.2] LangTimeは、時系列予測のための言語誘導統合モデルである。
TimePPOは強化学習に基づく微調整アルゴリズムである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:40:39 GMT)
EnergyFormer: Energy Attention with Fourier Embedding for Hyperspectral Image Classification [3.1] HSIデータの高次元性とスペクトル変動は特徴抽出と分類の課題を提起する。
本稿では,これらの課題に対処するトランスフォーマーベースのフレームワークであるEnergyFormerについて述べる。
EnergyFormerは99.28%、98.63%、98.72%という例外的な総合的な精度を達成し、最先端のCNN、トランスフォーマー、およびマンバベースのモデルを上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:03:35 GMT)
HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder [3.1] 我々は、HiP-ADと呼ばれる新しいエンドツーエンドの自動運転フレームワークを提案する。
HiP-ADは同時に、統合デコーダ内で認識、予測、計画を行う。
HiP-ADは、クローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れていることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:52:45 GMT)
Residual Learning and Filtering Networks for End-to-End Lossless Video Compression [3.1] 既存の学習に基づくビデオ圧縮手法は、不正確な動き推定と不適切な動き補償構造に関連する課題に直面している。
本研究は,複数のキー操作を組み込んだエンドツーエンドビデオ圧縮手法を提案する。
提案手法は,映像圧縮における正確な動き推定と動き補償の課題に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:51:36 GMT)
Neural cyberattacks applied to the vision under realistic visual stimuli [3.1] ブレイン・コンピュータ・インタフェース(Brain-Computer Interfaces, BCI)は、脳と相互作用してニューロンを記録・刺激するシステムである。
以前の研究は、神経過剰刺激や抑制を行うことで、自発的な神経活動を破壊することができる神経サイバーアタックを検証した。
この研究は、マウスの複雑な神経トポロジーに対する2つの既存の神経障害、FLO(Neuronal Flooding)とJAM(Neuronal Jamming)の影響を分析した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:58:58 GMT)
A Data Aggregation Visualization System supported by Processing-in-Memory [3.1] DIVANは1次元の軸を自動的に周波数で正規化し、多数の2次元可視化を生成するシステムである。
DIVANは、パターンや相関、期待するもの、予期せぬものなどをハイライトする視覚化を生成する。
1億行32列のユースケースでは,約1分で4,960個の集約(それぞれサイズ128x128x128)を計算できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:12:46 GMT)
Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.0] CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトで不信なCoTが発生することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:56:30 GMT)
Evaluating Tenant-Landlord Tensions Using Generative AI on Online Tenant Forums [3.0] この研究は、Latent Dirichlet Allocation (LDA)をGPT-4に組み込んで、サブレディットr/Tenantから抽出されたRedditポストデータを分類する。
手数料問題やユーティリティ問題といったトピックにおけるテナント的懸念が、分析された4つの州すべてで一貫して支配的であることが分かりました。
我々は、パンデミックとエビクション・モラトリアムの影響について重要な意味を持つテナント的関心事の時間的傾向を発見する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:41:52 GMT)
Spatioformer: A Geo-encoded Transformer for Large-Scale Plant Species Richness Prediction [3.0] 我々は,新しい位置情報エンコーダを変換器モデルと結合して位置情報コンテキストをリモートセンシング画像に符号化するtextitSpatioformerを提案する。
以上の結果から,大規模な空間スケールでの衛星観測から種多様性を予測する上で,位置情報が有利であることが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:27:10 GMT)
TransECG: Leveraging Transformers for Explainable ECG Re-identification Risk Analysis [3.0] 本研究では、性別、年齢、参加者IDなどの再識別タスクに関連する重要なECGセグメントをピンポイントするビジョントランスフォーマー(ViT)ベースの方法であるTransECGを紹介する。
このアプローチでは,87名の参加者を持つ4つの実世界のデータセットに対して,高い精度(性別89.9%,年齢89.9%,IDの再識別88.6%)を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:37:56 GMT)
Exploring the Word Sense Disambiguation Capabilities of Large Language Models [3.0] 本稿では,Word Sense Disambiguationタスクにおいて,様々な言語モデル(LLM)の性能を評価する。
その結果,LLMはゼロショット学習では良好に機能するが,現在の最先端手法には勝てないことがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:50:44 GMT)
Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People [3.0] 視覚障害者(BLV)にとって「シーン記述」の応用は有用な日常ツールである。
我々は,16人のBLV参加者がAIを用いたシーン記述アプリケーションを使用した2週間の日記調査を行った。
既知のオブジェクトの視覚的特徴を識別するなどのユースケースや、危険なオブジェクトとの接触を避けるような驚くべきユースケースが頻繁に見出されました。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:56:15 GMT)
From Expert to Novice: An Empirical Study on Software Architecture Explanations [2.9] 既存のドキュメントは不完全性や曖昧さといった問題のために不足することが多い。
本研究は,実証的研究を通じてソフトウェアアーキテクチャの優れた説明を構成するものについて考察する。
関連するアーキテクチャ上の懸念、説明計画、アーティファクトのサポート、典型的な質問、期待の5つの重要な領域に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:16:03 GMT)
RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.9] 本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:47:37 GMT)
Enhancing Sentiment Analysis through Multimodal Fusion: A BERT-DINOv2 Approach [2.9] 本稿では,感情をより包括的に理解するために,テキストと画像データを統合した新しいマルチモーダル感情分析アーキテクチャを提案する。
3つのデータセット、Memotion 7kデータセット、MVSAシングルデータセット、MVSAマルチデータセットの実験は、提案されたマルチモーダルアーキテクチャの生存可能性と実用性を示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:53:45 GMT)
Plant species richness prediction from DESIS hyperspectral data: A comparison study on feature extraction procedures and regression models [2.8] 本研究は,オーストラリア南東部の2種類の異なる生息地における植物種の豊かさを予測するためのDSISハイパースペクトルデータの有用性を定量的に評価した。
DESISスペクトル帯の相対的重要性分析により,赤縁,赤,青のスペクトル領域は,緑帯や近赤外帯よりも植物種の豊かさを予測する上で重要であることが示された。
また,植物種多様性の予測において,DSISハイパースペクトルデータの方がSentinel-2マルチスペクトルデータよりも優れていた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:20:45 GMT)
Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields [2.8] 化学データセットの診断実験を行い、大きな課題をもたらす共通のシフトを明らかにします。
これらの観測から、現在の教師あり訓練手法はMLFFを不適切に正規化していると仮定する。
MLFFの分散シフトを緩和するための初期ステップとして,2つの新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:54:29 GMT)
ExMAG: Learning of Maximally Ancestral Graphs [2.7] 本稿では,最大祖先グラフを学習するためのスコアベース学習アルゴリズムを提案する。
提案手法は, 小型・中型合成インスタンスに適用した場合に, より正確な結果が得られることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:08:39 GMT)
Partial differential equation system for binarization of degraded document images [2.7] 偏微分方程式(PDE)システムは、テキスト画像の双対化に成功している。
本研究では、劣化したテキスト画像のバイナライゼーションのための新しい弱い結合型PDEシステムを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:49:42 GMT)
Dynamic PET Image Reconstruction via Non-negative INR Factorization [2.6] 未知画像の低階行列分解に基づく非教師なし学習手法である非負インプリシットニューラルネットワーク表現因子化(textttNINRF)を導入する。
ポアソンノイズを用いた動的PET再構成実験により,提案手法の有効性が示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:13:30 GMT)
Freezing chaos without synaptic plasticity [2.6] 強いカオス変動は情報処理に有害である可能性がある。
ここではシナプス可塑性のない別の方法を紹介する。
勾配力学は、外部時間依存刺激のリコールや予測といった計算作業にも有用である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:04:22 GMT)
Efficient Event-Based Object Detection: A Hybrid Neural Network with Spatial and Temporal Attention [2.5] ニューロモルフィックハードウェア上のスパイキングニューラルネットワーク(SNN)は、エネルギー効率と低レイテンシのイベントベースのデータ処理のためにしばしば考慮される。
本稿では、イベントベースオブジェクト検出のためのアテンションベースのHybrid SNN-ANNバックボーンを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:54:44 GMT)
Integration of nested cross-validation, automated hyperparameter optimization, high-performance computing to reduce and quantify the variance of test performance estimation of deep learning models [2.5] 本研究では,ディープラーニングモデルの試験性能指標の分散を低減・定量化するためにNACHOSを導入する。
NACHOS は NCV と AHPO を並列化された高性能コンピューティングフレームワークに統合する。
DACHOSは、AHPOとクロスバリデーションを活用するために導入され、完全なデータセット上で最終モデルを構築する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:25:44 GMT)
Segmentation-Guided CT Synthesis with Pixel-Wise Conformal Uncertainty Bounds [2.4] コーンビームCT(CBCT)は、適応放射線療法(ART)全体を通して、線量計算を改善するためのsCTを生成する。
CBCTは深刻なアーチファクトと画質の低下に悩まされており、正確な線量測定には適さない。
深層学習に基づくCBCT-to-CT翻訳が有望なアプローチとして登場した。
本稿では2つの重要なコンポーネントを統合する新しいフレームワークであるSTF-RUEを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:07:16 GMT)
A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data [2.4] レキシカル・セマンティック・チェンジ(Lexical Semantic Change、LSC)は、文化的・社会的ダイナミクスに関する洞察を提供する。
LSC測定のための新しい3段階評価フレームワークを開発した。
このフレームワークは、次元およびドメイン固有のベンチマーキングとLCCメソッドの評価に有用なツールを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:48:22 GMT)
Shedding Light in Task Decomposition in Program Synthesis: The Driving Force of the Synthesizer Model [2.4] タスク分解はプログラム合成の基本的なメカニズムであり、複雑な問題を管理可能なサブタスクに分解することができる。
本研究では,ExeDecの適応であるREGISMを開発し,分解誘導を除去し,反復的な実行駆動合成にのみ依存する。
以上の結果から,ExeDecは,その明示的な分解戦略により,長さ一般化や概念構成タスクにおいて有意な優位性を示すことが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:30:49 GMT)
Depth-Assisted Network for Indiscernible Marine Object Counting with Adaptive Motion-Differentiated Feature Encoding [2.4] 識別不能な海洋生物の数え方は、水中のシーンの視認性に制限があるなど、多くの課題に遭遇する。
我々は50の動画からなる新しいデータセットを開発し、そこから800のフレームを抽出し、約40のポイントワイドオブジェクトラベルで注釈付けした。
このデータセットは、認識不能な海洋生物が周囲と複雑に統合された実際の水中環境を正確に表現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:08:04 GMT)
ReSi: A Comprehensive Benchmark for Representational Similarity Measures [2.4] 本稿では, 類似度を適切に定義した基礎に基づく表現類似度評価のための最初のベンチマークを提案する。
表現類似度(ReSi)ベンチマークは、(i)類似度測定のための慎重に設計された6つのテスト、(ii)24の類似度測定、(iii)14のニューラルネットワークアーキテクチャ、(iv)グラフ、言語、ビジョンドメインにまたがる7つのデータセットからなる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:01:30 GMT)
Dressing the Imagination: A Dataset for AI-Powered Translation of Text into Fashion Outfits and A Novel KAN Adapter for Enhanced Feature Adaptation [2.3] FLORAは4,330種類のファッション服とそれに対応するテキスト記述を含む最初の包括的データセットである。
第2のコントリビューションとして,Kolmogorov-Arnold Networks (KAN) を適応モジュールとして利用する Kan Adapters を導入する。
さらなる研究とコラボレーションを促進するため、我々はFLORAと実装コードの両方をオープンソース化します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:55:48 GMT)
Bilevel Learning with Inexact Stochastic Gradients [2.2] バイレベル学習は、機械学習、逆問題、イメージングアプリケーションで有名になった。
これらの問題の大規模な性質は、不正確な計算効率の手法の開発に繋がった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:56:44 GMT)
Combining Local Symmetry Exploitation and Reinforcement Learning for Optimised Probabilistic Inference -- A Work In Progress [2.2] グラフィカルモデルにおける変数除去による効率的な確率的推論は最適な除去順序を必要とする。
我々は、テンソルネットワークにおける効率的な収縮順序を見つけるために強化学習アプローチを適用する。
推論中に特定の構造を活用することで、中間結果のコンパクトな符号化を導入することができることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:00:23 GMT)
Simulator Ensembles for Trustworthy Autonomous Driving Testing [2.2] MultiSimは、検索ベースのテストアプローチに基づくマルチシミュレートADASテストの新しいアプローチである。
同等の妥当性を示す一方で、シミュレータに依存しないフェールテストの54%を識別する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:34:14 GMT)
The StudyChat Dataset: Student Dialogues With ChatGPT in an Artificial Intelligence Course [2.1] textbfStudyChatは、LLMベースのチューターと現実世界の学生のインタラクションをキャプチャする公開データセットである。
我々はChatGPTのコア機能を複製したWebアプリケーションをデプロイし、それをLLMとの学生インタラクションのログに使用します。
これらの相互作用を分析し、行動傾向を強調し、特定の利用パターンがコースの結果にどのように関係しているかを分析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:17:07 GMT)
The Q-Spellbook: Crafting Surface Code Layouts and Magic State Protocols for Large-Scale Quantum Computing [2.1] 量子誤り訂正は、信頼性のある量子コンピューティングの基盤となる。
表面符号はクリフォードゲートにとって効率的であるが、非クリフォードゲートを処理するにはマジックステート蒸留プロトコルが必要である。
任意の回路を修正できる大規模量子アーキテクチャでは、データキュービットの特殊曲面符号とマジック状態蒸留の個別符号が必要である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:11:02 GMT)
The Art of Optimizing T-Depth for Quantum Error Correction in Large-Scale Quantum Computing [2.1] 量子エラー補正(Quantum Error Correction, QEC)は、大規模量子計算におけるフォールトトレランスを保証する。
T深度を最小化することは、フォールトトレラント量子コンピューティングにおける資源効率の最適化に不可欠である。
拡張係数に基づくIDゲート挿入戦略を導入し、当初非還元性に分類されていた回路のより深い削減を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:08:09 GMT)
InfluenceNet: AI Models for Banzhaf and Shapley Value Prediction [2.1] 本稿では,投票用パワー指標を効率的に推定するニューラルネットワークに基づく新しい手法を提案する。
この手法は、既存の計算ボトルネックに対処するだけでなく、大規模連立の迅速な分析を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:40:42 GMT)
Revisiting Point Cloud Completion: Are We Ready For The Real-World? [1.9] 制約のある、困難な、制御されていない、マルチセンサーの現実世界設定で取得されるポイントクラウドは、ノイズ、不完全、不均一にスパースである。
現在のベンチマークオブジェクトポイントクラウドは、現実的な環境でキャプチャされたポイントクラウドの重要な部分である豊富なトポロジ的特徴を欠いていることを実証する。
本稿では,0次元PH前駆体が3次元骨格の形で完全形状の大域的位相を抽出し,位相的に一貫した完全形状を生成するモデルを支援する方法について述べる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:53:35 GMT)
Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models [1.9] 本稿では,テキスト・ツー・イメージ拡散モデルと新しいデータ拡張パイプラインを用いた高忠実度製品画像再構成のためのフレームワークを提案する。
本手法は,生成画像の品質と多様性を,製品表現を分離し,モデルによる製品特性の理解を深めることによって改善する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:24:39 GMT)
The road to Sustainable DevOps [1.8] SusDevOpsは、環境への影響を最小限にし、社会的包摂性を高め、ソフトウェアエンジニアリングプラクティスにおける個人の幸福をサポートすることの重要性を強調している。
例えば、生態的なフットプリントの削減、労働力の取り込みの促進、開発者の個人の幸福への対処などです。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:33:31 GMT)
The Algorithmic State Architecture (ASA): An Integrated Framework for AI-Enabled Government [1.8] 本稿ではアルゴリズム状態アーキテクチャ(ASA)を紹介する。
これは、Digital Public Infrastructure、Data-for-Policy、 Algorithmic Government/Governance、およびGovTechがAI対応状態の統合システムとしてどのように相互作用するかを概念化したものだ。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:20:56 GMT)
Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs [1.7] マルチチョイス質問(MCQ)の難易度を予測するための新しい2段階手法を提案する。
まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。
第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:39:43 GMT)
SoK: A cloudy view on trust relationships of CVMs -- How Confidential Virtual Machines are falling short in Public Cloud [1.7] パブリッククラウドにおける信頼性コンピューティングは、インフラストラクチャ管理をクラウドプロバイダにアウトソーシングしながら、ワークロードのプライバシを保護することを目的としている。
このSoKは、市場をリードするクラウドプロバイダの機密コンピューティング提供を批判的に検証し、彼らが真にそのコア原則に準拠しているかどうかを評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:21:29 GMT)
Data-driven tool wear prediction in milling, based on a process-integrated single-sensor approach [1.7] 本研究では,ツール摩耗予測のためのデータ駆動手法,特にディープラーニングについて検討する。
2つのプロセスで検証された最小限のトレーニングデータを用いて予測モデルの伝達可能性について検討した。
ConvNeXtモデルには例外的な性能があり、ツールの摩耗を識別する精度は99.1%である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:20:38 GMT)
Quantum Computer-Based Verification of Quantum Thermodynamic Uncertainty Relation [1.7] 本稿では,量子コンピュータを用いた一般的な量子熱力学不確実性関係の検証手法を提案する。
物理量子ビット上に量子力学を実装した本手法により,関係量の測定可能性について検討できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:58:29 GMT)
AlignPxtr: Aligning Predicted Behavior Distributions for Bias-Free Video Recommendations [1.6] ビデオレコメンデーションシステムでは、視聴時間、お気に入り、フォローなどのユーザの行動は、一般的にユーザーの興味を推測するために使用される。
本研究では,様々なバイアス条件にまたがる予測行動分布を量子マッピングを用いて整列する手法を提案する。
当社のアプローチは、長期のユーザ保持における大幅な改善と、平均アプリ使用時間の大幅な向上を一貫して達成しています。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:32:30 GMT)
Defending Against Attack on the Cloned: In-Band Active Man-in-the-Middle Detection for the Signal Protocol [1.6] 我々はSignalに対するアクティブなMan-in-the-Middle(MitM)攻撃に対する解決策を提案する。
本ソリューションは,ユーザの介入に頼ることなく,鍵確認プロセスを自動化する。
Signalの既存のセキュリティ保証を維持しながら、新しいセキュリティ保証を文書化します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:55:29 GMT)
How Does Overparameterization Affect Machine Unlearning of Deep Neural Networks? [1.6] モデルパラメータ化レベルがディープニューラルネットワーク(DNN)の学習に与える影響を示す。
近年の文献からいくつかの未学習手法の検証に基づくチューニングを定義する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:21:26 GMT)
PromptGAR: Flexible Promptive Group Activity Recognition [1.6] 本稿では,現在のグループ活動認識(GAR)アプローチの限界に対処する新しいフレームワークであるPromptGARを紹介する。
PromptGARは、再トレーニングを必要とせずにプロンプト、フレーム、インスタンス間の入力柔軟性を提供する最初のGARモデルである。
総合的な評価は、PromptGARが完全なプロンプトと多様なプロンプトインプットの両方で競合性能を達成することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:26:31 GMT)
Tuning Into Bias: A Computational Study of Gender Bias in Song Lyrics [1.5] 本稿では、トピックモデリングとバイアス計測技術を用いて、英語の歌詞における性別バイアスの分析を行う。
英語の537,553曲のデータセットを、異なるトピックに分類し、その時間的進化を分析する。
その結果、ロマンチックなテーマから女性のセクシュアライゼーションに焦点を移すという、歌の歌詞の主題的変化が、時間とともに顕著に明らかになった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:54:07 GMT)
Few-Shot Class-Incremental Model Attribution Using Learnable Representation From CLIP-ViT Features [1.5] 本研究は、持続的に出現する生成モデルに対処する新しい戦略を提案する。
我々は、MA問題にFSCILのメカニズムを適用して、新しい生成AIモデルを明らかにする。
画像毎のCLIP-ViTブロックの重み付け和を計算するための適応統合モジュール(AIM)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:05:26 GMT)
An Analysis of Safety Guarantees in Multi-Task Bayesian Optimization [1.5] 本稿では,高確率安全性を維持しつつ,複数のタスクを統合する安全なマルチタスクベイズ最適化アルゴリズムを提案する。
提案手法は,コスト対評価関数に適しており,サンプル効率は大幅に向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:45:37 GMT)
Quantifying Circadian Desynchrony in ICU Patients and Its Association with Delirium [1.5] 重度ICU患者は健常者に比べて概日同期指数が有意に高かった。
ICU患者の多くは9時間以上の概日性脱同期指数を呈していた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:56:10 GMT)
CellStyle: Improved Zero-Shot Cell Segmentation via Style Transfer [1.5] 本稿では、ターゲットデータセットのラベルを必要とせずに、そのようなモデルのセグメンテーション品質を改善するCellStyleを提案する。
CellStyleは、テクスチャ、色、ノイズなどの注釈なしのターゲットデータセットの属性をアノテーション付きソースデータセットに転送する。
我々は,CellStyleが,スタイル変換データ上で複数のセグメンテーションモデルを微調整することにより,多様なデータセット間のゼロショットセルセグメンテーション性能を著しく向上することを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:39:09 GMT)
Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding [1.5] 本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。
毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:16:31 GMT)
Parallelized telecom quantum networking with a ytterbium-171 atom array [1.5] 量子コンピュータとセンサーを量子ネットワークに統合することで、量子情報科学の新たなフロンティアが開かれる。
我々はイッテルビウム131原子と光原子時計の高忠実な絡み合いを示す。
私たちの研究は、原子プロセッサと光時計を高速または長距離量子ネットワークに統合するための大きな一歩です。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:49:08 GMT)
Accelerating MoE Model Inference with Expert Sharding [1.5] 専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:15:01 GMT)
A symmetry-preserving and transferable representation for learning the Kohn-Sham density matrix [1.4] 本稿では,原子クラスター展開(ACE)フレームワークを用いて分子構成から対応する密度行列へのマッピングを学習するためのパラメータ化表現を提案する。
提案した表現は、モデルパラメータの増加とともに体系的に即効性を示し、トレーニングセットの一部ではなく、さらに複雑な分子に転移可能である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:05:35 GMT)
Fundamental solutions of heat equation on unitary groups establish an improved relation between $ε$-nets and approximate unitary $t$-designs [1.4] epsilon$-nets と Unitary $delta$-approximate $t$-designs の概念は、量子計算と情報にまたがって重要かつユビキタスである。
我々は$delta simeq left(epsilon3/2/dright)d2$から$epsilon$-net(epsilon/d1/2right)d2$から$delta simeq left(epsilon/d1/2right)d2$に必要とされる$delta$のバウンダリを改善する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:10:45 GMT)
DiffEGG: Diffusion-Driven Edge Generation as a Pixel-Annotation-Free Alternative for Instance Annotation [1.4] DiffEGGは、事前訓練された拡散モデルからインスタンス認識の特徴を抽出し、正確なエッジマップを生成する、完全にアノテーションのない手法である。
弱い教師付きセマンティックセマンティックセグメンテーション(WSS)のために、DiffEGGはインスタンスアノテーションなしでWPSを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:34:33 GMT)
VFM-UDA++: Improving Network Architectures and Data Strategies for Unsupervised Domain Adaptive Semantic Segmentation [1.4] Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの驚くほど強力な一般化を示している。
この作業では、さらに一歩進めて、UDAアーキテクチャとデータ戦略自体を改善します。
VFM-UDA++の2つの制限に対処し、最大5.3 mIoUの標準UDAベンチマークでSotAを超越した一般化を得る。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:57:52 GMT)
PyGen: A Collaborative Human-AI Approach to Python Package Creation [1.3] Pygenは、研究者、技術者、ホビイストに、Pythonで書かれた中核的で有用なソフトウェアツールとして抽象的なアイデアを人生に持ち込むための自動化プラットフォームである。
最先端の言語モデルとオープンソースのコード生成技術を組み合わせることで、Pygenはツール開発のマニュアルオーバーヘッドを大幅に削減した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:05:50 GMT)
The Lazy Student's Dream: ChatGPT Passing an Engineering Course on Its Own [1.3] 本稿では,Large Language Models (LLMs) の制御系コースを成功させる能力について包括的に検討する。
現実的な学生の利用パターンをシミュレートする「最小限の努力」プロトコルの下で,ChatGPTを用いてLCMの性能を評価する。
我々の分析は、制御システム工学における数学的定式化、コーディングの課題、理論的概念を扱う際のAIの強みと限界に関する定量的洞察を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:04:58 GMT)
Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions [1.3] 大規模言語モデル(LLM)は科学的研究に革命をもたらす可能性があるが、ドメイン固有のアプリケーションにおける堅牢性と信頼性はいまだ不十分である。
本研究は, ドメイン固有の質問応答と, 多様な実世界および敵対的状況における材料特性の予測に焦点を当てた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:03:26 GMT)
To Use or Not to Use a Universal Force Field [1.3] 機械学習力場(MLFF)は分子動力学(MD)シミュレーションの強力なツールとして登場した。
このパースペクティブは、複合材料システムのシミュレーションのための普遍的MLFFの実現可能性を評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:23:01 GMT)
SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models [1.2] 我々は,特徴空間をフォン・ミセス・フィッシャー分布の混合としてモデル化する表現学習手法であるSphORを紹介する。
このアプローチは、トレーニング中に意味的に曖昧なサンプルを使用することを可能にし、未知のクラスからのサンプルの検出を改善する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:06:11 GMT)
Recent Advances in Hypergraph Neural Networks [1.2] 本稿では,ハイパーグラフニューラルネットワーク(HGNN)の最近の進歩を包括的にレビューし,そのアーキテクチャに基づく主流モデルの分類について述べる。
各カテゴリについて、その実践的応用、数学的メカニズム、文学貢献、オープン問題について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:38:27 GMT)
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments [1.2] Guide-LLMは、大きな屋内環境をナビゲートする際の視覚障害者(PVI)を支援するために設計されたテキストベースのエージェントである。
我々のアプローチは,LLMがグローバルパスを計画できる新しいテキストベースのトポロジマップを特徴としている。
シミュレーション実験は、PVIを誘導するシステムの有効性を実証し、その可能性を補助技術の重要な進歩として示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:45:58 GMT)
Emergency Response Inference Mapping (ERIMap): A Bayesian network-based method for dynamic observation processing [1.1] 緊急時には、しばしば時間的プレッシャーと緊張の下で高い利害決定を行う必要がある。
現在,情報処理や状況評価には体系的なアプローチが欠如している。
本稿では,緊急時に複雑な情報スケープに合わせたERIMapというベイズ型ネットワーク方式を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:23:44 GMT)
DDO-IN: Dual Domains Optimization for Implicit Neural Network to Eliminate Motion Artifact in Magnetic Resonance Imaging [1.1] 画素と周波数領域の情報を統合する新しいデュアルドメイン最適化(DDO)手法を提案する。
The NYU fastMRI データセットによる実験結果から,本手法は既存手法よりも複数の評価指標で優れていることが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:26:03 GMT)
Finger-to-Chest Style Transfer-assisted Deep Learning Method For Photoplethysmogram Waveform Restoration with Timing Preservation [1.0] 胸部PPG信号の効率良く回復するために, StarGAN と呼ばれる, 移動支援型サイクルコンシステント生成対向ネットワークを提案する。
2つの同一装置が採用され、1つのセンサは、低品質で回復中のと考えられる胸部PSG信号を収集し、もう1つのセンサは、指で測定された高品質PSG信号を得る。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:38:44 GMT)
Hierarchical graph sampling based minibatch learning with chain preservation and variance reduction [1.0] グラフサンプリングに基づくグラフ畳み込みネットワーク(GCN)は、ミニバッチトレーニング中に前と後ろの伝播からサンプリングを分離する。
階層的なグラフサンプリングに基づく学習手法であるHIS_GCNsを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:11:46 GMT)
Enhancing Traffic Signal Control through Model-based Reinforcement Learning and Policy Reuse [1.0] マルチエージェント強化学習(MARL)は交通信号制御(TSC)において有意な可能性を示した
現在のMARLベースの手法は、訓練中に使用する固定された交通パターンと道路網条件により、一般化が不十分な場合が多い。
この制限により、新しいトラフィックシナリオへの適応性が低下し、高い再トレーニングコストと複雑なデプロイメントが発生します。
我々はPLightとPRLightの2つのアルゴリズムを提案する。PLightはモデルに基づく強化学習アプローチを採用し、事前定義されたソースドメイントラフィックシナリオを用いて制御ポリシーと環境モデルを事前訓練する。PRLightはさらに、事前学習されたPLightエージェントの類似性に基づいて適応性を向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:21:13 GMT)
"We just did not have that on the embedded system": Insights and Challenges for Securing Microcontroller Systems from the Embedded CTF Competitions [1.0] マイクロコントローラシステムは私たちの日常生活に不可欠なもので、車両、医療機器、産業用制御システムといったミッションクリティカルな用途に電力を供給する。
これまでの研究は、脆弱性を特定し、特徴付けるためのマイクロコントローラファームウェア分析にのみ焦点をあててきた。
この研究は、2023年と2024年のMITRE eCTFチームの提出と選挙後のインタビューのデータを独自に活用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:16:50 GMT)
Synthetic Data Generation of Body Motion Data by Neural Gas Network for Emotion Recognition [1.0] 本研究では,体の動きデータを合成するためのニューラルネットワーク(NGN)アルゴリズムを新たに導入する。
骨格構造トポロジーを学習することで、NGNは神経細胞やガス粒子を体関節に適合させる。
フレームに体姿勢を付けることで、最終的な合成体の動きが現れる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:16:30 GMT)
ELECTRA: A Symmetry-breaking Cartesian Network for Charge Density Prediction with Floating Orbitals [1.0] 我々は「浮遊」軌道を用いて電子電荷密度を予測する同変モデルを提案する。
提案手法は,確立したベンチマーク上での計算効率と予測精度の最先端バランスを実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:14:25 GMT)
Boundary Regression for Leitmotif Detection in Music Audio [0.9] ライトモチーフ(英: Leitmotifs)は、楽曲の様々な形態で再演される音楽のフレーズである。
本稿では,境界回帰タスクとして,レイトモチーフ検出に対処する方法について述べる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:21:58 GMT)
Single-Qubit Gates Beyond the Rotating-Wave Approximation for Strongly Anharmonic Low-Frequency Qubits [0.9] 単一量子ビットゲートは、多くの量子プラットフォームにおいて、量子ビット遷移周波数を持つ線形駆動共振器を用いて適用されている。
本研究では,2レベルシステムにおける反回転項の影響を最小限に抑えた駆動パルスの補正を導出し,検証する。
我々はこれらの補正項をフラキソニウム超伝導量子ビット上で実験的に実装し、これは強無調波低周波量子ビットの例である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:02:31 GMT)
Sampling from Bayesian Neural Network Posteriors with Symmetric Minibatch Splitting Langevin Dynamics [0.9] 本稿では,ビッグデータおよびAIアプリケーションのパラメータ空間をサンプリングするためのスケーラブルな動的ランゲヴィン動的アルゴリズムを提案する。
その結果,Symmetric Minibatch Splitting-UBU (SMS-UBU) インテグレータのバイアスは$O(h2 d1/2)$ in dimension $d>0$ with stepsize $h>0$であることがわかった。
このアルゴリズムを用いて, 畳み込みニューラルネットワークアーキテクチャを用いたニューラルネットワークにおいて, ベイズニューラルネットワーク(BNN)の後部分布の局所的モードを探索し, 後部予測確率の校正性能を評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:04:40 GMT)
AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI [0.9] ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:58:48 GMT)
The VampPrior Mixture Model [0.8] 我々は、Vamp Prior Mixture Model(VMM)と呼ばれる、深層潜伏変数モデル(DLVM)の新規な事前開発を行う。
VAEでは、VMMはベンチマークデータセット上で非常に競争力のあるクラスタリング性能を達成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:56:24 GMT)
Energy Scale Degradation in Sparse Quantum Solvers: A Barrier to Quantum Utility [0.8] 量子コンピューティングは、それをIsingモデルとしてエンコードすることで、ハード最適化問題に取り組むための有望なルートを提供する。
物理量子ビットの鎖に論理量子ビットをマッピングする小さな埋め込みは、整合性を維持するために強い鎖内鎖を必要とする。
この高結合強度は、ハードウェアが持つ結合強度の許容範囲の制限のためにハミルトニアンの再スケーリングを強いる。
接続度が増加するにつれて、有効温度が関数として上昇し、指数関数的に減衰する成功確率が生じることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:14:05 GMT)
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8] 本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:16:06 GMT)
Artificial Intelligence for Secured Information Systems in Smart Cities: Collaborative IoT Computing with Deep Reinforcement Learning and Blockchain [0.8] IoT(Internet of Things)の急速な拡張は、特にスマートシティやスマートマニュファクチャリングのようなインフラストラクチャにおいて、プライバシ、セキュリティ、データの整合性に関連する問題を引き起こしている。
本稿では,IoTを活用したスマートシティにおけるモバイルトランスミッションとセキュアなデータ交換を最適化するためのブロックチェーンと深層強化学習の統合について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:42:40 GMT)
How Can Video Generative AI Transform K-12 Education? Examining Teachers' Perspectives through TPACK and TAM [0.8] ビデオ生成AI(Video GenAI)は、動的でカスタマイズされた高品質なビジュアルコンテンツの作成を可能にすることで、K-12教育の新たな可能性を開いた。
本研究は,K-12の指導的教師が Video GenAI の教育的応用について,その視点について考察する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:08:07 GMT)
Information-Theoretic Measures on Lattices for High-Order Interactions [0.7] 格子理論に基づく多変量データの高次情報理論測度を導出する枠組みを提案する。
このフレームワークでよく使われる測度の多くは導出可能であるが、$d>3$ですべての相互作用をキャプチャすることができない。
$d$変数間のすべてのインタラクションを完全に特徴付けるために、フルパーティション格子上で定義されたStreitberg Informationを導入します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:19:21 GMT)
Posterior-Mean Denoising Diffusion Model for Realistic PET Image Reconstruction [0.7] Posterior-Mean Denoising Diffusion Model (PMDM-PET)は、最近確立された数学的理論に基づく新しいアプローチである。
PMDM-PETは,まず最小平均二乗誤差(MSE)の下で後平均PETの予測値を取得し,その分布を地上Truth PET画像の分布に最適に伝達する。
実験結果から,PMDM-PETは最小歪みと最適知覚品質を有する現実的なPET画像を生成するだけでなく,定性的視覚検査と定量的ピクセルワイド測定の両方において,最新の5つのSOTA(State-of-the-art (SOTA) DLベースラインを上回っていることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:33:50 GMT)
Order $p$ quantum Wasserstein distances from couplings [0.7] 量子ワッサーシュタイン距離の新しい定義を示す。
我々のアプローチは量子情報理論に精通したメトリクスをシームレスに統合する。
我々はこの計量の属性をランダムな量子状態の文脈で分析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:46:01 GMT)
Deep Clustering via Probabilistic Ratio-Cut Optimization [0.7] 本稿では,二項代入を確率変数としてモデル化することで,グラフ比カットを最適化する新しい手法を提案する。
オンライン環境における代入変数のパラメータを学習するために、予測比カットの上限と、その勾配の偏りのない推定値を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:27:55 GMT)
Kramers-protected hardware-efficient error correction with Andreev spin qubits [0.7] 線形インダクタとアンドレーフスピンキュービットの結合ネットワークは、ビットフリップ符号の安定化器からなる静的ハミルトニアンとなることを示す。
本稿では,回路を介するスピンカップリングが誤り訂正操作と,単一モジュールと2モジュールの論理量子ゲートの完全セットを実現する方法を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 00:19:53 GMT)
DISTINGUISH Workflow: A New Paradigm of Dynamic Well Placement Using Generative Machine Learning [0.7] DISTINGUISHは、ジオステアリングを変換するために設計されたリアルタイムAI駆動のワークフローである。
DistingUISHフレームワークは、関連する地質学的実現を再現するために、GANモデルのオフライントレーニングに依存している。
ワークフローは、リアルタイムLWDデータをDDPベースの意思決定支援システムと自動的に統合する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:00:13 GMT)
Density matrices in quantum field theory: Non-Markovianity, path integrals and master equations [0.7] 密度行列は閉かつオープンな量子系を記述するための強力な数学的ツールである。
閉系および開系の密度行列要素の式を導出する。
開系に対する結果の式が量子マスター方程式を得るのにどのように使用できるかを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:56:03 GMT)
A Deep-Learning Iterative Stacked Approach for Prediction of Reactive Dissolution in Porous Media [0.7] 本稿では, 時間情報と空間情報の両方を取り入れた新しい深層学習手法を提案する。
数値シミュレーションデータセットでは、速度と予測精度の点で、全体的な性能が示されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:18:03 GMT)
Efficient Query Verification for Blockchain Superlight Clients Using SNARKs [0.6] 本稿では,スーパーライトクライアントがクエリの計算をサーバにアウトソースし,信頼できる回答を得られるアーキテクチャを提案する。
我々のアーキテクチャはSNARKのパワーに依存しており、完全なノードとブロックチェーンエクスプローラーから得られたデータを使用して計算しやすくします。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:16:35 GMT)
PCA-Featured Transformer for Jamming Detection in 5G UAV Networks [0.6] 無人航空機(UAV)は、ネットワーク機能を損なう可能性のある攻撃を妨害することによる重大なセキュリティリスクに直面している。
従来の検出方法は、動作を動的に変更するAI駆動のジャミングに直面すると、しばしば不足する。
無線セキュリティ向上のための特徴表現を洗練するための新しいU字型トランスフォーマーアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:01:44 GMT)
Functional Brain Network Identification in Opioid Use Disorder Using Machine Learning Analysis of Resting-State fMRI BOLD Signals [0.6] 本研究では、鍵機能ネットワーク内の局所神経活動の時間周波数解析にデータ駆動機械学習(ML)を用いる。
我々は、デフォルトモードネットワーク(DMN)、サリエンスネットワーク(SN)、エグゼクティブコントロールネットワーク(ECN)から、rs-fMRI BOLD信号に基づく時間周波数特性を得る。
DMNとSNは、それぞれ0.7097と0.7018のF1スコアで、最も差別的なパワーを示し、確率ベースラインを著しく上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:52:25 GMT)
Tensor Completion for Surrogate Modeling of Material Property Prediction [0.6] 我々は、テンソル完備化問題として、ある材料特性の最適化をモデル化する。
データセットの構造を活用し、大量の素材構成の組み合わせをナビゲートします。
本実験では, 材料特性予測タスク全体にわたって, 10~20%の誤差低減を実現するテンソル完成法について検討した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:34:39 GMT)
Negative Local Partial Density of States [0.6] 実量子系は、量子力学の公理的アプローチでは証明できない状態の局所部分密度(LPDOS)と呼ばれる局所的な対象を示すことができる。
我々は、ファノ共鳴を示すことができる実際のメソスコピック系が、この物体を示し、非常に反故意に負となり、コヒーレント電流の増大をもたらすことを実証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:59:30 GMT)
Blaze: Compiling JSON Schema for 10x Faster Validation [0.6] guardrailsは、Web APIの開発者に、入力が構造にマッチすることを保証するための便利な機能を提供する。
Blazeは複雑なスキーマを数秒から数分で効率的な表現にコンパイルし、ビルド時に最小限のオーバーヘッドを追加する。
Blazeにはいくつかのユニークな最適化が組み込まれており、既存のバリデータと比べて平均して10倍のバリデーション時間を短縮している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:54:15 GMT)
SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5] リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。
提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。
我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:01:18 GMT)
Emotion-Aware Embedding Fusion in LLMs (Flan-T5, LLAMA 2, DeepSeek-R1, and ChatGPT 4) for Intelligent Response Generation [0.5] 本研究は,精神医学的応用における大規模言語モデル(LLM)の感情的・文脈的理解を高めることの課題に対処する。
本稿では,階層的融合と注意機構を統合した新しいフレームワークであるEmotion-Aware Embedding Fusionを紹介する。
このシステムは、既存のメンタルヘルスプラットフォームに統合され、検索されたセラピーセッションデータに基づいてパーソナライズされた応答を生成することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:08:37 GMT)
Bin-Conditional Conformal Prediction of Fatalities from Armed Conflict [0.5] ユーザ定義サブセット間の一貫したカバレッジ率を確保することにより、標準コンフォメーション予測を強化するビン条件コンフォメーション予測(BCCP)を導入する。
標準共形予測と比較すると、BCCPは局所的カバレッジを改善するが、これはわずかに広い予測間隔のコストがかかる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:43:33 GMT)
AutoPersuade: A Framework for Evaluating and Explaining Persuasive Arguments [0.5] 私たちは説得力のあるメッセージを構築するためのフレームワークであるAutoPersuadeを紹介します。
我々は説得力に影響を与える議論の特徴を識別する新しい話題モデルを開発した。
このモデルを用いて、新たな議論の有効性を予測し、異なるコンポーネントの因果的影響を評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:56:48 GMT)
To which reference class do you belong? Measuring racial fairness of reference classes with normative modeling [0.5] 構造脳画像の参照モデルにおける公平性(人種バイアス)を評価した。
3つの異なる基準クラス規範モデルからの偏差スコアを用いて自己報告レースを予測する。
我々の研究は、標準からの逸脱は、参照クラスとの人口的ミスマッチによる可能性があることを示唆している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:15:58 GMT)
nnInteractive: Redefining 3D Promptable Segmentation [0.5] 我々は,最初の包括的3次元対話型オープンセットセグメンテーション手法であるnnInteractiveを紹介する。
多様なプロンプト、スクリブル、ボックス、そして、直感的な2Dインタラクションを活用して完全な3Dセグメンテーションを生成する新しいラッソのプロンプトをサポートする。
nnInteractiveは、正確性、適応性、ユーザビリティの新たな最先端を設定できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:30:34 GMT)
Preserving clusters and correlations: a dimensionality reduction method for exceptionally high global structure preservation [0.5] 本稿では,新しい次元還元法であるPCC(Creserving Clusters and correlations)を提案する。
PCCは、競争的局所構造(LS)保存を維持しながら、最先端のグローバル構造(GS)保存を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:31:49 GMT)
Behind the Smile: Mental Health Implications of Mother-Infant Interactions Revealed Through Smile Analysis [0.4] 笑顔に反映された母性感情制御をモデル化し,母性感情状態を分析した。
以上の結果から,母親の笑顔の時間動態と感情状態との相関が示唆された。
この研究は、他人の利益のために自分の感情を管理するものとして定義される感情労働についての洞察を与える。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:31:31 GMT)
RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware [0.3] 大規模言語モデル(LLM)は現代の人工知能の重要な要素となっている。
本稿では,LLMがスペイン語タスクにおいて優れた結果を得るためにどのように適応できるかを示すユースケースであるRigoChat 2について述べる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:53:53 GMT)
First principal investigation of Structural optical and thermoelectric properties of hybrid organic-inorganic perovskite $[NH_3-(CH_2)_4-NH_3]CdCl_4$ compound [0.3] The structure, thermoelectric, and optical properties of $[NH_3-(CH_2)_4-NH_3]CdCl_4$。
この研究は、光および熱電特性への影響における$Cd$の役割を強調している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:49:54 GMT)
Nonlinear Tripartite Coupling of Single Electrons on Solid Neon with Magnons in a Hybrid Quantum System [0.3] コヒーレントな非線形三部相互作用は、ハイブリッド量子系における量子シミュレーションと情報処理の進歩に不可欠である。
ここでは, 固体ネオン表面に閉じ込められた単一電子と近傍のマイクロマグネットからなるハイブリッド装置における三部結合機構を予測した。
電子ゼロ点運動の空間的範囲が大きいため、単一量子レベルで調整可能で強いスピン-マグノン-モーション結合を得ることが可能である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:22:44 GMT)
Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation [0.3] 大型言語モデル(LLM)は、従来の検索アルゴリズムと統合された場合、強力な化学推論エンジンとして機能する。
我々はこのパラダイムを,戦略を意識した再合成計画とメカニズム解明という,2つの基本的な課題を通じて実証する。
提案手法は,LSMの戦略的理解と従来の化学ツールの精度を融合した,コンピュータ支援化学の新しいパラダイムを確立する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:27:17 GMT)
Interplay of entanglement structures and stabilizer entropy in spin models [0.3] エンタングルメント構造と非安定化剤性が量子相の特異なシグネチャとしてどのように機能するかを示す。
この結果から, 絡み合いスペクトル特性と魔法に基づく測度は, 量子相転移の相互に絡み合った, 頑健な指標となることが明らかとなった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:01:00 GMT)
PAC-learning of free-fermionic states is NP-hard [0.3] 自由フェルミオン状態は、その効率的な古典的シミュラビリティのため、量子状態の基本クラスである。
いくつかのマヨラナ相関関数の推定値によって生成される与えられたデータセットは、NP完全問題である自由フェルミオン状態と整合可能であることを示す。
これは古典的にシミュレート可能な量子状態の最初のクラスであり、この性質を持つ。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:44:27 GMT)
Solving Functional Optimization with Deep Networks and Variational Principles [0.3] 機能最適化問題を解くために、変分法を利用してディープニューラルネットワークを設計する方法を示す。
我々のアプローチは、最小時間制御問題のような未知の間隔で定義された関数やサポートテキストエマダッシュである場合に重要である。
地上データに頼ることなく、教師なしでCalVNetを訓練できることが示される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:28:20 GMT)
Fermi Velocity Dependent Critical Current in Ballistic Bilayer Graphene Josephson Junctions [0.2] 放射化グラフェングラフェンジョセフソン接合(BGJJs)の輸送測定を行う。
各種温度のバイアス電流とゲート電圧の関数として, ディファレンシャル抵抗を測定した。
BGJJのキャリア密度依存性は、グラフェンベースのジョセフソンジャンクションデバイスにおける追加のチューニングパラメータを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:50:34 GMT)
A Framework for Supporting the Reproducibility of Computational Experiments in Multiple Scientific Domains [0.2] 近年、研究コミュニティや一般大衆は、科学的研究の再現性について深刻な疑問を提起している。
本稿では,計算実験の構成,実行,パッケージングをサポートするSciRepというフレームワークを提案する。
我々のアプローチは、あらゆるコンピュータで再実行可能な、複数の科学分野から実験用のパッケージを作成することを可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:32:51 GMT)
Discriminative versus Generative Approaches to Simulation-based Inference [0.2] ディープラーニングにより、未結合かつ高次元パラメータ推定が可能になった。
ニューラルシミュレーションに基づく推論(N SBI)における2つのアプローチの比較を行った。
直接確率比推定と確率比推定の両方が、妥当な不確実性を持つパラメータを効果的に抽出できることが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:38:54 GMT)
Reversible tuning of nanowire quantum dot to atomic transitions [0.2] 我々は,NW-QDの発光周波数を300GHz以上精度で調整できる可逆的チューニング法を示す。
D1線共鳴による高温セシウム蒸気中のNW-QDからの単一光子の最大80%吸収を観察した。
最大100GHzのチューニングでNW-QDの微細構造分割に最小限の影響が認められた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:25:33 GMT)
A quantum Monte Carlo algorithm for arbitrary high-spin Hamiltonians [0.2] 任意のハイスピン(スピンが1/2$以上の)ハミルトニアンをシミュレートするための普遍パラメータフリー量子モンテカルロアルゴリズムを提案する。
正方格子上のスピン-$1とスピン-$3/2の量子ハイゼンベルクモデルに適用する。
このアプローチが、粒子種、例えばボソンやフェルミオンの混合を含む一般ハミルトン族にどのように自然に広がるかを詳述する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:43:45 GMT)
ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.1] 本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。
我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。
以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:39:07 GMT)
Frequency selection for the diagnostic characterization of human brain tumours [0.1] 脳腫瘍の診断は非常に敏感で複雑な臨床課題である。
後者は腫瘍組織に関する多くの代謝情報を提供するが、その高次元性はパターン認識技術に頼りやすい。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:46:27 GMT)
Low-Energy Backgrounds in Solid-State Phonon and Charge Detectors [0.0] 近年の進歩により、eVスケールのエネルギー堆積に対する感度が向上し、以前は目にしなかった低エネルギーの背景が明らかになった。
本総説では, これらの背景, その起源, および固体の低エネルギー効果について検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:57:03 GMT)
Zero-to-One IDV: A Conceptual Model for AI-Powered Identity Verification [0.0] 本稿では,AIを用いたIDV製品開発のための総合的な概念フレームワークであるZero to One'を紹介する。
堅牢な概念モデルの必要性をコンテキスト化するために、アイデンティティ検証の進化と現在の規制の状況について詳述する。
このフレームワークは、セキュリティ、プライバシ、UX、規制コンプライアンスに対処し、効率的なIDVソリューションを構築するための構造化されたアプローチを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:20:02 GMT)
Z-basis measurements using mixed parity and direct readout [0.0] スピン量子ビットアーキテクチャにおける一般的な実装は、二重量子ドットに閉じ込められた電荷のパウリ排他に基づく読み出しスキームであり、一方のドットはアンシラ量子ビットとして機能する。
ここでは,3量子スピンレジスタとパウリ排他型リードアウトを用いて,トモグラフィで構築したレジスタ全体のz基底測定を行い,物理的オーバーヘッドを排除した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:46:01 GMT)
What can unitary sequences tell us about multi-time physics? [0.0] マルチタイム量子プロセスは、時間的絡み合いやエキゾチック因果構造を含む、マルチパーティイト状態と同じリッチ性を持つ。
比較的限られた制御に直面した場合でも、これらの現象が初期段階の量子プロセッサでいかに驚くほどアクセスしやすくなっているかを示す。
我々の技術は一般的な量子力学プロセスに関係しており、凝縮物質物理学、量子生物学、NISQ時代の量子デバイスの深部診断など幅広い分野に及んでいる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:45:37 GMT)
Weighted Tensor Decompositions for Context-aware Collaborative Filtering [0.0] 重み付き二乗損失を用いた最も成功した分解法について検討し、そのテンソル構造と正規化戦略に基づいてそれらを分類する。
本稿では,その複雑性,スケーラビリティ,モデリング能力など,さまざまな分解手法の特性について概説する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:57:24 GMT)
V-Max: Making RL practical for Autonomous Driving [0.0] V-Maxは、自動運転のためにReinforcement Learningを実践するために必要なツールをすべて提供するオープンリサーチフレームワークである。
大規模実験用に設計されたハードウェアアクセラレーションADシミュレータであるWaymax上に構築されている。
V-Maxは観察機能と報酬機能、トランスフォーマーベースのエンコーダ、トレーニングパイプラインを統合している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:53:24 GMT)
Unitary Transformations using Robust Optimal Control on a Cold Atom Qudit [0.0] 我々は$d$次元ベクトルに作用する様々な頑健な量子ユニタリ変換を設計および実験的に実装する。
量子状態は、光学格子に配置されたボース・アインシュタイン凝縮体の運動量成分によって表される。
制御された一元変換は、制御されたベクトル部分空間内における状態安定化から大域安定化への拡張にどのように使用できるかを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:49:36 GMT)
Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0] 畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:41:43 GMT)
Unification of Stochastic and Quantum Thermodynamics in Scalar Field Theory via a Model with Brownian Thermostat [0.0] 実スカラー場理論における熱緩和のための量子マスター方程式を導出する体系的手法を提案する。
我々は、量子熱力学の第一法則と第二法則を満たす方法で、熱、仕事、エントロピーを定義する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:16:50 GMT)
Understanding the Quality-Diversity Trade-off in Diffusion Language Models [0.0] 拡散モデルは、視覚やオーディオなど、さまざまな領域にわたる連続的なデータをモデル化するために使用することができる。
最近の研究は、連続的な埋め込み空間で作業することで、テキスト生成への応用を探求している。
モデルは品質と多様性の間の本質的にのトレードオフを制御する自然な手段を欠いている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:18:01 GMT)
Uncertainty Quantification for Multi-fidelity Simulations [0.0] この研究は,Nektar++とXFOILを用いて,高忠実度および低忠実度数値シミュレーションデータを収集することに焦点を当てている。
リフトとドラッグの係数の計算における高い分布の利用は、精度と精度に優れていた。
不確かさ定量化における高忠実度数値シミュレーションの信頼性を最小化するために,多忠実度戦略が採用されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:11:18 GMT)
Transferring Extreme Subword Style Using Ngram Model-Based Logit Scaling [0.0] 本稿では,ngramモデルに基づくロジットスケーリング手法を提案する。
評価モデルのngram補間および原版に対して生成したテキストの難易度を追跡することにより,その有効性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:36:41 GMT)
Towards Interpretable Protein Structure Prediction with Sparse Autoencoders [0.0] SAEのマトリオシカは、ネストした潜伏者のグループに独立して入力を再構築させ、階層的に組織化された特徴を学習する。
我々はESEをESMFoldのベースモデルであるESM2-3Bに拡張し、初めてタンパク質構造予測の機械論的解釈を可能にする。
本研究では,ESM2-3BでトレーニングしたSAEが,生物学的概念発見と接触地図予測の両方において,より小さなモデルでトレーニングしたSAEよりも優れていたことを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:57:29 GMT)
Toward a Corpus Study of the Dynamic Gradual Type [0.0] 本稿では,mypy型チェッカーを使用する221のGitHubプロジェクトを対象とする,Pythonの動的型に関する社内調査について報告する。
この研究は、動的型のための8つのパターンを明らかにし、このパターンは、mypy型システムの今後の改良や、正確な型アノテーションを促進するためのツールサポートに影響を及ぼす。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:18:51 GMT)
Thermodynamics of the optical pumping process in Nitrogen-Vacancy centers [0.0] 電子スピンの偏光は、レーザーポンプによってシステムに供給される作業量に依存することを示す。
本研究では, エントロピーを熱による2つの貢献と, 供給された作業による2つの貢献に分けることができることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:00:01 GMT)
Thermodynamic functions of the Fermi gas at arbitrary temperatures [0.0] 任意の温度での理想フェルミ気体の熱力学関数はフェルミ・ストーナー関数を用いて計算する。
量子補正を考慮した低温および古典的極限の制限事例と化学的ポテンシャルゼロの場合を考える。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:26:29 GMT)
The impact of artificial intelligence: from cognitive costs to global inequality [0.0] 人工知能は進歩のための重要な機会を提供するが、その急速な成長は世界の不平等を悪化させるかもしれないと我々は主張する。
我々は,人工知能のメリットを公平に共有し,そのリスクを効果的に管理するための政策作成に,学術コミュニティが積極的に参加するよう促す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:49:00 GMT)
The Uniformly Rotated Mondrian Kernel [0.0] 入力空間に一様ランダム回転を適用することにより、このランダム特徴写像の変動について検討する。
近似した等方性カーネルの閉形式式を得る。
均一に回転したモンドリアンテッセルレーションの典型的なセルの幾何学に関する新しい結果が証明された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:50:29 GMT)
The Detection of Saccadic Eye Movements and Per-Eye Comparisons using Virtual Reality Eye Tracking Devices [0.0] この研究は、サスカデック眼球運動に関して、VRアイトラッキング技術と神経科学に関するものである。
このソフトウェアは、サッケードの発生時期を正確に検出し、サッケード眼球運動の違いを分析することが期待されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:15:39 GMT)
Systematic Computation of Braid Generator Matrix in Topological Quantum Computing [0.0] トポロジカル量子計算(TQC)における素編み演算の数値計算のための総合的体系的手法を提案する。
提案手法は、まず、スパース符号化の特殊な場合において、qudit当たりの任意の数のエノンを含むことができるという課題に対処する。
この手法は広範なトポロジカル量子回路シミュレータにおいて重要な役割を担い、複雑な量子回路の試験と研究を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:14:35 GMT)
Synthetic-lattice Bloch wave dynamics in a single-mode microwave resonator [0.0] 単モード共振器をコヒーレント単色駆動下で周期的に変調することにより, 傾斜合成格子が自然に実現されることを示す。
傾斜合成格子におけるブロッホ波のダイナミクスを理論的に研究し、空洞場のスペクトル分布に特有の特徴を生じさせる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:10:19 GMT)
Symmetries, Scaling Laws and Phase Transitions in Consumer Advertising Response [0.0] 本稿では,飽和効果という重要な側面を考慮に入れたモデルを提案する。
マーケティング感性、反応感性、行動感性といった新しい重要なパラメータは、オーディエンスエンゲージメントと広告パフォーマンスのドライバに関する洞察を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:32:02 GMT)
Status and Future Prospects of the Standardization Framework Industry 4.0: A European Perspective [0.0] 産業用4.0技術の急速な開発には、相互運用性、安全性、効率性を確保するため、堅牢で包括的な標準化が必要である。
本稿では,標準化の基本的役割と機能について考察し,欧州の規制枠組みにおけるその重要性に着目した。
人工知能とデジタルツインズに関して、産業4.0の既存の標準への情報的ガイドとして機能し、標準化団体と研究コミュニティの間の協力を強化するための行動として機能する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:08:57 GMT)
Some information is too dangerous to be on the internet [0.0] 私は「危険な」情報のカテゴリを追加する必要があると論じます。
このカテゴリーには道徳的に間違っている情報や「腐敗」と呼ばれる情報が含まれる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:41:55 GMT)
Solving Caldeira-Leggett Model by Inchworm Method with Frozen Gaussian Approximation [0.0] 凍結したガウス近似を用いて波動関数を積分形式で近似する。
所望の還元密度作用素はダイソン級数として記述される。
インチワーム法は級数を全プロパゲータの積分微分方程式として定式化する」。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:34:41 GMT)
Simulation of the 1d XY model on a quantum computer [0.0] 本稿では,量子コンピュータ上での1次元XYモデルの正確なシミュレーションのための包括的スキームを提案する。
本稿では,正確な時間発展を実現するために,量子回路を設計するための新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:30:03 GMT)
Second quantization for classical nonlinear dynamics [0.0] トリ上の無限次元回転系を通した測度保存エルゴード流の可観測物の進化を表現するための枠組みを提案する。
バナッハ代数スペクトルである $sigma(F_w(mathcal H_tau)$ が、潜在的無限次元のトーラス族に分解されることを示す。
また、このスキームでは、有限次元トーラス上の関数を任意の大きさの$sigma(F_w(mathcal H_tau)$で再現することにより、元のシステムの可観測性を表現する手順も採用している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:55:03 GMT)
Seal Your Backdoor with Variational Defense [0.0] VIBEは、バックドア攻撃に対する耐性を訓練するモデルに依存しないフレームワークである。
標準データセットに対する現代のバックドア攻撃に対する手法の有効性を実験的に検証した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:08:31 GMT)
Scrambling for precision: optimizing multiparameter qubit estimation in the face of sloppiness and incompatibility [0.0] パラメータ符号化のための調整可能なスクランブル演算を導入することにより,スロープネスと非互換性の関連性を検討する。
分析最適化により、これらの制約を緩和し、推定効率を高める戦略を特定する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:57:51 GMT)
STGDPM:Vessel Trajectory Prediction with Spatio-Temporal Graph Diffusion Probabilistic Model [0.0] 船舶軌道予測は、海上交通の安全を確保し、衝突を避けるために重要な要素である。
船舶の挙動に固有の不確実性があるため、軌道予測システムは将来的な運動状態を正確にモデル化するためのマルチモーダルなアプローチを採用する必要がある。
本稿では, 容器の状態に依存する従来の集約型手法を置き換え, 動的グラフとしての相互作用のモデル化を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:50:27 GMT)
Robustness of the avian compass function described by radical pair model against biomagnetic noise [0.0] 鳥類の目に存在することが示唆される磁気センシング機構は、その移動を支援する磁気傾斜を検出するコンパスとして機能する。
このメカニズムは、ラジカルペア(RP)モデルとして知られる量子スピンモデルによってモデル化される。
我々は,Lindblad型マスター方程式に基づく環境磁気ノイズを組み込んだモデルを開発した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 01:43:33 GMT)
Rethinking Diffusion Model in High Dimension [0.0] 拡散モデルは、基礎となる確率分布の統計的性質を学習できると仮定する。
本稿では,拡散モデルの目的関数と推論手法の詳細な解析を行う。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:36:11 GMT)
Resourcefulness of non-classical continuous-variable quantum gates [0.0] 連続変数量子計算では、量子計算の優位性を実現する重要な要素を特定することが長年の課題である。
我々は,$(s)$-ordered quasiprobabilities の手法を利用して,量子ゲートの量子的優位性の潜在的な達成への寄与を同定する,包括的で汎用的なアプローチを開発する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:36:43 GMT)
Quantum state of fields in $SU(\infty)$ Quantum Gravity ($SU(\infty)$-QGR) [0.0] SU(infty)$-QGRは、最近提案された宇宙の量子モデルである。
本稿では,$mathcalSU(infty)$ algebraの退化がモデル構築に与える影響を明らかにする。
我々は、$mathcalSU(infty)$につながる様々な代数の極限の特異性を示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:09:51 GMT)
Quantum backflow for two identical particles [0.0] リングに制限された2つの同一粒子の最大逆流に対する量子統計の影響について検討する。
この結果から,今後の量子バックフローの実験的実現は,フェルミオンよりもボソンを含むシステムを優先すべきであることが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:07:44 GMT)
Quantum Simulations of Chemistry in First Quantization with any Basis Set [0.0] 本稿では, 基底集合を用いた第1量子化法において, 一般基底状態化学問題の解法を提案する。
分子軌道に対するトフォリカウントの高速化と、二重平面波を用いた等級改善を実現した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:06:09 GMT)
Quantum Circuits for SU(3) Lattice Gauge Theory [0.0] 純粋な$SU(3)$ゲージ理論を2次元と3次元で考える。
任意の格子体積上で時間発展をシミュレートする回路を構築する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:13:58 GMT)
Quantum Averaging for High-Fidelity Quantum Logic Gates [0.0] 駆動量子系におけるユニタリダイナミクスを解析的にモデル化するための2時間量子平均化理論(QAT)を提案する。
本稿では,高忠実度2量子ビット量子ゲートのモデル化にこの解析手法を適用し,高精度化の実現を実証する。
結果は急速に、高速に絡み合うモルマー・ソレンセントラップ量子ビットゲートの数値計算に収束する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:56:45 GMT)
Pulsed magnetic field gradient on a tip for nanoscale imaging of spins [0.0] 本研究では,ナノスケールで高勾配の局所的かつ制御可能な磁場を提供するために,先端にスイッチング可能な磁場勾配を示す。
我々は、勾配場をナノスケール磁気共鳴センサ、ダイヤモンド中の窒素空孔(NV)中心に組み込み、高分解能磁気共鳴画像を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:37:13 GMT)
Probing the many-body localized spin-glass phase through quench dynamics [0.0] 乱れたスピン鎖の動的性質を特徴付け,スピングラス状態に着目した。
これらの振動は、単純な理論モデルを用いて、多体局在スピンガラス状態において深く説明される。
我々の研究は、RG予測が数値シミュレーションや実験に対して定量的に検証できることを示唆し、大規模システムにおける動的位相の微視的記述を可能にする可能性を示唆している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:46:18 GMT)
Preserving Mass Shell Condition in the Stochastic Optimal Control Derivation of the Dirac Equation [0.0] ディラック方程式はスピン-$frac12$粒子とその反粒子を支配している。
非線形運動論的項を保ち、スピン-電磁結合をポテンシャルに統合する新しいSOC導出法を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:21:51 GMT)
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM [0.0] PoseLessはロボットハンドコントロールのための新しいフレームワークで、投影された表現を用いて2D画像を関節角に直接マッピングすることで、明示的なポーズ推定を不要にする。
提案手法では,ランダムな関節構成によって生成された合成トレーニングデータを活用し,実世界のシナリオへのゼロショット一般化とロボットから人間の手へのクロスモルフォロジー移行を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:26:42 GMT)
Physics-informed neural networks viewpoint for solving the Dyson-Schwinger equations of quantum electrodynamics [0.0] 物理インフォームドニューラルネットワーク(PINN)は、ユークリッド空間における量子電磁力学(QED)のダイソン・シュウィンガー方程式を解くために用いられる。
我々のPINNフレームワークは、積分方程式を直接損失関数に挿入することで、単一ニューラルネットワークがモータのスペクトル上での質量関数の連続的かつ微分可能な表現を学習することができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:16:39 GMT)
Physics-based AI methodology for Material Parameter Extraction from Optical Data [0.0] 提案モデルでは,従来の最適化フレームワークとマルチスケールオブジェクト検出フレームワークを統合した。
テラヘルツおよび赤外周波数におけるシミュレーション伝送スペクトルの性能評価と解析を行った。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:49:45 GMT)
Phenomenology of Holography via Quantum Coherence on Causal Horizons [0.0] この研究は、すべての地平線がコヒーレント量子情報の普遍的境界であるという中心仮説に基づく候補モデルを提案する。
この予測は、地平線上のコヒーレントな状態を与えるブラックホール情報に対する't Hooft'の代数に着想を得たものである。
時間領域相関は、コヒーレンススケールが因果ダイヤモンドと一致するプランクアンジッタから予測される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:07:00 GMT)
Perturbation Analysis of Singular Values in Concatenated Matrices [0.0] 連結行列はデータの共有構造を明らかにするために用いられる。
行列の特異値スペクトルは個々の成分のスペクトルとどのように関係するのか?
行列がノルムに近い場合、理論行列の主特異値は安定であり、精度と圧縮のトレードオフを制御できることが示される。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:28:57 GMT)
Pauli Decomposition via the Fast Walsh-Hadamard Transform [0.0] 行列要素の置換まで、分解係数は一般化されたアダマール行列の乗算によって元の行列と関係があることが示される。
方程式の数値的な実装は、現在利用可能な解よりも優れている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:22:12 GMT)
Parameter-Efficient Electromagnetic Surrogate Solver for Broadband Field Prediction using Discrete Wavelength Data [0.0] 連続的な波長範囲で解を提供できるブロードバンド・サロゲート・サロゲート・ソルバを提案する。
最先端のサロゲート解法と比較して、トレーニングされていない波長の予測精度が80.5%向上した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:02:03 GMT)
On the status of current quantum machine learning software [0.0] 実際に利用可能な量子デバイス上で,ハイブリッド量子古典モデルを動作させることがいかに困難かを検討する。
また、そのような取り組みのコストとモデルの品質の変化を分析した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:55:10 GMT)
On the Existence of the Hilbert-Pólya Hamiltonian [0.0] 我々は、ヒルベルト・ポリヤ予想に対してハミルトニアンを主張する。
自己随伴ハミルトニアンの固有値は$i(1/2 - rho_s)$であることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:02:08 GMT)
Non-magnetic Fractional Conductance in High Mobility InAs Quantum Point Contacts [0.0] InP基板上に成長した高モビリティInAs量子点接触の磁気電子特性を報告する。
1Dコンダクタンスは最大17プラトーに達し、2e2/hの単位で量子化され、eは電荷の基本単位、hはプランク定数となる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:23:40 GMT)
No Silver Bullets: Why Understanding Software Cycle Time is Messy, Not Magic [0.0] 216の組織で55,000以上の観測データを用いて,チケット作成から完成までのサイクルタイムを計測した。
サイクルタイムと週あたりのコーディング日数、マージされたプルリクエストの数、コラボレーションの度合いといった要因との間には、正確だが控えめな関連性があります。
以上の結果から,一般的な職場要因は期待方向のサイクル時間に影響を及ぼすが,どの観測でも典型的性能に関する限られた信号が得られることが示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:57:05 GMT)
Neural Learning Rules from Associative Networks Theory [0.0] 連想ネットワーク理論は、人工ニューラルネットワークの更新ルールを解釈するツールを提供している。
ニューラルネットワークのルールを しっかりとした理論から導き出すことは 根本的な課題です
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:44:04 GMT)
Multiplayer Information Asymmetric Contextual Bandits [0.0] そこで本稿では,非対称なコンテキスト帯域幅を持つ新しいマルチプレイヤー情報を提案する。
それぞれに複数のアクションセットがある。各ラウンドで同じコンテキストベクトルを観察し、自身のアクションセットからアクションを同時に取り、共同アクションを発生させる。
本研究では,両タイプの非対称性が存在する場合にも,同じ最適後悔を実現するために,探索テーマの原理に基づいて構築された新しいアルゴリズムのtexttETCを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:48:31 GMT)
Multiplayer Information Asymmetric Bandits in Metric Spaces [0.0] 我々は報奨、行動、あるいはその両方において情報非対称性を考慮する。
我々は citekleinberg 2004nearly で与えられた CAB アルゴリズムを採用する。
また,適応的な離散化を用いたズームアルゴリズム kleinberg2008multi を引用し,報奨における情報非対称性と行動における情報非対称性に適用する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:08:09 GMT)
MuCoS: Efficient Drug Target Discovery via Multi Context Aware Sampling in Knowledge Graphs [0.0] Multi Context Aware Sampling (MuCoS) は、高密度の隣人を対象にした新しいフレームワークである。
KEGG50kデータセットの実験では、MuCoSは最先端のベースラインを上回っている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:08:42 GMT)
MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification [0.0] バグベースのMIL(Multiple Instance Learning)アプローチが、WSI(Whole Slide Image)分類の主流方法論として登場した。
本稿では,マルチスケール特徴抽出と複数インスタンス学習を統合したエンドツーエンドのWSI分類フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:16:44 GMT)
Mitigating transients in flux-control signals in a superconducting quantum processor [0.0] 我々は、長時間の過渡性を軽減するために設計されたパルスのクラスを導入する。
提案したパルス設計は、長時間の過渡現象を緩和する実用的な解決策を提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:37:02 GMT)
Meta-Reinforcement Learning with Discrete World Models for Adaptive Load Balancing [0.0] メタ強化学習アルゴリズムをDreamerV3アーキテクチャと統合して,オペレーティングシステムの負荷分散を改善する。
このアプローチは、Advantage Actor-Critic(A2C)アルゴリズムを標準および適応トライアルで上回る、最小限の再トレーニングによる動的ワークロードへの迅速な適応を可能にする。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:36:49 GMT)
Median Consensus Embedding for Dimensionality Reduction [0.0] 本研究は,低次元埋め込みにおける分散性に対処する中央集束埋め込みを提案する。
我々は,MCEが指数速度で一貫性を達成することを証明した。
MCEは急速に収束し,不安定性が著しく低下することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 07:06:54 GMT)
Mean-Variance Portfolio Selection in Long-Term Investments with Unknown Distribution: Online Estimation, Risk Aversion under Ambiguity, and Universality of Algorithms [0.0] 本稿では、データを徐々に、そして継続的に明らかにする視点を採用する。
オリジナルのモデルはオンライン学習フレームワークに再キャストされ、統計的仮定は一切含まない。
将来のデータの分布が正常な形に従えば、リスク回避のキャリブレーションにより、効率的なフロンティアに沿ってポートフォリオを持ち上げることにより、富の成長率が向上することを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:39:26 GMT)
Macroscopic quantum coherence and entanglement in mechanical systems [0.0] 独立なマクロ特性を捉えるための2つの尺度を導入する。
近年の機械的重ね合わせ状態において, 真のマルチパーティライトの絡み合いの証拠は106ドルから107ドルである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:35:34 GMT)
Machine Learning for Predicting Chaotic Systems [0.0] カオス力学系の予測は、天気予報など多くの科学分野において重要である。
本稿では,軽量かつ重厚な機械学習アーキテクチャの比較を行う。
従来のメトリクスの望ましい特性を組み合わせ、カオスシステムに適した新しい計量である累積最大誤差を導入する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:30:13 GMT)
Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data [0.0] 大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。
GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:27:20 GMT)
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents [0.0] 本稿では,中国古来のノンナラティブ文書に適した2段階の事前処理フレームワークである知識認識前処理(KAP)を提案する。
Hybrid Retrievalとの互換性を向上させることで、KAPは検索アーキテクチャ自体を変更することなく、スパース法とDense Retrieval法の精度を向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:01:03 GMT)
KAN-Mixers: a new deep learning architecture for image classification [0.0] 本研究の目的は,kanを主層とし,その性能評価を行うKan-Mixersと呼ばれる新しいミキサーアーキテクチャを設計することである。
その結果,kan-Mixersモデルの方がNIST-Mixerモデルやkanモデルより優れていることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:41:22 GMT)
JurisTCU: A Brazilian Portuguese Information Retrieval Dataset with Query Relevance Judgments [0.0] 本稿では,ブラジルの法律情報検索データセットJurisTCUを紹介する。
このデータセットは、ブラジル連邦会計裁判所の16,045件の法学文書と、関連判断を注釈した150件のクエリで構成されている。
文書拡張手法は,このデータセット上での標準BM25検索の性能を著しく向上させることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:39:04 GMT)
Isometries of the qubit state space with respect to quantum Wasserstein distances [0.0] 量子ビット状態空間上での量子ワッサーシュタイン距離と発散の等距離について研究する。
我々は、全てのパウリ行列によって誘導される量子対称ワッサーシュタイン発散$d_sym$について等距離を記述する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:01:50 GMT)
Investigating the Effectiveness of a Socratic Chain-of-Thoughts Reasoning Method for Task Planning in Robotics, A Case Study [0.0] 本研究では,大規模言語モデル (LLM) が実世界の物理行動で複雑な空間的タスクをナビゲートできるかどうかを考察する。
我々は,Webots エンジンに擬似ティアゴロボットを組み込んだ GPT-4(Omni) をオブジェクト探索タスクに適用する。
予備的な結果は、チェーン・オブ・ソート推論と組み合わせることで、ソクラティック法が空間認識を必要とするロボットタスクのコード生成に利用できることを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:36:37 GMT)
Interpretable and Robust Dialogue State Tracking via Natural Language Summarization with LLMs [0.0] 本稿では,対話状態の自然言語記述を生成するために,Large Language Models(LLMs)を利用した対話状態追跡(DST)を提案する。
以上の結果から,NL-DSTはより柔軟で,正確で,人間に理解可能な対話状態追跡手法である可能性が示唆された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:52:02 GMT)
Interaction quench of dipolar bosons in a one-dimensional optical lattice [0.0] トンクス・ジラルドー(Tonks-Girardeau、TG)は、1次元に制限された強い相互作用を持つボソンの高相関量子状態である。
ダイポーラボソン上の相互作用クエンチを, 当初は種々の状態と充填条件で調製した。
この結果から, 単位充填TGモット状態から始めると, 非常に弱い双極子相互作用強度でのみ安定性が維持されることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:46:32 GMT)
Integrating UX Design in Astronomical Software Development: A Case Study [0.0] 2023年、ASTRONは専用のUXデザイナをソフトウェア開発プロセスに組み込むことに踏み切った。
この決定は、開発中の望遠鏡からのデータ保持装置へのアクセスを提供するサービスのアクセシビリティとユーザビリティを高めることを目的としていた。
ソフトウェア開発ライフサイクルの開始時にUXデザイナを統合する方法について論じます。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:00:00 GMT)
Integrating Captive Portal Technology into Computer Science Education: A Modular, Hands-On Approach to Infrastructure [0.0] 本稿では,Captive Portals インフラストラクチャを支える技術に学生を紹介するための教育プロジェクトについて紹介する。
このプロジェクトは、多くのコンピュータネットワークコースで広く使われているオープンソース実装に基づいている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:39:41 GMT)
How (Not) to Understand Weak Measurements of Velocities [0.0] 弱速度測定は標準的な量子力学的解釈を持ち、粒子軌道や速度へのコミットメントとは無関係である。
このことは、弱い速度測定の記述が残されている物理的議論を慎重に再構築することで明らかになる。
弱い速度測定が信頼できるためには、dBBTを標準形に仮定する必要があることが判明した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:03:59 GMT)
Holographic Rényi $n\to 0$ entropy and Euclidean fluids [0.0] 精製された R'enyi エントロピーを$tilde S_n$ in the $n to 0$ limit in the AdS$_d+1$/CFT$_d$ context。
我々は、この系が局所平衡に達し、ユークリッド不整形完全流体の項で CFT の記述が認められることを、n$ の先頭の順に見出した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:00:02 GMT)
Hierarchical autoregressive neural networks in three-dimensional statistical system [0.0] ANN(Autoregressive Neural Networks)は、いくつかのスピン系に対するモンテカルロアルゴリズムの効率を改善するメカニズムとして最近提案されている。
本稿では,階層型アルゴリズムを3次元に一般化し,その性能をIsingモデルを用いて検討する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:51:01 GMT)
GraphSense: Graph Embedding Based Code Suggestion Framework [0.0] GPTベースのモデルは、ローカル環境でのリアルタイムコード提案には遅すぎたり、リソース集約的だったりします。
このGraphSenseのソリューションとして、リアルタイムに最小限のリソース使用量でコード提案を提供する方法が導入された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:39:28 GMT)
Geometric quantum drives: Hyperbolically driven quantum systems and beyond [0.0] 本稿では、古典粒子の位置を時間とともに量子ハミルトニアンを操る駆動量子系の構築について述べる。
この結果、時間依存量子ハミルトニアンは、構造的時間プロファイルを持ち、多様体の根底にある選択の局所的および大域的性質に依存する。
断熱限界における双曲型量子系は、量子化された動的応答によって位相的に分類されることを示す。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:05:10 GMT)
Fully numerical Hartree-Fock Calculations with Quantized Tensor Trains [0.0] 有限差分法を用いて、量子テンソルトレイン形式における分子特異的な量子化学基底関数の最適化のための完全に数値的な枠組みを提案する。
我々の研究は、十分に確立されたHF-溶媒の代替となる有望な方法を提供し、高度に正確で、完全に数値的で、分子適応的な基底セットを定義する道を開くことができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:44:23 GMT)
From Occurrence to Consequence: A Comprehensive Data-driven Analysis of Building Fire Risk [0.0] 建築火災は、生命、財産、インフラに永続的な脅威をもたらす。
本研究では,米国の火災リスクを分析したデータ駆動型フレームワークを提案する。
火災の発生と結果に影響を及ぼす主要なリスク要因を同定する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:55:31 GMT)
Finite-time quantum equilibration for continuous variables [0.0] 無限次元系の場合の量子平衡の理論を開発する。
本論文の主な目的は,Shortin が得られた結果を拡張するためのフレームワークを提案することである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:00:20 GMT)
Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0] 本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。
我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。
結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:06:40 GMT)
Exact solution for a class of quantum models of interacting bosons [0.0] 量子光学において、主焦点はハミルトニアンスペクトルではなく、初期状態の進化である。
本稿では、相互作用するボソンの量子モデルの幅広いクラスに適用可能な、状態進化問題を解決するための単純で一般的な方法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:11:51 GMT)
Entanglement entropy dynamics of non-Gaussian states in free boson systems: Random sampling approach [0.0] 単純なランダムサンプリング法により、永久的な計算コストを削減できることを数値的に示す。
計算コストはまだ指数関数的であるが、この改良により、フリーボソン系のエントロピー力学を100ドル以上で得ることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:42:23 GMT)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0] 本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。
本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。
以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:49:41 GMT)
Enhanced detection of quantum correlations via extracted work for quantum illumination and secure communications [0.0] 量子鍵分布(QKD)と量子照明(QI)の文脈における2モード量子相関の測定について検討する。
まず, 抽出したk_B T$は, 2モードの加圧真空状態 (TMSTS) と2モードの加圧真空状態 (TMSVS) と同一であることを示した。
我々は,TMSTSを用いて抽出された作業量,QIにおける共同検出信号-雑音比,QKDの相関係数を初期化に対する約$barn_rm th$倍に向上することを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:11:33 GMT)
Enhanced Estimation Techniques for Certified Radii in Randomized Smoothing [0.0] 離散領域と連続領域の両方に対して高度なアルゴリズムを導入し、CIFAR-10とImageNetデータセット上での有効性を実証する。
本研究は, より効率的な認証プロセスの可能性を強調し, 信頼性の強化と理論的枠組みの改善に向けた今後の研究の道を開くものである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:30:47 GMT)
Efficient and Accurate Estimation of Lipschitz Constants for Hybrid Quantum-Classical Decision Models [0.0] 本稿では,ハイブリッド量子古典的決定モデルにおいて,リプシッツ定数を効率的に正確に推定するための新しい枠組みを提案する。
本稿では,古典ニューラルネットワークと量子変動回路を統合し,学習理論の重要な問題に対処する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:50:16 GMT)
ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships [0.0] 自然言語推論(NLI)は、自然言語処理(NLP)分野において重要な分野である。
本稿ではNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。
この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 18:32:16 GMT)
Dynamic Bragg microcavities in collisions of unipolar light pulses of unusual shape in two- and three-level medium [0.0] 非ゼロ電気領域を持つ単一極性光パルスは、量子系の超高速制御に使用できる。
原子特性を効率的に制御するには、使用するパルスの時間的形状を変える必要がある。
従来の多サイクルパルスでは不可能な新しい現象は、そのような一極性パルスと物質との相互作用を分析することによって発見された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:07:05 GMT)
Demonstrating anyonic non-Abelian statistics with a minimal $d = 6$ qudit lattice [0.0] 我々は、$d=6$ qudits の格子を$mathbfD(mathbfS_3)$非アベリア随伴体とみなす。
本稿では, ブレイディングおよび融合進化の非可換性を示す手法を提案する。
この研究は、非アベリア量子誤り訂正符号の実現に向けた基本的なステップである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:18:10 GMT)
Degradation Self-Supervised Learning for Lithium-ion Battery Health Diagnostics [0.0] リチウムイオン電池(LIB)の健康評価は、通常、一定の充電/放電プロトコルに依存している。
本研究では,自己指導型学習のパラダイムに基づくLIBヘルスを推定するための新たなトレーニング戦略を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:29:13 GMT)
Deformable Linear Object Surface Placement Using Elastica Planning and Local Shape Control [0.0] 本稿では,変形可能な線形物体(DLO)を平面上に単一ロボットハンドで配置するための2層的アプローチについて述べる。
高レベル層は、弾性体溶液に基づく新しいDLO表面配置法である。
低レベル層はパイプラインコントローラを形成する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:33:36 GMT)
DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch [0.0] DeepRAGは、RAGシステムにおけるヒンディー語専用に構築した特殊な埋め込みモデルです。
検索精度は、みんなが使っている多言語モデルと比べて23%向上しました。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:27:56 GMT)
Deep in the knotted black hole [0.0] 我々は、バナドス・タイテルボイム・ザネリ(BTZ)ブラックホールにおける検出器の遷移速度を、地平線上および水平線上を自由に下降すると見なしている。
地平線の外では定性的に類似しているが、BTZの場合よりもジオンの時空の振幅が大きい。
一般的には、検出器はブラックホールの地平線を見つけ、内部のトポロジーを識別する早期警報システムとして機能する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 21:06:42 GMT)
Deep Tensor Network [0.0] 本稿では,テンソルに基づく操作をアテンション機構に統合する新しいフレームワークであるDeep Networkを紹介する。
我々のフレームワークは計算複雑性を減らして効率を向上するだけでなく、逐次データにおける相互作用をモデル化するための原則的手法も提供することを実証する。
実験的な評価により,提案したディープテンソルネットワークは,各種ディープラーニングタスクにおける最先端性能向上のための堅牢なビルディングブロックとして機能することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:55:59 GMT)
Data-driven Nonlinear Modal Analysis with Physics-constrained Deep Learning: Numerical and Experimental Study [0.0] 非線形力学系の特徴付けにおける正規モード(NNM)の有効性について検討する。
これらの実世界のシステムにおいて、クローズドフォームモデルや方程式を得るのが困難であることを考慮し、データ駆動型フレームワークを提案する。
我々は,そのモード分解,再構成,予測の精度を解析することにより,システムを表現するフレームワークの能力を評価する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:03:55 GMT)
Continuous Observability Assurance in Cloud-Native Applications [0.0] 我々は,従来の研究に基づいて,観測可能性試験ツールOXNを連続観測可能性保証のための新しい手法に統合した。
我々はその使い方を実演し、今後の方向性について議論する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:43:26 GMT)
Context-aware Biases for Length Extrapolation [0.0] より長いシーケンスに一般化するトランスフォーマーの能力は、シーケンスの長さが増加するにつれて低下する。
ほとんどの相対位置エドゥ法(RPE)は、定数線形バイアスを追加したり、一般的なバイアスを学習することでこの問題に対処する。
本稿では,デコーダをベースとしたトランスフォーマーにおいて,各ヘッドのトークン固有のバイアスを学習するコンテキスト認識型長寿命補間法(Cable)を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 05:54:58 GMT)
Confinement to deterministic manifolds and low-dimensional solution formulas for continuously measured quantum systems [0.0] ノートは、量子工学への関心のいくつかの設定において、この拡散は実際には低次元で行われるという観察に注意を向けている。
すなわち、状態は低次元の非線形多様体に閉じ込められ、しばしば時間依存であるが測定結果とは独立である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:08:03 GMT)
Configurable controlled teleportation using multipartite GHZ states [0.0] 本稿では,未知の$n$-qubitの状態を送信側から受信側へ安全に転送するための制御された量子テレポーテーションプロトコルを提案する。
メッセージキュービットは参加者間で分散し、ターゲットとする外部攻撃に対するセキュリティを強化する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:22:19 GMT)
Comprehensive Benchmarking of Machine Learning Methods for Risk Prediction Modelling from Large-Scale Survival Data: A UK Biobank Study [0.0] 大規模コホート研究と機械学習(ML)アルゴリズムの多種多様なツールキットにより、このような生存課題の取り組みが促進されている。
我々は,線形学習モデルからディープラーニング(DL)モデルまで,8つのサバイバルタスク実装のベンチマークを試みた。
n = 5,000からn = 250,000のサンプルサイズで、異なるアーキテクチャがいかにうまくスケールするかを評価した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 20:27:20 GMT)
Complete Measurement of Two-Photon Density Matrix by Single-Photon Detection [0.0] 本稿では、両方の光子を検出する必要性を回避する量子状態トモグラフィーへのアプローチを提案する。
量子状態測定の実践的な課題は、有効な単一光子検出器が広いスペクトル範囲で容易にアクセスできないという事実から生じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 03:00:01 GMT)
Comment on "Interferometric single-shot parity measurement in InAs-Al hybrid devices", Microsoft Quantum, Nature 638, 651-655 (2025) [0.0] 自然界638, 651-655(2025)における(トポロジカル)超伝導体の「パリティ読み出し」について考察する。
ギャップの存在を決定するために、Nature 638, 651-655 (2025)は、いわゆるトポロジカルギャッププロトコル(TGP)に依存していた。
また,TGPは,「パリティ・リードアウト」が発生した地域を,ギャップや隙間のない領域として報告できることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 22:47:26 GMT)
ChatGPT-4 in the Turing Test: A Critical Analysis [0.0] 本稿では,Restrepo Echavarr'ia(2025年)の最近の論文ChatGPT-4 in the Turing Testを批判的に考察する。
この分析は、厳格な基準と限られた実験データに基づく批判が完全には正当化されていないことを明らかにしている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:33:04 GMT)
Characterizing topological pumping of charges in exactly solvable Rice-Mele chains of the non-Hermitian variety [0.0] 1次元ライス・ミールモデルの非エルミート(NH)一般化に対するThoulessチャージポンピングの性質について述べる。
開境界条件に対しては、非ブロック一般化ブリルアンゾーン(GBZ)を定式化する。
スペクトルが複素固有値の虚数部分の強いゆらぎの大きさを示すとき、期待された量子化値からずれがあることが分かる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:08:12 GMT)
Challenging the Quantum Advantage Frontier with Large-Scale Classical Simulations of Annealing Dynamics [0.0] 近年のD-Waveの量子シミュレータの実証では、量子計算の優位性を示す新しいベンチマークが確立されている。
時間依存の変分モンテカルロは、スピングラスの量子アニールをシステムサイズまで効率的にシミュレートできることを示した。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 10:09:37 GMT)
Bound-state formation and thermalization within the Lindblad approach [0.0] リンドブラッド方程式は、開量子系の1つのアプローチとして、熱浴と接触する粒子の密度行列を記述する。
位置空間のリンドブラッド方程式は、ソースを持つ拡散対流方程式によって再構成可能であることを示す。
本研究では, 粒子のP"oschl-Teller-like電位によって実現された1次元温度条件下での熱浴と相互作用するバウンド状態の形成の可能性について述べる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:01:04 GMT)
Balancing SoC in Battery Cells using Safe Action Perturbations [0.0] 電荷レベルの不均衡は電池の健康状態に影響する。
従来の方法では、安全と充電時間のトレードオフとして安全保証に重点を置いている。
本稿では,安全層を深部強化学習(RL)エージェント上のアドオンとして使用することにより,安全な電池充電動作の学習方法を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:59:14 GMT)
Automating Violence Detection and Categorization from Ancient Texts [0.0] 文学における暴力の記述は、人文科学の幅広い研究に貴重な洞察を与える。
歴史家にとって、暴力の描写は、大きな戦争と影響力のある人々の個人的紛争を取り巻く社会的ダイナミクスを分析するための特別な関心事である。
この研究は、古代のテキストにおける暴力を識別し、複数の次元にまたがる分類において、大規模言語モデル(LLM)の有効性を評価する最初のものである。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:55:52 GMT)
Automatic welding detection by an intelligent tool pipe inspection [0.0] この研究は、石油・ガスパイプラインにおけるスマート豚と呼ばれるインライン検査ツールを用いて得られた信号に基づいて、溶接認識における機械学習技術に基づくモデルを提供する。
その結果,90~98%の効率で溶接を自動的に識別できることがわかった。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:52:28 GMT)
Automated Retinal Layer and Fluid Segmentation and Cross-sectional Analysis using Spectral Domain Optical Coherence Tomography Images for Diabetic Retinopathy [0.0] 深部神経回路を用いて網膜層10層,網膜内流体,高反射性(HRF)の分画を訓練した。
SwinUNETRはセグメンテーションの精度が最も高く、VM-Unetは特定の層で優れていた。
解析の結果, NPDRとPDRの厚みの差が明らかとなり, 層厚と視力の相関が認められた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:32:18 GMT)
Aspects of Quantum Entanglement and Indistinguishability [0.0] この論文は、識別可能で識別不能な粒子の絡み合いを研究する。
超伝導量子ビットを用いて実験により検証したハーディ試験のための新しい誤差モデルを提案する。
超伝導量子コンピュータにおける量子ビットの潜在的な解法と2つの性能指標を提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:06:02 GMT)
Are ECGs enough? Deep learning classification of cardiac anomalies using only electrocardiograms [0.0] 様々なアプローチの効果を評価するために,複数のニューラルネットワークアーキテクチャの性能について検討する。
伝達学習を活用することで、限られたデータにおける学習効率と予測性能を向上させることができる範囲を分析する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 23:37:18 GMT)
An ultra-compact deterministic source of maximally entangled photon pairs [0.0] 最大絡み合ったオンデマンド光子対の超コンパクト光源を提案する。
結果は、モノリシックマイクロレンズに埋め込まれた単一GaAs量子ドットと単一モードファイバーとのカップリングに基づいている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:00:00 GMT)
An autonomous rl agent methodology for dynamic Web ui testing in a bdd framework [0.0] 本稿では,自律型強化学習(RL)エージェントを振る舞い駆動開発(BDD)フレームワークに統合し,ユーザインターフェーステストを強化する。
RLの適応的意思決定機能を活用することで、提案手法は、特定のビジネス期待や実際のユーザ行動に適合したテストシナリオを動的に生成し、洗練する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:12:50 GMT)
Almost Linear Time Consistent Mode Estimation and Quick Shift Clustering [0.0] 局所性感性ハッシュ(LSH)とQuick Shiftアルゴリズムを組み合わせた高次元空間における密度に基づくクラスタリング法を提案する。
提案手法は、密度に基づくクラスタリングの一貫性を維持しながら、ほぼ線形時間複雑性を実現する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 02:51:31 GMT)
Advancing Sentiment Analysis: A Novel LSTM Framework with Multi-head Attention [0.0] 本研究では,マルチヘッドアテンション機構とTF-IDF最適化を用いたLSTMに基づく感情分類モデルを提案する。
公開データセットの実験結果から,新しい手法は精度,リコール,F1スコアといった重要な指標を大幅に改善することが示された。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:21:49 GMT)
AdaSCALE: Adaptive Scaling for OOD Detection [0.0] オフ・オブ・ディストリビューション(OOD)検出法は、アクティベーション・シェーピングを利用して、イン・ディストリビューション(ID)とOOD入力の分離を改善する。
サンプルのOOD推定値に基づいてパーセンタイル閾値を動的に調整する適応スケーリング手法である textbfAdaSCALE を提案する。
提案手法は,最新のOOD検出性能を実現し,画像Net-1kベンチマークの平均FPR@95値において,OptFSを14.94倍,FPR@95値で21.67倍に向上させた。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 04:10:06 GMT)
Acceptance or Rejection of Lots while Minimizing and Controlling Type I and Type II Errors [0.0] 二重仮説テスト(double hypothesis test、DHT)は、I型(生産者)とII型(消費者)のエラーを制御するテストである。
部品のバッチの開発や製造プロセス、サプライヤーから購入する場合にも適用できる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 15:02:45 GMT)
A systematic literature review of unsupervised learning algorithms for anomalous traffic detection based on flows [0.0] 本稿では,ネットワークフローの異常を検出するための教師なし学習アルゴリズムに関する文献を体系的にレビューする。
Autoencoderが最もよく使われるオプションはSVM、ALAD、SOMである。
異常検出に使用されるデータセットはすべて収集されている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 11:06:00 GMT)
A simple model of quantum walk with a gap in distribution [0.0] 本稿では,1次元の量子ウォークについて検討する。
歩行器は局部化初期状態の下で位置から発射されるが、いくつかの数値実験により、量子歩行器は発射位置周辺に分布していないことが示されている。
このギャップを解析的に証明するために、我々は長期間の極限分布を導出し、そこから発見確率についてより詳細に知ることができる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 08:07:48 GMT)
A perturbation theory for multi-time correlation functions in open quantum systems [0.0] 我々は、マルチ時間相関関数を計算するための体系的理論を開発することにより、オープン量子システム理論の範囲を広げる。
閉系の場合、そのような相関関係は十分に定義されているが、システムの状態に関する知識だけではそれらを完全に決定するには不十分である。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:44:11 GMT)
A Tutorial on Knots and Quantum Mechanics [0.0] 注記は空間の位相の観点からの量子力学の記述をレビューする。
絡み合いのトポロジ的分類と、絡み合いエントロピーと基本量子プロトコルの性質について論じる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 19:35:24 GMT)
A Practically Scalable Approach to the Closest Vector Problem for Sieving via QAOA with Fixed Angles [0.0] 最も近いベクトル問題(CVP)のNP硬度は、量子セキュア暗号の重要な基盤である。
量子アルゴリズムによる最近の研究は、(制約のある)CVPインスタンスの近似を見つける可能性を示している。
この研究は、その後の因数分解の主張を考慮せずに、近似CVPに対する量子的優位性の可能性を探究する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 13:06:38 GMT)
A Note on Clifford Stabilizer Codes for Ising Anyons [0.0] 我々は、Ising anyon(またはMajorana)スタビライザーコードをバイナリ古典符号の特定のクラスにリンクする既存のアイデアの合理化エラボレーションを提供する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 06:17:51 GMT)
A Multimodal Physics-Informed Neural Network Approach for Mean Radiant Temperature Modeling [0.0] 本研究では,短波・長波放射モデリングと深層学習技術を統合した物理インフォームドニューラルネットワーク(PINN)手法を提案する。
気象データ,建築環境特性,魚眼画像由来シェーディング情報を含むマルチモーダルデータセットを活用することにより,物理的整合性を維持しつつ予測精度を向上させる。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 14:36:08 GMT)
A Grey-box Text Attack Framework using Explainable AI [0.0] 我々は、説明可能なAIを使用して、人間の解釈可能な言語における複雑なブラックボックスモデル予測を理解する。
従来の敵対的テキスト攻撃は、単語置換、データ拡張技術、勾配に基づく攻撃を使用する。
モデルに関する知識を必要としない単純なGrey-box cum Black-boxアプローチを提案する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:44:17 GMT)
A Fair and Lightweight Consensus Algorithm for IoT [0.0] この研究は、IoTに適した公平で軽量なハイブリッドコンセンサスアルゴリズムを導入している。
提案手法は、セキュアで公正な合意プロセスを確保しつつ、ノードのリソース要求を最小限に抑える。
さらに、信頼を高め、最終性を確立するために、評判に基づくブロック投票機構が組み込まれている。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 16:45:51 GMT)
A Comprehensive Experimentation Framework for Energy-Efficient Design of Cloud-Native Applications [0.0] クラウドベースのアプリケーションのすべての関連レイヤにおけるエネルギー効率を計測するフレームワークを提案する。
当社のフレームワークは、サービス品質とサステナビリティメトリクスのスイートを統合し、任意のベースアプリケーションとの互換性を提供します。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 17:34:37 GMT)
A Bidirectional Long Short Term Memory Approach for Infrastructure Health Monitoring Using On-board Vibration Response [0.0] 本稿では,鉄道線路の剛性などの物理パラメータを駆動バイ振動応答信号を用いて推定する深層学習手法を提案する。
提案手法は, 鉄道線路の硬さを正確に自動推定し, 騒音発生時の局所硬さ低減を推定する。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 09:22:49 GMT)
3D Medical Imaging Segmentation on Non-Contrast CT [0.0] 本報告では, 提案手法を再検討し, 非造影CT像の背景を考察し, セグメンテーションの重要性を強調した。
nnUNetは、様々なセグメンテーションタスクの最先端メソッドとして際立っている。
将来的な方向性としては、ロングテール問題への対処、医療画像のトレーニング済みモデルの利用、自己監督的またはコントラスト的事前訓練技術の調査などがある。
論文参考訳(メタデータ) (Tue, 11 Mar 2025 12:19:11 GMT)