A Survey on Post-training of Large Language Models [185.5] 大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:41:42 GMT)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.5] CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 23:37:49 GMT)
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction [97.9] 単一視点からのオブジェクト生成とシーン再構成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
DiffusionGSはビュー一貫性を強制するために、各タイミングで3Dガウス点雲を直接出力する。
DiffusionGSは、オブジェクトやシーンのPSNR/FIDにおいて2.20dB/23.25と1.34dB/19.16の改善をもたらすことを示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:52:46 GMT)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.3] 統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:55:15 GMT)
T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.1] 映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:58:03 GMT)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.5] ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:14:26 GMT)
Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.7] 任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。
S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。
S$2$DF はモンゲ・アンペア型の二次偏微分方程式を満たすことを示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:46:00 GMT)
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? [68.7] 本稿では,最小のセマンティック・アトミックステップから構成される自己構造的思考の連鎖(SCoT)のパラダイムを提案する。
本手法は, 複雑なタスクに対して認知的CoT構造を生成するだけでなく, 過度に考える現象を緩和する。
我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:23:47 GMT)
UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.3] 従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:55:33 GMT)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.9] 本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:29:51 GMT)
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.6] ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。
予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。
音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:40:13 GMT)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.6] 本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:26:47 GMT)
Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.1] 時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:36:55 GMT)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.5] IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:39:57 GMT)
ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.6] 制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:43:03 GMT)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.2] Diffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウンバージョン(3$times$推論スピードアップ)でさえ、トップベースラインと互換性がある。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:48:15 GMT)
From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.2] CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:13:18 GMT)
Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.0] 言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:48:12 GMT)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [57.0] インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:23:57 GMT)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.6] テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:41:10 GMT)
FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.1] フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:10:57 GMT)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.9] テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:19:35 GMT)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.8] 大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:38:02 GMT)
VACT: A Video Automatic Causal Testing System and a Benchmark [55.5] VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:54:42 GMT)
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.2] T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:57:45 GMT)
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.8] LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:29:42 GMT)
Pathological Prior-Guided Multiple Instance Learning For Mitigating Catastrophic Forgetting in Breast Cancer Whole Slide Image Classification [53.5] 乳癌のWSI分類における破滅的忘れを緩和する新しい枠組みであるPaGMILを提案する。
私たちのフレームワークでは、共通のMILモデルアーキテクチャに2つの重要なコンポーネントを導入しています。
複数の乳がんデータセットを対象としたPaGMILの連続学習性能の評価を行った。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:51:58 GMT)
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.4] 本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:36:34 GMT)
Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.1] 微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:53:40 GMT)
Dynamically evolving segment anything model with continuous learning for medical image segmentation [50.9] ダイナミックに進化する医療画像セグメンテーションモデルであるEvoSAMを紹介する。
EvoSAMは、継続的に拡張されるシナリオとタスクの配列から新しい知識を蓄積する。
血管セグメンテーションに関する外科医による実験により、EvoSAMはユーザプロンプトに基づいてセグメンテーション効率を高めることが確認された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:37:52 GMT)
Controllable and Continuous Quantum Phase Transitions in Intrinsic Magnetic Topological Insulator [50.5] 本研究では,n型ドーピング特性が強く抑制される固有磁気トポロジカル材料MnBi2Te4について検討した。
角度分解光電子分光法、輸送測定法、第一原理計算に基づいて、2つの磁気誘起TPTを明らかにする。
本研究は,MnBi2Te4系における固有磁気トポロジカル状態の実現を図り,制御可能かつ連続的なTPTを実現するための理想的なプラットフォームを提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:46:54 GMT)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.5] ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。
具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。
ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:03:43 GMT)
NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.2] 本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:04:27 GMT)
Blockwise Post-processing in Satellite-based Quantum Key Distribution [49.8] 我々は、衛星ベースのQKDにおいて、古典的な後処理を改善することが重要な方向であると主張している。
特に、高度にダイナミックな衛星チャネル条件に対処するため、ブロックワイズ後処理の一方向を探索する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:06:04 GMT)
OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation [49.7] Vision-Language Navigation (VLN) は、言語命令と視覚的手がかりの両方を活用することで、エージェントを環境に誘導することを目的としている。
航空VLNのための多目的ツールチェーンと大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。
我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。
対応する視覚データは、Unreal, GTA V, Google Earth, 3D Splatting (3D GS)など、様々なレンダリングエンジンと高度な技術を用いて生成される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:11:32 GMT)
Improving SAM for Camouflaged Object Detection via Dual Stream Adapters [48.1] Segment Any Model (SAM) は自然画像上での汎用的なセグメンテーション性能を示す。
本稿では,RGB-D入力に対して擬似オブジェクト検出を行うSAM-CODを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:39:03 GMT)
Get In Video: Add Anything You Want to the Video [48.1] ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:27:53 GMT)
Uncertainty in Graph Neural Networks: A Survey [47.8] グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで広く使われている。
しかし、多様な情報源から生じるGNNの予測的不確実性は、不安定で誤った予測につながる可能性がある。
本調査は,不確実性の観点からGNNの概要を概観することを目的としている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:08:40 GMT)
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models [47.6] 本稿では,LMMを用いた推論に適した多段階の視覚的対象中心連鎖推論フレームワークであるVoCoTを提案する。
VoCoT とオープンソース LMM アーキテクチャを組み合わせることで,VoCoT ベースのモデル VolCano を開発した。
7Bパラメータと限られた入力画像解像度で、VolCanoは様々なシナリオで優れたパフォーマンスを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:16:09 GMT)
Multi-GraspLLM: A Multimodal LLM for Multi-Hand Semantic Guided Grasp Generation [47.5] 自動接触アノテーションを備えた,最初の大規模マルチハンドグリップデータセットであるMulti-GraspSetを提案する。
そこで我々は,Multi-GraspLLMを提案する。
提案手法は実環境実験とシミュレータの両方において既存手法よりも優れている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:25:32 GMT)
GenieBlue: Integrating both Linguistic and Multimodal Capabilities for Large Language Models on Mobile Devices [46.2] 我々は,モバイルデバイスの言語機能とマルチモーダル機能を統合した効率的なMLLM構造設計であるGenieBlueを提案する。
特定のトランスフォーマーブロックを複製して、完全な微調整を行い、軽量なLoRAモジュールを統合することで、マルチモーダル機能を取得する。
スマートフォンのNPU上にデプロイされたGenieBlueは、モバイルデバイス上のアプリケーションの効率性と実用性を実証する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:40:29 GMT)
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images [45.4] オープンプロンプト型オブジェクト検出フレームワークOpenRSDを提案する。
OpenRSDはマルチモーダルプロンプトをサポートし、マルチタスク検出ヘッドを統合して精度とリアルタイム要求のバランスをとる。
YOLO-Worldと比較すると、OpenRSDは平均精度が8.7%高く、推定速度は20.8 FPSである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:08:46 GMT)
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs [44.3] 本稿では,12のLLM評価に対して20,000,000以上のパフォーマンス記録を含むルータ研究のベンチマークであるLuterEvalを紹介する。
RouterEvalを用いることで、既存のRouting LLM手法の広範な評価により、ほとんどの場合改善の余地があることが分かる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:07:07 GMT)
GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [43.7] GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:48:53 GMT)
Evaluating Discourse Cohesion in Pre-trained Language Models [42.6] 本稿では,事前学習した言語モデルの凝集度を評価するテストスイートを提案する。
テストスイートは、隣接文と非隣接文との間に複数の凝集現象を含む。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:19:53 GMT)
Robust time series generation via Schrödinger Bridge: a comprehensive evaluation [41.9] 時系列に対するSchr"odinger Bridge (SB) アプローチの生成能力について検討した。
我々は、様々なデータセットでSOTA(State-of-the-art)時系列生成手法と比較した。
我々の結果は、時系列生成のための汎用的で堅牢なツールとしてのSBフレームワークの可能性についての貴重な洞察を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:12:00 GMT)
Breaking Free from MMI: A New Frontier in Rationalization by Probing Input Utilization [41.8] 最も広く使われている合理抽出の基本基準は、最大相互情報基準である。
MMIの代替目的として合理的候補のノルムを用いる。
提案手法は,MMIとその改良された変種より優れた有理性を見出す上で優れることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:08:46 GMT)
Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning [41.1] 深層学習モデルの学習において,情報の整理・接続という人間の習慣を適用することが効果的な戦略として有効であることがわかった。
本稿では,モデルがより挑戦的な知識領域に集中するように促す新たな正規化損失関数を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:31:27 GMT)
Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices [40.5] MLLM(Multimodal Large Language Models)は近年大きな進歩を遂げており、視覚的特徴はモデル性能の向上においてますます重要な役割を担っている。
しかし、MLLMにおける多層視覚機能の統合は、特に最適な層選択と融合戦略に関して、未検討のままである。
本稿では,(1)最も効果的な視覚層を選択すること,(2)言語モデルとの最良の融合手法を特定すること,の2つの側面を体系的に検討する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:10:55 GMT)
Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.9] 視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:12:50 GMT)
Double Debiased Machine Learning for Mediation Analysis with Continuous Treatments [38.7] 本稿では,継続的な治療を支援するメディエーション分析のための機械学習アルゴリズムを提案する。
本研究では,現実の医療データとシミュレーションによるアプローチの数値評価を行い,グリセミックコントロールが認知機能に与える影響を解析する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:46:47 GMT)
Language Model Personalization via Reward Factorization [38.3] ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 23:41:20 GMT)
Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models [38.2] フィードバックに基づく自己補正は大規模言語モデル(LLM)の出力品質を改善する
本研究では,自己補正によるLLMのバイアスを効果的に軽減するために,意図を明確にすることが重要であることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:20:43 GMT)
UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces [37.7] 大規模マルチモーダルモデルは目覚ましい知性を示すが、オープンエンドの都市3D空間における運動中の認知能力の具体化はいまだ研究されていない。
ビデオ大言語モデル(ビデオ-LLM)が人間のような連続した一対一の視覚的観察を自然に処理できるかどうかを評価するためのベンチマークを導入する。
私たちは手動でドローンを制御して、現実世界の都市やシミュレートされた環境から3Dエンボディされたモーションビデオデータを収集しました。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:47:05 GMT)
Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations [37.6] 動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。
マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:49:43 GMT)
CycleResearcher: Improving Automated Research via Automated Review [37.0] 本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:01:34 GMT)
VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion [35.3] カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。
既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。
VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completionを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:40:52 GMT)
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [35.3] マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:46:38 GMT)
Segment Anything, Even Occluded [35.2] METHODOは、Segment Anything Model(SAM)を多目的マスクデコーダとして適応する新しいフレームワークである。
Amodal-LVISは,LVISデータセットとLVVISデータセットから得られた300K画像からなる大規模合成データセットである。
以上の結果から,COCOA-clsとD2SAベンチマークの両ベンチマークにおいて,新たに拡張されたデータセットでトレーニングした結果,ゼロショット性能が著しく向上することが示唆された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:14:57 GMT)
SRM-Hair: Single Image Head Mesh Reconstruction via 3D Morphable Hair [34.1] 本稿では, 3Dヘアを変形可能とし, 係数によって制御する, ヘアのセマンティック・コンスタント・レイ・モデリング(SRM-Hair)を提案する。
我々は,3次元顔データと組み合わせた250以上の高忠実度実毛髪スキャンのデータセットを収集し,3次元変形性毛髪の前駆体として機能する。
SRM-Hairは独立したヘアメッシュ、仮想アバター作成、リアルアニメーション、高忠実なヘアレンダリングに応用している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:37:46 GMT)
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs [34.1] テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する
MLLMが関係情報 (textiti.e. graph structure) と意味情報 (textiti.e. texts and image) をこのようなグラフに組み込んで、マルチモーダルな理解と生成を行う方法が検討されている。
我々は,MMAGにおける全多モーダル理解と生成を支援するGraphGPT-oを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:59:52 GMT)
PlanarNeRF: Online Learning of Planar Primitives with Neural Radiance Fields [33.9] PlanarNeRFは、オンライン学習を通じて密集した3次元平面を検出する新しいフレームワークである。
外観と幾何学の知識を兼ね備えた3次元平面検出を実現する。
平面パラメータを推定するために,軽量な平面適合モジュールを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:17:06 GMT)
Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.7] 3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:37:47 GMT)
KnowLogic: A Benchmark for Commonsense Reasoning via Knowledge-Driven Data Synthesis [33.7] 知識駆動型合成データ戦略によって生成されたベンチマークであるKnowLogicを紹介する。
KnowLogicは多様な常識知識、もっともらしいシナリオ、そして様々なタイプの論理的推論を統合している。
私たちのベンチマークは、様々なドメインで3000のバイリンガル(中国語と英語)質問で構成されています。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:40:10 GMT)
Learning Multi-Agent Loco-Manipulation for Long-Horizon Quadrupedal Pushing [33.7] 本稿では,複数の四足歩行ロボットによる障害物対応長軸プッシュの課題に取り組む。
階層型多エージェント強化学習フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:59:03 GMT)
Designing Concise ConvNets with Columnar Stages [33.2] 我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。
評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:13:00 GMT)
Autoregressive Action Sequence Learning for Robotic Manipulation [33.0] 既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:38:38 GMT)
Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [32.9] 低品質サンプルの生成を抑えることで画質を向上させるセルフガイドを提案する。
安定拡散3.5やFLUXのようなオープンソースの拡散モデルでは、Self-Guidanceは既存のアルゴリズムを複数のメトリクスで上回る。
SGは、生理学的に正しい人体構造の生成に驚くほど良い効果があることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:10:47 GMT)
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6] 我々は,LSMベースのエージェントの攻撃と防御を形式化し,ベンチマークし,評価するフレームワークであるAgen Security Bench (ASB)を紹介した。
ASBをベースとして、インジェクション攻撃10件、メモリ中毒攻撃、新しいPlan-of-Thoughtバックドア攻撃4件、混合攻撃11件をベンチマークした。
ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:16:57 GMT)
MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective [32.6] 本稿では,MMGenBench-Pipelineを提案する。
これには、入力画像からテキスト記述を生成し、これらの記述を使用して、テキストから画像への生成モデルを介して補助的な画像を作成することが含まれる。
MMGenBench-Pipelineは画像入力のみを用いて、様々な領域にわたるLMMの性能を効率的に評価することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:27:55 GMT)
GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.5] GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:34:25 GMT)
LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space [31.6] LES-Talker(英語版)は、高い解釈性を有する新規なワンショット音声ヘッド生成モデルである。
本手法は,多面的,解釈可能な微粒な感情編集とともに,視覚的品質を向上し,主流の手法より優れる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:53:40 GMT)
Personality Alignment of Large Language Models [30.7] パーソナリティ・アライメント(Personality Alignment)は、大きな言語モデルと個々のユーザの好みを合わせることを目的としている。
このデータセットには、複数のパーソナリティアセスメントを含む、32万人以上の実際の被験者のデータが含まれている。
本研究では,個人の行動選好を効率的に整合させるために,アクティベーション介入最適化手法を開発した。
私たちの仕事は、未来のAIシステムが真にパーソナライズされた方法で意思決定と推論を行うための道を開くものです。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:01:37 GMT)
Explainable Synthetic Image Detection through Diffusion Timestep Ensembling [30.3] 近年の拡散モデルの発展により、知覚的な実画像の作成が可能になった。
拡散モデルの最近の進歩により、知覚的にリアルな画像の作成が可能となり、誤用された場合に重大なセキュリティリスクが生じる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:04:20 GMT)
Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity [30.2] スーパーアライメントは達成可能であり、その研究はすぐに進むべきだと我々は主張する。
この研究は、価値に整合した次世代AIを開発するための実践的なアプローチに光を当てている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:10:11 GMT)
Viewport-Unaware Blind Omnidirectional Image Quality Assessment: A Flexible and Effective Paradigm [29.4] 本稿では,2次元平面画像品質評価(2D-IQA)に容易に適用可能な,ビューポートを意識しないフレキシブルで効果的なパラダイムを提案する。
提案モデルでは,他の最先端モデルに対して低複雑性で競合性能を実現し,さらに2D-IQAへの適応能力を検証した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:50:10 GMT)
Towards Conversational AI for Disease Management [29.2] Articulate Medical Intelligence Explorer (AMIE) は、臨床管理と対話のために最適化されたエージェントシステムである。
AMIEは、専門医が評価する管理的推論において、PCPに非優位である。
AMIEの評価における強いパフォーマンスは、疾患管理のツールとしての対話型AIへの重要な一歩である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:48:58 GMT)
A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts [29.1] ビデオラマは、映像要約を生成する効果的なツールであるが、時間的特徴と空間的特徴のモデリングを効果的に統一し、最適化することはできない。
我々は、ビデオデータに固有の複雑な時間的ダイナミクスと空間的関係をより効率的に捉えるために、MiLoRA-ViSumを提案する。
MiLoRA-ViSumは、最先端のモデルと比較して最高の要約性能を達成し、計算コストを大幅に削減する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:20:52 GMT)
Single Domain Generalization with Adversarial Memory [28.6] ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインからのデータを活用することで、目に見えないテストドメインに一般化可能なモデルをトレーニングすることを目的としている。
従来のDGメソッドは、複数の多様なトレーニングドメインの可用性に依存しており、データ制約のあるシナリオで適用性を制限する。
本稿では,敵対的メモリバンクを利用してトレーニング機能を増強する単一領域一般化手法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:27:42 GMT)
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought [28.1] PedCoT(Pedagogical Chain-of-Thought)は、推論ミスの識別のガイドとして設計されている。
PedCoTは、プロンプト(PPP)設計のための教育原則、2段階インタラクションプロセス(TIP)およびグラウンドドPedCoTプロンプトからなる。
提案手法は,信頼性の高い数学的誤り識別の目標を達成し,自動解答グレーディングの基盤を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:20:34 GMT)
GeoLangBind: Unifying Earth Observation with Agglomerative Vision-Language Foundation Models [27.9] GeoLangBindは、新しい集合的視覚-言語基盤モデルである。
言語を統一媒体とする異種EOデータモダリティ間のギャップを埋める。
我々のアプローチは、異なるEOデータ型を共通の言語埋め込みスペースに整合させる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:10:04 GMT)
MGDA Converges under Generalized Smoothness, Provably [27.9] 多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:40:28 GMT)
Reinforced Diffuser for Red Teaming Large Vision-Language Models [27.7] 現在のアライメントメカニズムは、有害なテキスト継続タスクによって引き起こされるリスクに対処できない。
本稿では、強化学習を活用して、有害な継続を効果的に誘発するレッドチーム画像を生成する新しいフレームワークを提案する。
我々の研究は、現実のアプリケーションにおけるVLMの安全な配置を保証するために、より堅牢で適応的なアライメント機構の必要性を緊急に強調している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:51:40 GMT)
Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning [27.3] 我々は、俳優と批評家が、共有された表現よりも、別々に利益を得るかどうかを調査する。
我々の主要な発見は、分離されると、アクターと批評家の表現が、異なる種類の情報を取り出すことを体系的に専門化することである。
我々は、異なる表現学習アプローチが俳優や批評家の専門性にどのように影響するかを理解するために、厳密な実証的研究を行う。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:29:20 GMT)
How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective [26.9] 勧告システム(RS)は、しばしば人気バイアスに悩まされる。
本研究は,本現象の根本原因を明らかにするための包括的実験および理論的解析を行う。
本稿では、スペクトルノルム正規化器を利用して主特異値の大きさをペナルティ化する新しいデバイアスング戦略を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:20:30 GMT)
SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant? [26.9] 中国のモバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介する。
我々は,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築した。
我々の貢献は、中国におけるオンデバイスLCMの評価のための標準化されたフレームワークを提供し、この重要な領域におけるさらなる開発と最適化を促進する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:02:21 GMT)
Realistic Clothed Human and Object Joint Reconstruction from a Single Image [26.6] モノクラービューからリアルな3D衣服と物体を共同で再構築するための新しい暗黙のアプローチを導入する。
初めて、私たちは暗黙の表現で人間と物体の両方をモデル化し、衣服のようなより現実的な詳細を捉えます。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:51:25 GMT)
MUNBa: Machine Unlearning via Nash Bargaining [26.4] マシン・アンラーニング(MU)は、モデル全体の有用性を保ちながら、モデルから有害な振る舞いを選択的に消去することを目的としている。
マルチタスク学習問題として、MUは、特定の概念やデータを忘れたり、一般的なパフォーマンスを保つことに関連する目的のバランスをとる。
我々はMUを2人組の協調ゲームとして再編成し、そこでは、忘れるプレイヤーと保存プレイヤーが勾配提案を通じて貢献し、全体のゲインを最大化する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:30:06 GMT)
Feature-EndoGaussian: Feature Distilled Gaussian Splatting in Surgical Deformable Scene Reconstruction [26.4] 3DGSの拡張であるFeature-EndoGaussian (FEG)を導入し、2Dセグメンテーションキューを3Dレンダリングに統合し、リアルタイムなセマンティックとシーン再構築を実現する。
FEGは先行法に比べて優れた性能(SSIMは0.97、PSNRは39.08、LPIPSは0.03)を達成している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:50:19 GMT)
SecureGS: Boosting the Security and Fidelity of 3D Gaussian Splatting Steganography [25.8] 3D Gaussian Splatting (3DGS)は、リアルタイムレンダリングと高品質な出力のために、3D表現の初歩的な方法として登場した。
従来のNeRFステガノグラフィ法は、そのポイントクラウドファイルが一般にアクセス可能であるため、3DGSの明示的な性質に対処できない。
そこで我々は,Scaffold-GSのアンカーポイント設計とニューラルデコーディングにインスパイアされたSecureGSフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:11:00 GMT)
DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.8] 本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:15:43 GMT)
Universal Actions for Enhanced Embodied Foundation Models [25.8] 我々はUniversal Action Spaceで動作する新しい基礎モデリングフレームワークUniActを紹介する。
我々の学習した普遍行動は、共有された構造的特徴を利用して、多様なロボット間での一般的な原子の挙動を捉えます。
0.5BでのUniActのインスタンス化は、様々な実世界およびシミュレーションロボットの広範囲な評価において、14倍のSOTAを具現化した基礎モデルより優れている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:55:48 GMT)
Video2BEV: Transforming Drone Videos to BEVs for Video-based Geo-localization [25.4] 我々は、新しいビデオベースドローンジオローカライズタスクを定式化し、Video2BEVパラダイムを提案する。
このパラダイムは、ビデオをBird's Eye View (BEV)に変換し、その後のtextbfinter-platformマッチングプロセスを簡素化する。
提案手法を検証するために,新しいビデオベースジオローカライゼーションデータセットUniVを導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:49:58 GMT)
Advances in Robust Federated Learning: A Survey with Heterogeneity Considerations [25.3] 主な課題は、異なるデータ分散、モデル構造、タスク目標、計算能力、通信リソースを持つ複数のクライアントでモデルを効率的にトレーニングすることである。
本稿ではまず,不均一なフェデレーション学習の基本概念について概説する。
次に、フェデレーション学習における研究課題を、データ、モデル、タスク、デバイス、コミュニケーションの5つの側面の観点から要約する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:53:07 GMT)
Driving-Video Dehazing with Non-Aligned Regularization for Safety Assistance [24.7] 実際のドライビングビデオのデハージングは、正確に整列/クリアなビデオペアを取得するのが本質的に困難であるため、大きな課題となる。
非整合正規化戦略を通じてこの問題に対処する先駆的なアプローチを提案する。
このアプローチは、参照マッチングとビデオデハージングの2つの重要なコンポーネントから構成される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:19:02 GMT)
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.3] 本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。
具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。
その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:10:31 GMT)
LucidFusion: Reconstructing 3D Gaussians with Arbitrary Unposed Images [24.0] 3次元再構成を画像から画像への変換として再構成し、相対座標マップ(RCM)を導入する。
RCMは、ポーズ推定なしで複数の未提示画像をメインビューにアライメントする。
RCMはプロセスを単純化するが、グローバルな3D監視の欠如によりノイズの多い出力が得られる。
我々のLucidFusionフレームワークは、任意の数の未用意な入力を処理し、数秒で堅牢な3D再構成を実現し、より柔軟でポーズなしの3Dパイプラインを実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:50:45 GMT)
Backdoor Attacks on Discrete Graph Diffusion Models [23.6] バックドア攻撃に対するグラフ拡散モデルについて検討し、トレーニングフェーズと推論/生成フェーズの両方を操作する重度の攻撃について検討した。
まず,バックドアグラフ拡散モデルがバックドアアクティベーションを伴わない高品質なグラフを生成できるように,1)バックドアアクティベーションを伴わない高品質なグラフ,2)バックドアアクティベーションを持つ有効でステルス性があり永続的なバックドアグラフ,3)グラフ生成モデルにおける不変かつ交換可能な2つのコア特性を持つグラフを設計する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:01:15 GMT)
MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.6] 両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:52:02 GMT)
PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model [23.5] 隠れアート合成のための新しいトレーニングフリーなテキスト誘導画像変換フレームワークである textbfPhase-textbfTransferred textbfDiffusion Model (PTDiffusion) を提案する。
PTDiffusionは、入力参照画像をテキストプロンプトによって記述された任意のシーンに埋め込み、参照画像の隠れビジュアルキューを表示する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:06:21 GMT)
Locking Machine Learning Models into Hardware [23.3] 現代の機械学習(ML)モデルは高価なIPであり、ビジネス上の競争力は、しばしばこのIPを秘密にしておくことに依存する。
本研究では,モデルの使用を特定のハードウェアでのみ使用できるように制限することで,不正なモデルの使用を抑えるML固有のメカニズムの実現可能性について検討する。
ロックには無視可能なオーバーヘッドが伴うが、無許可のハードウェア上での結果として得られるモデルのユーザビリティは著しく制限される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:03:14 GMT)
Passive Heart Rate Monitoring During Smartphone Use in Everyday Life [23.2] 安静時心拍数(RHR)は、心臓血管の健康と死亡にとって重要なバイオマーカーである。
本稿では,日常的スマートフォン使用時の受動心拍数(HR)およびRHR測定のためのディープラーニングシステムであるPHRMについて述べる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:42:34 GMT)
Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance [23.1] 我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。
我々は、勾配ノルムの関数でもある降下補題において、新しい上界一階項を開発する。
RMSPropとAdamの両者の結果は、citearvani2023lowerで確立された複雑さと一致した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:11:54 GMT)
PointDiffuse: A Dual-Conditional Diffusion Model for Enhanced Point Cloud Semantic Segmentation [22.9] 拡散モデルを拡張し、点位置を固定し、拡散モデルは色の代わりに点ラベルを生成する。
提案した2つの条件付き拡散モデルベースネットワーク(PointDiffuse)にノイズラベル埋め込み,ポイント周波数変換器,およびノードをデノベートすることで,大規模ポイントクラウドセマンティックセマンティックセマンティクスを実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:53:22 GMT)
NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning [22.6] 本稿では,人間の認知のような推論を必要とする手法の課題について考察する。
本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:34:09 GMT)
Image is All You Need: Towards Efficient and Effective Large Language Model-Based Recommender Systems [22.5] 大規模言語モデル(LLM)は、リコメンダシステムのための強力なバックボーンとして最近登場した。
我々は,LLMベースのレコメンダシステム(I-LLMRec)に必要な画像のみを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:51:16 GMT)
PSyDUCK: Training-Free Steganography for Latent Diffusion [22.2] PSyDUCKは、潜伏拡散モデルに特化して設計されたトレーニング不要で、モデルに依存しないステガノグラフィーフレームワークである。
本手法は,埋め込み強度を精度と検出性のバランスに動的に適用し,既存の画素空間アプローチを大幅に改善する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:32:30 GMT)
Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection [21.9] 本稿では,現在のスパースレーン表現法が固有の欠陥を含んでいることを検証するため,実験的な検証とともに理論的解析を行う。
この問題に対処するために,全車線構造を完全に表現する新しいパッチ方式を提案する。
モデルによる車線構造認識を高めるために,PL注意(Point Lane attention)を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:45:49 GMT)
Adaptive UAV-Assisted Hierarchical Federated Learning: Optimizing Energy, Latency, and Resilience for Dynamic Smart IoT Networks [21.9] 本稿では,スマートIoTシステムにおけるエネルギー制約型UAVのためのHFLアーキテクチャについて検討する。
学習構成、帯域割り当て、デバイス対UAVアソシエーションを含む共同最適化問題を定式化する。
実世界のデータセットの実験では、通信中断時の大幅なコスト削減とロバストなパフォーマンスが示されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:06:29 GMT)
BioMoDiffuse: Physics-Guided Biomechanical Diffusion for Controllable and Authentic Human Motion Synthesis [21.8] 本稿では,バイオメカニクスを意識した新しい拡散フレームワークであるBioMoDiffuseを紹介する。
1)筋電図(EMG)信号を加速度制約と統合する軽量な生体力学ネットワーク,(2)修正されたオイラー・ラグランジュ方程式によるリアルタイムな生体力学的検証を組み込んだ物理誘導拡散プロセス,(3)運動速度と意味文脈の独立的な制御を可能にする分離制御機構である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:22:36 GMT)
Learning in Feature Spaces via Coupled Covariances: Asymmetric Kernel SVD and Nyström method [21.2] 共分散固有確率(CCE)に基づく新しい非対称学習パラダイムを導入する。
有限サンプル近似を用いて非対称Nystr"om法を定式化し,トレーニングを高速化する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:42:08 GMT)
Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity [20.9] 決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
単一予測から多仮説空間基盤モデルへのパラダイムシフトを導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:33:54 GMT)
AI, Entrepreneurs, and Privacy: Deep Learning Outperforms Humans in Detecting Entrepreneurs from Image Data [20.6] 我々は,一対の顔画像に基づく対照的な学習手法を用いて,畳み込みニューラルネットワーク(CNN)を訓練する。
我々のAIモデルは79.51%の精度を達成した。
いくつかの試験では、この高いレベルの精度が様々な条件下で維持されていることが示されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:23:39 GMT)
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning [20.6] CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造化推論をアライメントトレーニングに組み込むことにより,その3次元視覚言語学習への統合について検討する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:24:54 GMT)
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation [20.5] S時間一貫性はビデオ生成において重要な研究課題である。
本稿では,プロット進行とカメラ技術との相乗性を考慮した積分時間整合性を導入する。
ビデオ生成時の動的時間的コヒーレンス保存に優れたDropletVideoモデルを開発し,訓練する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:37:38 GMT)
Text2Story: Advancing Video Storytelling with Text Guidance [20.5] 本稿では,自然な行動遷移と構造化された物語を伴うシームレスなビデオ生成を実現するための,新しいストーリーテリング手法を提案する。
我々は,短いクリップと拡張ビデオのギャップを埋めて,テキストからGenAI駆動のビデオ合成の新しいパラダイムを確立する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:04:36 GMT)
Learning to Unlearn while Retaining: Combating Gradient Conflicts in Machine Unlearning [20.5] 本研究では,学習対象と保持対象との勾配の衝突を軽減することを目的とした,学習継続時の学習を提案する。
提案手法は,提案フレームワーク内で自然に現れる暗黙の勾配正規化機構を通じて,競合を戦略的に回避する。
我々は差別的タスクと生成的タスクの両方にまたがってアプローチを検証し、残したデータの性能を損なうことなく、未学習を達成できることの有効性を実証した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:00:36 GMT)
The Liabilities of Robots.txt [20.0] 1994年にRobots Exclusion Protocolの一部として導入されたRobots.txtファイルは、自動化されたボットにアクセス許可を伝えるメカニズムをWebマスターに提供する。
コミュニティ標準として広く採用されているが、ロボット.txtに違反する法的責任はあいまいである。
本稿では,契約・著作権・トレント法の文脈におけるロボット.txtに関連する責任を明らかにする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:16:17 GMT)
LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.8] この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:09:23 GMT)
Fixing the Pitfalls of Probabilistic Time-Series Forecasting Evaluation by Kernel Quadrature [19.7] 最も広く使われている測度である連続ランク確率スコア(CRPS)は、厳密に適切なスコア関数である。
CRPS推定器に固有の推定バイアスが認められた。
本稿では,非バイアスのCRPS推定器を活用するカーネル・クアチュア・アプローチを導入し,計算のスケーラブル化にキュキュア構成を用いる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:01:10 GMT)
StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [19.5] 超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークsys(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:44:38 GMT)
On Statistical Estimation of Edge-Reinforced Random Walks [19.3] 本研究は、観測された軌道データを用いて、ERRWの初期エッジ重量を推定することに焦点を当てる。
我々は、ランダム環境に埋め込まれた双曲型ガウス構造を利用して、基礎となるランダムエッジコンダクタンスのゆらぎを束縛する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:57:50 GMT)
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model [19.3] 大言語モデル(MLLM)は、画像品質評価(IQA)と画像審美評価(IAA)に大きな可能性を示している。
本稿では、RealQA(RealQA)と呼ばれる新しいデータセットについて紹介する。
これらの属性は、低レベル(例えば、画像の明瞭度)、中レベル(例えば、主観的完全性)、高レベル(例えば、構成)の3つのレベルにまたがる。
驚くべきことに、2つの重要な桁だけを予測することで、次のトークンパラダイムはSOTAのパフォーマンスを達成することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:49:10 GMT)
Constraint-Aware Feature Learning for Parametric Point Cloud [19.2] パラメトリック点雲はCAD形状から採取され、工業生産においてますます一般的になりつつある。
CAD固有の深層学習手法の多くは幾何学的特徴にのみ焦点をあてるが、CADの形状に固有の制約を見渡すことは困難である。
3つのベクトル化コンポーネントを持つディープラーニングフレンドリな制約表現を導入し、制約対応機能学習ネットワーク(CstNet)を設計する。
CstNetはCADドメインにおけるパラメトリックポイントクラウド分析に適した,最初の制約対応ディープラーニング手法である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:27:31 GMT)
A Noise-Robust Turn-Taking System for Real-World Dialogue Robots: A Field Experiment [18.8] 本稿では,対話ロボットにおけるリアルタイムのターンテイクを向上させるために,ノイズロスト音声活動予測モデルを提案する。
ショッピングモールでのフィールド実験を行い,VAPシステムと従来のクラウドベース音声認識システムとの比較を行った。
その結果,提案方式は応答遅延を著しく低減し,より自然な会話へと繋がった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:53:20 GMT)
WildLMa: Long Horizon Loco-Manipulation in the Wild [18.5] モバイル操作は、さまざまな現実世界環境にロボットを配置することを目的としている。
本稿では,これらの問題に対処する3つのコンポーネントを持つWildLMaを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 23:37:22 GMT)
Constructions are Revealed in Word Distributions [18.2] 構築文法は、構築が言語の経験を通して獲得されるという仮定である。
この分布には、実際にどの程度の情報が含まれていますか?
この分布のプロキシとしてRoBERTaモデルを使用し、統計親和性のパターンとして構造が明らかになるという仮説を立てる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:22:28 GMT)
Merge then Realign: Simple and Effective Modality-Incremental Continual Learning for Multimodal LLMs [18.1] 我々は"MErge then ReAlign"(MERA)と呼ばれる単純なMCLパラダイムを提案する。
MERAの単純さにもかかわらず、素晴らしい性能を示し、4つのモードに拡張すると99.84%の後方相対利得となる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:29:40 GMT)
FedEM: A Privacy-Preserving Framework for Concurrent Utility Preservation in Federated Learning [17.9] Federated Learning (FL)は、分散クライアント間で、ローカルデータを共有せずにモデルの協調的なトレーニングを可能にし、分散システムにおけるプライバシの問題に対処する。
適応雑音注入による制御摂動を組み込んだ新しいアルゴリズムであるフェデレートエラー最小化(FedEM)を提案する。
ベンチマークデータセットの実験結果から、FedEMはプライバシのリスクを著しく低減し、モデルの正確性を保ち、プライバシ保護とユーティリティ保護の堅牢なバランスを達成している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:48:00 GMT)
Bimodal Connection Attention Fusion for Speech Emotion Recognition [17.6] 効果的なバイモーダル音声感情認識システムを構築するために,バイモーダル接続注意融合法(BCAF)を提案する。
BCAFには、対話型接続ネットワーク、バイモーダルアテンションネットワーク、相関アテンションネットワークの3つの主要なモジュールが含まれている。
MELDとIEMOCAPデータセットの実験は、提案されたBCAFメソッドが既存の最先端ベースラインより優れていることを示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:20:57 GMT)
ZeroStereo: Zero-shot Stereo Matching from Single Images [17.6] ゼロショットステレオマッチングのための新しいステレオ画像生成パイプラインであるZeroStereoを提案する。
提案手法は, 単眼深度推定モデルにより生成された擬似格差を利用して, 高品質な右画像の合成を行う。
我々のパイプラインは、Scene Flowに匹敵するデータセットボリュームで複数のデータセットにまたがる最先端のゼロショット一般化を実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:29:56 GMT)
Do Fairness Interventions Come at the Cost of Privacy: Evaluations for Binary Classifiers [17.2] 我々は、メンバーシップ推論攻撃(MIA)と属性推論攻撃(AIA)により、公平性向上したバイナリ分類器のプライバシーリスクを評価する。
公正なモデルと偏見のあるモデルの間の予測不一致を利用して、MIAとAIAの両方に対する高度な攻撃結果をもたらす潜在的な脅威メカニズムを明らかにする。
本研究は、フェアネス研究における未調査のプライバシー上の脅威を明らかにし、モデル展開前に潜在的なセキュリティ脆弱性を徹底的に評価することを提唱する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:21:21 GMT)
Rethinking Debiasing: Real-World Bias Analysis and Mitigation [17.1] 既存のベンチマークと実世界のデータセットのバイアス分布を再検討する。
既存のベンチマークで表現されていない実世界のバイアスの重要な特徴を実証的および理論的に同定する。
Debias in Destruction (DiD) という,既存のデバイアス法に容易に適用可能な,シンプルかつ効果的なアプローチを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:47:36 GMT)
Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks [16.8] 有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。
ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:47:33 GMT)
Interpretable High-order Knowledge Graph Neural Network for Predicting Synthetic Lethality in Human Cancers [16.6] 合成致死性(SL)は癌治療において有望な遺伝子相互作用である。
最近のSL予測手法は知識グラフをグラフニューラルネットワーク(GNN)に統合する
DGIB4SL(Diverse Graph Information Bottleneck for Synthetic Lethality)を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:37:28 GMT)
CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5] 本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:33:55 GMT)
WaveStitch: Flexible and Fast Conditional Time Series Generation with Diffusion Models [16.3] WaveStitchは制約の下で時間データを生成する新しい方法である。
拡散確率モデルを利用して正確な時間データを効率的に生成する。
最先端の手法に比べて平均2乗誤差が最大10倍低い。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:12:10 GMT)
Detecting Human Artifacts from Text-to-Image Models [16.3] さらに、このデータセットを使用して、注釈付けされた人間の体によって生成された画像のデータセットをトレーニングします。
このデータを使用して、生成物をトレーニングし、複数のモデルにまたがる異なるアーティファクトを特定します。
私たちの検出モデルは、https://inpainting.com/wangkaihong/そのデータセットで利用可能です。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:01:01 GMT)
Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models [16.2] 人工知能(AI)技術の急速な進歩により、エッジと端末デバイスへのAIモデルの展開が増加している。
この調査は、オンデバイスAIモデルの現状、技術的な課題、今後のトレンドを包括的に調査する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:59:51 GMT)
Lightweight Software Kernels and Hardware Extensions for Efficient Sparse Deep Neural Networks on Microcontrollers [16.0] 我々は、超低消費電力マルチコアRISC-V MCUをターゲットとした、N:Mプルーニング層のための最適化されたソフトウェアカーネルセットを設計する。
Instruction-Set Architecture (ISA) 拡張を実装し,間接負荷および非ゼロ指標圧縮処理を高速化する。
ResNet18 と Vision Transformer (ViT) で3.21x と 1.81x の高速化を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:59:12 GMT)
Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.9] Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:17:47 GMT)
An Empirical Study on the Power of Future Prediction in Partially Observable Environments [15.8] 自己予測補助タスクは、完全に観察された環境でのパフォーマンスを向上させることが示されているが、部分観測性におけるそれらの役割はいまだに解明されていない。
我々は、強化学習から表現学習を明示的に分離するアプローチである$textttDRL2$を導入する。
本研究は,将来予測性能が表現品質の信頼性指標となり,RL性能の向上に寄与するという考えを裏付けるものである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:14:42 GMT)
What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning [15.7] ステップレベルの報酬モデル(SRM)は、強化学習に基づくプロセスの監督やステップレベルの優先順位調整を通じて、数学的推論性能を著しく向上させることができる。
近年,モンテカルロ木探索(MCTS)をステップレベルの自動選好アノテーションとして用いたAlphaZeroのような手法が特に有効であることが証明されている。
本研究は,コヒーレンスの直感的側面,特にMCTSに基づくアプローチに着目したものである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:01:59 GMT)
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.7] Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。
USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:01:03 GMT)
Towards Improving Reward Design in RL: A Reward Alignment Metric for RL Practitioners [15.3] 強化学習エージェントは、彼らが学んだ報酬関数の品質によって、基本的に制限されている。
本稿では, 人的利害関係者の軌道分布ランキングと, 与えられた報酬関数によって誘導されるものとの類似性を定量化するために, トラジェクティブアライメント係数を導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:38:17 GMT)
LGL-BCI: A Motor-Imagery-Based Brain-Computer Interface with Geometric Learning [14.9] 我々はLGL-BCI(Lightweight Geometric Learning Brain-Computer Interface)と呼ばれるプロトタイプを開発する。
LGL-BCIは、我々のカスタマイズした幾何学的深層学習アーキテクチャを用いて、精度を犠牲にすることなく高速なモデル推論を行う。
実世界の2つの脳波デバイスと2つのパブリック脳波データセットを用いて,本ソリューションの性能を評価した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:14:27 GMT)
GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs [14.9] 大きな言語モデル(LLMs)を使用して2つの回答を評価し比較する。
目的逆プロンプティング(GRP)手法を提案し、元のタスクをより良い解から悪い解を選択するようにシフトする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:44:24 GMT)
Reproducing HotFlip for Corpus Poisoning Attacks in Dense Retrieval [14.8] HotFlip(ホットフリップ)は、言語モデルを攻撃するための局所的な勾配に基づく単語置換手法である。
本稿では,HotFlipの効率を大幅に向上させ,文書あたり4時間から15分に短縮する。
また,(1)転送ベースのブラックボックス攻撃,(2)クエリ非依存攻撃の2つの追加タスクについて実験と分析を行った。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:14:57 GMT)
Multi-Attribute Multi-Grained Adaptation of Pre-Trained Language Models for Text Understanding from Bayesian Perspective [14.6] 本研究では,非IID情報により言語モデル(PLM)が向上し,ベイズの観点からの性能改善が達成されるという仮定を再考する。
PLM適応のための多属性多粒度フレームワーク(M2A)を提案する。
テキスト理解データセットを用いてM2Aを評価し,主に暗黙的に非IIDであり,PLMが大規模である場合に,その優れた性能を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:17:07 GMT)
Sample-aware Adaptive Structured Pruning for Large Language Models [14.6] 本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:00:21 GMT)
Secure On-Device Video OOD Detection Without Backpropagation [14.5] アウト・オブ・ディストリビューション(OOD)検出は、自律運転や診断などの安全クリティカルなアプリケーションにおいて、機械学習モデルの信頼性を確保するために重要である。
デバイス側のバックプロパゲーションを必要とせず,デバイス上でのOOD検出を効率的に行うセキュアなクラウドデバイスコラボレーションフレームワークSecDOODを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:03:21 GMT)
Learning to Actively Learn: A Robust Approach [14.5] 本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:32:41 GMT)
GrInAdapt: Scaling Retinal Vessel Structural Map Segmentation Through Grounding, Integrating and Adapting Multi-device, Multi-site, and Multi-modal Fundus Domains [14.1] GrInAdaptは、ソースフリーなマルチターゲットドメイン適応のための新しいフレームワークである。
マルチデバイス、マルチサイト、マルチモーダル網膜データセットの実験では、GrInAdaptが既存のドメイン適応法を大幅に上回っていることが示されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:15:21 GMT)
Text-to-3D Generation using Jensen-Shannon Score Distillation [14.1] 我々はJensen-Shannon divergence(JSD)に基づく有界スコア蒸留目標を導出する。
本稿では,ジェネレーティブ・ディバイサル・ネットワークの理論を活用することで,JSDの実践的な実装を提案する。
T3Benchの実験結果から,本手法は高品質で多様な3Dアセットを創出できることが示された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:27:18 GMT)
VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.1] 高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:55:19 GMT)
FCDM: A Physics-Guided Bidirectional Frequency Aware Convolution and Diffusion-Based Model for Sinogram Inpainting [14.0] そこで本研究では,物理誘導型ノングラムインペイントフレームワークFCDMを提案する。
双方向周波数領域の畳み込みを統合して重なり合う特徴を解消し、物理インフォームド・ロスによる全吸収と周波数領域の一貫性を強制する。
合成および実世界のデータセットの実験では、FCDMは既存の手法より優れており、SSIMは0.95以上、PSNRは30dB以上、ベースラインは最大33%、29%改善している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:31:49 GMT)
HealthiVert-GAN: A Novel Framework of Pseudo-Healthy Vertebral Image Synthesis for Interpretable Compression Fracture Grading [14.0] 高齢者では脊椎圧迫骨折(VCF)が一般的である。
この評価は、脊椎の安定性と外科的介入の必要性に対する骨折の影響を決定するのに役立つ。
ディープラーニング手法は、VCFのスクリーニングを支援する上で有望であるが、解釈可能性と十分な感度に欠けることが多い。
本稿では,新しい脊椎合成-高さ損失定量化-VCFsグレーティングフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:05:39 GMT)
Exploring Adversarial Transferability between Kolmogorov-arnold Networks [13.6] Kolmogorov-Arnold Networks (KAN) はトランスフォーメーションモデルパラダイムとして登場した。
彼らの敵対的ロバスト性は、特に異なるKANアーキテクチャにおいて、未発見のままである。
本稿では,Kansの最初の転送攻撃手法であるAdvKANを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:48:05 GMT)
Lifelong Learning with Task-Specific Adaptation: Addressing the Stability-Plasticity Dilemma [13.6] 生涯学習は、学習した知識を維持しながら、新しい知識を継続的に獲得することを目的としている。
安定性-塑性ジレンマは、過去の知識(安定性)の保存と新しいタスク(塑性)を学習する能力のバランスをとるモデルを必要とする。
本稿では、単純で普遍的で効果的な戦略を通じてジレンマに対処するアダプタベースのフレームワークであるAdaLLを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:33:38 GMT)
The Computational Complexity of Positive Non-Clashing Teaching in Graphs [13.6] 概念の集合の正の非クラッシング教育次元を計算する際の古典的およびパラメータ化された複雑性について検討する。
我々は、正の非クラッシング教育次元 k=2 のインスタンスに制限された場合でも、問題のNPハードネスを確立する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:48:02 GMT)
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation [13.6] Vision-to-audio (V2A) はマルチメディアに広く応用されている。
音源認識型V2A(SSV2A)ジェネレータを提案する。
SSV2Aは, 世代的忠実度と関連性の両方において, 最先端の手法を超越していることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:22:27 GMT)
From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.3] 本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。
本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。
限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:05:21 GMT)
ZO-DARTS++: An Efficient and Size-Variable Zeroth-Order Neural Architecture Search Algorithm [13.3] 微分可能なニューラルネットワーク探索(NAS)は、ディープラーニング(DL)モデルの複雑な設計を自動化するための有望な道を提供する。
ZO-DARTS++は、パフォーマンスとリソースの制約を効果的にバランスさせる新しいNAS手法である。
医用画像データセットの広範なテストにおいて、ZO-DARTS++は標準的なDARTSベースの手法よりも平均精度を1.8%向上させる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:43:33 GMT)
SplatTalk: 3D VQA with Gaussian Splatting [13.2] 言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:31:48 GMT)
Multi-view Spectral Clustering on the Grassmannian Manifold With Hypergraph Representation [13.2] データポイントからの疎表現学習を活用することでハイパーグラフを生成する新しい手法を提案する。
スペクトルクラスタリングを各ビューに組み込んだ多視点ハイパーグラフスペクトルクラスタリングにおいて,直交制約のある最適化関数を提案する。
提案アルゴリズムの有効性を検証するため,実世界の4つのマルチビューデータセット上でテストを行い,その性能を7つの最先端マルチビュークラスタリングアルゴリズムと比較した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:26:53 GMT)
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models [13.1] 概念消去は、モデルが生成できる望ましくない概念を消去することを目的としている。
本研究では,特定のタイミングで予測される最終生成画像から得られる視覚的特徴に基づいて,対象概念をチェックする概念コレクタを提案する。
パイプライン全体において、我々の手法はモデルパラメータを変更せず、特定のターゲット概念とそれに対応する代替コンテンツのみを必要とする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:20:26 GMT)
FORESCENE: FOREcasting human activity via latent SCENE graphs diffusion [13.0] 我々は、オブジェクトと関係の進化を時間とともに予測するSGA(Scene Graph Precipation)フレームワークであるForceCENEを紹介する。
我々のアプローチは、グラフの内容や構造を仮定することなく、相互作用力学の連続的な予測を可能にする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:56:00 GMT)
GazeCLIP: Enhancing Gaze Estimation Through Text-Guided Multimodal Learning [12.7] テキストと顔のコラボレーションを深く探求する新しい視線推定フレームワークであるGazeCLIPを提案する。
具体的には、厳密に設計された言語記述生成器を導入し、粗い方向の手がかりに富んだテキスト信号を生成する。
本研究は,視覚タスクのためのマルチモーダル学習における視線推定と新たな道を開くために,視覚言語を用いた協調作業の可能性を明らかにするものである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:37:22 GMT)
Zero-Shot Peg Insertion: Identifying Mating Holes and Estimating SE(2) Poses with Vision-Language Models [12.6] 視覚言語モデル(VLM)を用いた新しいゼロショットペグ挿入フレームワークを提案する。
提案手法は90.2%の精度を達成し, 従来未確認のペグホールペアの広い範囲にわたる適切な交尾孔の同定において, 基線を著しく上回っている。
これらの結果は、堅牢で一般化可能なロボット組み立てを可能にするために、VLM駆動のゼロショット推論の可能性を強調している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:59:21 GMT)
MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering [12.6] 質問応答 (QA) と質問応答 (VQA) は言語と視覚領域においてよく研究されている問題である。
難解なシナリオの1つとして、複数の情報ソースがあり、それぞれ異なるモダリティがあり、そこでは1つ以上のソースに質問に対する答えが存在する可能性がある。
マルチソース・マルチモーダル情報を含む環境における質問応答生成フレームワークを定式化する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:09:13 GMT)
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples [12.5] Flow of Reasoning (FoR)は、最小限のデータで推論の品質と多様性を改善することを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:10:25 GMT)
System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems [12.2] 本稿では、認知のクアッドプロセスモデルを用いて、システム0/1/2/3フレームワークを二重プロセス理論の拡張として紹介する。
我々は、認知の多様な時間的ダイナミクスを統一するために、マルチスケールの時間理論を採用することにより、ベルクソンの哲学の中でこのモデルを文脈化する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:31:53 GMT)
Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.2] 動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。
アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:44:30 GMT)
Text-Speech Language Models with Improved Cross-Modal Transfer by Aligning Abstraction Levels [12.2] 階層間の抽象化レベルをよりよく整合させるモジュールによる語彙拡張の拡張を提案する。
われわれのモデル、textscSmolTolkは、より桁違いに多くの計算で訓練された最先端のTSLMに匹敵するか、上回っている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:28:50 GMT)
Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.1] コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。
既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。
ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:09:18 GMT)
Adaptive Manipulation using Behavior Trees [12.1] 本稿では,適応的行動木,スケーラブルで一般化可能な行動木の設計について述べる。
ロボットは、タスク実行中に視覚的観察と非視覚的観察の両方から素早く適応し、学習することができる。
当社のアプローチは、業界で一般的に見られるさまざまなタスクでテストしています。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:00:30 GMT)
Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior [12.0] Dichotomous Image (DIS)は、高解像度の自然画像のための高精度な物体分割タスクである。
我々は,高精度2コトマ画像分割のための新しいPatch-Depth Fusion Network (PDFNet) を設計した。
PDFNetは最先端の非拡散法を大きく上回っている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:02:28 GMT)
Advancing Autonomous Vehicle Intelligence: Deep Learning and Multimodal LLM for Traffic Sign Recognition and Robust Lane Detection [11.7] 本稿では,先進的な深層学習技術とマルチモーダル大規模言語モデル(MLLM)を組み合わせた総合的な道路認識手法を提案する。
交通信号認識では,ResNet-50,Yv8,RT-DETRを評価し,ResNet-50で99.8%,YOLOv8で98.0%,RT-DETRで96.6%の精度を達成した。
車線検出のために,曲線フィッティングにより強化されたCNNに基づくセグメンテーション手法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:12:36 GMT)
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models [11.7] 大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。
マルチモーダルLCMを用いたゼロショット画像分類法を提案する。
この結果は,複数のデータセットのベンチマーク精度を上回り,その顕著な効果を示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:53:47 GMT)
Unveiling Inefficiencies in LLM-Generated Code: Toward a Comprehensive Taxonomy [11.2] 大きな言語モデル(LLM)は、将来性のある結果を伴う自動コード生成に広く採用されている。
以前の研究では、LLM生成コードを評価し、冗長性、保守性に乏しい、最適以下のパフォーマンスなど、さまざまな品質の問題を特定していた。
この研究は、コードLLMの改善、コード生成の品質と効率の向上も導くことができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:51:52 GMT)
Hierarchical Uncertainty Estimation for Learning-based Registration in Neuroimaging [11.0] 深層学習に基づく画像登録は多くの領域で 目覚ましい精度を達成しました
これらの手法に関連する不確実性推定は、ジェネリック手法の適用に大きく制限されている。
本稿では,空間的位置のレベルで推定される不確実性を伝播する原理的手法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:02:04 GMT)
Diffusion Bridge AutoEncoders for Unsupervised Representation Learning [10.7] Diffusion Bridge AuteEncoders (DBAE)を導入し、フィードフォワードアーキテクチャを通じてz依存のエンドポイントxT推論を可能にする。
そこで本稿では,DBAEの再構築と生成モデリングを両立させる目的関数を提案し,その理論的正当性について述べる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:47:26 GMT)
Mitigating Blockchain extractable value (BEV) threats by Distributed Transaction Sequencing in Blockchains [10.7] 分散ファイナンス(DeFi)は、エコシステムの完全性と効率を脅かす新たな課題と脆弱性を導入している。
本研究では、トランザクション順序依存(TOD)、抽出可能な値(BEV)、トランザクション多様性(TID)などの重要な問題を特定する。
本稿では,分散トランザクションシーケンシング戦略(DTSS)を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:55:52 GMT)
Invariant Federated Learning: A Novel Approach to Addressing Challenges in Federated Learning for Edge Intelligence [10.5] 本稿では,パラメータ分解による異常なクライアントの被害を革新的に分析する。
また、一般化のための不変ペナルティ付きフェデレートラーニング(FedIPG)についても紹介する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:47:27 GMT)
Exploiting Edited Large Language Models as General Scientific Optimizers [10.5] 大規模言語モデル(LLM)は、科学的シナリオにおける数学的最適化において広く採用されている。
概念的に単純で汎用的な二段階最適化手法,すなわち textbf General textbfScientific textbfOptimizers (GSO) を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:01:11 GMT)
Dynamic Evaluation Framework for Personalized and Trustworthy Agents: A Multi-Session Approach to Preference Adaptability [10.4] 我々は、パーソナライズされた適応的なエージェントを評価するパラダイムシフトについて論じる。
本稿では,ユニークな属性と好みを持つユーザペルソナをモデル化する包括的新しいフレームワークを提案する。
私たちのフレキシブルなフレームワークは、さまざまなエージェントやアプリケーションをサポートし、レコメンデーション戦略の包括的で汎用的な評価を保証するように設計されています。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:50:26 GMT)
Multi-modal expressive personality recognition in data non-ideal audiovisual based on multi-scale feature enhancement and modal augment [10.2] 視覚と聴覚の両方のデータ認識ネットワークに対して、エンドツーエンドのマルチモーダルパフォーマンスパーソナリティを確立する。
マルチスケール機能拡張モジュールを提案する。
本稿では,非理想的データシナリオをシミュレートするモーダルエンハンスメントトレーニング戦略を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:20:44 GMT)
Learning and discovering multiple solutions using physics-informed neural networks with random initialization and deep ensemble [10.0] 物理インフォームドニューラルネットワーク(PINN)の複数の解を発見する能力について検討する。
PINNは、非線形常微分方程式と偏微分方程式の複数の解を効果的に発見することができる。
本稿では,従来の数値解法におけるPINN生成解を初期条件や初期推定として利用することを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:32:22 GMT)
Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.9] 一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
提案手法をFCIL(Federated Class-Incremental Learning)に適用する。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:15:08 GMT)
Clustering-based Meta Bayesian Optimization with Theoretical Guarantee [9.8] 異種および大規模メタタスクにおける重要な課題に対処するために,スケーラブルで堅牢なメタBO手法を提案する。
提案手法は,移動したメタファンクションを高均一なクラスタに効果的に分割し,幾何学に基づくサロゲートプロトタイプを学習し,オンラインフェーズにおいてメタプライアを適応的に合成する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:46:28 GMT)
Phraselette: A Poet's Procedural Palette [9.3] 既存の自動書記ツールの規範的根拠は、作者の価値観と不一致である、と我々は主張する。
Praseletteは、実験的な詩人が単語やフレーズを検索するのに役立つ、芸術的な素材記述支援インタフェースである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:40:28 GMT)
Psycholinguistic Analyses in Software Engineering Text: A Systematic Literature Review [9.2] 言語質問と単語数(LIWC)は、テキストで表される認知的および感情的なプロセスに対する、より明確で解釈可能な洞察を提供する。
ソフトウェア工学の研究で広く使われているにもかかわらず、LIWCの使用に関する包括的なレビューは行われていない。
LIWCを用いて, 43のSE関連論文を同定し, 6つの顕著なデータベースの体系的レビューを行った。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:23:13 GMT)
RGB-Phase Speckle: Cross-Scene Stereo 3D Reconstruction via Wrapped Pre-Normalization [9.2] 本研究では,アクティブステレオカメラシステムに基づく3D再構成フレームワークであるRGB-Speckleを紹介する。
外部干渉を緩和する新しい位相前正規化符号化法を提案する。
実験の結果,提案したRGB-Speckleモデルでは,クロスドメインおよびクロスシーン3次元再構成作業において大きな利点があることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:37:20 GMT)
Treble Counterfactual VLMs: A Causal Approach to Hallucination [9.2] VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:13:05 GMT)
Handwritten Digit Recognition: An Ensemble-Based Approach for Superior Performance [9.2] 本稿では,CNN(Convolutional Neural Networks)と従来の機械学習技術を組み合わせて,認識精度と堅牢性を向上させるアンサンブルに基づくアプローチを提案する。
我々は,70,000個の手書き桁画像からなるMNISTデータセットを用いて本手法の評価を行った。
特徴抽出にCNNを,分類にSVM(Support Vector Machines)を併用したハイブリッドモデルは,99.30%の精度を実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:09:49 GMT)
T-CBF: Traversability-based Control Barrier Function to Navigate Vertically Challenging Terrain [9.1] トラバーサビリティに基づく制御バリア機能(T-CBF)について紹介する。
本研究では,非構造的垂直な地形における衝突回避以外の安全性を達成するために,神経制御バリア関数(CBF)を用いる。
シミュレーションおよび物理的Verti-4 Wheeler (V4W) プラットフォーム上での実験実験を行い,T-CBF が目標地点に到達しながらトラバーサビリティの安全性を提供できることを示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:12:38 GMT)
GraphGen+: Advancing Distributed Subgraph Generation and Graph Learning On Industrial Graphs [9.0] グラフベースの計算は、グラフが数兆のエッジにスケールできる幅広いアプリケーションにおいて不可欠である。
既存のソリューションは大きなトレードオフに直面している。オンラインサブグラフ生成は単一のマシンに限定されており、結果としてパフォーマンスのボトルネックが深刻になる。
分散サブグラフ生成とインメモリグラフ学習を同期するフレームワークである textbfGraphGen+ を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:29:42 GMT)
LapSum -- One Method to Differentiate Them All: Ranking, Sorting and Top-k Selection [9.0] 本稿では, ソフトランキング, ソフトトップk選択, ソフト順列を含む, 微分可能な順序型演算を構築するための新しい手法を提案する。
我々のアプローチは、Laplace分布の和として定義される関数 LapSum の逆数に対する効率的な閉形式公式を利用する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:53:36 GMT)
ROCM: RLHF on consistency models [8.9] 一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:19:48 GMT)
TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition [8.9] TSCLIPは、世界中の交通標識認識のための対照的な言語画像事前学習モデルを用いて、堅牢な微調整手法である。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:34:18 GMT)
MARRO: Multi-headed Attention for Rhetorical Role Labeling in Legal Documents [8.6] 事実、議論、最終判断といった修辞的な役割の特定は、訴訟文書の理解の中心である。
法律文書は、しばしば非構造化されており、特別な語彙を含んでいるため、従来のトランスフォーマーモデルでは理解が難しい。
本稿では,トランスフォーマーにインスパイアされたマルチヘッドアテンションを用いたマルチタスク学習モデルであるMARROを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:05:20 GMT)
Preserving Angles Improves Feature Distillation of Foundation Models [8.6] 圧縮空間ネットワークと学生画像モデルとの類似性を保存する。
様々なCossNetデータセットが、検出ベンチマークでより堅牢な精度で精度良く生成されることが示されている。
これにより、一般的な検出ベンチマークでのトレーニングの競合パスが提供される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:51:39 GMT)
ComFe: An Interpretable Head for Vision Transformers [8.6] 解釈可能なコンピュータビジョンモデルは、画像の局所アノテーションとトレーニングデータを表すプロトタイプのセットとの距離を比較することで、それらの分類を説明する。
ComFeは私たちが知っている最初の解釈可能なアプローチであり、他の解釈可能なアプローチとは異なり、ImageNet Image-1Kとして簡単に適用できる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:18:30 GMT)
FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.5] 魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:45:13 GMT)
EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images [8.2] 既存のマッピング手法は、しばしば自信過剰なセマンティックな予測や、スパースでノイズの多い深度検知に悩まされる。
深度推定とセマンティックセグメンテーションに明らかな頭部を用いたマルチタスク学習フレームワークであるEvidMTLを紹介する。
本研究では,不確実性を考慮したセマンティックサーフェスマッピングフレームワークであるEvidKimeraを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:15:08 GMT)
Just Leaf It: Accelerating Diffusion Classifiers with Hierarchical Class Pruning [8.2] 本稿では,階層的ラベル構造を利用した階層的拡散(HDC)を提案する。
無関係な高レベルカテゴリを抽出し、関連するサブカテゴリ内でのみ精製予測を行うことで、HDCはクラス評価の総数を削減する。
結果としてHDCは推論を最大60%高速化すると同時に、時には分類精度も向上する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:47:43 GMT)
Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.2] 我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。
タイミング,面積,消費電力を改善する4つの最適化手法を提案する。
本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:21:23 GMT)
A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models [7.9] 深層強化学習(Dep Reinforcement Learning, RL)は, 様々な領域における意思決定課題の解決に有効であることが検討され, 検証されている。
しかし, 実世界のデータに制限があり, 有害な行動が生じたため, RLポリシーの学習は主にシミュレータ内で制限される。
この調査論文はマルコフ決定過程の重要な要素からシム・トゥ・リアルの技法を正式に定式化した最初の分類法である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:36:16 GMT)
MotionPCM: Real-Time Motion Synthesis with Phased Consistency Model [7.9] 拡散モデルは、その強力な生成能力のためにヒトの運動合成において一般的な選択肢となっている。
それらの高い計算複雑性と大規模なサンプリングステップは、リアルタイムアプリケーションに課題をもたらす。
遅延空間におけるリアルタイム合成動作の品質と効率を向上させるために, 位相整合モデルに基づくアプローチである textbfMotionPCM を導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:06:47 GMT)
Pathology-Guided AI System for Accurate Segmentation and Diagnosis of Cervical Spondylosis [7.8] 我々は,MRIを用いて頚椎症と頚椎症の両方を自動診断するAI支援エキスパートベース診断システムを開発した。
本システムでは, 頸部解剖学的重要な構造を正確にセグメント化できる病的ガイド付きセグメンテーションモデルを特徴とする。
ヘルニア局所化,K線状態評価,T2ハイパーインテンシティ検出において,高い精度,精度,リコール,F1スコアが得られた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:55:33 GMT)
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation [7.6] 本稿では,Diffusion Transformer (DiT) モデルに様々なモダリティを理解する能力を備えた X2I フレームワークを提案する。
X2Iは,マルチモーダル理解能力を有しながら,1%未満の性能低下を示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:07:45 GMT)
Biased Federated Learning under Wireless Heterogeneity [7.4] Federated Learning(FL)は計算のための有望なフレームワークであり、プライベートデータを共有せずに協調的なモデルトレーニングを可能にする。
既存の無線計算処理では,(1)無線信号重畳を利用するOTA(Over-the-air)と(2)収束のためのリソースを割り当てるOTA(Over-the-air)の2つの通信戦略が採用されている。
本稿では,新しいOTAおよびデジタルFL更新を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:55:14 GMT)
ForestSplats: Deformable transient field for Gaussian Splatting in the Wild [7.3] 3D-GSは静的なシーンでは有効性を示すが、実際の環境では性能が著しく低下する。
変形可能な過渡場とスーパーピクセル対応マスクを利用する新しいアプローチであるフォレストスプラッツを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:44:57 GMT)
MSConv: Multiplicative and Subtractive Convolution for Face Recognition [7.2] 我々はMSConv(Multiplicative and Subtractive Convolution)と呼ばれる効率的な畳み込みモジュールを提案する。
具体的には、顔画像から局所的およびより広い文脈情報をキャプチャするために、マルチスケールの混合畳み込みを用いる。
実験の結果,MSConvは有能な特徴と差分な特徴を統合することで,有能な特徴にのみ焦点を絞ったモデルよりも優れていた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:18:29 GMT)
A Label-Free High-Precision Residual Moveout Picking Method for Travel Time Tomography based on Deep Learning [7.1] 残留移動(Residual moveout、RMO)は、旅行時間トモグラフィーに重要な情報を提供する。
現在の分析手法は、局所的な塩分化を正確に捉えていない。
抽出のための教師付き学習ベース画像分割法は,局所的な変化を効果的に捉えることができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:27:55 GMT)
Pretrained Reversible Generation as Unsupervised Visual Representation Learning [7.1] 本稿では,事前学習された連続生成モデルの生成過程を逆転させて教師なし表現を抽出する,事前学習可逆生成(PRG)を提案する。
PRGは教師なし生成モデルを効果的に再利用し、その高い能力を利用して下流タスクの堅牢で一般化可能な特徴抽出器として機能する。
提案手法は,複数のベンチマークにおいて従来手法よりも常に優れており,画像ネット上で64.8%の精度で78%の精度で生成モデルに基づく手法の最先端性能を実現している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:13:46 GMT)
Distributed Graph Neural Network Inference With Just-In-Time Compilation For Industry-Scale Graphs [6.9] グラフニューラルネットワーク(GNN)は様々な分野で顕著な成果を上げている。
グラフデータのスケールの急激な増加は、GNN推論に重大なパフォーマンスボトルネックをもたらしている。
本稿では,GNNを新しいプログラミングインタフェースで抽象化する分散グラフ学習のための革新的な処理パラダイムを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:26:59 GMT)
Removing Multiple Hybrid Adverse Weather in Video via a Unified Model [6.9] 我々はUniWRVと呼ばれる新しい統一モデルを提案し、オールインワン方式で複数の異種映像の天気劣化を除去する。
我々のUniWRVは、複数の異種劣化学習シナリオにおいて、堅牢で優れた適応能力を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:01:22 GMT)
LightCL: Compact Continual Learning with Low Memory Footprint For Edge Device [6.8] 連続学習(Continuous Learning, CL)は、ニューラルネットワークが動的環境に常に適応できるようにする技術である。
本稿では、ニューラルネットワークの構造において既に一般化されたコンポーネントの冗長性を評価・圧縮するLightCLと呼ばれるコンパクトアルゴリズムを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:54:22 GMT)
Hybrid Attention Model Using Feature Decomposition and Knowledge Distillation for Glucose Forecasting [6.5] GlucoNetは、行動と生理の健康を継続的に監視するAI駆動のセンサーシステムである。
本稿では,患者の行動・生理的データを組み込んだ分解型トランスフォーマーモデルを提案する。
GGlucoNetはRMSEの60%の改善とパラメータ数の21%削減を実現し、T1-Diabetesの12名を含むデータを用いてRMSEとMAEを51%と57%改善した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:07:31 GMT)
DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments [6.5] 大規模言語モデル(LLM)ベースのエージェントは、複雑で動的なタスクの解決において、ますます人気が高まっている。
既存のベンチマークは通常、単一目的のタスクにフォーカスするか、非常に広い評価基準を使用する。
戦略的意思決定のための厳格な評価プラットフォームであるDSGBenchを紹介します。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:17:23 GMT)
Foundation Model of Electronic Medical Records for Adaptive Risk Estimation [6.2] 米国はGDPの約18%を医療に割り当てているが、他の高所得国と比較して平均寿命が低く、死亡率も高い。
ETHOS(Enhanced Transformer for Health Outcome Simulation)は,患者の健康スケジュールをEHRからトークン化するAIモデルである。
Adaptive Risk Estimation System (ARES)は、臨床医が定義した臨界事象に対するダイナミックでパーソナライズされたリスク確率を計算するためにETHOSを利用する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:48:54 GMT)
Infant Cry Detection Using Causal Temporal Representation [6.2] 本研究は乳児の涙の診断に2つの貢献をおこなった。
ひとつはCryセグメンテーションのための注釈付きデータセットで、教師付きモデルで最先端のパフォーマンスを実現することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:15:23 GMT)
STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification [6.1] マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。
ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。
本稿では,タスク関連情報を包括的に探索する新しいセミSLフレームワークであるSTiLを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:51:45 GMT)
Training and Evaluating Language Models with Template-based Data Generation [6.0] 我々は、700万以上の合成された小学校数学問題からなるデータセットを作成する。
このデータセットは、数学的推論においてLLMを事前学習、微調整、評価するための貴重なリソースとして機能する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:18:23 GMT)
ESG Rating Disagreement and Corporate Total Factor Productivity:Inference and Prediction [5.6] Disは減少する。
特に、国有、資本集約、低汚染、ハイテク企業において。
グリーンイノベーションは、Dis onの減衰効果を強化する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:35:54 GMT)
A Frank System for Co-Evolutionary Hybrid Decision-Making [5.4] 我々は,共同進化型ハイブリッド意思決定のためのヒューマン・イン・ザ・ループシステムであるFrankを紹介する。
不整合制御、説明、公平性チェック、不正な保護を同時に提供します。
実験の結果、フランクの介入が決定の正確さと公平性の改善につながることが示された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:06:16 GMT)
STAR: A Foundation Model-driven Framework for Robust Task Planning and Failure Recovery in Robotic Systems [5.4] STAR(Smart Task Adaptation and Recovery)は、ファンデーションモデル(FM)と動的に拡張された知識グラフ(KG)を相乗化する新しいフレームワークである。
FMは目覚ましい一般化と文脈推論を提供するが、その制限は信頼性を損なう。
その結果,STARは86%のタスク計画精度と78%のリカバリ成功率を示し,ベースライン法よりも有意な改善を示した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:05:21 GMT)
Data-Free Black-Box Federated Learning via Zeroth-Order Gradient Estimation [5.3] フェデレートラーニング(FL)は、分散クライアントが中央サーバのオーケストレーションの下でグローバルモデルを協調的にトレーニングすることを可能にする。
ゼロ階勾配推定(FedZGE)によるデータフリーでブラックボックスなFLフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:00:01 GMT)
The AI Pentad, the CHARME$^{2}$D Model, and an Assessment of Current-State AI Regulation [5.2] 本稿では,コアAIコンポーネントの観点から,AI規制の統一モデルを確立することを目的とする。
まず、AIの5つの重要なコンポーネントで構成されるAI Pentadを紹介します。
次に、AI登録と開示、AI監視、AI執行機構を含むAI規制イネージャをレビューする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:58:41 GMT)
Collaborative and Efficient Personalization with Mixtures of Adaptors [5.2] Federated Low-Rank Adaptive Learning (FLoRAL)は、低ランクのアダプタを混在させることで、クライアントがグループをパーソナライズすることを可能にする。
FLoRALは、パーソナライズされたフェデレーション学習をマルチタスク学習問題として活用するモデルパラメータ化である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:24:41 GMT)
Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram [5.2] 我々は、2022年を通して、ロシアの16のメディアが732のTelegramチャンネルとどのように対話し、利用したかを調査した。
我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。
例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:48:44 GMT)
Generation of Optimized Solidity Code for Machine Learning Models using LLMs [5.1] 本稿では,MLモデルの参照パスと,オフチェーンをトレーニングしたウェイトを,Large Language Models (LLMs) を用いたソリデーティコードに変換する,新たなアプローチを提案する。
また,MLモデルの精度を検証するために生成したコードを用いた分散化アプリケーションの概念実証も開発した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:12:52 GMT)
Towards Universal Text-driven CT Image Segmentation [4.8] 汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。
診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:02:57 GMT)
VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention [4.8] 大動脈血管分節に対するSegment Anything Model(SAM)の拡張版であるVesselSAMを提案する。
VesselSAM には,Atrous Attention と Low-Rank Adaptation (LoRA) を統合した新たなモジュールであるAtrousLoRA が組み込まれている。
本稿では,Aortic Vessel Tree (AVT) データセットとType-B Aortic Dissection (TBAD) データセットの2つの挑戦的データセットを用いて VesselSAM を評価する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:04:50 GMT)
Boosting the Local Invariance for Better Adversarial Transferability [4.8] トランスファーベースの攻撃は、現実世界のアプリケーションに重大な脅威をもたらす。
LI-Boost (Local Invariance Boosting approach) と呼ばれる一般対向転送可能性向上手法を提案する。
標準のImageNetデータセットの実験では、LI-Boostがさまざまなタイプの転送ベースの攻撃を著しく強化できることが示された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:44:45 GMT)
Synergizing AI and Digital Twins for Next-Generation Network Optimization, Forecasting, and Security [4.6] DNT(Digital Network twins)は、ネットワーク性能のリアルタイム監視、シミュレーション、最適化を可能にする物理ネットワークの仮想表現である。
機械学習(ML)技術と統合されると、DNTはネットワーク操作の複雑さを管理するための強力なソリューションとして現れる。
ネットワーク信頼性の確保、共同データシナリオ予測の実現、リスクの高い環境でのセキュリティ維持など、対処すべき重要な技術的課題を強調します。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:30:54 GMT)
NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering [4.6] 本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:11:53 GMT)
Comparative Study of Multilingual Idioms and Similes in Large Language Models [4.6] 本研究は, チェーン・オブ・ソート, 少数ショット, 英語翻訳プロンプトなど, 迅速なエンジニアリング戦略の有効性について検討する。
これらのデータセットの言語をペルシア語にも拡張し、2つの新しい評価セットを構築します。
本研究により, 迅速な工学手法は一般的に有効であるが, その成功は図形型, 言語, モデルによって異なることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:46:44 GMT)
A Counterfactual Explanation Framework for Retrieval Models [4.6] 我々は,検索モデルにより文書に好ましくない言葉がどのような役割を担っていたか,という問題を解くために,反実的枠組みを用いる。
本実験は,統計モデル(BM25など)とディープラーニングモデルの両方に対して,提案手法の有効性を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:02:16 GMT)
DODA: Adapting Object Detectors to Dynamic Agricultural Environments in Real-Time with Diffusion [4.5] DODAは拡散ベースのフレームワークで、検出器を2分で新しいドメインに適応できる。
DODA生成データに対する微調整検出を行うGlobal Wheat Head Detectionデータセットにおいて,DODAの有効性を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:04:11 GMT)
Analyzing the Role of Permutation Invariance in Linear Mode Connectivity [4.5] 学生ネットワーク幅が$m$増加するにつれて、LCC損失障壁変調はbf二重降下挙動を示す。
学習率の増加に伴うGD/SGD溶液の分散度の変化を観察し,この分散度がLCC損失障壁変調に与える影響について検討した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:12:27 GMT)
Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding [4.0] ビジュアルグラウンドティングは、自由形式のテキスト記述に対応する画像領域をローカライズしようとする。
本研究では,テキスト・ツー・イメージ・アテンション・マップを用いて対象物体を識別する学習自由なビジュアルグラウンドティング・フレームワークを提案する。
以上の結果から,LVLMはテキスト-画像関係の深い理解に基づいて,自然に物体を接地することができることが示唆された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:24:42 GMT)
Object-Centric World Model for Language-Guided Manipulation [4.0] エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:17:37 GMT)
Diffusion Model with Perceptual Loss [4.0] 損失対象の選択は、生拡散モデルが望ましいサンプルを生成できない根本的な理由であることを示す。
我々は,新たな自己認識的損失目標を持つ拡散モデルを訓練し,ガイダンスを必要とせず,はるかに現実的なサンプルを得る。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:14:40 GMT)
Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation [3.9] 動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。
状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。
本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:02:16 GMT)
Uncovering Quantum Many-body Scars with Quantum Machine Learning [3.9] 量子多体傷は多体系のカオススペクトルの中に隠された稀な固有状態である。
量子機械学習(特に量子畳み込みニューラルネットワーク(QCNN))のツールを使用して、量子多体システムに隠された非熱的状態を探索します。
我々は,xorXモデル,PXPモデル,Su-Schrieffer-Heegerモデルなどのモデルにおける新しい非熱的状態の同定に成功した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:21:53 GMT)
Dynamic Degradation Decomposition Network for All-in-One Image Restoration [3.9] 本稿では,オールインワン画像復元のための動的劣化分解ネットワークD$3$Netを提案する。
D$3$Netは、クロスドメイン相互作用と動的分解分解を通じて誘導プロンプトによる劣化適応画像復元を実現する。
複数の画像復元タスクの実験では、D$3$Netは最先端のアプローチよりも大幅に優れていた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:50:19 GMT)
Mitigating Memorization in LLMs using Activation Steering [3.6] LLM(Large Language Models)によるトレーニングデータの記憶は、プライバシー漏洩や著作権付きコンテンツの復活など、重大なリスクをもたらす。
モデルアクティベーションに直接介入するアクティベーションステアリング(Activation steering)は、LSMを操作するための有望なアプローチとして登場した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:37:07 GMT)
ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal [3.6] シャドーはいくつかの領域で突然の明るさ変化を引き起こし、下流のタスクの精度に影響を与える可能性がある。
本研究では,影領域,境界領域,非影領域を別々にスキャンする境界領域選択走査機構を提案する。
私たちはShadowMambaと呼ばれる、最初のMambaベースの軽量シャドウ除去モデルを設計した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:12:27 GMT)
Efficient and Universally Accessible Cross-Chain Options without Upfront Holder Collateral [3.6] 暗号通貨のようなブロックチェーン常駐資産の選択肢への関心が高まっているにもかかわらず、現在のオプションメカニズムは重大な課題に直面している。
当社のプロトコルは、信頼性のないサービス環境におけるオプションを確立する際に、オーバサが担保をポストする必要をなくす最初のものです。
その普遍性は、2つの異なるブロックチェーン上のほぼテキストティニーアセットを含むクロスチェーンオプションを可能にする。
提案手法により,提案手法はオプション転送遅延を既存手法の半分以下に削減できることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:58:12 GMT)
Strong Preferences Affect the Robustness of Preference Models and Value Alignment [3.5] バリューアライメントは、大きな言語モデルが人間の価値に応じて振る舞うことを保証することを目的としています。
価値アライメントの重要な要素は、人間の価値観の表現としての人間の嗜好のモデリングである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:29:40 GMT)
Back to the Future Cyclopean Stereo: a human perception approach combining deep and geometric constraints [3.3] サイクロペアン眼モデルによる解析的3次元表面モデルを提供する。
この幾何学的基礎と学習されたステレオ特徴を組み合わせることで、システムは両方のアプローチの強みの恩恵を受けることができる。
本研究の目的は,三次元表面の幾何学的性質の理解とモデリングがコンピュータビジョン研究に有用であることを示すことである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:50:30 GMT)
Fast LiDAR Data Generation with Rectified Flows [3.3] 本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:39:59 GMT)
NeuroADDA: Active Discriminative Domain Adaptation in Connectomic [3.2] 我々は、最適なドメイン選択とソース不要なアクティブラーニングを組み合わせて、トレーニング済みのバックボーンを新しいデータセットに適応させる方法であるNeuroADDAを紹介する。
NeuroADDAは、さまざまなデータセットと微調整されたサンプルサイズで、スクラッチからトレーニングを一貫して上回る。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:40:30 GMT)
Randomized Quasi-Monte Carlo Features for Kernel Approximation [3.1] ランダム化準モンテカルロ法(RQMC)のカーネルベース学習におけるランダム特徴近似への応用について検討する。
古典的モンテカルロ法(MC)と比較して、RQMCは決定論的近似誤差境界を改善する。
RQMC法は低次元と中程度の高次元の両方で安定した性能を維持していることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:38:28 GMT)
Explain-Query-Test: Self-Evaluating LLMs Via Explanation and Comprehension Discrepancy [3.0] 大規模言語モデル(LLM)は、詳細で一貫性のある説明を生成するのに顕著な習熟性を示した。
生成したコンテンツに対するモデルの理解度を評価するために,自己評価パイプラインを実装した。
この自己評価アプローチを Explain-Query-Test (EQT) と呼ぶ。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:56:29 GMT)
Unlocking Pretrained LLMs for Motion-Related Multimodal Generation: A Fine-Tuning Approach to Unify Diffusion and Next-Token Prediction [3.0] MoMugは拡散に基づく連続運動生成とモデル固有の自己回帰的な離散テキスト予測機能を統合する。
MoMugはFIDを38%改善し、7つのメトリクスの平均精度を16.61%向上させた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:16:16 GMT)
Implementing Quantum Secret Sharing on Current Hardware [2.9] 量子秘密共有(Quantum Secret Share)は、量子情報の安全な保管と再構築を可能にする暗号方式である。
我々は、異なる秘密共有コードのための符号化回路と復号回路の教育学的記述を提供する。
我々は、IBMの127キュービットブリスベンシステムで性能をテストする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:54:09 GMT)
Antibiotic Resistance Microbiology Dataset (ARMD): A De-identified Resource for Studying Antimicrobial Resistance Using Electronic Health Records [2.8] 抗生物質耐性微生物学データセット(ARMD)は、電子健康記録(EHR)から派生した未同定資源である。
ARMDは成人患者のデータを含み、微生物培養、抗生物質感受性、および関連する臨床および人口統計の特徴に焦点を当てている。
本稿では,データセットの取得,構造,有用性について述べるとともに,その識別プロセスについて詳述する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:28:12 GMT)
ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation [2.8] ACAM-KDは蒸留プロセス全体を通して学生の要求に適応する。
これにより、最先端技術よりも1.4mAPまでのオブジェクト検出性能が向上する。
Cityscapesのセマンティックセグメンテーションでは、ベースライン上でmIoUを3.09アップする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:51:53 GMT)
MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming [2.8] 既存のRed Teamingメソッドは、コスト効率、成功率の攻撃、多様性の攻撃、あるいは新たな攻撃タイプが出現するにつれて拡張性に欠ける。
自動LLMレッドチームのためのMAD-MAX(Modular and Diverse Malicious Attack MiXtures)を用いて,これらの課題に対処する。
GPT-4o と Gemini-Pro のベンチマークでは,MAD-MAX のjailbreak が 97% で,TAP が 66% であったのに対し,MAD-MAX のjailbreak は 97% であった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:28:26 GMT)
Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation [2.7] Generative Flow Networks (GFlowNets) は、多種多様な高品質な分子構造を生成するのに適したフレームワークとして最近登場した。
本稿では,個々の原子を構成要素として活用する基本生成モデルであるAtomic GFlowNets(A-GFNs)を紹介する。
医薬品のような分子データセットを用いた教師なし事前学習手法を提案し,A-GFNに安価で情報伝達性の高い分子記述子について教える。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:41:07 GMT)
Accurate and Efficient Two-Stage Gun Detection in Video [2.7] 本稿では,新しい2段式銃検出法を提案する。
ステージ1では,ガンの映像を効果的に分類するために,画像拡張モデルを訓練する。
ステージ2では、映像フレーム内の銃の正確な領域を特定するためにオブジェクト検出モデルを用いており、ステージ1では「ガン」に分類されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:26:23 GMT)
Driven Magnon-Photon System as a Tunable Quantum Heat Rectifier [2.7] 定常熱電流の非対称性を導く過程におけるハイブリッド量子系のパラメータの役割を解析する。
この研究は、誘導されたマグノン光子系を持つ量子熱機械の設計に関する非常に有用な洞察を与えるだろう。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:25:27 GMT)
Sequential Compression Layers for Efficient Federated Learning in Foundational Models [2.7] そこで我々は,LoRAに依存しない,新しい,シンプルで,より効率的なパラメータ効率の微調整法を提案する。
このソリューションは、連合型微調整におけるLoRAに関連するボトルネックに対処し、最近のLoRAベースのアプローチより優れている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:47:24 GMT)
Minion Gated Recurrent Unit for Continual Learning [2.6] ミニオンリカレントユニット(MiRU)は、ゲートリカレントユニット(GRU)の新しい変種である。
MiRUは従来のゲーティング機構をスケーリング係数に置き換えて、隠れ状態と履歴コンテキストの動的更新を制御する。
マルチタスク学習におけるMIRUは,標準GRUとその変種とは異なり,リハーサルのみを用いても安定した性能を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 11:28:40 GMT)
FloPE: Flower Pose Estimation for Precision Pollination [2.6] FloPEは、計算に制約のあるロボット受粉システムのためのリアルタイムフラワーポーズ推定フレームワークである。
実験では, 最大78.75%の受粉率でFloPEの有効性を検証した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:24:54 GMT)
DeepSeek vs. ChatGPT vs. Claude: A Comparative Study for Scientific Computing and Scientific Machine Learning Tasks [2.4] 大きな言語モデル(LLM)は、幅広い問題に対処するための強力なツールとして登場した。
私たちは、DeepSeek、ChatGPT、Claudeといった先進的なLLMの能力と、計算上の課題に対処する際の推論最適化バージョンを比較した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:55:31 GMT)
Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization [2.4] 本研究では,分類,回帰,クラスタリング,相関解析,統計的テスト,セグメンテーション,イメージ・ツー・イメージ(I2I)翻訳などのタスクのメトリクスを評価する。
メトリクスはPythonライブラリ、Rパッケージ、Matlab関数で比較され、一貫性を評価し、相違点を強調した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:25:11 GMT)
Principles for Open Data Curation: A Case Study with the New York City 311 Service Request Data [2.3] ニューヨーク市(NYC)は、2012年にオープンデータ法が制定されて以来、この運動の最前線にある。
現在、ポータルは2700のデータセットをホストしており、さまざまな領域で研究するための重要なリソースとなっている。
オープンデータの効果的な利用は、データ品質とユーザビリティに大きく依存する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:07:39 GMT)
TransParking: A Dual-Decoder Transformer Framework with Soft Localization for End-to-End Automatic Parking [2.2] 本稿では,専門的軌跡を用いて訓練したエンドツーエンド自動駐車のための視覚ベーストランスフォーマーモデルを提案する。
実験結果から, モデルの誤差は50%程度減少していることがわかった。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:41:24 GMT)
Quantum circuit for implementing AES S-box with low costs [2.2] 高度な暗号化標準(Advanced Encryption Standard, AES)は、世界中で広く使われている暗号化アルゴリズムの一つである。
本稿では,AESにおける唯一の非線形成分であるSボックスを実装するために,3つの量子回路を設計する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:58:44 GMT)
Human-AI Experience in Integrated Development Environments: A Systematic Literature Review [2.2] In-IDE HAXはAI支援コーディング環境におけるヒューマン・コンピュータインタラクションの進化するダイナミクスを探求する。
この結果から,AIによるコーディングによって開発者の生産性が向上するだけでなく,検証オーバーヘッドや自動化バイアス,信頼性の過大化といった課題も生じていることがわかった。
コードの正確性、セキュリティ、保守性に関する懸念は、説明可能性、検証メカニズム、適応的なユーザコントロールに対する緊急の必要性を浮き彫りにする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:40:18 GMT)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.2] トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:35:32 GMT)
Critical Foreign Policy Decisions (CFPD)-Benchmark: Measuring Diplomatic Preferences in Large Language Models [2.1] 本研究では,7つの基礎モデルのバイアスと嗜好を評価するための新しいベンチマークを提案する。
400の専門的なシナリオを使用して、選択したモデルの結果を分析しました。
すべてのモデルは、ある程度の国固有の偏見を示しており、しばしば、中国とロシアに対するエスカレーションや介入の行動を減らすことを推奨している。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:19:13 GMT)
The Art of Optimizing T-Depth for Quantum Error Correction in Large-Scale Quantum Computing [2.1] 量子エラー補正(Quantum Error Correction, QEC)は、大規模量子計算におけるフォールトトレランスを保証する。
T深度を最小化することは、フォールトトレラント量子コンピューティングにおける資源効率の最適化に不可欠である。
拡張係数に基づくIDゲート挿入戦略を導入し、当初非還元性に分類されていた回路のより深い削減を実現する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:48:21 GMT)
Attention-Based Synthetic Data Generation for Calibration-Enhanced Survival Analysis: A Case Study for Chronic Kidney Disease Using Electronic Health Records [1.8] Masked Clinical Modelling (MCM)は、高忠実度合成データセットを生成するための注目ベースのフレームワークである。
MCMは、サバイバルモデル校正を強化しながら、ハザード比などの重要な臨床的洞察を保っている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:58:33 GMT)
FLOPS: Forward Learning with OPtimal Sampling [1.7] 勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:06:49 GMT)
Vairiational Stochastic Games [1.7] 本稿では分散型マルチエージェントシステムに適した新しい変分推論フレームワークを提案する。
我々のフレームワークは、非定常性と非整合エージェントの目的によって引き起こされる課題に対処する。
提案した分散アルゴリズムに対する理論的収束保証を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 03:21:23 GMT)
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models [1.6] LLMに対する対角的摂動を生み出すための新しいホワイトボックス手法を提案する。
まず、受け入れ部分空間(モデルの拒絶機構を起動しない特徴ベクトルの集合)を識別する。
次に、勾配に基づく最適化を用いて、拒否サブスペースから受け入れサブスペースへの埋め込みを除去し、ジェイルブレイクを効果的に達成する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:29:45 GMT)
MOB-GCN: A Novel Multiscale Object-Based Graph Neural Network for Hyperspectral Image Classification [1.5] 本稿では、ハイパースペクトル画像(HSI)分類のためのMOB-GCNと呼ばれる新しいマルチスケールオブジェクトベースグラフニューラルネットワークを提案する。
実験の結果,MOB-GCNは分類精度,計算効率,ノイズ低減の点で,単一スケールグラフ畳み込みネットワーク(GCN)より一貫して優れていた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:24:32 GMT)
Immersive Virtual Reality Assessments of Working Memory and Psychomotor Skills: A Comparison between Immersive and Non-Immersive Assessments [1.5] 没入型バーチャルリアリティ(VR)は、生態学的妥当性を高め、直感的で人間工学的なハンドインタラクションを促進する。
本研究は,VRによる評価とPCによる評価の収束妥当性,ユーザエクスペリエンス,ユーザビリティについて検討する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:13:43 GMT)
MANDARIN: Mixture-of-Experts Framework for Dynamic Delirium and Coma Prediction in ICU Patients: Development and Validation of an Acute Brain Dysfunction Prediction Model [1.4] 急性脳機能障害 (ABD) は、重篤なICU合併症であり、デリリウムまたはコマとして現れる。
グラスゴー・コマ・スケール(GCS)、コンフュージョン・アセスメント・メソッド(CAM)、リッチモンド・アシエーション・セシエーション・スケール(RASS)といった従来のスクリーニングツールは、断続的なアセスメントに依存している。
ICU患者におけるABDをリアルタイムに予測するためのMANDARIN (Mixture-of-Experts Framework for Dynamic Delirium and Coma Prediction for ICU patients)を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:56:41 GMT)
Higher-Order Belief in Incomplete Information MAIDs [1.2] マルチエージェント・インフルエンス・ダイアグラム(MAID)はエージェント間の戦略的相互作用を表す。
本稿では,不完全情報MAID(II-MAID)を紹介する。
不完全な情報を持つEFGと等価な関係を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:35:55 GMT)
A quantum annealing approach to graph node embedding [1.1] ノード埋め込みは、グラフノードをベクトルとして表現し、構造的およびリレーショナル特性を保存するための重要なテクニックである。
DeepWalk、node2vec、グラフ畳み込みネットワークといった古典的な手法は、グラフの構造パターンと関係パターンをキャプチャすることでノードの埋め込みを学習する。
量子コンピューティングは、量子効果を活用し、新しい最適化アプローチを導入することで、グラフベースの学習に有望な代替手段を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:11:55 GMT)
Digital Zero-Noise Extrapolation with Quantum Circuit Unoptimization [0.9] 量子回路最適化 (quantum circuit unoptimization) は、量子回路を別の回路に変換するアルゴリズムである。
量子回路の最適化を回路折り畳みの形式として利用することにより、ノイズを体系的に増幅することができる。
量子回路を最適化してZNEを動作させることで、ノイズのある量子シミュレーションからおよそ信号を復元できることが示される。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 21:06:48 GMT)
An Empirical Study of Causal Relation Extraction Transfer: Design and Data [0.9] 比較的単純なBioBERT-BiGRU関係抽出モデルが、様々なWebベースソースやアノテーション戦略をまたいだ他のアーキテクチャよりも一般化されていることを示す。
また、ターゲットタグを直接マッチングするのではなく、名詞句のローカライゼーションを重視した転送性能の評価指標である$Fphrase$を導入する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 05:51:27 GMT)
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling [0.8] 時系列モデルは、大規模で複雑なデータセットを扱うためのスケーリングの課題に直面します。
メタラーニングを状態更新機構に組み込んだRWKV-7を用いた新しいソリューションを提案する。
約1.13~43.3xの性能向上と,1/23パラメータによるトレーニング時間の4.5倍の短縮を実現した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:31:18 GMT)
CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset [0.8] 汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
汎用GPT-4oは、複数選択タスクとオープンエンドタスクの両方で最高のパフォーマンスを達成する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:21:44 GMT)
BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [0.8] LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:57:19 GMT)
Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding [0.7] Clip アーキテクチャに基づく TTS 方式 Clip-TTS を提案する。
この方法はClipフレームワークを用いてテキストエンコーディングの段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立する。
モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:24:53 GMT)
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.7] 本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 01:22:10 GMT)
Learning to Drive by Imitating Surrounding Vehicles [0.7] 模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。
本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。
我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:40:47 GMT)
LimTopic: LLM-based Topic Modeling and Text Summarization for Analyzing Scientific Articles limitations [0.5] 科学論文の限界セクションは、研究の境界と欠点を強調する上で重要な役割を担っている。
大言語モデル(LLM)を用いた科学論文における制限セクションにおけるトピック生成の戦略であるLimTopicを紹介する。
本研究は,トピックモデリングとテキスト要約を通じて,これらの制約を効果的に抽出し,理解することに焦点を当てる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:59:44 GMT)
Deep Learning-Driven Malware Classification with API Call Sequence Analysis and Concept Drift Handling [0.5] 動的環境におけるマルウェアの分類は、概念の漂流に起因する重要な課題である。
本稿では,マルウェアの分類精度と適応性を向上させるため,遺伝的アルゴリズムにより強化されたディープラーニングフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:10:45 GMT)
Applications and Implications of Large Language Models in Qualitative Analysis: A New Frontier for Empirical Software Engineering [0.5] この研究は、ソフトウェア工学における質的研究におけるLCMの使用を最適化するための構造化戦略とガイドラインの必要性を強調している。
LLMは質的な分析をサポートすることを約束していますが、データの解釈には人間の専門知識が不可欠です。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 02:09:21 GMT)
GIN-Graph: A Generative Interpretation Network for Model-Level Explanation of Graph Neural Networks [0.4] 本稿では,信頼度の高いモデルレベルの説明グラフを生成するために,GIN-Graph(Model-Level Explanation of Graph Neural Networks)のための生成解釈ネットワークを提案する。
GIN-Graphは、さまざまなグラフデータセットでトレーニングされたGNNモデルに容易に適用でき、意味のある説明グラフを作成することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:39:36 GMT)
Attention on the Wires (AttWire): A Foundation Model for Detecting Devices and Catheters in X-ray Fluoroscopic Images [0.4] 新しい注意機構は、X線画像のワイヤ領域に畳み込みニューラルネットワーク(CNN)モデルを導くために設計された。
より高精度でリアルタイムな速度で複数の物体を同時に検出する軽量基盤モデルを作成することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:20:22 GMT)
Fish2Mesh Transformer: 3D Human Mesh Recovery from Egocentric Vision [0.3] エゴセントリックな人体推定は、ウェアラブルカメラのファーストパーソナリティの観点から、ユーザーの身体のポーズと形状を推測することができる。
そこで,魚眼を意識したトランスフォーマーモデルであるFish2Meshを紹介した。
実験により、Fish2Meshは従来の最先端の3D HMRモデルより優れていることが示された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:34:49 GMT)
Attackers Can Do Better: Over- and Understated Factors of Model Stealing Attacks [0.3] 代替モデルトレーニングは、あらゆる機械学習モデルに適用可能な全アクセスアタックである。
本研究では,攻撃者の能力や知識が代替訓練攻撃に与える影響について検討した。
我々の結果は、しばしばより強い攻撃を前提とした以前の攻撃のパフォーマンスを上回ったり、一致させたりします。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:18:52 GMT)
Vulnerability Coordination Under the Cyber Resilience Act [0.2] CRA(Cyber Resilience Act)は、欧州連合(EU)で最近合意された法律である。
それは事実上、すべての情報技術製品に多くの新しいサイバーセキュリティ要件を課している。
本稿は、脆弱性開示を含む脆弱性調整に関するCRAの新たな要件について検討し、詳述する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:14:21 GMT)
HIVQE: Handover Iterative Variational Quantum Eigensolver for Efficient Quantum Chemistry Calculations [0.2] The Handover Iterative Variational Quantum Eigensolver (HiVQE) は基底状態の波動関数を正確に推定するように設計されている。
コンパクトだが化学的に正確な波動関数を生成することで、HiVQEは量子化学シミュレーションを進め、新しい物質の発見を促進する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 17:50:56 GMT)
Vulnerability of fault-tolerant topological quantum error correction to quantum deviations in code space [0.0] 雑音と量子偏差による2次元トポロジカルトリック符号の性能について検討した。
誤り訂正における様々な効用を分離する2つの異なる誤差しきい値を求める。
有限または最小距離$dの符号に対して、クロスオーバースケールの下の準備誤差率を1/log dに比例して維持することは論理誤差の抑制を可能にする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:12:10 GMT)
Understanding the role of autoencoders for stiff dynamical systems using information theory [0.0] 情報理論を用いて、ディープニューラルネットワーク(DNN)トレーニングを用いた自己エンコーダ(AE)の潜時空間の構築が、剛体力学系における滑らかな低次元多様体の発見方法に関する知見を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:42:06 GMT)
U-net based prediction of cerebrospinal fluid distribution and ventricular reflux grading [0.0] 我々は24時間後にピーク時の画素単位の信号増加を予測するためのU-netベースの教師付き学習モデルを提案する。
最初の2時間後の画像データのトレーニングは、追加の後期スキャンでトレーニングされたモデルに匹敵するトレーサーフロー予測をもたらす。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:29:54 GMT)
Theta Theory: operads and coloring [0.0] 生成言語学におけるミニマリズムの数学的モデルにテータ理論を実装した色付きオペラードの明示的な構成を,構文的対象に対する着色アルゴリズムの形で提供する。
本稿では,メルジによって自由に形成される構造上の規則をカラー化することで,このフィルタリングがマージのカラーバージョンによる構造形成の過程と等価であることを示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:39:51 GMT)
The unified partition function in quantum and classical statistical mechanics [0.0] 量子統計力学において、位相空間の表記はボヘミア軌道を通じて導入される。
分割関数は位置とモータのアンサンブルをカプセル化し、粒子の位置を測定する精度を反映する確率分布も含む。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:34:53 GMT)
The study of double kicked top: a classical and quantum perspective [0.0] 本稿では、標準的な量子キックトップ(QKT)モデルの拡張であるダブルキックトップ(DKT)モデルについて検討する。
我々は、最も大きなリャプノフ指数(LLE)とコルモゴロフ-シナイエントロピー(KSE)を計算して得られる固定点、その安定性、検証結果について議論する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:07:11 GMT)
Surveillance Disguised as Protection: A Comparative Analysis of Sideloaded and In-Store Parental Control Apps [0.0] サイドロードされたペアレンタルコントロールアプリは、店内アプリと比べて不足している。
3つのアプリが機密データを暗号化されずに送信し、半数がプライバシーポリシーを欠き、20件中8件がストーカーウェアによる妥協の可能性を警告した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:22:20 GMT)
Sulfur in diamond and its effect on the creation of nitrogen-vacancy defect from \textit{ab initio} simulations [0.0] 負電荷窒素空孔(NV)中心はダイヤモンドの最も重要で広く研究されている欠陥の1つである。
近年の研究では、ドープダイヤモンド層に窒素分子イオンを注入することにより、NV中心の生成と活性化効率が向上することが報告されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 15:12:21 GMT)
States of LLM-generated Texts and Phase Transitions between them [0.0] 人文文における単語の自己相関が、権力法に従って崩壊したことは、しばらくの間知られている。
近年の研究では, LLMが生成したテキストにおける自己相関の崩壊は, 文学的テキストと質的に異なることが示されている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 20:06:50 GMT)
SODAs: Sparse Optimization for the Discovery of Differential and Algebraic Equations [0.0] Sparse Optimization for Differential-Algebraic Systems (SODAs) について紹介する。
SODAは、DAEを明示的な形で識別するためのデータ駆動方式である。
シミュレーションされた時系列データと実時間実験データの両方において、ノイズに対する頑健性を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:29:00 GMT)
RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0] 本稿では,フローマッチングに基づくRNA配列設計のための汎用フレームワークであるRNACG(RNA Generator)を提案する。
1つのフレームワークでシーケンス生成を統一することにより、RNACGは複数のRNA設計パラダイムの統合を可能にする。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:22:21 GMT)
Quantum response theory and momentum-space gravity [0.0] 発散型マルチバンドシステムにおける運動量空間重力に対する量子応答法を提案する。
重力の観点から、創発的項の重要性を論じる。
運動量空間における双対量子幾何学的ドラッグ力を特定し、アインシュタイン場方程式の多バンド行列のエントロピー源項を提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:48:48 GMT)
Quantum Electrodynamics from Quantum Cellular Automata, and the Tension Between Symmetry, Locality and Positive Energy [0.0] 自由QEDはフェルミおよびボース格子量子セルオートマトン理論の連続空間時限界と等価であることを示す。
量子セルオートマトン(英語版)の共通対称性と時間反転対称性が負エネルギー解の存在をいかに要求するかを簡潔に検討する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:46:30 GMT)
QAOA in Quantum Datacenters: Parallelization, Simulation, and Orchestration [0.0] 本稿では, 問題分解, ジョブ生成, 高速シミュレーションを自動化する, 並列化された自動QAOAワークフローを提案する。
フレームワークシミュレータの選択,分散した異種リソース間の実行の最適化,クラウドベースのインフラストラクチャの提供を行う。
QAOAは最適化性能を著しく低下させず、しばしば古典的解法よりも優れていた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:30:00 GMT)
Probability Bracket Notation: Multivariable Systems and Static Bayesian Networks [0.0] Probability Bracket Notation (PBN) は、静的ベイズネットワークにおける複数の離散ランダム変数を解析するために用いられる。
本稿では,多変数系における確率分布の定義とそのPBNを用いたプレゼンテーションについて紹介する。
我々は,Elviraソフトウェアによるボトムアップとトップダウンの手法を用いて,学生BNの推論能力を示す。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 18:18:20 GMT)
Particle creation using the classical stochastic method [0.0] 古典的手法を用いて高調波発振器の粒子生成を計算する。
はじめに真空状態を作成し、ランゲヴィンの運動方程式を用いて時間とともに進化させる。
アンサンブルを平均化することにより、状態のエネルギーを最終時に計算し、生成した粒子の量を決定する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:45:39 GMT)
Localization and entanglement characterization of edge states in HgTe quantum wells in a finite strip geometry [0.0] HgTe量子井戸における近接ギャップ電子状態の構造を解析するための量子情報測度を提案する。
これにより、位相絶縁相のバルク状態とエッジを区別するための基準を確立することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:35:50 GMT)
Local Unitary Equivalence of Tripartite Quantum States In Terms of Trace Identities [0.0] この証明の修正版として,Jing-Yang-Zhao の論文 "Local Unitary Equivalence of Quantum States" を提案する。
我々はこの対応をトリパーティイト量子状態に一般化することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:52:14 GMT)
KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering [0.0] 本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:54:39 GMT)
Improving Tropical Cyclone Forecasting With Video Diffusion Models [0.0] 熱帯サイクロン(TC)予測は,災害対策と緩和に不可欠である。
本稿では,時間的依存関係を付加的な時間的階層を通じて明示的にモデル化する,TC予測のためのビデオ拡散モデルの新たな適用法を提案する。
提案手法により,複数のフレームを同時に生成し,サイクロンの進化パターンをよりよく捉えることができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:26:38 GMT)
Imperfect detectors for adversarial tasks with applications to quantum key distribution [0.0] 我々は不完全なしきい値検出器を解析するための一般的な枠組みを開発する。
ダークカウントや検出効率などの非文字化デバイスパラメータを,ある範囲で逆向きに制御されるものとして扱う。
本結果は,理論的セキュリティと実践的実装の関連性を高めるものである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:53:18 GMT)
Hierarchical Document Parsing via Large Margin Feature Matching and Heuristics [0.0] 我々は,AAAI-25 VRD-IUチャレンジに対する解決策を提示する。
深層学習に基づくマッチング戦略と強欲なアルゴリズムを組み合わせることで、精度を大幅に向上する。
本手法は,文書構造解析において,個人用リーダボード上で0.98904の精度を実現し,その有効性を実証する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:19:36 GMT)
Geometric Analysis of Reasoning Trajectories: A Phase Space Approach to Understanding Valid and Invalid Multi-Hop Reasoning in LLMs [0.0] 本稿では,ハミルトン力学による言語モデルにおけるマルチホップ推論の新たな解析手法を提案する。
我々は、埋め込み空間における推論連鎖をハミルトン系に写像し、問題関連性(ポテンシャルエネルギー)に対する推論進行(運動エネルギー)のバランスをとる関数を定義する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 13:54:10 GMT)
From Interaction to Collaboration: How Hybrid Intelligence Enhances Chatbot Feedback [0.0] 本研究では,ユーザエンゲージメントとフィードバック行動に異なる2つの物語とフィードバック収集機構が与える影響について検討する。
当初,小規模調査では,フィードバックを残したり,システムを利用したり,システムを信頼したりすることの有意な違いは認められなかったが,HIの物語に暴露された参加者は統計的に,より詳細なフィードバックを得られていた。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:36:36 GMT)
Formation of Complex Discrete Time Crystals with Ultracold Atoms [0.0] 振動する原子鏡により周期的に駆動される系における離散時間結晶の形成について検討した。
種内相互作用は弱く魅力的であるが、種間相互作用は無限に強く、反発的である。
まず、上層雲における自発時間変換対称性の破れの顕著な効果を観察し、続いて下層原子雲における同様の効果を観察した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:53:50 GMT)
Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases [0.0] 本研究では,Large Language Models (LLMs) におけるニュアンスバイアス検出フレームワークを提案する。
このアプローチは、コンテキスト分析、注意機構による解釈可能性、および反ファクトデータ拡張を統合して、隠れたバイアスをキャプチャする。
その結果,従来の方法に比べて微妙な偏見の検出精度が向上した。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:43:01 GMT)
Feature Fusion Attention Network with CycleGAN for Image Dehazing, De-Snowing and De-Raining [0.0] 本稿では,Feature Fusion Attention (FFA) ネットワークとCycleGANアーキテクチャを組み合わせた画像デハージング手法を提案する。
本手法は,教師あり学習技術と教師なし学習技術の両方を活用し,重要な画像情報を保持しつつ,画像からヘイズを効果的に除去する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 07:18:42 GMT)
Exploring the usage of Probabilistic Neural Networks for Ionospheric electron density estimation [0.0] 本稿では,電離圏垂直電子量(VTEC)の点推定とそれに伴う不確かさを両立できる可能性を探る。
この研究の重要な発見は、VTEC推定におけるPNNモデルによって提供される不確実性は、体系的に過小評価される可能性があることである。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:06:15 GMT)
Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model [0.0] 大型言語モデル(LLM)を用いた自動種名ラベル付けの実現可能性について検討した。
その結果, LLMによる分類は, 形態学, 地理学, 人文学のカテゴリーにおいて高い精度を達成できたことが示唆された。
今後の研究は、最適化された数ショット学習と検索強化生成技術による精度の向上に焦点を当てる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 23:11:43 GMT)
Enhanced Pediatric Dental Segmentation Using a Custom SegUNet with VGG19 Backbone on Panoramic Radiographs [0.0] 本研究は,VGG19バックボーンを用いたカスタムSegUNetモデルを提案する。
このモデルは精度97.53%、サイコロ係数92.49%、結合(IOU)91.46%に達し、このデータセットの新しいベンチマークが設定された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 19:32:25 GMT)
Engineering high Pockels coefficients in thin-film strontium titanate for cryogenic quantum electro-optic applications [0.0] チタン酸ストロンチウムは極低温で345 pm/Vのmathrmr_eff$を生産できることを示す。
速度論を調整することでキュリー温度を上昇させ、ポッケルス係数の高い強誘電相を実現することができる。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 09:45:47 GMT)
Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy [0.0] モデルマージ(英: Model merging)は、複数の微調整されたモデルを、追加のトレーニングなしで単一のモデルに結合するテクニックである。
モデル透かしやフィンガープリントのような既存の方法は、後部視におけるマージのみを検出することができる。
本稿では,モデルマージに対する最初の積極的な防御法を提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 06:08:47 GMT)
Detecting Offensive Memes with Social Biases in Singapore Context Using Multimodal Large Language Models [0.0] 従来のオンラインコンテンツモデレーションシステムは、ミームのような現代のマルチモーダル通信手段の分類に苦慮している。
我々はシンガポールの文脈で攻撃的ミームを分類するためにVLMを微調整するために、GPT-4Vでラベル付けされた112Kミームの大規模なコレクションをキュレートする。
我々のソリューションは、ホールドアウトテストセットで80.62%の精度と0.8192のAUROCに達し、人間がオンラインでコンテンツをモデレートするのに大いに役立ちます。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 08:35:02 GMT)
Curriculum Learning-Driven PIELMs for Fluid Flow Simulations [0.0] 本稿では,流体流に関する定常および非定常な非線形偏微分方程式(PDE)を解くために,物理インフォームド・エクストリーム・ラーニング・マシン(PIELM)を用いた2つの新しいアルゴリズムを提案する。
単層PIELMは、線形および準線形PDEの速度と精度において、ディープ物理インフォームドニューラルネットワーク(PINN)より優れているが、非線形問題への拡張は依然として困難である。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:04:23 GMT)
Conceptual Entity-Relationship Model: Underneath the Simplicity and Staticity [0.0] ERダイアグラムはその後の技術的実装の確固たる基盤を提供すると主張する。
ERモデリングとリレーショナルモデルとの直接的な互換性の欠如に不満が持ち上がっている。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 10:43:50 GMT)
CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset [0.0] 我々は、広く採用されているアラビアのNERベンチマークデータセット(ANERcorp)の1つを深く掘り下げた。
大量のアノテーションエラー、ラベルの欠如、一貫性がないことが分かりました。
我々はCLEANANERCorpというデータセットのよりクリーンなバージョンを提案する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 14:06:08 GMT)
Asking Again and Again: Exploring LLM Robustness to Repeated Questions [0.0] 我々は,最近の5つの大言語モデル (LLM) を理解データセットの読解において評価した。
以上の結果から,モデルの精度を最大で6%向上する可能性が示唆された。
すべてのモデル、設定、データセットにまたがって、統計的に重要な結果が見つからない。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:42:51 GMT)
Applied Machine Learning Methods with Long-Short Term Memory Based Recurrent Neural Networks for Multivariate Temperature Prediction [0.0] 本稿では,時系列予測のためのディープニューラルネットワークの開発方法について概説する。
Pythonの開発環境Jupyterは、パッケージKerasで拡張されている。
研究の結果と評価から,深層ニューラルネットワークによる天気予報が短時間で達成できることが示唆された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 16:52:27 GMT)
Adversarial Robustness of Discriminative Self-Supervised Learning in Vision [0.0] 本研究では,7つの識別的自己監督モデルと1つの教師付きモデルの相反するロバスト性を評価する。
以上の結果から, 識別型SSLモデルでは, イメージネットの監視対象モデルに比べて, 敵攻撃に対する堅牢性が良好であることが示唆された。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 23:50:36 GMT)
AI-Driven Optimization of Hardware Overlay Configurations [0.0] 本稿では,FPGAオーバレイ構成を最適化するAI駆動方式を提案する。
機械学習技術を活用することで、ハードウェアコンパイル前のさまざまな構成の実現可能性と効率を予測する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 22:34:47 GMT)
AI Meets the Classroom: When Do Large Language Models Harm Learning? [0.0] 大規模言語モデル(LLM)が学習結果に与える影響は,利用行動に依存することを示す。
LLMは学習を改善する大きな可能性を示しているが、それらの使用は教育的な文脈に合わせて調整されなければならない。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 04:13:50 GMT)
A simple model for entangled photon generation in resonant structures [0.0] 共振構造における自発的なダウンコンバージョンを記述するモデルを提案し,導出する。
光子対を生成するのに必要な計算を単純化することにより、我々のモデルは複雑な共振構造を設計しやすくすることを約束する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:56:42 GMT)
A Never-Ending Story: Revisiting Requirements Major Misunderstandings [0.0] 本稿では,要求工学と要件工学の領域の広い視野を解き放つ。
文学的なメタファーとポップなメタファーを使用することで、要件エンジニアリングは教育プロセスであり、透明性を持って実行されなければならない、と論文は主張する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 12:32:00 GMT)
A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0] 本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, トレーニングの利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODの例と例の類似性だけを比較すると、強力なOODパフォーマンスを提供する。
論文参考訳(メタデータ) (Sat, 08 Mar 2025 00:58:33 GMT)