SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.4] SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。
Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。
大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:36:55 GMT)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.8] 我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:08:47 GMT)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.2] ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:22:01 GMT)
Empowering Large Language Models with 3D Situation Awareness [84.1] 3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:34:16 GMT)
TRA: Better Length Generalisation with Threshold Relative Attention [82.5] これらの制限が自己認識機構の2つの重要な障害によって説明できるかどうかを検証する。
ひとつは、無関係な情報を完全に取り除くことができないことです。
2つ目は、キーとクエリの間のドット積が非常に負であっても、位置と結びついている。
これらの2つの緩和による注意機構がデコーダのみの変換器の一般化能力を大幅に向上させることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:06:28 GMT)
U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.8] GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:41:24 GMT)
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.7] さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:35:20 GMT)
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs [79.5] MeshCraftは、効率的かつ制御可能なメッシュ生成のためのフレームワークである。
連続的な空間拡散を用いて、離散的な三角形の面を生成する。
800面のメッシュを3.2秒で生成できる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:21:50 GMT)
CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction [79.2] CityGS-Xは、新しい並列化ハイブリッド階層型3D表現(PH2-3D)上に構築されたスケーラブルアーキテクチャである
トレーニング時間の短縮、レンダリング能力の向上、大規模シーンにおけるより正確な幾何学的詳細といった点で、既存の手法よりも一貫して優れています。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:33:39 GMT)
Semantic Contextualization of Face Forgery: A New Definition, Dataset, and Detection Method [77.7] 我々は、顔偽造を意味的文脈に置き、人間の識別しきい値を超えた意味的顔属性を変更するテキスト計算法が顔偽造の源であると定義する。
本稿では,ラベル関係を抽出し,主課題(実物,偽物)を優先するセマンティクス指向の顔偽造検出手法を提案する。
提案したデータセットは、テストセットとして現在の検出器の弱点を効果的に公開し、トレーニングセットとしてそれらの一般化性を一貫して改善することを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:00:42 GMT)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.5] VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:00:30 GMT)
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs [72.6] AURELIA(オーレリア)は、アクターに批判的なオーディオヴィジュアル(AV)推論フレームワークである。
構造体を蒸留し、試験時に段階的にAVLLMに蒸留する。
AURELIAを用いて、100%の相対的な改善を実現し、その効果を実証した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:42:29 GMT)
TransNet: Transfer Knowledge for Few-shot Knowledge Graph Completion [69.6] 転送学習に基づく数ショットKG補完法(TransNet)を提案する。
異なるタスク間の関係を学習することにより、TransNetは、現在のタスクのパフォーマンスを改善するために、類似タスクからの知識を効果的に転送する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:39:11 GMT)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.9] ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:58:12 GMT)
LSNet: See Large, Focus Small [67.1] 我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。
LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:00:54 GMT)
Learning 3D Perception from Others' Predictions [64.1] 本研究では,3次元物体検出装置を構築するための新たなシナリオについて検討する。
例えば、自動運転車が新しいエリアに入ると、その領域に最適化された検出器を持つ他の交通参加者から学ぶことができる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:01:54 GMT)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.6] RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:50:08 GMT)
XL-Instruct: Synthetic Data for Cross-Lingual Open-Ended Generation [60.3] 言語間のオープンエンド生成は重要な問題であるが、未検討の課題である。
本稿では,XL-AlpacaEvalについて紹介する。
高品質な合成データ生成手法であるXL-Instructを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:34:03 GMT)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.0] 線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:33:49 GMT)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.7] 一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:17:57 GMT)
Optimal Transport-Guided Source-Free Adaptation for Face Anti-Spoofing [58.6] 本稿では,テスト時に顔のアンチスプーフィングモデルをクライアント自身でターゲットドメインに適応させる新しい手法を提案する。
具体的には,プロトタイプベースモデルと最適トランスポート誘導型アダプタを開発した。
近年の手法と比較して、クロスドメインおよびクロスアタック設定では、HTERが19.17%、AUCが8.58%の平均相対的改善が達成されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:10:34 GMT)
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.4] 高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:00:27 GMT)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.0] 我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:02:32 GMT)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.7] FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:38:25 GMT)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.4] Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:46:58 GMT)
FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.3] ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:26:06 GMT)
MIL vs. Aggregation: Evaluating Patient-Level Survival Prediction Strategies Using Graph-Based Learning [52.2] 我々は,WSIおよび患者レベルでの生存を予測するための様々な戦略を比較した。
前者はそれぞれのWSIを独立したサンプルとして扱い、他の作業で採用された戦略を模倣します。
後者は、複数のWSIの予測を集約するか、最も関連性の高いスライドを自動的に識別するメソッドを含む。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:14:02 GMT)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.3] 一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:55:32 GMT)
A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [51.0] セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:38:26 GMT)
FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.5] FreeSplat++は大規模な屋内全シーン再構築の代替手法である。
深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:22:08 GMT)
Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data [49.3] 未ラベルのターゲットドメインデータのみを使用して、事前訓練されたソースモデルに適応するために、ソースフリードメイン適応(SFDA)手法が使用される。
本稿では,DSFDA(Disentangled Source-Free Domain Adaptation)法を提案する。
提案手法は,非ニュートラルなターゲットデータを生成しながら,表現と同一性に関連する特徴を解き放つことを学習する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:24:17 GMT)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.2] COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:57:20 GMT)
MNT-TNN: Spatiotemporal Traffic Data Imputation via Compact Multimode Nonlinear Transform-based Tensor Nuclear Norm [49.2] ランダムまたは非ランダムな欠落データの計算は、インテリジェントトランスポーテーションシステム(ITS)にとって重要な応用である
マルチモード変換核ノルム家族(ATTNN)の新たな計算法を提案する。
提案したMNT-TNNとATTNNは、最先端の計算手法と比較してベンチマークを上回ります。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:58:31 GMT)
TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.9] TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:15:51 GMT)
Modeling Caption Diversity in Contrastive Vision-Language Pretraining [48.8] 画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを導入する。
Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。
Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:57:07 GMT)
Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.2] リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:45:52 GMT)
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts [46.8] 我々は,OmniLLMs用に最適化された総合マルチモーダルインタラクションベンチマークであるOmniMMIを紹介する。
本稿では,マルチモーダル・マルチプレクサリング・モデリング(M4)を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:46:58 GMT)
Accelerated Training through Iterative Gradient Propagation Along the Residual Path [46.6] ハイウェイバックプロパゲーションは、バックプロパゲーションを近似する並列化可能な反復アルゴリズムである。
ResNetやTransformerから、リカレントニューラルネットワークまで、さまざまな共通アーキテクチャセットに適応可能である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:22:35 GMT)
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.1] 暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:32:39 GMT)
Task-Aware Parameter-Efficient Fine-Tuning of Large Pre-Trained Models at the Edge [43.3] TaskEdgeは、エッジにあるタスク対応のパラメータ効率の良い微調整フレームワークである。
ターゲットタスクに最も効果的なパラメータを割り当て、タスク固有のパラメータだけを更新する。
そうすることで、TaskEdgeは計算コストとメモリ使用量を大幅に削減できます。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:23:36 GMT)
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.2] 両世界の長所を結合する簡単な手法を提案する。
MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:11:30 GMT)
An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.1] 写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:42:31 GMT)
Efficient Inference for Large Reasoning Models: A Survey [42.6] LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:27:46 GMT)
Skeletonization Quality Evaluation: Geometric Metrics for Point Cloud Analysis in Robotics [42.0] この研究は、点雲形状の骨格化結果を評価するために、幾何学的性質の定義と定量化に焦点を当てている。
本稿では,これらの代表的メートル法定義と,骨格化結果を解析するための数値的スコアリングフレームワークを紹介する。
また、研究コミュニティが骨格モデルを評価し、洗練するためのオープンソースツールも提供しています。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:33:13 GMT)
UP-ROM : Uncertainty-Aware and Parametrised dynamic Reduced-Order Model, application to unsteady flows [41.8] 還元次数モデル(ROM)は、低コストな予測を提供することによって流体力学において重要な役割を果たす。
ROMが広く適用されるためには、異なる体制にまたがってうまく一般化するだけでなく、その予測に対する信頼度も測らなければならない。
過渡流に特化して設計された非線形還元戦略を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:17:36 GMT)
Finsler Multi-Dimensional Scaling: Manifold Learning for Asymmetric Dimensionality Reduction and Embedding [41.6] 次元化の削減は、データ分析や可視化における中心的な応用とともに、重要なパターンを保ちながら、特徴的次元を減らし、複雑なデータを単純化することを目的としている。
基礎となるデータ構造を維持するため、多次元スケーリング(MDS)法は距離などの対等な相似性を保存することに重点を置いている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:33:09 GMT)
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate [41.6] Supervised Fine-Tuning (SFT) は、与えられた命令に対する注釈付き応答を模倣するために言語モデルを訓練するために一般的に使用される。
本稿では,SFT よりも効果的な推論手法である Critique Fine-Tuning (CFT) を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:21:55 GMT)
Towards a Unified Copernicus Foundation Model for Earth Vision [39.5] 我々は3つの重要な構成要素を持つ次世代地球観測基盤モデルに向けて一歩前進する。
コペルニクス・プレトレイン(Copernicus-Pretrain)は、コペルニクス・センチネルの全ミッションの18.7Mのアライメント画像を統合する大規模な事前トレーニングデータセットである。
コペルニクスFM(Copernicus-FM)は、スペクトルまたは非スペクトルセンサーのモダリティを処理できる統一基盤モデルである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:01:44 GMT)
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations [39.3] 3DGSは品質とレンダリングのスピードが優れているが、数百万の3Dガウシアンとかなりのストレージと伝送コストがある。
最近の3DGS圧縮法は主にScaffold-GSの圧縮に重点を置いており、優れた性能を達成しているが、追加のボクセル構造と複雑な符号化と量子化戦略を備えている。
本稿では,従来の3DGSをボクセル構造や複雑な量子化戦略を使わずにコンパクトな表現に圧縮する方法を探究する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:36:53 GMT)
Estimating LLM Uncertainty with Logits [39.1] 本稿では,大規模言語モデルにおける非結合トークンの不確実性を推定するためのフレームワークとして,ロジッツ誘発トークン不確実性(LogTokU)を提案する。
我々は,LogTokUの実装にエビデンスモデリングを採用し,その不確実性を推定して下流タスクを導出する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:51:52 GMT)
MSNGO: multi-species protein function annotation based on 3D protein structure and network propagation [38.7] 構造的特徴とネットワーク伝搬を統合したMSNGOモデルを提案する。
構造的特徴を用いることで,多種のタンパク質機能予測の精度が向上することが確認できた。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:35:45 GMT)
Rethinking Optimization and Architecture for Tiny Language Models [38.6] モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:38:01 GMT)
Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification, An Interpretable Multi-Omics Approach [38.5] Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化データをプロテイン-プロテイン相互作用(PPI)ネットワークと統合し、31種類のがんの正確かつ解釈可能な分類を行う。
MOGKANは96.28パーセントの分類精度を達成し、標準偏差をCNNやグラフニューラルネットワーク(GNN)と比較して1.58~7.30%削減する実験変数の低さを示す。
提案モデルでは,ホスホイノシチド結合物質を検出し,スフィンゴ脂質を調節することにより,分子発生機構を明らかにすることができる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:14:05 GMT)
Federated Incremental Named Entity Recognition [38.5] フェデレートされた名前付きエンティティ認識(FNER)は、プライベートデータを共有することなく、分散化されたローカルクライアントのモデル更新を集約することで、各ローカルクライアント内のモデルトレーニングを促進する。
既存のFNERメソッドは、固定されたエンティティタイプとローカルクライアントを事前に仮定する。
本稿では,これらの課題を克服するローカル・グローバル・フォーッティング・ディフェンス(LGFD)モデルを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:19:05 GMT)
Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping [36.0] Diffusion Transformer (DiT) は画像生成モデルを構築する上で好まれる選択肢となっている。
DiTは純粋に、大きな言語モデルのようなスケーラビリティに優れたDiTをレンダリングするトランスフォーマーブロックのスタックで構成されている。
本稿では,これらの課題に対処するため,拡散変換に適したポストトレーニング量子化フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:37:07 GMT)
The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction [34.9] 我々は、真の推論とメモリリコールのバランスを制御できるモデル残差ストリームの線形特徴セットを同定する。
これらの推論機能に介入することで、解答生成時に最も関連性の高い問題解決能力をモデルがより正確に活性化できることが示される。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:00:44 GMT)
PortLLM: Personalizing Evolving Large Language Models with Training-Free and Portable Model Patches [34.7] PortLLMはトレーニング不要のフレームワークで、ドメイン固有の知識をキャプチャするための、最初の軽量モデル更新パッチを作成する。
PortLLMは、最大12.2倍のGPUメモリ使用率でLoRAファインチューニングに匹敵するパフォーマンスを実現している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:32:53 GMT)
ToolGen: Unified Tool Retrieval and Calling via Generation [34.3] ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:27:51 GMT)
Sparse Mixture of Experts as Unified Competitive Learning [34.2] SMOE(Sparse Mixture of Experts)は、入力トークンを専門家のサブセットに指示することで、大規模な言語モデルトレーニングの効率を向上させる。
現在のSMoEは、Massive Text Embedding Benchmark (MTEB)のようなタスクと競合している。
我々は,既存のSMoEの性能向上を目的とした,新しい,効率的なフレームワークであるUnified Competitive Learning SMoEを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:15:12 GMT)
S2MoE: Robust Sparse Mixture of Experts via Stochastic Learning [34.2] SMOE(Sparse Mixture of Experts)は、入力トークンを特定の専門家にルーティングすることで、大規模な言語モデルの効率的なトレーニングを可能にする。
近年の研究では、この問題を軽減するためにルータの改善に重点を置いているが、既存のアプローチには2つの重要な制限がある。
本稿では,ロバスト学習(S2MoE)によるエキスパートのスパース混合(Sparse Mixture of Experts)という,決定論的および非決定論的入力から学習するために設計されたエキスパートの混合手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:14:27 GMT)
COCA: Generative Root Cause Analysis for Distributed Systems with Code Knowledge [33.9] 問題報告のためのコード知識強化根本原因分析手法であるCOCAを提案する。
問題レポート内のデータに基づいて、COCAは関連するコードスニペットをインテリジェントに抽出し、実行パスを再構築する。
実世界の5つの分散システムのデータセットに対する評価は,COCAが既存手法を著しく上回っていることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:56:48 GMT)
Learning Multi-Agent Loco-Manipulation for Long-Horizon Quadrupedal Pushing [33.7] 本稿では,複数の四足歩行ロボットによる障害物対応長軸プッシュの課題に取り組む。
階層型多エージェント強化学習フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:50:27 GMT)
PartialLoading: User Scheduling and Bandwidth Allocation for Parameter-sharing Edge Inference [32.6] マルチユーザエッジ推論のためのパラメータ共有AIモデルローディングフレームワークを開発した。
タスクスループットを最大化するために、モデル間の共有パラメータブロックを利用する。
提案するフレームワークは,ユーザスケジューリングと比較して,期限下でのタスクスループットを著しく向上することを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 05:58:07 GMT)
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.5] 本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:51:50 GMT)
Graph ODEs and Beyond: A Comprehensive Survey on Integrating Differential Equations with Graph Neural Networks [32.4] グラフニューラルネットワーク(GNN)と微分方程式(DE)は、近年顕著な相乗効果を示す研究分野として急速に進歩している。
既存の手法を分類し、その基礎となる原則を議論し、分子モデリング、交通予測、流行拡散といった分野にまたがる応用を強調します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:49:34 GMT)
Boosting classical and quantum nonlinear processes in ultrathin van der Waals materials [32.3] 我々は、超薄型ファンデルワールス材料における古典的および量子的非線形過程の巨大な加速について報告する。
具体的には、金属-非線形材料ヘテロ構造により、h-BNフレークの古典的第二高調波発生を2桁の規模で促進する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:24:55 GMT)
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.9] 視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:13:09 GMT)
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.6] LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。
VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。
以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:50:38 GMT)
Learning Structure-enhanced Temporal Point Processes with Gromov-Wasserstein Regularization [31.2] 我々はGromov-Wasserstein(GW)正則化の助けを借りて構造強化TPPを学習する。
大規模アプリケーションでは、カーネル行列をサンプリングし、Gromov-Wasserstein (GW) の離散項として正規化を実装する。
この方法で学習したTPPは、クラスタ化されたシーケンスを埋め込み、競合予測およびクラスタリング性能を示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:47:21 GMT)
Iterative Predictor-Critic Code Decoding for Real-World Image Dehazing [30.8] IPC-Dehaze と略して、実世界の画像デハジングのための新しい反復予測-臨界符号デコーディングフレームワークを提案する。
提案手法では,前回のイテレーションで得られた高品質なコードを用いて,その後のイテレーションにおけるコード予測器の予測を導く。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:25:23 GMT)
Have LLMs Reopened the Pandora's Box of AI-Generated Fake News? [30.8] 大規模言語モデル(LLM)は、大規模な偽ニュースを生成する。
本稿では,人間によるフェイクニュース作成や,人間のアノテータやAIモデルによる検出能力の評価にLLMを用いることについて検討する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:55:24 GMT)
Improving the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters Augmentation [29.5] 顔認識(FR)モデルは、良質な顔画像を微妙に操作する敵の例に対して脆弱である。
既存の敵攻撃法は、サロゲートモデルを増強する潜在的な利点を見落としていることが多い。
本稿では,DPA攻撃法(Diverse Parameters Augmentation)と呼ばれる新しい手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:19:50 GMT)
ID-Patch: Robust ID Association for Group Photo Personalization [29.4] ID-Patchは、アイデンティティと2D位置の堅牢な関連を提供する新しい方法である。
アプローチでは,同じ顔の特徴からIDパッチとID埋め込みを生成する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:47:05 GMT)
PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.1] PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 00:26:04 GMT)
Advanced Deep Learning Methods for Protein Structure Prediction and Design [28.6] タンパク質構造予測と設計に応用した高度な深層学習手法を包括的に検討する。
テキストは、構造生成、評価指標、多重シーケンスアライメント処理、ネットワークアーキテクチャを含む重要なコンポーネントを分析する。
予測精度を向上し、深層学習技術と実験的検証を統合するための戦略を徹底的に検討した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:08:27 GMT)
Fast Direct: Query-Efficient Online Black-box Guidance for Diffusion-model Target Generation [27.8] 既存の誘導拡散モデルは、事前にコンパイルされたデータセットでガイダンスモデルをトレーニングするか、客観的関数を微分可能にする必要がある。
本研究では,クエリ効率の高いオンラインブラックボックスターゲット生成のための,新規でシンプルなアルゴリズムである$textbfFast Direct$を提案する。
我々のFast Directはデータ多様体上に擬似ターゲットを構築し、拡散モデルのノイズシーケンスを普遍的な方向で更新する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 05:45:56 GMT)
CAMP in the Odyssey: Provably Robust Reinforcement Learning with Certified Radius Maximization [27.6] 深層強化学習(DRL)は、動的環境における強い性能のため、制御と意思決定タスクに広く採用されている。
近年の取り組みは、DRLエージェントが敵の環境で達成したリターンの厳密な理論的保証を確立することで、ロバストネスの問題に対処することに焦点を当てている。
我々は、DRLポリシーを強化するために、texttCertified-rtextttAdius-textttMaximizing textttPolicy (texttt CAMP)トレーニングと呼ばれる新しいパラダイムを導入する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:11:42 GMT)
Computer Vision Datasets and Models Exhibit Cultural and Linguistic Diversity in Perception [26.8] 異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:42:57 GMT)
TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [26.0] 事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。
拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。
実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:05:43 GMT)
Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation [25.8] 本稿では,テキスト誘導型人-物体相互作用を生成するための効率的な共同対話モデル(EJIM)を提案する。
EJIMはDual-branch HOI Mambaを特徴としている。
EJIM は推定時間の 5% しか使用せず, 従来の作業よりも大きなマージンで上回っていることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:23:21 GMT)
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.3] 本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:59:09 GMT)
Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance [24.8] この作業では、実際のトレーニングドキュメントとアノテーションを完全に禁じています。
オープンソース LLM を用いて,複数のレベルの関連性に応じて,実際のユーザクエリに応答する合成文書を直接生成する。
各種IRデータセットの実験により,提案手法はInfoNCEを用いた従来のトレーニングよりも大きなマージンで優れていた。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:33:22 GMT)
GenFusion: Closing the Loop between Reconstruction and Generation via Videos [24.2] 本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:18:02 GMT)
ReQFlow: Rectified Quaternion Flow for Efficient and High-Quality Protein Backbone Generation [24.1] 高速かつ高品質なタンパク質のバックボーン生成のための新しい補正四元流(ReQFlow)マッチング法を提案する。
本手法は,タンパク質鎖の各残基に対するランダムノイズから局所翻訳と3次元回転を生成する。
実験により、ReQFlowはタンパク質のバックボーン生成において最先端のパフォーマンスを達成することが示された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:16:54 GMT)
The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.7] 本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:17:13 GMT)
X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [23.0] MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:43:11 GMT)
Accelerated Distributed Optimization with Compression and Error Feedback [22.9] ADEFはネステロフ加速、収縮圧縮、エラーフィードバック、勾配差圧縮を統合している。
我々は,ADEFが分散最適化のための圧縮圧縮による最初の加速収束率を達成することを証明した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:52:06 GMT)
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning [22.8] SUVは、大規模言語モデルが著作権のあるコンテンツを記憶することを防ぐために設計された選択的なアンラーニングフレームワークである。
私たちは、冗長な著作権のあるコンテンツを、プラウシブルで一貫性のある代替品に置き換えます。
我々は,500冊の有名な書籍の大規模データセットを用いて,我々のアプローチを検証する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:33:26 GMT)
TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment [21.7] TimeCMAは、時系列予測のための直感的で効果的なフレームワークである。
8つの実際のデータセットに対する大規模な実験は、TimeCMAが最先端のデータセットを上回っていることを示している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:44:30 GMT)
Towards Mobile Sensing with Event Cameras on High-mobility Resource-constrained Devices: A Survey [21.0] イベントベースのビジョンは破壊的なパラダイムとして現れ、高時間分解能、低レイテンシ、エネルギー効率を提供する。
本稿では,基本原理,イベント抽象化手法,アルゴリズムの進歩,ハードウェアおよびソフトウェアアクセラレーション戦略について,2014-2024年の文献を概説する。
本稿では,視覚計測,物体追跡,光フロー推定,3次元再構成など,モバイルセンシングにおけるイベントカメラの重要応用について論じる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:28:32 GMT)
Multi-label classification for multi-temporal, multi-spatial coral reef condition monitoring using vision foundation model with adapter learning [20.7] 本研究は,DINOv2ビジョン基礎モデルとLoRAファインチューニング手法を組み合わせたアプローチを提案する。
実験の結果, DINOv2-LoRAモデルの方が64.77%の精度で, 従来のモデルでは60.34%であったのに対し, 一致率は64.77%であった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:32:44 GMT)
VLM-C4L: Continual Core Dataset Learning with Corner Case Optimization via Vision-Language Models for Autonomous Driving [20.1] コーナーケースデータセットを動的に最適化・拡張するために視覚言語モデル(VLM)を導入した連続学習フレームワークであるVLM-C4Lを提案する。
VLM-C4Lは、VLM誘導による高品質なデータ抽出とコアデータ再生戦略を組み合わせることで、モデルが多様なコーナーケースから漸進的に学習できるようにする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:40:34 GMT)
Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation [19.7] オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:36:25 GMT)
TRACE: Intra-visit Clinical Event Nowcasting via Effective Patient Trajectory Encoding [19.3] 病院訪問における検査室計測予測の課題について紹介する。
本稿では,患者軌跡の符号化による臨床イベント放送のためのトランスフォーマーベースモデルTRACEを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:08:59 GMT)
EventWeave: A Dynamic Framework for Capturing Core and Supporting Events in Dialogue Systems [18.5] イベント中心のフレームワーク textbfEventWeaveは、会話が広がるにつれて、コアとサポートイベントの両方を特定し、更新する。
EventWeaveは、微調整なしで応答品質とイベント関連性を改善します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:33:42 GMT)
VGAT: A Cancer Survival Analysis Framework Transitioning from Generative Visual Question Answering to Genomic Reconstruction [18.2] 本稿では,VQA(Visual Question Answering)技術を統合したゲノムモダリティ再構築手法を提案する。
VQAのテキスト特徴抽出手法を適用することで、生ゲノムデータの次元問題を回避する安定なゲノム表現を導出する。
5つのTCGAデータセットで評価され、VGATは既存のWSIのみのメソッドより優れている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:05:53 GMT)
FReM: A Flexible Reasoning Mechanism for Balancing Quick and Slow Thinking in Long-Context Question Answering [18.2] FReM: Flexible Reasoning Mechanism(フレキシブル推論機構)は,各質問の複雑さに応じて推論深度を調整する手法である。
具体的には、FReMは合成参照QAの例を利用して、明確な思考の連鎖を提供し、単純なクエリの効率的な処理を可能にする。
7つのQAデータセットの実験から、FReMは推論精度とスケーラビリティ、特に複雑なマルチホップ問題を改善することが示されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:20:12 GMT)
Reproducibility Companion Paper:In-processing User Constrained Dominant Sets for User-Oriented Fairness in Recommender Systems [18.1] 本稿では,先行研究である"In-processing User Constrained Dominant Sets for User-Oriented Fairness in Recommender Systems"を再現する。
本稿では,事前処理したデータセットの詳細な記述,ソースコードの構造,設定ファイルの設定,実験環境,再現された実験結果について述べる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:07:33 GMT)
Estimating Unbounded Density Ratios: Applications in Error Control under Covariate Shift [17.9] 我々は,少なくとも2乗とロジスティック回帰に基づく損失関数を用いた密度比推定器について検討した。
我々は、対数係数まで、標準のミニマックス最適率で推定誤差の上限を確立する。
この結果は、非有界領域と範囲を持つ密度比関数に適合する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:35:39 GMT)
Can DeepSeek-V3 Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery [17.7] DeepSeek-V3は最近の大規模言語モデル(LLM)である
ロボット手術におけるDeepSeek-V3の対話機能について検討した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:48:46 GMT)
Gen-Swarms: Adapting Deep Generative Models to Swarms of Drones [17.7] Gen-Swarmsは、ドローンショーの制作を自動化するために、深層生成モデルとリアクティブナビゲーションアルゴリズムを活用し、組み合わせる革新的な方法である。
我々の実験は、このアプローチがドローンショーに特に適しており、実現可能な軌道を提供し、代表的な最終形を作成し、ドローンショー生成全体の性能を大幅に向上させることを実証している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:36:08 GMT)
When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning? [17.6] 多様な多言語・多文化の文脈から1,262の漫画画像を用いた新しいベンチマークを導入する。
4つの相補的なタスクを通して、幅広い視覚言語モデルを体系的に評価する。
我々の実験では、最も先進的なモデルでさえ、人間に比べて著しく性能が劣っていることが判明した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:08:51 GMT)
Reproducibility Companion Paper: Making Users Indistinguishable: Attribute-wise Unlearning in Recommender Systems [17.6] 本研究の目的は,提案手法の有効性を検証し,実験結果の再現を支援することである。
本稿では,事前処理したデータセット,ソースコード構造,設定ファイル設定,実験環境,実験結果の詳細な説明を行う。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:25:49 GMT)
Uncertainty-Instructed Structure Injection for Generalizable HD Map Construction [17.2] UIGenMapは、一般化可能なHDマップベクトル化のための不確実な構造注入手法である。
本稿では、視線ビュー(PV)検出ブランチを導入し、構造的特徴を明示する。
地理的に不整合(geo-based)なデータに挑戦する実験は、UIGenMapが優れたパフォーマンスを達成することを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:01:38 GMT)
OncoReg: Medical Image Registration for Oncological Challenges [17.2] この作業は、OncoReg Challengeの背後にある方法論とデータについて詳述する。
コンペのエントリーと結果の包括的分析を提供する。
この登録タスクでは、特徴抽出が重要な役割を担っていることが判明した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:16:10 GMT)
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [16.8] 長距離コヒーレンスとリッチコンテンツを備えた15秒ビデオを生成するために設計された,新しいビデオ拡散モデルであるPrestoを紹介する。
PrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%のスプリットを達成した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:56:56 GMT)
AuditVotes: A Framework Towards More Deployable Certified Robustness for Graph Neural Networks [16.8] AuditVotesは、グラフニューラルネットワーク(GNN)の高精度かつ確実な精度を実現するためのフレームワークである。
ランダムな平滑化と2つのキーコンポーネント、アンダーライン拡張と統合的平滑化を統合している。
高い計算効率を維持しながら、クリーンな精度、証明された堅牢性、実証的な堅牢性を著しく向上させる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:27:32 GMT)
Integrating Fairness and Model Pruning Through Bi-level Optimization [16.2] フェアネス基準に準拠したスパースモデルを開発することを含む、フェアモデルプルーニングという新しい概念を導入する。
特に,プルーニングマスクと重み更新処理を公平性制約で協調的に最適化する枠組みを提案する。
このフレームワークは、統一されたプロセスにおける公正性を確保しながら、パフォーマンスを維持するモデルを圧縮するように設計されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:56:39 GMT)
Imagine All The Relevance: Scenario-Profiled Indexing with Knowledge Expansion for Dense Retrieval [16.0] SPIKEは文書をシナリオに整理し、仮説情報と文書の内容の間の暗黙の関係を明らかにするために必要な推論プロセスをカプセル化する。
推論中、SPIKEは文書レベルの関連性とともにシナリオレベルの関連性を導入し、推論を意識した検索を可能にする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:36:54 GMT)
CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.6] 本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。
高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。
実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:43:09 GMT)
Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion [15.1] マイクロアーキテクチャの高速かつ正確な性能モデルを学ぶための新しい方法論であるConcordeを提案する。
Concordeは、異なるマイクロアーキテクチャーコンポーネントの影響を捉えた、コンパクトな性能分布に基づくプログラムの挙動を予測する。
実験の結果、Concordeは基準サイクルレベルのシミュレータよりも5桁以上高速であることがわかった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:25:20 GMT)
Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [14.7] 大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。
彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。
LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:44:49 GMT)
Robust 6DoF Pose Tracking Considering Contour and Interior Correspondence Uncertainty for AR Assembly Guidance [14.6] 本稿では,誤りの少ない輪郭対応に対処し,耐雑音性を向上させる頑健な輪郭型ポーズトラッキング手法を提案する。
第2に、回転対称な物体の追跡を改良し、局所最小化を克服するための輪郭法を支援するためのCPUのみの戦略を導入する。
公開データセットと実シナリオを用いた実験により,本手法は最先端の単分子追跡法より著しく優れていることが示された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:15:30 GMT)
Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts? [14.5] 医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:44:22 GMT)
Federated Semantic Learning for Privacy-preserving Cross-domain Recommendation [14.4] フェデレーション・セマンティック・ラーニングを導入し、FFMSRをソリューションとして考案する。
制限1では,複数層セマンティックエンコーダを用いて,元のテキストからアイテムのセマンティックエンコーダをローカルに学習する。
制限2では、クライアントにIDとテキストのモダリティを統合し、それらを利用してアイテムのさまざまな側面を学習します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:37:11 GMT)
Geometry in Style: 3D Stylization via Surface Normal Deformation [14.2] 我々は、アイデンティティ保存メッシュスタイリングの新しい手法であるGeometry in Styleを提案する。
既存の技術は、バンプマップのような過度に制限された変形を通じて、元の形状に固執する。
対照的に、三角形メッシュの変形を対象の正規ベクトルとして表現する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:40:25 GMT)
Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.1] 大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。
動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。
ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:17:52 GMT)
Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling [14.0] U2Diff(英語版)は、軌道の完備化を扱うために設計された、テキストを融合した拡散モデルである。
また、後処理にランクニューラルネットワークを導入し、生成されたモード毎にtextbferror の確率推定を可能にする。
本手法は,4つの挑戦的スポーツデータセットの軌跡完了と予測において,最先端のソリューションよりも優れる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:06:03 GMT)
RaanA: A Fast, Flexible, and Data-Efficient Post-Training Quantization Algorithm [13.8] 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論効率を向上させるために広く使われている技術である。
既存のPTQ法は一般に、重度キャリブレーションデータ要求や、ターゲットビット数の非フレキシブルな選択といった重要な制限に悩まされる。
1)RaBitQ-H, ランダム化ベクトル量子化法の変種 RaBitQ, 高速で正確で高効率な量子化のための設計 ; 2) アロケートビット, 層間でビット幅を最適に割り当てるアルゴリズム
論文参考訳(メタデータ) (Sat, 29 Mar 2025 05:03:12 GMT)
Ethereum Price Prediction Employing Large Language Models for Short-term and Few-shot Forecasting [13.4] 本稿では,Large Language Models (LLMs) の短期的・少数的な予測シナリオの価格予測における有効性について述べる。
既存の学習済みLCMを数十億のトークンからの自然言語や画像に適応させ、価格時系列データのユニークな特性を活用することによって、この問題に対処する。
このアプローチは、Mean Squared Error(MSE)、Mean Absolute Error(MAE)、Root Mean Squared Error(RMSE)など、複数のメトリクスにわたるベンチマークを一貫して上回る。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:04:28 GMT)
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL [13.2] 既存のアプローチはしばしば、その全体的な効果を制限する誘導バイアスを持つ手作りの推論パスに依存している。
OpenAI o1のような最近の推論強化モデルの成功に触発されて、テキスト・ツー・サーベイ・タスクに特化して設計された、新たな部分報酬セットを提案する。
提案した報酬を用いたRL-onlyトレーニングは,教師付き微調整よりも高い精度と優れた一般化を継続的に達成できることを実証する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:29:30 GMT)
EncGPT: A Multi-Agent Workflow for Dynamic Encryption Algorithms [12.8] 大規模言語モデル(LLM)を用いたマルチエージェントフレームワークであるEncGPTを提案する。
これには、ルール、暗号化、復号化エージェントが含まれており、暗号化ルールを生成し、それらを動的に適用する。
我々は、GPT-4oのルール生成を検証し、同型保存による置換暗号化ワークフローを実装し、平均実行時間15.99秒を実現した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:13:30 GMT)
How to safely discard features based on aggregate SHAP values [12.6] 近年、SHAPはグローバルな洞察に利用されてきている。
小さい集合SHAP値が必ずしも対応する特徴が機能に影響を与えないことを示すかどうかを問う。
SHAP値が小さいことは,対応する機能を安全に破棄できることを示唆している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:07:30 GMT)
Enhancing Knowledge Graph Completion with Entity Neighborhood and Relation Context [12.5] KGC-ERCは、両方のコンテキストを統合し、生成言語モデルの入力を強化し、それらの推論能力を向上するフレームワークである。
Wikidata5M、Wiki27K、FB15K-237-Nデータセットの実験は、KGC-ERCが予測性能とスケーラビリティにおいて最先端のベースラインより優れているか、あるいは一致していることを示している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:04:50 GMT)
FairSAM: Fair Classification on Corrupted Data Through Sharpness-Aware Minimization [12.2] クリーンなデータに基づいてトレーニングされた画像分類モデルは、しばしば、破損したデータをテストする際に大きなパフォーマンス劣化に悩まされる。
この劣化は全体的なパフォーマンスに影響を及ぼすだけでなく、様々な階層のサブグループに不均等に影響を与え、重要なアルゴリズムバイアスの懸念を引き起こす。
既存の公平性を意識した機械学習手法は、性能格差を減らすことを目的としているが、データの破損に直面した場合、堅牢で公平な精度を維持することは困難である。
我々は、アンダーラインFairnessを指向した戦略をアンダーラインSAMに統合した新しいフレームワークである textbfFairSAM を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:51:59 GMT)
Reachable Polyhedral Marching (RPM): An Exact Analysis Tool for Deep-Learned Control Systems [11.9] 我々は、rerectified Unit (ReLU) アクティベーションを備えたフィードフォワードニューラルネットワークに注目した。
本稿では,アフィン領域の増分および連結を利用したROA計算アルゴリズムを提案する。
最後に,航空機の滑走路制御問題に対する画像ベース制御器によって安定化された状態の集合を見つけるために,本手法を適用した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:58:50 GMT)
FreeInv: Free Lunch for Improving DDIM Inversion [11.9] DDIMの逆転過程は通常、軌道偏差の問題に悩まされる。
本研究では,この問題をより効果的かつ効率的に解決するための,ほぼフリーランチ手法(FreeInv)を提案する。
FreeInv は従来の DDIM の逆転よりも優れており,従来の最先端の逆転法と競合することを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:47:43 GMT)
Memory-Aware and Uncertainty-Guided Retrieval for Multi-Hop Question Answering [11.8] マルチホップ質問応答には、複数の証拠を検索し、推論するモデルが必要である。
既存の手法は、しばしば2つの重要な制限に悩まされる: 固定的または過剰に頻繁な検索ステップと、以前検索された知識の非効率な使用である。
i) 推論関連要素を識別するためのプロンプトベースのエンティティ抽出,(ii) トークンレベルのエントロピーとアテンション信号に基づく動的検索トリガ,(iii) メモリ認識フィルタリング。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:27:02 GMT)
Achieving Socio-Economic Parity through the Lens of EU AI Act [11.6] 不公平な治療と差別は、AIシステムにおいて重要な倫理的関心事である。
最近のEU AI Actの導入は、AIイノベーションと投資の法的確実性を保証するための統一された法的枠組みを確立している。
本稿では、社会経済状態(SES)を取り入れた新たな公正概念である社会経済パリティ(SEP)を提案し、未成年集団に対する肯定的な行動を促進する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:27:27 GMT)
SmartFL: Semantics Based Probabilistic Fault Localization [11.5] テストベースの障害ローカライゼーションは、過去数十年間、ソフトウェアエンジニアリングに重点を置いてきた。
フォールトローカライゼーションアプローチにおけるプログラムセマンティクスのモデル化は重要である。
私たちのキーとなるアイデアは、プログラム値の正しさのみをモデル化し、その完全な意味論をモデル化することで、有効性とスケーラビリティのバランスを達成できるということです。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:00:51 GMT)
Effective Skill Unlearning through Intervention and Abstention [11.5] 大規模言語モデル(LLM)は、様々な領域で顕著なスキルを誇示している。
LLMのための2つの軽量無訓練機械スキルアンラーニング技術を導入する。
本研究では,7言語にわたる算数解法,Pythonコーディング,理解能力について検討した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:21:44 GMT)
A Training-free LLM Framework with Interaction between Contextually Related Subtasks in Solving Complex Tasks [11.0] 本稿では、サブタスクが特定の情報を問い合わせたり、リクエストを送信することで、サブタスクが完了したサブタスクで特定のアクションをトリガーすることを可能にする、インタラクション機構を備えたトレーニングフリーフレームワークを提案する。
対話型意思決定タスク WebShop とマルチホップ質問応答HotpotQA を GPT-3.5 と GPT-4 で評価した結果,我々のフレームワークは最先端のトレーニングフリーベースラインよりも優れていることがわかった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:08:43 GMT)
Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.6] 本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:35:34 GMT)
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models [10.5] CFGの非条件雑音をベースモデルで予測したノイズに置き換えることで条件生成を大幅に改善できることを示す。
我々は,画像生成と映像生成の両面において,CFGに基づく条件付きモデルを用いて,我々の主張を実験的に検証した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:46:54 GMT)
SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System [10.5] 音声合成におけるスケーラビリティと効率を向上させるために,新しい音声合成システムであるSupertonicTTSを提案する。
SupertonicTTSは3つのコンポーネントで構成されており、連続潜時表現のための音声オートエンコーダ、テキスト・トゥ・ラテント・モジュール、発話レベルの時間予測器である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:59:32 GMT)
Buyer-Initiated Auction Mechanism for Data Redemption in Machine Unlearning [10.4] 人工知能(AI)の急速な成長はプライバシーの懸念を引き起こしている。
カリフォルニア州消費者プライバシ法(CCPA)のような主要な規制
データ償還のための買い手主導型オークション機構を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:44:34 GMT)
InkFM: A Foundational Model for Full-Page Online Handwritten Note Understanding [10.1] 本稿では,手書きコンテンツの全ページを解析するための基盤モデルInkFMを提案する。
28の異なるスクリプトでテキストを認識すること、数学的表現を認識すること、ページをテキストや描画のような異なる要素に分割すること。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:45:24 GMT)
LangVAE and LangSpace: Building and Probing for Language Model VAEs [10.0] 本稿では,事前学習された大言語モデル(LLM)上に,変分オートエンコーダ(VAE)のモジュール構造を構築するための新しいフレームワークであるLangVAEを紹介する。
LangVAEとLangSpaceは、柔軟で効率的でスケーラブルなテキスト表現の構築と分析方法を提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:10:11 GMT)
WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research [9.9] WHU-Syntheticは、マルチタスク学習用に設計された大規模3D合成認識データセットである。
我々は,現実のシナリオにおいて実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:12:39 GMT)
On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation [9.7] テキスト・ツー・イメージ(T2I)モデルは、複数のオブジェクトや属性を含む複雑なシーンにおいて、しばしばテキスト・イメージのミスアライメントに悩まされる。
強力なセマンティックバインディングを備えたトレーニング不要なテキスト埋め込み対応T2Iフレームワークである textbfTeeMo を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:31:30 GMT)
ADAGE: Active Defenses Against GNN Extraction [9.7] グラフニューラルネットワーク(GNN)は、薬物発見、トラフィック状態予測、レコメンデーションシステムなど、さまざまな現実世界のアプリケーションで高いパフォーマンスを達成する。
GNNに対する攻撃を盗む脅威ベクトルは、大きく多様である。
我々は、GNN抽出(ADAGE)に対する第1次、第1次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第2次、第
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:32:39 GMT)
RL2Grid: Benchmarking Reinforcement Learning in Power Grid Operations [9.7] 本稿では,電力系統オペレーターと協調してグリッド制御の高速化を図るベンチマークRL2Gridを提案する。
RTE Franceが開発したパワーシミュレーションフレームワーク上に構築されたRL2Gridは、タスク、状態と行動空間、報酬構造を標準化する。
我々は、RL2Gridで表されるグリッド制御タスクの一般的なRLベースラインをベンチマークし、基準性能指標を確立する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:39:17 GMT)
VDD: Varied Drone Dataset for Semantic Segmentation [9.6] 7つのクラスにまたがる400の高解像度画像の大規模なラベル付きコレクションをリリースする。
このデータセットは、様々なカメラアングルから撮影され、様々な照明条件の下で都市、工業、農村、自然のエリアで様々なシーンを特徴としている。
私たちは、ドローンデータセットをベースラインとして7つの最先端モデルをトレーニングします。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:50:46 GMT)
Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection [9.5] ドメイン適応オブジェクト検出(DAOD)における現在の手法は、平均教師の自己ラベルを用いる。
本稿では,2つの構成要素からなるDINOインストラクターを紹介する。
まず、大きな凍結したDINOv2バックボーンのみを使用して、ソースデータに新しいラベルラーをトレーニングする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:46:38 GMT)
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information [9.4] 大規模視覚言語モデル (LVLM) は様々な視覚言語タスクにおいて顕著な性能を発揮している。
本稿では,LVLMの幾何学的知覚を評価するデータセットVisOnlyQAを紹介する。
LVLMは画像の基本的な幾何学的情報を正確に知覚できないことが多いが、人間のパフォーマンスはほぼ完璧である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:30:48 GMT)
Pricing Strategies for Different Accuracy Models from the Same Dataset Based on Generalized Hotelling's Law [9.4] 販売者がデータセットをD$で保有し、市場で販売される様々なアキュラシーのモデルにトレーニングするシナリオを考察する。
データセットは、異なる精度でモデルをトレーニングするために再利用することができ、トレーニングコストは、販売量とは独立している。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:49:42 GMT)
TODO: Enhancing LLM Alignment with Ternary Preferences [9.3] Tie-rank Oriented Bradley-Terry Model (BT) はBradley-Terry Model (BT) の拡張であり、タイを明示的に取り入れている。
そこで本研究では,TOBTの3次ランキングシステムを活用し,優先アライメントを改善する新しいアライメントアルゴリズムであるTie-rank Oriented Direct Preference Optimization (TODO)を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:56:45 GMT)
Real-time Video Prediction With Fast Video Interpolation Model and Prediction Training [9.2] IFRVPと呼ばれるネットワーク上のゼロレイテンシ相互作用に対するリアルタイムビデオ予測を提案する。
予測モデルにELANベースの残差ブロックを導入し,予測速度と精度を両立させる。
評価の結果,提案モデルが効率よく動作し,予測精度と計算速度の最良のトレードオフが得られることがわかった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:48:46 GMT)
DATAWEAVER: Authoring Data-Driven Narratives through the Integrated Composition of Visualization and Text [9.2] 本稿では,テキスト・テキスト・テキスト・ビジュアライゼーション・コンポジションをサポートするオーサリング・フレームワークとシステムであるDataWeaverについて述べる。
DataWeaverを使うと、ユーザは“コールアウト”インタラクションから派生したデータ事実に固定されたデータナラティブを作成できる。
この"vis-to-text"構成に加えて、DataWeaverは"text-initiated"アプローチをサポートし、既存の物語から関連性のあるインタラクティブな可視化を生成する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:33:03 GMT)
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.9] 大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。
我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。
最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:29:24 GMT)
Graph Representation Learning via Causal Diffusion for Out-of-Distribution Recommendation [8.8] グラフニューラルネットワーク(GNN)ベースのレコメンデーションアルゴリズムは、トレーニングとテストデータは独立して同じ分散空間から引き出されると仮定する。
この仮定は、アウト・オブ・ディストリビューション(OOD)データの存在でしばしば失敗し、パフォーマンスが大幅に低下する。
OODレコメンデーションのための因果拡散によるグラフ表現学習(CausalDiffRec)を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:13:14 GMT)
The interplay between domain specialization and model size [8.7] 計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:18:43 GMT)
SGE: Structured Light System Based on Gray Code with an Event Camera [8.4] イベントベースの構造化光(SL)システムに初めてGrayコードを導入します。
精度と空間分解能を損なうことなく高速深度推定を実現する。
提案手法は, 超高速, リアルタイム, 高精度深度推定のための, 極めて有望な解を提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:55:18 GMT)
Convolutional Neural Networks Can (Meta-)Learn the Same-Different Relation [8.1] 人間は、関係を含む視覚的なタスクにおいて、CNNよりもはるかに優れている。
メタラーニングによる学習では,従来のトレーニングと同一の差分関係を一般化できないCNNアーキテクチャが成功することを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:24:23 GMT)
Intelligent Bear Prevention System Based on Computer Vision: An Approach to Reduce Human-Bear Conflicts in the Tibetan Plateau Area, China [8.0] チベット高原における人間とクマの衝突は、地域社会に重大な脅威をもたらす。
本研究は,モノのインターネット(IoT)技術とともにコンピュータビジョンを取り入れ,これらの問題を緩和する新たな戦略を導入する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:10:11 GMT)
Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning [7.9] マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。
本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:24:00 GMT)
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data [7.9] ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。
合成学習のための 訓練画像の合成には 3つの課題があります。
本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:39:11 GMT)
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models [7.7] SCoPE (Scheduled of Coarse-to-fine Prompt Embeddings) を提案する。
詳細な入力プロンプトが与えられたら、まずそれを複数のサブプロンプトに分解し、広いシーンレイアウトの記述から高度に複雑な詳細へと進化させる。
推論中、これらのサブプロンプト間を補間し、生成した画像によりきめ細かな詳細を徐々に導入する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:03:32 GMT)
SuperEIO: Self-Supervised Event Feature Learning for Event Inertial Odometry [6.6] イベントカメラは非同期に低レイテンシのイベントストリームを出力し、高速動作における状態推定と挑戦的な照明条件を約束する。
我々は,学習に基づく事象のみの検出とIMU測定を利用して,事象慣性オドメトリーを実現する新しいフレームワークであるSuperEIOを提案する。
提案手法を複数の公開データセット上で広範囲に評価し,その精度とロバスト性を他の最先端のイベントベース手法と比較した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:58:15 GMT)
Prediction of 30-day hospital readmission with clinical notes and EHR information [6.4] 病院の入院率の高さは、患者にとって大きなコストと健康リスクに関係している。
患者の病院イベントに関する構造化情報(電子健康記録 - EHR)と非構造化情報(臨床ノート)の両方を収集することができる。
本研究は,30日間の入院入院期間を予測するために,臨床ノートとEHRの組み合わせについて検討する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:54:18 GMT)
Can Multi-modal (reasoning) LLMs work as deepfake detectors? [6.4] 我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。
以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。
本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:19:14 GMT)
PupilSense: A Novel Application for Webcam-Based Pupil Diameter Estimation [6.3] 本稿では,標準的なウェブカメラを用いた瞳孔径推定技術を提案する。
ビデオから瞳孔径を推定し,クラスアクティベーションマップ,左右の瞳孔径のグラフ,点滅時の眼アスペクト比などの詳細な分析を行った。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:19:17 GMT)
Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments [6.3] 視覚言語モデル(VLM)と大規模言語モデル(LLM)を利用したオープン語彙シーンセマンティックセマンティックセマンティクスと検出パイプラインを提案する。
提案手法は,オープンボキャブラリシーン分類のための「セグメント検出選択」フレームワークに従い,構築環境における補助ロボットの適応的・直感的なナビゲーションを可能にする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:46:45 GMT)
Large Language Models are Unreliable for Cyber Threat Intelligence [6.2] 大規模言語モデル(LLM)は、サイバーセキュリティ分野におけるデータの希薄化を緩和するために使用することができる。
我々は3つの最先端のLCMと350件の脅威情報レポートのデータセットを用いて実験を行った。
実物大の報告ではLCMが十分な性能を保証できない一方で、矛盾しすぎていることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:09:36 GMT)
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.2] 視覚言語モデル(VLM)は、自然の場面で高度な推論を行うが、医療画像におけるその役割は未解明のままである。
医用推論におけるVLMの一般化性と信頼性を高めるための強化学習を探求するフレームワークであるMed-R1を紹介する。
Med-R1は、CT, MRI, Ultrasound, Dermoscopy, Fundus Photography, Optical Coherence Tomography, Microscopy, X-ray Imagingの8つの画像モダリティで評価されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:37:10 GMT)
Weighted Graph Structure Learning with Attention Denoising for Node Classification [6.0] ノード分類を改善するためにエッジウェイト対応グラフ構造学習法(EWGSL)を提案する。
EWGSLは、ノードの特徴とエッジ重みを組み込むために、グラフアテンションネットワークにおける注意係数を再定義することでノード分類を改善する。
EWGSLは、最高のベースラインと比較して平均17.8%のマイクロF1改善がある。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:07:31 GMT)
Evaluating Compositional Scene Understanding in Multimodal Generative Models [5.6] 本稿では,テキスト・ツー・イメージおよびマルチモーダル・ビジョン言語モデルの生成における構成的視覚処理能力の評価を行う。
結果から,これらのシステムは構成的および関係的タスクを解く能力を示すが,その性能は人間よりもかなり低いことが示唆された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:34:43 GMT)
MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation [5.5] 既存のRAGベンチマークはクエリの難しさを見落とし、単純な質問や信頼性の低い評価でパフォーマンスが膨らむ。
MHTS(Multi-Hop Tree Structure)は、マルチホップツリー構造を利用して、論理的に連結されたマルチチャンククエリを生成することで、マルチホップ推論の複雑さを制御する新しいデータセット合成フレームワークである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:26:01 GMT)
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.5] 多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコーダ戦略を採用する方法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:22:44 GMT)
Incremental Few-Shot Adaptation for Non-Prehensile Object Manipulation using Parallelizable Physics Simulators [5.5] モデル予測制御(MPC)のための物理に基づく力学モデルに漸進的に適応する非包括的操作のための新しいアプローチを提案する。
シミュレーションおよび実ロボットを用いた物体押出実験における少数ショット適応手法の評価を行った。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:58:22 GMT)
On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy [5.4] 言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
理論的には、LoRAとFLoRAで使用される低ランク適応は、アダプタパラメータにランダムノイズを注入する。
低ランク適応の力学は、アダプタの微分プライベート微調整の力学に近いことを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:56:56 GMT)
Towards Understanding the Optimization Mechanisms in Deep Learning [5.3] 本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。
後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:46:13 GMT)
Beyond speculation: Measuring the growing presence of LLM-generated texts in multilingual disinformation [5.1] 大規模言語モデル(LLM)の高度化は、偽情報誤用の懸念を引き起こす。
自然生態系の制限によって恐怖が高められたことは過大評価されていると主張する者もいる一方で、特定の「長い」状況が見過ごされるリスクに直面していると主張する者もいる。
我々の研究は、最新の現実世界の偽情報データセットにLDMの存在を示す最初の実証的な証拠を提供することによって、この議論を橋渡しします。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:47:53 GMT)
Entropy-Reinforced Planning with Large Language Models for Drug Discovery [5.0] Entropy-Reinforced Planning for Transformer Decodingは、Entropy-Reinforceed Planningアルゴリズムを用いてTransformer Decodingプロセスを強化する。
我々はSARS-CoV-2ウイルス(3CLPro)とヒト癌細胞標的タンパク質(RTCB)のベンチマークでアルゴリズムを評価した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 07:27:37 GMT)
Wagner's Algorithm Provably Runs in Subexponential Time for SIS$^\infty$ [4.9] Avariant of the Blum-Kalai-Wasserman (B) algorithm should solve the Learning with Errors problem (LWE)
我々は、このワグナーステップを、投影された格子の連鎖を後方に歩き、補助的な超格子をジグザグするものとして再解釈する。
このアプローチはサンプル増幅を回避し、ワグナーのアルゴリズムを$q$ary格子に対して近似した離散ガウス標本化器に変換する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:32:59 GMT)
Enhancing Federated Learning Through Secure Cluster-Weighted Client Aggregation [4.9] フェデレーテッド・ラーニング(FL)は機械学習において有望なパラダイムとして登場した。
FLでは、各デバイスにまたがるローカルデータセットに基づいて、グローバルモデルを反復的にトレーニングする。
本稿では、クライアント更新に重みを動的に割り当てるために、相似性スコア、k平均クラスタリング、和解信頼スコアを利用する新しいFLフレームワーク、ClusterGuardFLを紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:29:24 GMT)
Optimizing Library Usage and Browser Experience: Application to the New York Public Library [4.8] 筆者らは,都市図書館システムに係わる課題をホールドシステムによって解決し,利用者が他のブランチで利用可能な本をローカルに受け取りに転送できるようにする。
ホールドシステムは、ソースブランチでの個人ブラウザの経験を犠牲にして、コレクション全体の使用量を増加させる。
そこで本ライブラリは,ホールドリクエストの配置時に本を発行する場所と,各ブランチのコピー数とブラウザ用に予約された本数という,2つのレバーを持つ,使用状況とブラウザエクスペリエンスの最適化について検討する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:17:56 GMT)
A QUBO Framework for Team Formation [4.8] チーム構成問題に対するすべてのコスト定義をキャプチャする、統合されたTeamFormationの定式化を導入します。
チームフォーメーション問題のQUBO定式化に基づく解法は,確立されたベースラインによる解法と少なくとも同等であることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:18:46 GMT)
Parsing Through Boundaries in Chinese Word Segmentation [4.7] 英語とは異なり、中国語は明示的な単語境界を欠いているため、区分けは必要であり、本質的に曖昧である。
本研究は, 単語分割と構文解析の複雑な関係に注目し, 中国語の係り受け構造をどう形成するかを明確にする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:24:02 GMT)
Late Breaking Results: Breaking Symmetry- Unconventional Placement of Analog Circuits using Multi-Level Multi-Agent Reinforcement Learning [4.7] アナログレイアウトの非従来的設計空間を探索する目的駆動型マルチレベルマルチエージェントQ-ラーニングフレームワークを提案する。
提案手法は,最先端のレイアウト技術よりも優れたバラツキ性能を実現する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:13:56 GMT)
A Retrieval-Augmented Knowledge Mining Method with Deep Thinking LLMs for Biomedical Research and Clinical Support [4.7] 検索精度と知識推論を向上させるために,IP-RAR(Integrated and Progressive Retrieval-Augmented Reasoning)を導入する。
IP-RARは、統合推論ベースの検索を通じて情報リコールを最大化し、プログレッシブ推論ベースの生成を通じて知識を洗練する。
この枠組みは、医師がパーソナライズされた医薬品計画のための治療証拠を効率的に統合するのに役立つ。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:56:42 GMT)
Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use [4.4] 本稿ではエージェントAIにおける従来の単一エージェントシステムの限界を克服する新しいファクターエージェントアーキテクチャを提案する。
提案手法はエージェントを,(1)高レベルプランナーおよびインコンテキスト学習者として機能する大規模言語モデル,(2)ツールフォーマットと出力の記憶器として機能する小型言語モデルに分解する。
経験的評価により,本アーキテクチャは,テキスト内学習と静的記憶のトレードオフを解明しつつ,計画精度と誤り回復性を著しく向上することが示された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:27:11 GMT)
Uncertainty propagation in feed-forward neural network models [4.0] 我々はフィードフォワードニューラルネットワークアーキテクチャのための新しい不確実性伝搬法を開発した。
ニューラルネットワーク出力の確率密度関数(PDF)の解析式を導出する。
鍵となる発見は、リークReLU活性化関数の適切な線形化が正確な統計的結果をもたらすことである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:30:59 GMT)
MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [4.0] MM-Evalは18の言語と122の言語にまたがる言語一貫性サブセットをカバーする多言語メタ評価ベンチマークである。
MM-Evalのコア属性は、既存の英語メタ評価ベンチマークを単に翻訳するのではなく、多言語固有の課題を念頭に設計されていることである。
その結果、英語の文脈で優れている既存の評価者は、非英語の出力を評価する際に、かなりの改善の余地があることが示唆された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:50:10 GMT)
Search and Society: Reimagining Information Access for Radical Futures [3.9] 情報検索研究は、それが生み出す技術の社会的意味を理解し、議論しなければならない。
コミュニティは、多様に明示された社会技術的想像から着想を得て構築すべきシステムの種類について、積極的に研究課題を定めるべきである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:55:15 GMT)
Conversational Agents for Older Adults' Health: A Systematic Literature Review [3.8] 高齢者の健康を促進するために、会話エージェント(CA)の研究が盛んに行われている。
本研究は, 高齢者の特徴を以前に研究し, 参加者の経験と健康への期待について分析した。
高齢者は主に、不安定な影響、独立への害、プライバシー上の懸念など、様々な理由により、健康に対するCAの受け入れが低かった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:19:09 GMT)
Unsupervised Feature Disentanglement and Augmentation Network for One-class Face Anti-spoofing [3.5] Face Anti-Sfing (FAS) は、顔認証のセキュリティを高めることを目的としている。
ワンクラスのFASアプローチは、目に見えない攻撃をうまく処理するが、生きた機能に絡み合ったドメイン情報に対する堅牢性は低い。
本研究では,非教師付き機能拡張ネットワーク (textbfUFDANet) を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:22:50 GMT)
Evaluating how LLM annotations represent diverse views on contentious topics [3.4] 本稿では,多言語多言語モデル (LLM) が競合的なラベリングタスクに対する多様な視点を表現していることを示す。
以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:53:15 GMT)
Towards Symmetric Low-Rank Adapters [3.3] より少ない重みを持つLoRAの最適化版であるSymmetric Low-Rank Adaptersを導入する。
この方法は、下流タスクをより効率的に学習するために、低ランク対称重み行列を利用する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:52:17 GMT)
DC-SGD: Differentially Private SGD with Dynamic Clipping through Gradient Norm Distribution Estimation [3.3] クリッピング閾値Cを動的に調整する動的クリッピングDP-SGD(DC-SGD)を提案する。
DC-SGD-Pは勾配ノルムのパーセンタイルに基づいてクリッピング閾値を調整する一方、DC-SGD-Eは勾配の2乗誤差を最小限に抑えてCを最適化する。
本結果は,DC-SGDの性能と効率性を強調し,差分学習のための実用的なソリューションを提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:27:22 GMT)
Exploring Non-Multiplicativity in the Geometric Measure of Entanglement [3.3] エンタングルメントの幾何学的測度(GME)は、多部量子状態がヒルベルト・シュミット内積の下での分離状態の集合にどれほど近いかを定量化する。
両項$(O otimes O)$変換の下で不変であるものと単項状態の混合である。
d = 3 の場合、これらの状態における非多重化係数を定量的に解析するために、最先端の数値最適化法とモデルを用いる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:08:04 GMT)
Sustainable techniques to improve Data Quality for training image-based explanatory models for Recommender Systems [3.0] 我々は、Responsible AIの原則に沿って、Recommender Systems(RS)により良い視覚的説明を提供することを目指している。
データ品質のトレーニングに重点を置く3つの新しい戦略を開発します。
これらの戦略を最先端の3つの説明可能性モデルに統合することで、これらの視覚ベースのRS説明可能性モデルの関連指標の5%のパフォーマンスが、実用的長期持続可能性のペナルティを伴わずに向上する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:16:08 GMT)
Classical Simulation of Quantum CSP Strategies [2.8] 制約満足度問題を符号化する2プロゲームにおいて,任意の完全量子戦略が,完全古典的戦略によってシミュレート可能であることを証明した。
我々の証明の重要な中間段階は、古典的な色数と量子変量の間のギャップが、量子戦略が有界な大きさの共有量子情報を含む場合に有界であることを確立することである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:06:50 GMT)
Pallet Detection And Localisation From Synthetic Data [2.8] 本稿では, 純粋合成データと, 側面から得られる幾何学的特徴を用いて, パレットの検出と位置推定を強化する新しい手法を提案する。
提案手法は,現実世界のデータセット上で単一パレットに対して0.995 mAP50のパレット検出性能を示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:06:02 GMT)
Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5] 誤報は言語境界を超越し、モデレーションシステムに挑戦する。
誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。
この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:19:38 GMT)
Multimodal machine learning with large language embedding model for polymer property prediction [2.5] 本稿では,高分子特性予測タスクに対して,単純で効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
PolyLLMemは、Llama 3によって生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合する。
その性能は、グラフベースのモデルやトランスフォーマーベースのモデルと同等であり、場合によってはそれ以上である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:48:11 GMT)
A large-scale image-text dataset benchmark for farmland segmentation [2.3] 本稿では、農地の言語による記述について紹介し、農地区分用に設計された最初の微細テキスト画像テキストデータセットであるFarmSeg-VLについて述べる。
時間次元では、全4シーズンをカバーしている。
また、空間的次元の面では、中国の8つの典型的な農業地域をカバーしている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:55:46 GMT)
ContextIQ: A Multimodal Expert-Based Video Retrieval System for Contextual Advertising [2.3] コンテキスト広告は、ユーザーが見ているコンテンツに沿った広告を提供する。
共同マルチモーダルトレーニングに基づく現在のテキスト・ビデオ検索モデルでは,大規模なデータセットと計算資源が要求される。
本研究では,コンテキスト広告に特化して設計されたマルチモーダル専門家によるビデオ検索システムであるContextIQを紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:42:02 GMT)
STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing [2.2] 空間的領域と時間的領域とのセマンティックな特徴の整合性は、顔の動きの安定化に有望なアプローチである、と我々は主張する。
本稿では,2経路アライメント機構と識別可能な意味表現を導入した時空間意味アライメント(STSA)手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:04:10 GMT)
Encrypted Prompt: Securing LLM Applications Against Unauthorized Actions [2.2] プロンプトインジェクション攻撃のようなセキュリティ脅威は、大規模言語モデルを統合するアプリケーションに重大なリスクをもたらす。
本稿では、各ユーザプロンプトに暗号化プロンプトを付加し、現在のパーミッションを埋め込む新しい手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:26:57 GMT)
Enhancing Weakly Supervised Video Grounding via Diverse Inference Strategies for Boundary and Prediction Selection [2.2] 弱教師付きビデオグラウンドティングは、与えられたクエリに関連する時間的境界を、明示的な基底的時間的境界なしにローカライズすることを目的としている。
複数のガウスから多様な境界を捉えるための新しい境界予測手法を提案する。
また、提案品質を考慮した新しい選択手法も導入する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:33:58 GMT)
Minerva: A File-Based Ransomware Detector [2.1] 本稿では,ランサムウェア検出のための新しい堅牢なアプローチであるMinervaについて述べる。
Minervaは、回避攻撃に対する設計によって堅牢に設計されており、アーキテクチャと特徴の選択は、敵の操作に対するレジリエンスによって通知される。
検出されたランサムウェアの99%以上が0.52秒以内に識別され、ほぼゼロのオーバーヘッドでデータ損失防止技術が採用されている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:07:43 GMT)
Dynamic spillovers and investment strategies across artificial intelligence ETFs, artificial intelligence tokens, and green markets [2.1] 本稿では,R2分解を用いたAI,AIトークン,グリーンマーケット間のリスク流出について検討する。
AIトークンとグリーンボンドはリスクレシーバーとして機能するのに対し、AIとクリーンエネルギーはリスクトランスミッターとして機能する。
また、AIトークンは、AIトークンやグリーンアセットと比較して、ハッシュ化が難しく、ヘッジ能力に制限があることもわかりました。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:40:52 GMT)
SIMPLE: Simultaneous Multi-Plane Self-Supervised Learning for Isotropic MRI Restoration from Anisotropic Data [2.0] 従来のMRIスキャンでは、技術的制約により異方性データが得られることが多い。
超解像技術は、異方性データから等方性高解像度画像を再構成することでこれらの制限に対処することを目的としている。
異方性データから等方性MRIを復元する「SIMPLE」について紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:21:48 GMT)
Incorporating GNSS Information with LIDAR-Inertial Odometry for Accurate Land-Vehicle Localization [2.0] 高精度な3Dポイントクラウドマップのロバストなローカライゼーションを実現するLIDARベースの新しいローカライゼーションフレームワークを提案する。
このシステムは,LIDARを用いたオドメトリーとグローバル情報を統合し,位置決め状態を最適化する。
このアルゴリズムは、異なるデータセットの様々なマップでテストされ、他のローカライズアルゴリズムよりも堅牢性と精度が高い。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:41:31 GMT)
Adaptive Stochastic Gradient Descents on Manifolds with an Application on Weighted Low-Rank Approximation [2.0] 適応学習率を持つ多様体上の勾配降下に対する収束定理を証明した。
重み付けされた低ランク近似問題に適用する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:05:48 GMT)
What is the spectral density of the reservoir for a lossy quantized cavity? [2.0] キャビティとフォトニック貯留層との量子カップリング相互作用の周波数依存性は、キャビティの内容とは無関係に構築できないことを示す。
これにより空洞-貯留層相互作用の正しい量子形式が確立され、これまでのところ単純な1次元測地のために厳密に研究されているのみである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:50:29 GMT)
On the Quantum Chromatic Gap [1.9] 我々は、Khotの$d$-to-$1$ Games Conjectureの量子擬似テレパシーバージョンを作成した。
ある種の擬テレパシーXORゲームの存在は、この予想を暗示することを示している。
Dinur-Khot--Kindler--Minzer--Safraは、最近2ドルから2ドルというゲーム定理が量子完備であることを証明した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:10:34 GMT)
Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective [1.9] 大規模言語モデル(LLM)は、訓練中に特定の時点で新たな能力が出現する突発的な行動を示すことが多い。
この現象は一般に「相転移」と呼ばれ、よく理解されていない。
本稿では、学習データとアーキテクチャの両方で異なるLLMの学習力学に対する新しい解釈を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:08:30 GMT)
Enhancing Learnable Descriptive Convolutional Vision Transformer for Face Anti-Spoofing [1.9] Face Anti-Spoofing (FAS) は、プレゼンテーション攻撃に対抗するために、ライブ/スプーフ識別機能に大きく依存している。
近年,Learningable Descriptive Convolution を ViT に組み込むための LDCformer を提案している。
本稿では,LCDフォーマのトレーニングを効果的に強化し,特徴量を向上させるための3つの新しいトレーニング戦略を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:55:48 GMT)
The realization of tones in spontaneous spoken Taiwan Mandarin: a corpus-based survey and theory-driven computational modeling [1.8] 本研究では,マンダリン音節単語の音節認識と2つの音節の組み合わせについて検討した。
その結果、文脈や音素的実現における意味は、標準言語理論が予測するよりもはるかに絡み合っていることがわかった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:39:55 GMT)
UNITYAI-GUARD: Pioneering Toxicity Detection Across Low-Resource Indian Languages [1.8] UnityAI-Guardは、低リソースのインド言語をターゲットにしたバイナリ毒性分類のためのフレームワークである。
このアプローチでは、7つの言語で平均84.23%のF1スコアを達成し、888kのトレーニングインスタンスと35kの手動検証テストインスタンスのデータセットを活用する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:20:13 GMT)
A Framework for Lightweight Responsible Prompting Recommendation [1.6] この作業では、GenAIにプロンプトが送られる前に、リコメンデーションを追加する責任を負うための軽量フレームワークを提案する。
1)レコメンデーションのための人為的なデータセット、(2)レコメンデーションを評価するレッドチームデータセット、(3)セマンティクスマッピングのための文変換器、(4)レコメンデーションへのインプットプロンプトをマップする類似度メトリック、(5)一連の類似度閾値、(6)量子化された文埋め込み、(7)レコメンデーションエンジン、(8)レッドチームデータセットを使用する評価ステップからなる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:56:49 GMT)
Fréchet regression with implicit denoising and multicollinearity reduction [1.6] Fr'echet回帰は、距離空間におけるモデル複素応答に線形回帰を拡張する。
本稿では,入力変数と複数応答の関係を明示的にモデル化するGlobal Fr'echet re gressionモデルの拡張について述べる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:06:41 GMT)
Agentic Large Language Models, a survey [1.5] エージェントLLMはエージェントとして機能する大きな言語モデルである。
文献は、推論、リフレクション、検索の3つのカテゴリに従って整理する。
重要な応用は、医療診断、物流、金融市場分析である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:02:20 GMT)
Can LLMs Support Medical Knowledge Imputation? An Evaluation-Based Perspective [1.5] 我々は,Large Language Models (LLMs) を用いて,欠落した治療関係を計算した。
LLMは、知識増強において有望な能力を提供するが、医療知識計算におけるそれらの応用は、重大なリスクをもたらす。
本研究は, 臨床ガイドラインの不整合, 患者の安全性への潜在的なリスクなど, 重大な限界を指摘した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:52:17 GMT)
Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes [1.4] 脆弱性管理における重要な課題は、脆弱性を修正するパッチをトレースすることだ。
これまでの研究によると、脆弱性データベースにはパッチ情報が欠落していることが多い。
SITPatchTracerはスケーラブルな全文検索システムである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:53:07 GMT)
Cost-Saving LLM Cascades with Early Abstention [1.3] LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:19:05 GMT)
Dark patterns in e-commerce: a dataset and its baseline evaluations [1.2] 我々は最先端の機械学習手法を用いて暗パターン検出のためのデータセットを構築した。
5倍のクロスバリデーションの結果,RoBERTaでは0.975の精度を達成できた。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:57:32 GMT)
The geomagnetic storm and Kp prediction using Wasserstein transformer [1.1] 不均一なデータソースを統合することで,3日と5日の惑星Kp指数を予測する新しい枠組みを提案する。
重要な革新は、ワッサーシュタイン距離を変換器に組み入れることと、モダリティ間の確率分布を整列させる損失関数である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:39:42 GMT)
Action Recognition in Real-World Ambient Assisted Living Environment [1.1] 環境支援リビング技術は、家庭内で継続的なモニタリングと支援を提供することによって、年齢の調整を容易にする。
AAL技術の中では、行動認識は人間の活動を理解する上で重要な役割を担っている。
本稿では,Robust and Efficient Temporal Convolution Network (RE-TCN)を紹介する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:32:22 GMT)
Synthetic Art Generation and DeepFake Detection A Study on Jamini Roy Inspired Dataset [1.1] 本研究は,インド美術の文脈における拡散に基づく生成モデルを検討することによって,ユニークなアプローチをとる。
これを探るため、我々はStable Diffusion 3を微調整し、ControlNetやIPAdapterといった技術を使ってリアルな画像を生成する。
合成画像と真偽の微妙な相違を明らかにするために,フーリエ領域評価や自己相関指標などの定性的・定量的手法を用いた。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:12:16 GMT)
Context in object detection: a systematic literature review [1.0] 本研究では,オブジェクト検出に対するコンテキストベースアプローチの影響について検討する。
この調査には265以上の出版物が含まれており、対象検出の異なるカテゴリにおけるコンテキストの異なる側面をカバーしている。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:21:28 GMT)
Enhanced Smart Contract Reputability Analysis using Multimodal Data Fusion on Ethereum [1.0] 本稿では,コード機能とトランザクションデータを統合するデータ融合フレームワークを提案する。
我々のフレームワークは、当初AIベースのコード分析に重点を置いており、クラス不均衡に対処するために、GAN拡張オペコード埋め込みを活用している。
スマートコントラクトの振舞いの全体像を提供することにより、我々のアプローチは、信頼性を評価し、不正行為を特定し、異常パターンを予測するモデルの能力を高める。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:07:37 GMT)
The Forest Behind the Tree: Revealing Hidden Smart Home Communication Patterns [0.9] スマートホームデバイスは、比較的シンプルで予測可能なネットワークアクティビティパターンを示す。
これまでの研究は主に通常のネットワーク条件に焦点を合わせており、潜在的な隠れパターンを見下ろしている。
本稿では,これらの隠れ通信パターンを体系的に,かつ自動的に明らかにするフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:49:25 GMT)
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9] MathWritingは、これまでで最大のオンライン手書き数式データセットである。
1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。
このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:18:26 GMT)
RECALL-MM: A Multimodal Dataset of Consumer Product Recalls for Risk Analysis using Computational Methods and Large Language Models [0.9] プロダクトリコールは、エンジニアリング設計プロセスにおける潜在的なリスクとハザードに関する貴重な洞察を提供する。
我々は,過去の情報を用いてデータ駆動型リスクアセスメントを通知するマルチモーダルデータセットRECALL-MMを開発した。
製品リスクを特定し、より安全な設計決定を導く上で、データセットの有用性を示すために、3つのケーススタディを検討します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:27:28 GMT)
Unsupervised Anomaly Detection in Multivariate Time Series across Heterogeneous Domains [0.8] 教師なし異常検出手法をベンチマークするための統一フレームワークを提案する。
そして、実践的なAIOpsシナリオで起こりうる通常の振る舞いのシフトの問題を強調します。
ドメインシフトによる異常検出に対処するために,新しいアプローチであるDomain-Invariant VAEを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:38:28 GMT)
A limited technical background is sufficient for attack-defense tree acceptability [0.8] アタック・ディフェンス・ツリー(ADT)は、セキュリティ関連の情報を分析・伝達するために非常に推奨される、グラフィカルな脅威モデリング手法である。
既存の攻撃木の実証研究は、高度に技術的(コンピュータ科学)なバックグラウンドを持つユーザに対してのみ、その受容性を確立している。
本研究は,ADTの受容性に対するユーザの技術的背景の影響を実証的研究で検証することによって,このギャップに対処する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:55:50 GMT)
FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6] AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。
FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。
我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 06:38:30 GMT)
Quantum measurement and color perception: theory and applications [0.6] 我々は、知覚色を記述するために量子計測理論を体系的に利用する。
理論的な結果の中で、色錐体を有限体積の固体に閉じ込める可能性について言及する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 00:54:14 GMT)
Simulation of Fermionic circuits using Majorana Propagation [0.6] Majorana Propagationは、フェルミオン回路の古典的なシミュレーションのためのアルゴリズムフレームワークである。
観測可能なハイゼンベルクの進化を通して連続的なトランケーションを適用することで機能する。
量子化学や凝縮物質に関連するフェルミオン系をシミュレートするために用いられる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:52:00 GMT)
A quantum information-based refoundation of color perception concepts [0.5] 量子情報の概念が、明るさ、明度、色度、彩度、彩度、彩度、色調などの色知覚特性をモデル化するのに適したツールをいかに提供するかを示す。
これらの新しい定義の効率のイラストは、いわゆる明度不安定現象の厳密な導出によって提供される。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 01:05:44 GMT)
Shape and Texture Recognition in Large Vision-Language Models [0.5] このデータセットは、LVLM(Large Vision-Language Models)が2Dおよび3Dシーンの形状、テクスチャ、材料を効果的に理解する方法を評価するために使用される。
形状認識には, 方向, テクスチャ, 色, 環境によって異なる同一形状の形状をマッチングするモデルの能力をテストする。
テクスチャと材料認識のために,異なる物体や環境にまたがる同一のテクスチャや材料を識別するモデルの能力を評価する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:43:29 GMT)
RankMerging: A supervised learning-to-rank framework to predict links in large social network [0.4] RankMergingは、さまざまな教師なしランキングで提供される情報を組み合わせることを目的としている。
本稿では,3種類のソーシャルネットワーク上での手法を概説し,非教師なしのランク付け指標の性能を大幅に向上させることを示す。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:50:10 GMT)
Hybrid Quantum-Classical Reinforcement Learning in Latent Observation Spaces [0.4] 量子機械学習の最近の進歩は、古典的な制御問題に取り組むために量子法を使うことに関心を喚起している。
本稿では,古典的オートエンコーダと量子エージェントを併用して,この次元課題を解決することを提案する。
遅延空間学習法の性能解析のために, 一連の数値実験を設計する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:55:57 GMT)
Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data [0.3] 本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。
本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:38:04 GMT)
AstroAgents: A Multi-Agent AI for Hypothesis Generation from Mass Spectrometry Data [0.3] 質量分析データから仮説生成のための大規模言語モデルに基づくマルチエージェントAIシステムAstroAgentsを紹介する。
AstroAgentsは、データアナリスト、プランナー、3人のドメインサイエンティスト、アキュミュレータ、文学レビュアー、批評家の8人の協力エージェントで構成されている。
AstroAgentsを評価するために、天文学の専門家は100以上の仮説の新規性と妥当性を評価した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:58:52 GMT)
Spatially parallel decoding for multi-qubit lattice surgery [0.1] 量子エラー訂正によって保護される量子アルゴリズムの実行には、リアルタイム、古典的なデコーダが必要である。
リアルタイム復号化に関するこれまでのほとんどの研究は、表面コードに符号化された孤立論理量子ビットに焦点を当ててきた。
表面コードでは、実用性のある量子プログラムは格子手術によって実行されるマルチキュービットの相互作用を必要とする。
格子手術中に大規模なマージパッチが発生する可能性がある。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:39:56 GMT)
DiMB-RE: Mining the Scientific Literature for Diet-Microbiome Associations [0.1] ダイエット・マイクロバイオーム・アソシエーションを付加した包括的コーパスであるDMB-REを構築した。
我々は、名前付きエンティティ、トリガ、関係抽出のための最先端NLPモデルを微調整し、評価した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:48:34 GMT)
The impact of tissue detection on diagnostic artificial intelligence algorithms in digital pathology [0.0] 我々は、しきい値(古典的)とUNet++(AI)の2つの異なる組織検出アルゴリズムを用いて、スライド画像全体における前立腺癌のグレーディングのためのAIモデルを訓練した。
116 (0.43%) から22 (0.08%) まで減少し、しきい値に基づく組織検出からAIベースの組織検出に切り替えた。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:16:20 GMT)
Who Owns the Output? Bridging Law and Technology in LLMs Attribution [0.0] 大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、コンテンツ生成を変革した。
生成AIモデルが提供する機会は無限であり、コンテンツを生成するのに必要な時間を劇的に削減している。
しかし、生成したコンテンツの複雑さと難解なトレーサビリティを考慮すると、これらのツールを使用することで、AI生成したコンテンツの帰属が困難になる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:08:04 GMT)
Validating Quantum State Preparation Programs [0.0] 本稿では、Coq証明アシスタントで実装された高保証フレームワークであるPqasmについて述べる。
このフレームワークの鍵は、量子重ね合わせ状態を含むプログラムのプログラム正当性保証を、重ね合わせのないプログラム状態に対するプログラム正当性保証に還元することである。
我々は、QuickChickプロパティベースのテストフレームワークを使用して状態準備プログラムをテストする。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:16:34 GMT)
Using Generative AI Personas Increases Collective Diversity in Human Ideation [0.0] 本研究は,創造的成果に対するジェネレーティブAI(GenAI)の貢献と,これらの成果の多様性の低下という,広く報告されているトレードオフに挑戦する。
我々は2024年、同志とハウザーによるこのような研究のデザインを修正し、参加者はGenAIプロットのアイデアに助けられたり、無視されたりした短編を執筆した。
以上の結果から,異なるペルソナによるAI入力段階での多様性の導入は,GenAIとのコラボレーションにおいて,人間の創造的アウトプットの集合的多様性を保ち,向上させる可能性が示唆された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:43:29 GMT)
Towards AI-Augmented Data Quality Management: From Data Quality for AI to AI for Data Quality Management [0.0] 本研究では,大規模組織で一般的に使用されているデータリポジトリとして,データウェアハウス内のデータ品質管理を自動化する可能性について検討する。
レビューでは、さまざまなソースから151のツールが紹介され、現在のほとんどのツールは、データウェアハウスではなく、ドメイン固有のデータベースのクリーニングと修正に重点を置いていることが明らかになった。
データウェアハウスでこれを実装することは言うまでもなく、DQルールを検出する能力を示したのは、限られたツール、特に10ツールだけだった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 18:06:34 GMT)
The Societal Response to Potentially Sentient AI [0.0] 現在、AIの知覚に関する公的な懐疑論は高いままである。
AIシステムが進歩し、人間のようなインタラクションに熟練するにつれて、公衆の態度はシフトする可能性がある。
重要な疑問は、AIの知覚に関する公的な信念が専門家の意見から分かれるかどうかである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:02:39 GMT)
The Complexity of Algebraic Algorithms for LWE [0.0] 我々は、LWEシステム上でのGr"オブナー基底計算の複雑さを研究するために、Arora-Geモデルを再検討する。
我々は、Semaev & TentiのGr"obner基底アルゴリズムを有限の正則性を持つ任意の系に一般化する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:44:21 GMT)
The Challenge of Achieving Attributability in Multilingual Table-to-Text Generation with Question-Answer Blueprints [0.0] Table-to-Text NLGは、モデルの推論能力の優れた尺度であるが、多言語設定では非常に難しい。
質問応答 (QA) ブループリントのような中間的計画手法は、要約タスクの帰属性を改善することが示されている。
この研究は、QAブループリントが入力テーブルに寄与する多言語のテーブル・トゥ・テキストの出力をより多くするかどうかを考察する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:04:00 GMT)
Symmetric and Asymmetric Quantum Rabi Model [0.0] 単一光子空洞放射場を持つ改良型Jaynes-Cummingsモデルを提案する。
原子系は1つの光子を交換する代わりに、代わりに硬化した光子を交換する。
ボゴリューボフ変換によって得られるハミルトニアンを対角化する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:33:32 GMT)
Student-Powered Digital Scholarship CoLab Project in the HKUST Library: Develop a Chinese Named-Entity Recognition (NER) Tool within One Semester from the Ground Up [0.0] 2024年2月から、HKUST LibraryはAIリテラシーの範囲をAI利用にまで広げた。
DS CoLab計画の重要な焦点は、才能の育成と、学生が実践的な文脈で高度な技術を活用できるようにすることである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:15:34 GMT)
Statistical complexity of software systems represented as multi-layer networks [0.0] 本稿では,ソフトウェアシステムの複雑性を評価するための経験的尺度として,統計複雑性の採用を提案する。
提案手法は,シミュレーションと理論的比較によって検証された多層ネットワークとしてモデル化されたソフトウェアシステムの統計的複雑性を計算することを含む。
この尺度は、ソフトウェアシステムの組織構造に関する洞察を提供し、理論的な期待に合う有望な一貫性を示し、複雑なソフトウェアシステムの理解を深めるためのツールとして統計複雑性を活用する方法を舗装する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:33:52 GMT)
Simulation-based Bayesian Inference from Privacy Protected Data [0.0] プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:39:41 GMT)
Simulation of Non-Ordinary Consciousness [0.0] シロシビン様のシンボル認知をシミュレートするために設計された生成的シンボルインタフェース。
グリフは、高エントロピー、比喩飽和、エゴ溶解言語を一貫して生成する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:04:04 GMT)
Revisiting End-To-End Sparse Autoencoder Training: A Short Finetune Is All You Need [0.0] スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。
最近の研究は、KLの発散とMSEの併用でSAEを直接訓練した。
そこで本研究では,最後の25Mトレーニングトークンにのみ適用可能なKL+MSEファインタニングステップを提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:42:21 GMT)
Quantum signatures and decoherence during inflation from deep subhorizon perturbations [0.0] 超水平スカラー曲率摂動の相関関数に対するデコヒーレンスと関連する量子補正について検討する。
後者は、時間依存環境によって引き起こされる量子デコヒーレンスを実行するオープン量子システムであると考えられている。
我々は、量子マスター方程式によって誘導される輸送方程式を解くことにより、宇宙的相関関数に対する量子補正を計算する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:10:19 GMT)
Quantum many-body simulation of finite-temperature systems with sampling a series expansion of a quantum imaginary-time evolution [0.0] 量子コンピュータは、有限温度で大規模システムをシミュレートすることができると期待されている。
有限温度で観測可能な天体の熱平衡期待値を計算するために,この初期段階の量子デバイスに適した手法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:40:28 GMT)
Quantum Simulations of Fundamental Physics [0.0] ハイライトや機会、今後の課題について論じます。
量子情報科学とテクノロジーの顕著な進歩は、基本的な量子多体システムを理解し、探求する方法を大きく変えつつある。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:53:04 GMT)
On the dimension of pullback attractors in recurrent neural networks [0.0] 近年、力学系の観測に基づいて訓練された貯水池コンピュータは埋め込みとして解釈できると推測されている。
本研究では、非正則力学系を用いて、トレーニングおよび予測フェーズ中に近似された貯水池状態空間の部分集合のフラクタル次元の上限を確立する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:24:12 GMT)
Neural Bayes inference for complex bivariate extremal dependence models [0.0] Likelihood-freeアプローチは、複雑な依存モデルに対する推論を行うのに魅力的である。
ベイズ推定器を近似するためにニューラルネットワークを利用するアプローチに焦点を当てる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:24:48 GMT)
Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers [0.0] 最小限の層を持つ変圧器でのみ解決できる,単純で一般的な推論タスクである検索問題を紹介します。
大規模な言語モデルは、微調整をせずに、異なるプロンプト式でタスクを解くことができることを実証的に示します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 23:29:51 GMT)
Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0] 強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:45:21 GMT)
Local unitary classification of sets of generalized Bell states in $\mathbb{C}^{d}\otimes\mathbb{C}^{d}$ [0.0] 局所的なユニタリ変換の下での分類は、量子絡み合いの理論において根本的な問題となっている。
両部量子系における一般化ベル状態(GBS)の完全なLU分類を確立する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:14:56 GMT)
Leaking LoRa: An Evaluation of Password Leaks and Knowledge Storage in Large Language Models [0.0] ユーザーデータの微調整モデルは、パスワードが漏洩する可能性がある。
本研究では、RockYouパスワードのワードリストから顧客サポートデータとパスワードを微調整する。
リストから最初の200パスワードのうち37パスワードが回収された。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 10:42:58 GMT)
Identifying Multi-modal Knowledge Neurons in Pretrained Transformers via Two-stage Filtering [0.0] トランスフォーマーベースのMLLMであるMiniGPT-4を用いて,特定の知識に関連するニューロンを同定する手法を提案する。
画像キャプション生成タスクの実験では,既存の手法よりも高い精度で知識を見つけることができることがわかった。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 02:16:15 GMT)
Hybrid Classical-Quantum Newtonian Gravity with stable vacuum [0.0] 質量密度演算子の崩壊から古典ニュートン重力が出現するハイブリッド古典量子モデルについて検討する。
GPSLは真空安定性を保証するが、これは同一粒子や磁場に適用可能であるとともに、相対論的一般化の候補となる。
一つの粒子と剛体球の動力学を含む明示的な例を示し、モデルの特異な現象論を説明する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 12:21:48 GMT)
HRET: A Self-Evolving LLM Evaluation Toolkit for Korean [0.0] 本稿では,韓国のLLMに特化したオープンソースの自己進化評価フレームワークであるHRET Haerae Evaluation Toolkitを紹介する。
HRETは、ログベースのスコアリング、正確なマッチング、言語不整合のペナル化、LCM-as-a-Judgeアセスメントなど、さまざまな評価手法を統一する。
HRETは、継続的進化のための自動パイプラインにより、再現性、公正、透明な韓国のNLP研究のための堅牢な基盤を提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 04:17:58 GMT)
Gazeau-Klauder coherent states for a harmonic position-dependent mass [0.0] この系を記述するシュレーディンガー型方程式を解くことで固有系を導出する。
この系に対するガゼウ・クラウダーのコヒーレントな状態を構築する。
これらの状態の統計的性質を計算し分析する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:33:20 GMT)
Function Fitting Based on Kolmogorov-Arnold Theorem and Kernel Functions [0.0] 本稿では,Kolmogorov-Arnold表現定理とカーネル法に基づく統一理論フレームワークを提案する。
我々は、2つのモデルをカーネル関数の線形結合として統一するカーネルベースの機能適合フレームワークを構築した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 11:03:28 GMT)
Enhancing mechanical entanglement in molecular optomechanics [0.0] 分子光学系における二部量子絡み合いの強化手法を提案する。
光振動と振動振動の絡み合いに及ぼすOPAの影響について検討する。
この結果はOPA強化McOMシステムのための有望な理論基盤を確立した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 19:52:45 GMT)
Engineering Microbial Symbiosis for Mars Habitability [0.0] 火星の植民は、放射線曝露、低気圧、有毒なリゴリスなどの特別な課題を呈している。
近年の合成生物学と遺伝工学の進歩は、地球外生物や工学生物を利用してこれらの障害に対処する前例のない機会を提供する。
本稿では,地球上の微生物と仮説上の火星生物との共生関係を創出する可能性について検討する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:44:42 GMT)
Electric Field Distortions in Surface Ion Traps with Integrated Nanophotonics [0.0] 本研究では,表面イオントラップの電界歪みを導波路と格子カプラを一体化して検討する。
我々は, 対称性と透明導電性酸化物材料を利用して, これらの歪みを低減させる手法を解析した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 09:29:46 GMT)
Efficient Adaptation For Remote Sensing Visual Grounding [0.0] 基礎モデルは、Visual Grounding (VG)タスクを通じてテキスト記述とオブジェクト位置を関連付けることができる。
ドメイン固有の課題のため、リモートセンシング(RS)への直接適用は、準最適結果をもたらす。
本研究は,PEFTによるRSの効率的かつ高精度なマルチモーダル解析の可能性を明らかにするものである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 13:49:11 GMT)
Discrete-Time Open Quantum Walks for Vertex Ranking in Graphs [0.0] 本稿では離散時間オープンな量子ウォークを用いたグラフ上の新しい量子PageRankアルゴリズムを提案する。
GoogleのPageRankは、古典的な計算においてWorld Wide Web上のWebページをランク付けするための広く使われているアルゴリズムである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:10:40 GMT)
Delving into: the quantification of Ai-generated content on the internet (synthetic data) [0.0] アクティブなWebページ上のテキストの少なくとも30%はAIが生成したソースから来ている。
自食性ループがもたらす影響を考えると、これはすさまじい実現である。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 03:06:53 GMT)
DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation [0.0] DAT(Dynamic Alpha Tuning)は,クエリ毎に密度の高い検索とBM25のバランスをとる,新しいハイブリッド検索フレームワークである。
固定重み付きハイブリッド検索法を様々な評価指標で一貫して上回る。
小さなモデルであっても、DATは高いパフォーマンスを提供し、その効率性と適応性を強調します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 08:35:01 GMT)
Cooperative Speech, Semantic Competence, and AI [0.0] 協力的スピーチは、参加者が互いに尊敬しているため、コミュニケーションの理想的な形態である。
大規模な言語モデルは、部分的に協調的な会話を構成するような敬意の借りはない、と私は主張します。
この議論の要点は、意味の知識は認知心理学者にとっての主題ではないということである。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 20:34:41 GMT)
Citegeist: Automated Generation of Related Work Analysis on the arXiv Corpus [0.0] Citegeist: arXiv Corpus上の動的検索拡張生成(RAG)を用いたアプリケーションパイプラインについて述べる。
この目的のために、埋め込みに基づく類似性マッチング、要約、多段階フィルタリングの混合を用いる。
文書基盤の継続的な成長に適応するために、新しい文書や修正文書を組み込む最適化された方法を提案する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:19:43 GMT)
Can Neural Decompilation Assist Vulnerability Prediction on Binary Code? [0.0] 本稿では、ソースコードやバイナリの複雑な表現なしでバイナリコードの脆弱性を予測する実験を行った。
結果は、ニューラルネットワークの非コンパイルと脆弱性予測の両方において、最先端技術よりも優れています。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 14:19:09 GMT)
CCCI: Code Completion with Contextual Information for Complex Data Transfer Tasks Using Large Language Models [0.0] 本研究では,文脈認識型コード補完法であるCCCIを紹介する。
データベーステーブル関係のようなコンテキスト情報を統合することで、CCCIはコード補完の精度を向上させる。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 21:31:19 GMT)
CAWAL: A novel unified analytics framework for enterprise web applications and multi-server environments [0.0] 本稿では、代替モデルおよびオンプレミスフレームワークとして、CAWAL(Combined Analytics and Web Application Log)フレームワークを提案する。
CAWALは、データ所有権とプライバシ規則に従って、Webファーム内の正確なデータ収集とクロスドメイン追跡を可能にする。
エンタープライズレベルのWebアプリケーションに統合されたCAWALは、それぞれOpen Web Analytics(OWA)とMatomoと比較して約24%と85%のレスポンスタイムを達成した。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 22:55:33 GMT)
Bridging General Relativity and Quantum Dynamics Through Finite-Resource Logical Models [0.0] 一般相対性理論 (GR) と量子力学 (QD) の理論的枠組みは、クリプキ意味論と線形論理学の応用を通じて導入された。
我々のフレームワークは、ECLC(Energy Constrained Linear Causality)と呼ばれ、量子遷移と時空の進化を論理的に制約されたプロセスとしてモデル化している。
ECLCは、有限物理宇宙における因果性、計算、出現を記述するための統一されたリソース対応論理を提供する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:05:50 GMT)
Agent-Based Modeling and Deep Neural Networks for Establishing Digital Twins of Secure Facilities under Sensing Restrictions [0.0] デジタルツイン技術は、シリコにおける望ましくない結果をシミュレートし、監視し、予測するのに役立つ。
バーチャルリアリティー(VR)ベースのデジタルツイン技術は、セキュアな核施設で人間のパターン・オブ・ライフ(POL)を監視する際に特に有用である。
このような施設の高セキュリティ状態は、モデラーがデータ収集のための人間の活動センサーを配置することを制限する可能性がある。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 17:01:43 GMT)
APTx: better activation function than MISH, SWISH, and ReLU's variants used in deep learning [0.0] 活性化関数はディープニューラルネットワークに非線形性をもたらす。
本稿では,MISHに類似した動作を行うアクティベーション関数 APTx を提案する。
APTxのより少ない計算要件は、モデルのトレーニングを高速化し、深層学習モデルのハードウェア要件を低減します。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 16:47:51 GMT)
A Novel Transfer Matrix Framework for Multiple Dirac Delta Potentials [0.0] 複数のディラックデルタ電位障壁を1次元に通した量子トンネルの研究のための解析的枠組みを提案する。
N$等間隔デルタ障壁からなる系の全移動行列に対する閉形式式を導出する。
論文参考訳(メタデータ) (Sat, 29 Mar 2025 15:58:34 GMT)