Language Model Alignment in Multilingual Trolley Problems [138.6] Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:28:47 GMT)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.1] 本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:24:55 GMT)
TrendSim: Simulating Trending Topics in Social Media Under Poisoning Attacks with LLM-based Multi-agent System [90.1] 本研究では, LLMをベースとしたマルチエージェントシステムであるTrendSimを提案する。
具体的には、タイムアウェアなインタラクション機構、集中型メッセージ配信、対話型システムを含むトレンドトピックのシミュレーション環境を作成する。
ソーシャルメディア上でユーザをシミュレートするLLMベースのヒューマンライクエージェントを開発し,プロトタイプベースの攻撃者による毒殺攻撃の再現を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:04:49 GMT)
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.3] 大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:47:44 GMT)
Memory Efficient Matting with Adaptive Token Routing [73.1] MEMatteは高解像度画像を処理するためのメモリ効率のよいマッチングフレームワークである。
MeMatteは、高解像度と実世界の両方のデータセットにおいて、既存のメソッドよりも優れています。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:21:24 GMT)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.2] DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:45:51 GMT)
Hybrid Forecasting of Geopolitical Events [71.7] SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。
このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。
機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 22:09:45 GMT)
Diffusion Models as Network Optimizers: Explorations and Analysis [71.7] 生成拡散モデル(GDM)は,ネットワーク最適化の新しいアプローチとして期待されている。
本研究ではまず,生成モデルの本質的な特徴について考察する。
本稿では,識別的ネットワーク最適化よりも生成モデルの利点を簡潔かつ直感的に示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:41:52 GMT)
From Words to Worth: Newborn Article Impact Prediction with LLM [69.4] 本稿では, LLMの能力を活用して, 新生記事の今後の影響を予測する, 有望なアプローチを提案する。
提案手法はLLMを用いて,高インパクトな論文の共有意味的特徴をタイトルと抽象的なペアの集合から識別する。
提案手法は, 0.216のMAEと0.901のNDCG@20を用いて, 提案手法が最先端性能を実現することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:27:41 GMT)
CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion [68.8] 我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:51:15 GMT)
Aligning Large Language Models with Human Opinions through Persona Selection and Value--Belief--Norm Reasoning [67.3] Chain-of-Opinion (COO)は、単純な4段階のソリューションモデリングであり、ペルソナによる推論方法である。
COOは明示的な人格(デモグラフィーとイデオロギー)と暗黙的な人格(歴史学的な意見)を区別する
COOは、推論コールを5回だけ促すことで、新しい最先端の意見予測を効率的に達成し、以前のテクニックを最大4%改善する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:08:07 GMT)
Proposing and solving olympiad geometry with guided tree search [63.8] 木探索に基づくガイド付き問題解決を支援するユークリッド幾何学システムであるTongGeometryを紹介する。
TongGeometryは、補助的な構成を必要とする67億の幾何学定理を発見した。
トンゲメトリーはIMO-AG-30ですべての国際数学オリンピック幾何学を解き、金メダリストを初めて上回った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:20:47 GMT)
Unbiased General Annotated Dataset Generation [62.0] 偏りのない一般的な注釈付きデータセット生成フレームワーク(ubGen)を提案する。
本稿では,言語によって定義された非バイアスのセマンティック空間における画像の整合性の観点から,マルチモーダル基盤モデル(例えばCLIP)の利点を活用することを提案する。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した非バイアスデータセットの利用により,一般化能力の安定が図られた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:28:40 GMT)
Relation-Aware Equivariant Graph Networks for Epitope-Unknown Antibody Design and Specificity Optimization [61.1] 本稿では,抗原特異的CDRの構造と共同設計配列に対する抗原抗体相互作用をモデル化するRAADフレームワークを提案する。
さらに, 抗体特異度をよりよく測定し, 抗体特異度を最適化するコントラスト特異的エンハンス制約を開発するための新しい評価指標を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:00:44 GMT)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.1] ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:33:53 GMT)
ST-FiT: Inductive Spatial-Temporal Forecasting with Limited Training Data [59.8] 現実世界のアプリケーションでは、ほとんどのノードはトレーニング中に利用可能な時間データを持っていないかもしれない。
この問題に対処するために,ST-FiTというフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:51:29 GMT)
Enhance Vision-Language Alignment with Noise [59.3] 本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:58:15 GMT)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.3] 大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:46:43 GMT)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.3] パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:04:28 GMT)
Towards Effective, Efficient and Unsupervised Social Event Detection in the Hyperbolic Space [54.9] この記事では、教師なしフレームワークHyperSED(Hyperbolic SED)を紹介します。
具体的には、まずソーシャルメッセージをセマンティックベースのメッセージアンカーにモデル化し、次にアンカーグラフの構造を利用する。
公開データセットの実験では、HyperSEDの競合性能と、大幅な効率向上が示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:55:27 GMT)
p-Mean Regret for Stochastic Bandits [52.8] 単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:38:26 GMT)
An Offline Metric for the Debiasedness of Click Models [52.3] クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。
最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。
クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:14:26 GMT)
Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.8] マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:57:06 GMT)
A QUBO Formulation for the Generalized LinkedIn Queens and Takuzu/Tango Game [49.2] 本稿では、LinkedIn Queens ゲームの一連の一般化を解決するために設計された QUBO の定式化について述べる。
この定式化は、テンツ・アンド・ツリー (Tents & Trees) のような、問題のいくつかの特定のケースに適応する。
また,カラーチェスピース問題 (Coloured Chess Piece Problem) とマックスチェスピース問題 (Max Chess Pieces Problem) という2種類の新しい問題を,対応するQUBOの定式化とともに提示する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:16:22 GMT)
Fully Test-time Adaptation for Tabular Data [48.7] 本稿では,FTTA法で予測のラベル分布を頑健に最適化できる,タブラルデータに対する完全テスト時間適応を提案する。
我々は6つのベンチマークデータセットに関する総合的な実験を行い、3つの指標を用いて評価した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:49:53 GMT)
Are Language Models Agnostic to Linguistically Grounded Perturbations? A Case Study of Indic Languages [47.5] 本研究では,事前訓練された言語モデルが言語的に基盤付けられた攻撃に非依存であるか否かを検討する。
以上の結果から, PLMは非言語的攻撃と比較して言語的摂動の影響を受けやすいが, PLMは言語的攻撃に対する感受性がわずかに低いことが明らかとなった。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:10:38 GMT)
Inference Scaling for Bridging Retrieval and Augmented Generation [47.1] 大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。
このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。
ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:06:43 GMT)
Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models [46.6] リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介する。
TRONは、2つのユーザ特定リスクレベルに制限された所望のエラー率を達成する。
重複予測セットは適応性を維持しつつ、異なるリスクレベルのリスク評価に対してより効率的で安定である。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:34:35 GMT)
Medical Manifestation-Aware De-Identification [45.5] 私たちは4万枚以上の写真リアリスティックな患者の顔からなるMeMaをリリースします。
MeMaは患者の本当のプライバシーを侵害することを避け、豊かで確実な医学的症状を確実にする。
粗いラベルときめ細かいラベルでMeMaに注釈を付けるために専門医を募集する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:09:41 GMT)
Control of Overfitting with Physics [45.0] 機械学習におけるオーバーフィッティング制御は、物理学や生物学の類推を用いて説明される。
本稿では,GANモデルに対して,生物におけるGANと捕食者・捕食者モデルとの類似性を確立する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:20:33 GMT)
AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games [45.0] AuctionNetは、大規模な広告オークションにおける入札決定のためのベンチマークである。
広告オークション環境と、その環境に基づく事前生成データセットと、いくつかのベースライン入札決定アルゴリズムのパフォーマンス評価で構成されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:31:21 GMT)
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.7] 本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:42:05 GMT)
Adaptive Quantization Resolution and Power Control for Federated Learning over Cell-free Networks [41.2] Federated Learning(FL)は、ローカルモデルの更新を生のデータセットではなくサーバと交換することで、グローバルモデルをトレーニングする分散学習フレームワークである。
セルフリーの大規模マルチインプット多重出力(CFmMIMO)は、同じ時間/周波数のリソースを同じレートで多くのユーザに提供する、有望なソリューションである。
本稿では, フラッグラー効果を緩和するために, FLアプリケーションと物理層を同時最適化する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:08:05 GMT)
RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages [41.1] 本稿では,Devanagari言語のための合成データ生成手法であるRoundTripOCRを提案する。
我々は,ヒンディー語,マラティー語,ボド語,ネパール語,コンカニ語,サンスクリット語に対するOCR後のテキスト修正データセットをリリースする。
また,機械翻訳の手法を利用した新しいOCR誤り訂正手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:59:41 GMT)
Automated Molecular Concept Generation and Labeling with Large Language Models [40.2] 本稿では,予測分子概念の自動生成とラベル付けを行うAutomated Molecular Concept (AutoMolCo) フレームワークを提案する。
このフレームワークは人間の知識を入力せずに動作し、既存のCMの限界を克服する。
MoleculeNetとHigh-Throughput Experimentation (HTE)データセットの実験では、AutoMolCoによる説明可能なCMが分子科学研究に有用であることが示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:16:41 GMT)
RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation [39.4] 本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:41:03 GMT)
Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models [39.2] 本稿では,自己文書の総合的有効性について検討し,RAGパフォーマンスへの貢献を形作る重要な要因を同定する。
これらの知見に基づいて,体系的機能言語学に基づく分類学を開発し,様々なセルフドキュメンテーションカテゴリーの影響を比較する。
その結果,どのタイプのセルフドキュメンテーションが最も有用かを明らかにし,それを活用するための実践的ガイドラインを提供した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:12:01 GMT)
Towards Action Hijacking of Large Language Model-based Agent [39.2] 我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:11:26 GMT)
Selected Languages are All You Need for Cross-lingual Truthfulness Transfer [38.3] Fact-aware Multilingual Selective Synergy (FaMSS) と呼ばれる言語間真性伝達の実践的手法を提案する。
FaMSSは、言語バイアスと転送コントリビューションによって全てのテスト対象言語の最適なサブセットを選択し、その後、言語間真性伝達のための翻訳命令チューニングを使用することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:58:07 GMT)
Why Not Together? A Multiple-Round Recommender System for Queries and Items [37.7] 推薦システムの基本的な技術は、ユーザの嗜好をモデル化することであり、クエリや項目がユーザ関心の象徴的な表現として広く使われている。
両タイプの相乗効果を生かしたMultiple-round Auto Guess-and-Update System(MAGUS)を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:49:00 GMT)
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation [37.5] SAM4MLLMはSegment Anything Model(SAM)とMulti-Modal Large Language Models(MLLM)を統合する革新的なアプローチである。
提案手法により,MLLMは既存のモデルアーキテクチャに過剰な修正を加えたり,特別なトークンを追加することなく,ピクセルレベルの位置情報を学習することができる。
詳細な視覚情報と、大きな言語モデルの強力な表現能力とを、学習における計算オーバーヘッドを増大させることなく、統一された言語ベースの方法で組み合わせる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:18:34 GMT)
TEGEE: Task dEfinition Guided Expert Ensembling for Generalizable and Few-shot Learning [37.1] タスク定義を明示的に抽出する textbfTEGEE (Task Definition Guided Expert Ensembling) を提案する。
私たちのフレームワークは2つの3Bモデルアプローチを採用しています。
実験により, TEGEEはより大きなLLaMA2-13Bモデルと相容れない性能を示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:39:57 GMT)
$C^2$: Scalable Auto-Feedback for LLM-based Chart Generation [36.9] 参照不要な自動フィードバックジェネレータを導入し,人的介入のコストを削減した。
最初の実験では、回答者の74%が強く好んでおり、10%がフィードバック後の結果を好んだ。
ChartUIE-8Kは、クエリ、データセット、チャートタイプを増やすことで、データの多様性を大幅に改善する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:28:52 GMT)
UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval [36.6] Universal Cross-Domain Retrieval (UCDR)は、意味ラベルなしで、見えないドメインやクラスから関連するイメージを検索する。
本稿では,プリトレーニングモデルと動的プロンプト生成を併用したUCDR-Adapterを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:59:38 GMT)
Centaur: Bridging the Impossible Trinity of Privacy, Efficiency, and Performance in Privacy-Preserving Transformer Inference [36.2] 現在のプライバシー保護トランスフォーマー推論(PPTI)フレームワークは、プライバシ、効率、パフォーマンスの「不可能なトリニティ」に苦慮している。
モデルパラメータをランダムな置換とSMPCによる推論データで保護する新しいハイブリッドPPTIフレームワークであるCentaurを提案する。
性能と効率の面では、Centaurは平文推論と同じ性能を維持しているだけでなく、推論速度を5.0-30.4$倍改善している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:50:30 GMT)
Online Optimization for Learning to Communicate over Time-Correlated Channels [36.0] 本研究では,時間関連チャネル上でのコミュニケーション学習におけるオンライン最適化問題について検討する。
楽観的なオンラインミラー降下フレームワークに基づく2つのオンライン最適化アルゴリズムを開発した。
提案手法は,学習システムの予測誤差確率に基づいて線形後悔を導出することで理論的に保証する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:14:47 GMT)
Progressive Compression with Universally Quantized Diffusion Models [35.2] プログレッシブコーディングのための拡散モデルの可能性を探り、インクリメンタルに伝送および復号化が可能なビット列を導出する。
ガウス拡散モデルや条件付き拡散モデルに基づく先行研究とは異なり、前処理における一様雑音を伴う新しい拡散モデルを提案する。
画像圧縮において有望な第一結果が得られ、単一のモデルで幅広いビットレートで競合速度歪みとレートリアリズムが達成される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:06:01 GMT)
Learned Data Compression: Challenges and Opportunities for the Future [35.0] インセンチュラードの最近の進歩は、インセンチュラード圧縮機の開発にインスピレーションを与えた
これらの圧縮機は、大規模なソートキーを圧縮するために、単純だがコンパクトな機械学習(ML)モデルを利用する。
本稿では,学習データ圧縮の可能性を探究し,索引や関連領域の重要な領域を強化する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:47:21 GMT)
Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation [34.6] 本研究では、エンド・ツー・エンドのLSMプランナを開発することで、最近の戦略を再評価する。
プランニングインスタンスのコーパス上での微調整 LLM は、ロバストなプランニングスキルに繋がらないことがわかった。
Chain-of-Thoughtを含む様々な戦略は、計画の実行可能性を高める。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:23:14 GMT)
SecFormer: Fast and Accurate Privacy-Preserving Inference for Transformer Models via SMPC [34.6] 本稿では,Transformer モデルに対する高速かつ正確な PPI を実現するための SecFormer という包括的 PPI フレームワークを提案する。
効率面では、SecFormerはBERT$_textBASE$とBERT$_textLARGE$のPUMAよりも3.57倍速い。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:42:10 GMT)
Empowering Distributed Training with Sparsity-driven Data Synchronization [34.0] 分散トレーニングは、複数のGPUでディープラーニングモデルのトレーニングをスケールアップするデファクトスタンダードである。
まず,スパーステンソルの特性を一般モデルで解析し,疎度の基礎を理解する。
次に,スパーステンソルのための通信方式の設計空間を体系的に探索し,最適点を求める。
我々は、Zenが通信時間で最大5.09倍、トレーニングスループットで最大2.48倍のスピードアップを達成できることを実証した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:20:13 GMT)
An Active Learning Framework for Inclusive Generation by Large Language Models [32.2] 大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:15:55 GMT)
Heterogeneous Graph Transformer for Multiple Tiny Object Tracking in RGB-T Videos [31.9] 既存のマルチオブジェクト追跡アルゴリズムは、一般的に単一のモダリティシーンに焦点を当てている。
我々はHGTトラック(異種グラフ変換器に基づくマルチTiny-Object Tracking)と呼ばれる新しいフレームワークを提案する。
本稿では,RGB-Tを融合した複数物体追跡のためのVT-Tiny-MOT (Visible-Thermal Tiny Multi-Object Tracking) の最初のベンチマークを紹介する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:17:49 GMT)
Cocoa: Co-Planning and Co-Execution with AI Agents [31.7] 対話型設計パターンを実装するシステムであるCocoaについて紹介する。
Cocoaは人間とAIの取り組みを調和させ、柔軟に機関の委任を可能にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:59:42 GMT)
Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.6] トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化事前学習はバイアスやその他の望ましくないコンテンツのバックドアになり得ることを示す。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:18:52 GMT)
Damage Assessment after Natural Disasters with UAVs: Semantic Feature Extraction using Deep Learning [31.4] 本稿では、任意の機械学習下流タスクに適用可能な、新しい意味抽出器を提案する。
セマンティック抽出器をオンボードで実行することで、地上局に送信するデータを減らすことができる。
実験により,提案手法は,送信データ量を大幅に削減しつつ,異なる下流タスク間で高い精度を維持することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:56:22 GMT)
InstructPipe: Building Visual Programming Pipelines with Human Instructions Using LLMs [31.3] InstructPipeは、テキスト命令で機械学習(ML)パイプラインをプロトタイピングするAIアシスタントである。
2つの大きな言語モデル(LLM)モジュールとコードインタプリタをフレームワークの一部としてコントリビュートしています。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:04:47 GMT)
Model-driven deep neural network for enhanced direction finding with commodity 5G gNodeB [30.9] 現在の無線ネットワークは位置決め機能を実現するために純粋なモデル駆動技術に大きく依存している。
ここでは、空間スペクトルの画像回復タスクとして、方向探索または角度推定(AoA)問題を再構成する。
提案するMoD-DNNフレームワークは,有効スペクトルキャリブレーションと精度の高いAoA推定を可能にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:09:36 GMT)
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.7] Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:38:03 GMT)
Video Diffusion Transformers are In-Context Learners [30.6] 本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。
本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfi$)ビデオは,空間的,時間的次元に沿って行われる。
当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:39:55 GMT)
Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks [30.6] 大規模言語モデル(LLM)の複雑な推論能力を学習するための新しい知識蒸留法を提案する。
NesyCDはLLMの一般的な能力と専門知識を異なる方法で蒸留する。
実験の結果,NesyCDは領域内(BBH, GSM8K)および領域外(AGIEval, ARC)データセット上でのSLMの複雑な推論性能を大幅に向上させることがわかった。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:57:43 GMT)
Awakening Augmented Generation: Learning to Awaken Internal Knowledge of Large Language Models for Question Answering [30.4] 新しい知識強化フレームワークである$textbfAwakening-Augmented-Generation$(AAG)が提案されている。
コンテキストジェネレータを微調整して、シンボリックコンテキストとして機能する合成圧縮ドキュメントを作成する。
暗黙の覚醒はハイパーネットワークを用いて質問と合成文書に基づいてアダプタを生成し、それを大規模言語モデルに挿入する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:52:11 GMT)
Human-3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models [29.7] 人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。
我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に補完情報を提供するということである。
提案するフレームワークは,最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:51:44 GMT)
Stochastic $k$-Submodular Bandits with Full Bandit Feedback [29.7] オンラインの$k$-submodular最適化問題に対して,最初のサブ線形$alpha$-regretバウンダリをフルバンドフィードバックで提示する。
私たちの研究の重要な貢献は、アルゴリズムの堅牢性を分析することです。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:02:53 GMT)
Attention-driven GUI Grounding: Leveraging Pretrained Multimodal Large Language Models without Fine-Tuning [29.5] 本研究では,事前学習されたMLLMの注意パターンを利用して,追加の微調整を必要とせずにタスクを遂行する,チューニング不要な意図駆動グラウンドリング(TAG)手法を提案する。
本手法は,テキストローカライゼーションにおいて顕著な成功を収めたチューニング方式に匹敵する性能を実現する。
注意マップに基づく接地手法は,MiniCPM-Llama3-V 2.5の直接位置推定よりも有意に優れていた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:30:05 GMT)
Scaling Up Graph Propagation Computation on Large Graphs: A Local Chebyshev Approximation Approach [29.2] グラフ伝播計算は、グラフデータ解析において重要な役割を果たす。
既存の手法は、主にパワーイテレーションやプッシュ計算に依存しており、収束率の遅い課題に直面していることが多い。
本稿では,Chebyshev PageRanksを用いた電力繰り返しとプッシュ手法を高速化する,新しい強力な手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:56:02 GMT)
Zigzag Diffusion Sampling: The Path to Success Is Zigzag [28.8] 既存のテキストと画像の拡散モデルは、しばしば、挑戦的なプロンプトに対して高い画質と高いプロンプトのアライメントを維持するのに失敗する。
Z-Samplingは、誘導ギャップを利用して生成プロセス全体を通して意味情報を段階的に蓄積する新しいサンプリング手法である。
Z-Samplingは、さまざまなベンチマークデータセット、拡散モデル、パフォーマンス評価指標で生成品質を大幅に向上させることができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:42:41 GMT)
Mitigating Downstream Model Risks via Model Provenance [28.4] モデルレコードの作成を簡単にするための機械可読モデル仕様フォーマットを提案する。
私たちのソリューションは、アップストリームモデルとダウンストリームモデルの関係を明確にトレースし、透明性とトレーサビリティを向上します。
この概念実証の目的は、基礎モデルを管理するための新しい標準を設定し、イノベーションと責任あるモデル管理のギャップを埋めることである。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:05:05 GMT)
VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation [28.0] 本稿では,VinTAGeについて紹介する。VinTAGeは,テキストと動画を共同で検討し,音声生成のガイドを行うフローベーストランスフォーマーモデルである。
私たちのフレームワークは、Visual-TextとJoint VT-SiTモデルという2つの重要なコンポーネントで構成されています。
VinTAGe-Benchは、636対のビデオテキストとオーディオのデータセットで、オンスクリーンとオフスクリーンの両方の音が含まれている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:36:10 GMT)
$\textit{SKIntern}$: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models [27.1] 小言語モデル(SLM)は、高い計算要求とプライバシー上の懸念から注目を集めている。
シンボリック知識を内部化するためのSLMを実現する革新的なアプローチである$textitSKIntern$を紹介した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:50:41 GMT)
DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.8] マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:36:56 GMT)
AllWeatherNet:Unified Image Enhancement for Autonomous Driving under Adverse Weather and Lowlight-conditions [24.4] 本稿では,悪条件により劣化した視覚的品質と明度を改善する方法を提案する。
我々の手法であるAllWeather-Netは、新しい階層型アーキテクチャを用いて、すべての悪条件をまたいで画像を強化する。
再学習することなく、最大3.9%のmIoU改善を達成し、未確認領域に適用することで、モデルの一般化能力を示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:19:10 GMT)
Video Representation Learning with Joint-Embedding Predictive Architectures [23.3] 本稿では,VJ-VCR(Variance-Covariance Regularization)を用いたビデオJEPAを提案する。
本稿では,VJ-VCRの隠れ表現には,入力データに関する抽象的,高レベルな情報が含まれていることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:33:29 GMT)
Perm: A Parametric Representation for Multi-Style 3D Hair Modeling [22.8] Permは、さまざまな毛髪関連の応用を促進するために設計された人間の3D毛髪のパラメトリック表現である。
ヘアテクスチャを低周波・高周波ヘア構造に適合・分解するために,我々のストランド表現を活用している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:58:51 GMT)
Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm [22.4] Open-Set Object Detection (OSOD) と Open-Set Object (OSS) は研究者の関心を集めている。
メインストリームのOSODとOSSメソッドは一般的にテキストをプロンプトとして利用し、優れたパフォーマンスを実現している。
我々は,OSODとOSS,すなわち textbfImage Prompt Paradigm に新たなプロンプトパラダイムを提案する。
このフレームワークでは、高品質な画像プロンプトが自動的に符号化され、選択され、融合され、単一のステージおよび非インタラクティブな推論が達成される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:23:14 GMT)
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation [22.3] 拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。
安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:50:36 GMT)
Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation [21.8] EXP3RTは、ユーザとアイテムレビューに含まれるリッチな好み情報を活用するために設計された、LLMベースの新しいレコメンデータである。
詳細なステップバイステップの推論と予測された評価を生成する。
実験の結果、EXP3RTは評価予測と候補項目の双方において、トップkレコメンデーションにおいて既存の手法よりも優れていることがわかった。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:20:25 GMT)
Generating executable oracles to check conformance of client code to requirements of JDK Javadocs using LLMs [21.1] 本稿では,広く使用されているJavaライブラリ,例えば java.lang や java.util パッケージのクライアントに対するテストオーラクルの自動化に焦点を当てる。
大規模な言語モデルを、テストオラクル自動化のフレームワークに関する洞察を具現化するための技術として使用しています。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:19:41 GMT)
Hyper-Compression: Model Compression via Hyperfunction [20.5] 本稿では,遺伝子型と表現型との相同性に着想を得た,いわゆるハイパー圧縮を提案する。
LLaMA2-7Bを1時間で圧縮し、再トレーニングすることなく、近距離から近距離までの量子化性能を達成する。
我々の研究は、スケーリング法則とハードウェアアップグレードの停滞の間の調和を促進することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:52:04 GMT)
On the Cyber-Physical Security of Commercial Indoor Delivery Robot Systems [20.2] 屋内配達ロボット(IDR)は、今後第4次産業革命において重要な役割を担い、屋内環境内のアイテムを自律的にナビゲートし輸送する。
本研究は,サイバーおよび物理層攻撃面と,セキュリティ,安全性,プライバシを越えたドメイン固有の攻撃目標の両方を考慮して,IDRシステムの最初のセキュリティ解析を行うことを目的とする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:12:10 GMT)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.7] 部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:31:36 GMT)
PointCFormer: a Relation-based Progressive Feature Extraction Network for Point Cloud Completion [19.5] ポイントクラウドの完成は、不完全なポイントクラウドから完全な3D形状を再構築することを目的としている。
PointCFormerは,ロバストなグローバル保持と正確な局所的詳細キャプチャに最適化されたトランスフォーマーフレームワークである。
PointCFormerは、広く使用されているベンチマークで最先端のパフォーマンスを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:14:24 GMT)
Task Diversity in Bayesian Federated Learning: Simultaneous Processing of Classification and Regression [18.5] 本稿では,多出力ガウス過程(MOGP)を用いたマルチタスク学習の原理的統合と,グローバルレベルでのフェデレート学習を提案する。
P'o'lya-Gamma Augmentation Techniqueと平均場変動推論によって、ローカルデバイスで後部推論を行う際の課題に対処する。
合成データと実データの両方の実験結果は、予測性能、OOD検出、不確実性校正、収束率に優れていた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:10:54 GMT)
Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track [18.4] 幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。
不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:56:10 GMT)
Harnessing the Power of LLM to Support Binary Taint Analysis [18.1] LATTEは、大規模言語モデル(LLM)を利用した最初の静的バイナリ・テナント解析である。
まず、LATTEは完全に自動化されているが、以前の静的バイナリのテナントアナライザは、テナント伝搬ルールと脆弱性検査ルールを手動でカスタマイズするために、人間の専門知識に依存する必要がある。
第2に、LATTEは脆弱性検出に極めて有効であり、包括的評価によって実証された。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:47:47 GMT)
A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options [17.8] 放射線オンコロジー物理における5つの大言語モデル(LLM)の性能評価を行った。
LLMの性能は、多数投票のシナリオで医療物理学者と比較された。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:05:42 GMT)
PEARL: Input-Agnostic Prompt Enhancement with Negative Feedback Regulation for Class-Incremental Learning [17.8] クラスインクリメンタルラーニング(CIL)は,従来学習されていたクラスを忘れずに,新しいカテゴリを分類システムに継続的に導入することを目的としている。
CILでは、事前学習した知識に合わせてデータ分散を調整できるため、プロンプト学習が採用されている。
本稿では,素早い学習の観点から,既存の手法の限界を批判的に検討する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:13:30 GMT)
Preserving Multilingual Quality While Tuning Query Encoder on English Only [17.8] 二重経路検索システムのクエリエンコーダは、特定の種類のクエリやドメインに対してチューニングすることができる。
あるクエリエンコーダから別のクエリエンコーダへの切り替えは、容易に実現できます。
エンコーダの汎用的でオリジナルな品質は、狭義のドメインでチューニングされた場合、保存するか、あるいは少なくともあまり劣化しないままにしておくことができるだろうか?
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:23:33 GMT)
Disentangled Dynamic Intrusion Detection [17.2] 本研究では,様々な侵入検出シナリオを扱うために,侵入検出手法であるDIDS-MFLを提案する。
DIDS-MFLは、Double Disentanglement based Intrusion Detection System (DIDS) とMFL (Multiscale Few-shot Learning-based Intrusion Detection Module) の2つの重要なコンポーネントを含んでいる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:12:39 GMT)
PSMGD: Periodic Stochastic Multi-Gradient Descent for Fast Multi-Objective Optimization [17.1] マルチオブジェクト最適化(MOO)は多くの機械学習(ML)アプリケーションの中核にある。
我々はMOOを加速するためにPSMGD(Realic Multi-Grad Descent)を提案する。
PSMGDは、同等または優れた最先端のアルゴリズムを提供することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:47:36 GMT)
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries [16.3] 本研究では,ノイズの多い質問を認識・修正するエージェントの能力を評価するために,ノイズEQAベンチマークを導入する。
このベンチマークでは、現実のアプリケーションで見られる4つの一般的なノイズ(潜在幻覚ノイズ、メモリノイズ、知覚ノイズ、セマンティックノイズ)を紹介します。
また,ノイズ検出能力と応答品質の両方を向上・測定する「自己補正」機構と,新たな評価指標を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:52:24 GMT)
IntelEX: A LLM-driven Attack-level Threat Intelligence Extraction Framework [16.1] 一般的な実践は、非構造化サイバー脅威インテリジェンス(CTI)レポートを構造化インテリジェンスに変換することである。
これにより、検出ルールの要約や、レッドチームのエクササイズに対する攻撃シナリオのシミュレーションといった、脅威に焦点を当てたセキュリティタスクが容易になります。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:56:13 GMT)
Global Average Feature Augmentation for Robust Semantic Segmentation with Transformers [15.6] セグメンテーションのための視覚変換器のロバスト性を向上させるために,チャネルワイズ機能拡張を提案する。
CWFAは、トレーニング中に最小の計算オーバーヘッドでエンコーダ当たりの全世界的な摂動を推定する。
CWFAで強化されたSegFormer-B5は、新しい最先端の84.3%の保持率を実現し、最近発表されたFAN+STLよりも0.7%改善した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:43:24 GMT)
RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors [15.6] RATは、人間の嗜好と明確に一致した意図的なポリシーを訓練する。
RATはリプレイバッファ内の状態占有度を動的に調整し、より制御され効果的な動作操作を可能にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:56:11 GMT)
RWKV-edge: Deeply Compressed RWKV for Resource-Constrained Devices [15.1] 本稿では,RWKVアーキテクチャに適した効率的な圧縮手法を提案する。
本手法ではRWKVモデルを4.95-3.8x圧縮し,2.95ppの精度で精度を低下させる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:11:07 GMT)
Learning to Verify Summary Facts with Fine-Grained LLM Feedback [15.0] 自動要約事実検証の訓練は、人間がラベル付けしたデータの不足という課題に直面していることが多い。
本研究では,要約に関する詳細な事実フィードバックを含む大規模データセットであるFineSumFactを紹介する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:28:44 GMT)
C3: Learning Congestion Controllers with Formal Certificates [14.8] C3は、学習ループに正式な認証の概念を統合する、渋滞制御のための新しい学習フレームワークである。
C3トレーニングされたコントローラは、さまざまなネットワーク条件に対して、適応性と最悪のケースの信頼性を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:02:50 GMT)
Video Diffusion Models are Strong Video Inpainter [14.4] 本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:49:52 GMT)
CursorCore: Assist Programming through Aligning Anything [14.4] 本稿では,情報ソースの統合,データ収集,モデルのトレーニング,性能評価を行う新しい対話型フレームワークを提案する。
CursorCoreは同等のサイズの他のモデルよりも優れています。
このフレームワークは、インラインチャットや自動編集などのアプリケーションを統合することで、コーディングアシスタントの進歩に貢献している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:20:29 GMT)
Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach [14.3] 本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。
具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:06:37 GMT)
Test-time Cost-and-Quality Controllable Arbitrary-Scale Super-Resolution with Variable Fourier Components [14.3] 任意のスケールファクタとテスト時のコストと品質の制御性を備えた超解像は、様々なアプリケーションに不可欠である。
フーリエ表現を用いたリカレントニューラルネットワーク(RNN)を用いた新しいSR手法を提案する。
我々の手法は、他の最先端の任意のスケールのSR手法よりも低いPSNR低下を実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:51:33 GMT)
DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting [13.1] 我々は,時空間とチャネル次元のアンダーラインクラスタリングを導入する textbfDUET という一般的なフレームワークを提案する。
また,新しいChannel-Soft-Clustering戦略を導入し,Channel Clustering Moduleを設計する。
最後に、DUETはTCMとCCMを組み合わせることで、時間次元とチャネル次元の両方を組み込む。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:15:17 GMT)
GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation [12.9] GarmentLabは、変形可能なオブジェクトと衣料品の操作のために設計された、コンテンツリッチなベンチマークと現実的なシミュレーションである。
私たちのベンチマークには、さまざまな種類の衣料品、ロボットシステム、マニピュレータが含まれています。
これらの課題に対して、最先端のビジョン手法、強化学習、模倣学習アプローチを評価した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:51:09 GMT)
BgGPT 1.0: Extending English-centric LLMs to other languages [12.9] 本稿では,BgGPT-Gemma-2-27B-InstructとBgGPT-Gemma-2-9B-Instructについて述べる。
我々のモデルはブルガリア語のタスクにおいて強力なパフォーマンスを示し、言語固有のAIモデルの新しい標準を設定します。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:49:52 GMT)
User Personas Improve Social Sustainability by Encouraging Software Developers to Deprioritize Antisocial Features [12.4] 本研究の目的は,2つの介入ステークホルダーマップとペルソナモデルの有効性を評価することである。
79人の大学生を対象にランダム化制御因子分析実験を行った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:20:20 GMT)
APAR: Modeling Irregular Target Functions in Tabular Regression via Arithmetic-Aware Pre-Training and Adaptive-Regularized Fine-Tuning [12.4] APAR(Arithmetic-Aware Pre-training and Adaptive-Regularized Fine-tuning framework)を提案する。
事前学習フェーズでは、APARは、連続ラベルの観点から複雑なサンプル-ワイド関係をキャプチャするための算術的な事前文の目的を導入している。
微調整フェーズでは、自己学習に適したデータ拡張のために、一貫性に基づく適応正規化手法が提案されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:33:21 GMT)
Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding [12.3] 我々はtextbf-textbfImage Guided Invariant-textbfFeature-Aware 3D textbfAffordance textbfGrounding frameworkを紹介した。
複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:23:16 GMT)
SegACIL: Solving the Stability-Plasticity Dilemma in Class-Incremental Semantic Segmentation [12.3] 線形閉形式解に基づくセマンティックセグメンテーションのための連続学習手法であるSegACILを提案する。
トレーニングに複数のエポックを必要とする従来の方法とは異なり、SegACILは1つのエポックしか必要としない。
Pascal VOC2012データセットの実験によると、SegACILはシーケンシャル、不整合、重なり合う設定において優れたパフォーマンスを達成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:39:56 GMT)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.1] メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:58:44 GMT)
Serial Scammers and Attack of the Clones: How Scammers Coordinate Multiple Rug Pulls on Decentralized Exchanges [12.0] シリアル・スキャマーは数千のアドレスをデプロイし、人気のある分散取引所(DEX)で類似のRug Pullsを実行します。
私たちは最初に、最も人気のある2つのDEX、Unixwap(Ethereum)とPancakeswap(BSC)に、1日すべてのRug Pullsの背後に約384,000のアドレスのリストを構築しました。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:28:13 GMT)
BD-KD: Balancing the Divergences for Online Knowledge Distillation [11.9] 我々は、ロジットベースのオンラインKDのためのフレームワークであるBD-KD(Balanced Divergence Knowledge Distillation)を紹介する。
BD-KDは精度とモデルのキャリブレーションを同時に強化し、ポストホックリカレーション技術の必要性を排除している。
本手法は,従来のオンライン蒸留の損失を学生と教員の両方の損失に適応させることで,学生中心のトレーニングを促進する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:40:10 GMT)
StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer [11.8] StyleDiTは、StyleGANの強みと拡散モデルを統合する新しいフレームワークで、高品質で多様な親和性面を生成する。
本稿では,Trait Guidance(RTG)機構を導入し,影響条件の独立制御を可能にする。
アプリケーションを探索されていない領域に拡張し、子供の画像と1人の親のイメージを使用してパートナーの顔画像を予測する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:47:17 GMT)
MEATRD: Multimodal Anomalous Tissue Region Detection Enhanced with Spatial Transcriptomics [11.8] 組織像とSTデータを統合する新しいATR検出法MEATRDを提案する。
MEATRDは、マルチモーダル埋め込みから正常組織スポットの画像パッチと遺伝子発現プロファイルを再構築するよう訓練されている。
8つの実STデータセットの大規模な評価は、ATR検出におけるMEATRDの優れた性能を示している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:09:04 GMT)
DP-BREM: Differentially-Private and Byzantine-Robust Federated Learning with Client Momentum [11.7] フェデレートラーニング(FL)は、複数の参加するクライアントが機械学習モデルを協調的にトレーニングすることを可能にする。
既存のFLプロトコルは、データのプライバシやモデルの堅牢性を損なうような攻撃に対して脆弱である。
我々は,クロスサイロFLにおける差分プライバシ(DP)とビザンチンの堅牢性を同時に達成することに注力する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:25:00 GMT)
Diagnosing Unknown Attacks in Smart Homes Using Abductive Reasoning [11.6] 未知の攻撃を検出し診断する自動手法を提案する。
本手法は, 異常検出と未知の攻撃の検出と, それらを診断するための帰納的推論を組み合わせたものである。
スマートホームシナリオを用いて,ネットワークトラフィックの異常を検出し診断する手法を実証する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:18:29 GMT)
Audio-based Anomaly Detection in Industrial Machines Using Deep One-Class Support Vector Data Description [11.5] マイクロフォンは、広く使われているコンディションモニタリングセンサーに代わる安価な代替品を提供する。
我々は,異なるマシンタイプおよび故障状況における異常検出性能を評価する。
2のサブ空間を持つディープSVDD法は、より優れた異常検出性能を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:05:06 GMT)
ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.1] FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:28:01 GMT)
Enhancing Off-Grid One-Bit DOA Estimation with Learning-Based Sparse Bayesian Approach for Non-Uniform Sparse Array [11.0] 本稿では,単一スナップショットシナリオにおける1ビットオフグリッド方向の到着推定の課題に対処する。
1ビットデータ量子化を取り入れた1次オフグリッド近似を用いてオフグリッドDOA推定モデルを定式化する。
本稿では,学習型ニューラルネットワークアーキテクチャを利用した新しいSparse Bayesianフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:36:59 GMT)
Analysis of Corrected Graph Convolutions [11.0] 最先端の機械学習モデルは、しばしばデータに複数のグラフ畳み込みを使用する。
過度に多くのグラフ畳み込みが性能を著しく低下させることを示す。
正確な分類では、分離性閾値を最大$O(logn/logn)$修正畳み込みまで指数関数的に改善できることが示される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:02:54 GMT)
LAN: Learning to Adapt Noise for Image Denoising [10.9] 本稿では,学習可能な雑音オフセットを与えられたノイズ画像に直接付加し,与えられた入力ノイズを学習ネットワークが処理するノイズ分布に近づける,学習型適応雑音(LAN)と呼ばれる新しい雑音除去アルゴリズムを提案する。
提案手法では,ノイズが見えない画像の性能向上を図り,提案する研究方向の可能性を提示する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:46:25 GMT)
Rethinking Chain-of-Thought from the Perspective of Self-Training [10.7] 大型言語モデル(LLM)における潜在能力を活性化するための効果的なアプローチとして、チェーン・オブ・シント推論(CoT)が登場している。
本稿では,CoTと自己学習の関係について考察し,自己学習による洞察がCoTのパフォーマンスに与える影響を実証する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:12:50 GMT)
Mamba YOLO: A Simple Baseline for Object Detection with State Space Model [10.4] YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:50:47 GMT)
Chip-to-chip photonic quantum teleportation over optical fibers of 12.3km [10.3] 我々は、12.3kmの光ファイバ上のチップ・ツー・チップ・フォトニック量子テレポーテーションを実証する。
時間ビン符号化量子状態は、長いテレポーテーション距離を達成するために使用される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:35:09 GMT)
Unveiling Topological Structures in Text: A Comprehensive Survey of Topological Data Analysis Applications in NLP [10.1] トポロジカル・データ・アナリティクス(TDA)は、ノイズにもかかわらずデータの本質的な形状を識別する統計手法である。
TDAは、コンピュータビジョンのような構造的に異なる領域に比べて、自然言語処理領域内ではあまり注目を集めていない。
本研究は,これらの研究を理論的および非理論的アプローチに分類した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:50:13 GMT)
Superhuman performance of a large language model on the reasoning tasks of a physician [10.0] 医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。
我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:46:18 GMT)
A Novel Deep Learning Tractography Fiber Clustering Framework for Functionally Consistent White Matter Parcellation Using Multimodal Diffusion MRI and Functional MRI [10.0] Deep Multi-view Fiber Clustering (DMVFC) は、機能的に一貫したホワイトマター解析を可能にするために、ジョイントdMRIとfMRIデータを使用する。
DMVFCは、WMファイバの幾何学的特性と、ファイバトラクトに沿ったfMRI BOLD信号とを効果的に統合することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:06:17 GMT)
Beyond Quantile Methods: Improved Top-K Threshold Estimation for Traditional and Learned Sparse Indexes [9.7] 本稿では,最近提案されたスパース指数構造におけるしきい値推定問題について検討する。
われわれの最良の手法は、時間と空間のさらなるコストで、最先端技術と1.0の理想的MUFとのギャップを著しく狭めている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:18:19 GMT)
Deep Learning Models for Colloidal Nanocrystal Synthesis [9.5] ナノ結晶のコロイド合成は通常、複雑な化学反応と多段階結晶化プロセスを含む。
そこで我々は, 目的とするナノ結晶の最終的なサイズと形状と, 合成パラメータを相関付ける深層学習に基づくナノ結晶合成モデルを開発した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:18:59 GMT)
Hyper-Fusion Network for Semi-Automatic Segmentation of Skin Lesions [9.4] 抽出したユーザ・インプットと画像特徴を複数の段階にわたって融合させるハイパーフュージョン・ネットワーク(HFN)を導入する。
我々は、ISIC 2017、ISIC 2016、PH2データセット上でHFNを評価した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:54:42 GMT)
DSRC: Learning Density-insensitive and Semantic-aware Collaborative Representation against Corruptions [9.3] 本研究では,現実世界の環境に典型的な自然汚職の存在下での協調認識手法の堅牢性を評価するために設計された,最初の総合的なベンチマークを紹介する。
本研究では,密度に敏感でセマンティックな協調表現を学習することを目的とした,頑健な協調認識手法DSRCを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:19:30 GMT)
Vision Language Models Know Law of Conservation without Understanding More-or-Less [9.3] 保存は、量的概念の理解によって支えられると考えられる認知発達の重要なマイルストーンである。
我々は、データ集約型認知実験ベンチマークであるCogDevelop2KのConserveBenchを利用して、マシンインテリジェンスの発達軌跡を計測する。
VLMは一般に保存できるが、一般的に成功は保存する能力によって引き起こされると考えられる非変換タスクでは失敗する傾向にある。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:38:07 GMT)
Diffusion-based Method for Satellite Pattern-of-Life Identification [9.1] 本稿では,新しい拡散型衛星パタン・オブ・ライフ(PoL)識別法を提案する。
我々は時系列エンコーダを用いて衛星位置データの隠れ表現をキャプチャする。
提案手法は高い識別精度を示し,データサンプリング率の低下を伴っても堅牢な解を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:39:19 GMT)
Recursive Aggregates as Intensional Functions in Answer Set Programming: Semantics and Strong Equivalence [8.9] 我々は,clingo と dlv によって実装された集合を持つプログラムのセマンティクスが,不動関数を持つ拡張一階述語として特徴づけられることを示した。
また、古典的な一階述語論理の推論に強い同値性をチェックする作業を削減する変換を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:34:55 GMT)
Rapid Reconstruction of Extremely Accelerated Liver 4D MRI via Chained Iterative Refinement [8.9] 高品質の4D MRIでは、すべての呼吸位相をカバーする高密度k空間信号の取得には、不可分に長い走査時間が必要である。
本稿では,効率的なスパースサンプリング再構成のための連鎖反復再構成ネットワーク(CIRNet)を提案する。
CIRNetは、加速のための画像品質を最大30倍に維持し、4DMRIの負担を大幅に削減する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:43:11 GMT)
Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing [8.7] DLG-MoEは、バイリンガルおよびCSシナリオ向けに最適化された動的言語グループベースのMoEである。
このモデルは、非並列な柔軟性を持ちながら、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:25:28 GMT)
HEP-NAS: Towards Efficient Few-shot Neural Architecture Search via Hierarchical Edge Partitioning [8.5] ワンショット手法は、探索コストを削減するために重み付け戦略を採用することにより、ニューラルネットワーク探索(NAS)の分野を進歩させた。
この問題を緩和するために、エッジをエッジごとに分割することで、スーパーネット全体を個々のサブスーパーネットに分割する手法はほとんどない。
本研究では,HEP-NASという階層分割アルゴリズムを導入し,精度の向上を図る。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:42:56 GMT)
SusGen-GPT: A Data-Centric LLM for Financial NLP and Sustainability Report Generation [8.4] SusGen-30Kは7つの財務NLPタスクとESGレポート生成からなるカテゴリバランスデータセットである。
SusGen-GPTを開発した。これは6つの適応型タスクと2つのオフ・ザ・シェルフタスクにまたがって、最先端のパフォーマンスを実現する一連のモデルである。
そこで我々は,サステナビリティレポート生成を支援するために,Retrieval-Augmented Generation (RAG)と統合されたSusGenシステムを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:30:33 GMT)
RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair [8.3] そこで我々は,APRの最適なコード表現を微調整モデルで識別する新しいプログラム修復手法であるRe repairLLaMAを提案する。
これにより、AIでバグを修正するのに非常に効果的なプログラム修復アダプタが提供される。
全体として、Re repairLLaMAは144のDefects4J v2、109のHumanEval-Java、20のGitBug-Javaバグを正しく修正する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:39:12 GMT)
FinGPT: Enhancing Sentiment-Based Stock Movement Prediction with Dissemination-Aware and Context-Enriched LLMs [8.3] 本稿では、ニュース拡散幅、文脈データ、明示的な指示を組み込むことにより、感情に基づくストックムーブメント予測を強化するデータ駆動型アプローチを提案する。
提案手法は既存手法と比較して予測精度を8%向上させる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:04:42 GMT)
An Agent Framework for Real-Time Financial Information Searching with Large Language Models [8.3] FinSearchは、金融アプリケーションに特化した新しいエージェントベースの検索フレームワークである。
FinSearch は,(1) ユーザクエリをグラフ表現によって特定のデータソースにマップされた構造化サブクエリに分解する LLM ベースのマルチステップ検索プリプランナ,(2) ユーザクエリからの時間コンテキストに基づいて情報関連性を優先する時間重み付け機構,の4つのコンポーネントから構成される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:26:39 GMT)
Reliable and superior elliptic Fourier descriptor normalization and its application software ElliShape with efficient image processing [8.2] 計算効率を向上させるため,EFD計算の手順を見直した。
我々は、真のEFD正規化と呼ばれる新しいEFD正規化手法を導入した。
これらの改良に基づき,ユーザフレンドリなソフトウェアであるElliShapeを開発した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:14:05 GMT)
Inference Plans for Hybrid Particle Filtering [8.1] ランダム変数のパーティショニングを開発者が制御できるプログラミングインターフェースである推論計画を提案する。
また、開発者はアノテーションを使って推論システムが実装しなければならない推論計画を指定することができる新しいPPLであるSirenを提示する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:19:30 GMT)
ConvTimeNet: A Deep Hierarchical Fully Convolutional Model for Multivariate Time Series Analysis [8.0] ConvTimeNetは時系列解析のために設計された階層的な純粋な畳み込みモデルである。
データ駆動方式で時間依存の基本単位の局所パターンを適応的に知覚する。
大規模なカーネル機構を使用して、畳み込みブロックが深く積み重ねられるようにする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:52:06 GMT)
AdaptLIL: A Gaze-Adaptive Visualization for Ontology Mapping [7.8] 本稿では,視線を主入力源とするリアルタイム適応型リンクインデントリストオントロジーマッピングであるAdaptLILについて紹介する。
リアルタイムシステム、ディープラーニング、Web開発アプリケーションのマルチモーダルな組み合わせを通じて、このシステムは、視線のみに基づく個々のユーザのためのリンクインデントリストオントロジー可視化のペアマッピングにグラフィカルオーバーレイ(適応)を一意に調整する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:42:33 GMT)
Explainable Fuzzy Neural Network with Multi-Fidelity Reinforcement Learning for Micro-Architecture Design Space Exploration [7.8] 本稿ではファジィニューラルネットワークを用いて,設計空間探索プロセスから知識を導き,要約する。
また,安価で精度の低いデータを用いた探索を主目的とする多要素強化学習手法も導入した。
提案手法は,非常に限られたサンプル予算で優れた結果を得ることができ,現状の最先端を乗り越えることに成功した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:54:07 GMT)
Arctic-Embed 2.0: Multilingual Retrieval Without Compromise [7.5] Arctic-Embed 2.0はオープンソースのテキスト埋め込みモデルである。
多言語と英語のみのベンチマークで競争力のある検索品質を提供する。
効率的な埋め込みストレージのためのMatryoshka Representation Learning(MRL)をサポートする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:13:09 GMT)
Replay Consolidation with Label Propagation for Continual Object Detection [7.5] 継続学習は、以前獲得した知識を覚えながら、新しいデータを学ぶことを目的としている。
このシナリオでは、以前のタスクからのイメージには、将来のタスクでラベル付けされているように再現れる可能性のある未知のクラスのインスタンスが含まれる可能性がある。
本稿では,リプレイ・コンソリデーション (Replay Consolidation with Label propagation for Object Detection) と呼ばれる新しい手法による蒸留方式の代替案を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 11:21:40 GMT)
Stealthy and Robust Backdoor Attack against 3D Point Clouds through Additional Point Features [7.1] 3Dバックドア攻撃は、3Dポイントクラウド用に設計された3Dディープニューラルネットワーク(3D DNN)に重大な脅威をもたらしている。
本稿では、意図的な設計上の考慮を通じて頑丈さとステルス性を保証するSRBA(Stealthy and Robust Backdoor Attack)を紹介する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:36:04 GMT)
NeuralPLexer3: Physio-Realistic Biomolecular Complex Structure Prediction with Flow Models [6.8] 本稿では, 生体分子間相互作用における最先端の予測精度を実現するフローベース生成モデルであるNeuralPLexer3を提案する。
新たに開発されたベンチマーク戦略により、NeuralPLexer3は、構造ベースの医薬品設計に不可欠な重要な領域に優れています。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:28:45 GMT)
RapidNet: Multi-Level Dilated Convolution Based Mobile Backbone [6.4] 純粋にCNNベースのモバイルバックボーンを開発するために,マルチレベル拡張畳み込みを提案する。
実験により,提案モデルは画像分類,オブジェクト検出,インスタンス分割,セマンティックセグメンテーションの精度および/または速度の観点から,最先端(SOTA)移動型CNN,ViT,ViG,ハイブリッドアーキテクチャよりも優れていた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:39:03 GMT)
OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving [6.4] 高品質なデータセットは、効率的なデータ駆動自律運転ソリューションの開発に不可欠である。
OmniHD-Scenesは大規模なマルチモーダルデータセットであり、全方位全方位高精細データを提供する。
データセットは1501のクリップで構成され、それぞれ約30秒の長さで、合計450K以上の同期フレームと585万以上の同期センサーデータポイントで構成されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:08:40 GMT)
Structured Sampling for Robust Euclidean Distance Geometry [6.4] 本稿では,スパースアウトレーヤによる距離測定から点の位置を推定する問題に対処する。
Nystr"om法とロバストな主成分分析を用いた新しいアルゴリズムを提案する。
提案アルゴリズムは, スパース値が低い場合であっても, 控えめなアンカー数で精度の高いリカバリを実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:42:18 GMT)
Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.3] ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:03:08 GMT)
An Incremental Algorithm for Algebraic Program Analysis [6.3] インクリメンタルアルゴリズムの目標は、プログラムの変更前に計算された中間結果を活用することで解析時間を短縮することである。
提案手法を実装し,DaCapoベンチマークスイートから13のJavaアプリケーション上で評価を行った。
ベースラインAPA法と2つの最先端APA法と比較して,本手法の高速化はプログラム解析の種類によって160Xから4761Xの範囲に及んでいる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:18:32 GMT)
MABR: A Multilayer Adversarial Bias Removal Approach Without Prior Bias Knowledge [6.2] 実世界のデータに基づいてトレーニングされたモデルは、しばしば既存の社会的バイアスを反映し、悪化させる。
本稿では,従来のバイアス型知識とは独立して機能する,新たな対人訓練戦略を提案する。
本手法は,人口統計学的アノテーションを必要とせずに,社会的バイアスを効果的に低減する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:10:42 GMT)
Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration [6.1] 階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデルを提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
3つの実単語知識グラフデータセットで実施された実験では、FULORAがRLベースのベースラインより優れていることが示された。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:05:44 GMT)
Improving the Efficiency of Visually Augmented Language Models [5.9] 本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:17:48 GMT)
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.7] 安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:36:39 GMT)
Continual Learning for Behavior-based Driver Identification [5.6] 行動に基づく運転者識別は、運転者の独特の運転行動に基づいて運転者を認識する新興技術である。
ほとんどの研究は、ディープ・ラーニング・モデルを車内に展開するという現実的な課題を考慮に入れていない。
これらの課題には、限られた計算リソースの下での運用、新しいドライバへの適応、時間の経過とともにの運転行動の変化などが含まれる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:24:44 GMT)
Doubly-Bounded Queue for Constrained Online Learning: Keeping Pace with Dynamics of Both Loss and Constraint [5.5] 二重有界キューを用いた制約付きオンライン学習(COLDQ)という効率的なアルゴリズムを提案する。
我々は、新しいリアプノフドリフト解析により、COLDQが$O(Tfrac1+V_x2)$動的後悔と$O(TV_g)$ハード制約違反を達成することを証明した。
強い凸損失関数の場合、COLDQはよく知られた$O(logT)$静的後悔と一致し、$O(TV_g)$ハード制約違反を維持している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:22:49 GMT)
Do Not DeepFake Me: Privacy-Preserving Neural 3D Head Reconstruction Without Sensitive Images [5.5] 本稿では,詳細な幾何学的精度を保ちながら,繊細な顔情報への露出を避けることを目的とした,新しい2段階の顔再構成手法を提案する。
提案手法はまず, 初期幾何に非感度な後頭部画像を用い, 処理されたプライバシー除去勾配画像を用いてその形状を改良する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:09:27 GMT)
U-FaceBP: Uncertainty-aware Bayesian Ensemble Deep Learning for Face Video-based Blood Pressure Measurement [5.5] 血圧測定(BP)は、毎日の健康を評価する上で重要な役割を担っている。
リモート光胸腺撮影(r)は、カメラが捉えた顔ビデオからパルス波を抽出する。
rFaceBPを用いたBP推定には多くの不確実性があり、推定性能が制限される。
本研究では,映像を用いたBP計測において,不確実性,すなわちデータ,モデル,アンサンブルの3種類のU-BPモデルを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:51:32 GMT)
Enhancing Discoverability in Enterprise Conversational Systems with Proactive Question Suggestions [5.4] 本稿では,対話型エンタープライズAIシステムにおける質問提案を強化する枠組みを提案する。
本手法は,人口レベルでの周期的ユーザ意図分析とチャットセッションに基づく質問生成を併用する。
我々は,Adobe Experience PlatformのAIアシスタントから得られた実世界のデータを用いて,このフレームワークを評価する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:04:16 GMT)
A technical solution for the rule of law, peace, security, and evolvability of global cyberspace -- solve the three genetic defects of IP network [5.3] 本稿では,新しいネットワークアーキテクチャであるCo-governed Multi-Identifier Network (CoG-MIN)を提案する。
次世代ネットワークシステムとして、CoG-MINはユーザ認証、データ署名、暗号化などのメカニズムを統合している。
CoG-MINは、異なる識別子システムの進化と相互運用性をサポートし、IP互換を維持し、IPから徐々に移行する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:33:18 GMT)
Coding Speech through Vocal Tract Kinematics [5.1] 調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。
話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:40:28 GMT)
Unconstrained Salient and Camouflaged Object Detection [4.7] 制約なし塩分とカモフラーゲ型オブジェクト検出 (USCOD) というベンチマークを導入する。
USCODは、その存在に関係なく、制約のないシーンで、塩分とカモフラージュされた物体の同時検出をサポートする。
この課題に対処するため,USCODのベースラインモデルであるUSCNetを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:37:17 GMT)
Sample-efficient Unsupervised Policy Cloning from Ensemble Self-supervised Labeled Videos [4.7] 現在の高度な政策学習手法は、十分な情報を提供する際に専門家レベルの戦略を開発する能力を示している。
人間は、他の監督がなければ、簡単にアクセスできるインターネット動画を模倣することで、数回の試行錯誤で効率的にスキルを習得することができる。
本稿では,アンサンブル自己監督ラベル付きビデオから,この効率的な監視学習プロセスを機械に再現させようとする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:12:22 GMT)
A Pioneering Neural Network Method for Efficient and Robust Fuel Sloshing Simulation in Aircraft [4.7] 本研究では,航空機における燃料スロッシングのシミュレーションを目的とした,最初のニューラルネットワーク手法を提案する。
このモデルは、そのような複雑なシナリオで流体粒子力学を安定にモデル化できる最初のモデルでもある。
我々は、航空機の燃料表面スロッシングのための最初のデータセットであるFueltankデータセットを構築した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:31:56 GMT)
Automatically Detecting Checked-In Secrets in Android Apps: How Far Are We? [4.6] 開発者はしばしば、そのようなシークレットの適切なストレージを見落とし、プロジェクトに直接配置することを選択します。
チェックインされたシークレットがプロジェクトにチェックインされ、悪意のある敵によって簡単に抽出され、悪用される。
オープンソースプロジェクトとは異なり、ソースコードへの直接アクセスの欠如と難読化の存在は、Androidアプリのチェックインシークレット検出を複雑にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:14:25 GMT)
Labeling NIDS Rules with MITRE ATT&CK Techniques: Machine Learning vs. Large Language Models [4.4] 大規模言語モデル(LLM)は、アタック技術とルールを関連付けることで、警告説明可能性ギャップを減らすための有望な技術である。
本稿では,3つの著名なLSMが,NIDSルールをMITRE ATT&CK戦術と手法でラベル付けしながら,NIDSルールを推論する能力について検討する。
LLMは説明可能でスケーラブルで効率的な初期マッピングを提供するが、従来の機械学習(ML)モデルでは精度が一貫して向上し、高精度、リコール、F1スコアを実現している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:52:35 GMT)
Optimizing Vision-Language Interactions Through Decoder-Only Models [4.2] MUDAIFは視覚とテキストの入力をシームレスに統合する視覚言語モデルである。
効率性、柔軟性、クロスモーダルな理解が向上します。
45Mイメージテキストペアの大規模なデータセットでトレーニングされている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:04:32 GMT)
Navigating Dialectal Bias and Ethical Complexities in Levantine Arabic Hate Speech Detection [4.2] ソーシャルメディアプラットフォームはグローバルなコミュニケーションの中心となっているが、ヘイトスピーチの普及も促進している。
レバンタ語のような表現の浅い方言では、ヘイトスピーチを検出することは独特の文化的、倫理的、言語的な課題をもたらす。
本稿では,レバンティーヌ・アラビアの複雑な社会政治・言語的景観を考察し,ヘイトスピーチ検出に使用される現在のデータセットの限界について批判的に考察する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:02:46 GMT)
Composers' Evaluations of an AI Music Tool: Insights for Human-Centred Design [4.1] 本稿では,音楽作曲のためのジェネレーティブAI(GenAI)ツールの開発において,ユーザ中心設計が果たす役割について考察する。
私たちは、変化を生み出すための新しい生成モデルについての洞察を集め、信頼、透明性、倫理的デザインに関する懸念を強調しました。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:56:23 GMT)
On Effects of Steering Latent Representation for Large Language Model Unlearning [4.1] Representation Misdirection for Unlearning (RMU)は、大規模言語モデル(LLM)の学習に有効な方法である。
中間層での表現を忘れることによってトークンの信頼性が低下し,LSMが間違った応答やナンセンスな応答を発生させることを示す。
我々は、ほとんどのレイヤで非学習を効果的にする、シンプルで効果的な代替手法であるAdaptive RMUを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:08:18 GMT)
WEPO: Web Element Preference Optimization for LLM-based Web Navigation [3.9] 本稿では、WEPO(Web Element Preference Optimization)と呼ばれるWebナビゲーションタスクに対する新しいアプローチを提案する。
距離に基づく非定常Web要素を負のサンプルとしてサンプリングし、直接選好最適化(DPO)における最大極大目標を最適化することにより、教師なしの選好学習を利用する。
その結果,WebAgentよりも13.8%,ビジュアル言語モデルであるCogAgentよりも5.3%向上した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:25:28 GMT)
DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.9] 医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。
本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:53:36 GMT)
Kernel Stochastic Configuration Networks for Nonlinear Regression [3.9] 本稿では,コンフィグレーションネットワーク(SCN)のカーネルバージョンについて述べる。
モデルの表現学習能力と性能安定性を高めることを目的としている。
再構成空間におけるデータ分布は回帰解法に好適であることが示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:32:58 GMT)
FlowDock: Geometric Flow Matching for Generative Protein-Ligand Docking and Affinity Prediction [3.8] FlowDockは条件付きフローマッチングに基づく深部幾何学的生成モデルである。
任意の数の結合のために、無有界(アポ)構造をそれらの有界(ホロ)構造にマッピングする。
FlowDockは、予測された構造的信頼度スコアと、生成したタンパク質-リガンド複合体構造とのアフィニティ値を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:54:37 GMT)
Multi-SpaCE: Multi-Objective Subsequence-based Sparse Counterfactual Explanations for Multivariate Time Series Classification [3.8] マルチSpaCEは、時系列データの近接性、疎性、可視性、整合性をバランスさせる。
常に完全な妥当性を達成し、既存の方法と比較して優れたパフォーマンスを提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:21:44 GMT)
Know Unreported Roadway Incidents in Real-time: A Deep Learning Framework for Early Traffic Anomaly Detection [3.7] 本稿では,事前のドメイン知識とモデル設計戦略を活用したディープラーニングフレームワークを提案する。
我々は、インシデントの早期検出・予測をターゲットとしたモデルを特別に設計する。
従来のAID研究とは異なり、我々は広く利用可能なデータを使用し、メソッドのスケーラビリティを向上させる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:49:29 GMT)
Linked Adapters: Linking Past and Future to Present for Effective Continual Learning [3.7] 継続的な学習により、システムは、以前のタスクから得た知識を維持しながら、新しいタスクを学習し、適応することができる。
ディープラーニングモデルは、新しいタスクを学習しながら、以前のタスクから学んだ知識を破滅的に忘れてしまう。
本稿では,他のタスク固有のアダプタに重み付けされた注意機構を通じて知識を伝達する手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:25:17 GMT)
Mask Enhanced Deeply Supervised Prostate Cancer Detection on B-mode Micro-Ultrasound [3.7] 前立腺がんは、男性の間でがんによる死亡の主な原因である。
近年の高周波マイクロ超音波イメージングは,従来の超音波よりも高分解能である。
前立腺癌の特徴はいまだ微妙であり、正常な組織とのあいまいな境界と外観の大きな変化がある。
我々は,Bモードマイクロ超音波画像上で臨床上重要な前立腺癌を自動的に検出し,セグメント化するための新しいアプローチを提示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:40:53 GMT)
Retrofitting Large Language Models with Dynamic Tokenization [3.6] 動的トークン化による現在の言語モデルの再適合を提案する。
バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。
動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:43:54 GMT)
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos [3.6] EgoSonicsは、サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり、同期されたオーディオトラックを生成する方法である。
サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:15:40 GMT)
WaveGNN: Modeling Irregular Multivariate Time Series for Accurate Predictions [3.5] 実世界の時系列は、しばしば不整合タイムスタンプ、欠落したエントリ、可変サンプリングレートなどの不規則性を示す。
既存のアプローチは、しばしばバイアスを生じさせる計算に頼っている。
本稿では,不規則にサンプリングされた時系列データを埋め込んで正確な予測を行う新しいフレームワークWaveGNNを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:03:44 GMT)
Combining Priors with Experience: Confidence Calibration Based on Binomial Process Modeling [3.5] 既存の信頼性校正法は主に統計手法を用いてデータから校正曲線を推定する。
推定キャリブレーション曲線を利用して真のキャリブレーション誤差(TCE)を推定する新しいキャリブレーション計量(TCE_bpm$)を設計する。
実世界およびシミュレーションデータにおいて,キャリブレーション手法と測定値の有効性を検証した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:04:05 GMT)
Communication-Efficient Federated Learning via Clipped Uniform Quantization [3.4] 本稿では,一様量子化によるフェデレーション学習におけるコミュニケーション効率向上のための新しい手法を提案する。
最適なクリッピングしきい値とクライアント固有の適応量子化方式を利用することで、クライアントとサーバ間のモデル重み伝達の帯域幅とメモリ要求を著しく削減する。
連合平均化とは対照的に、この設計では、クライアント固有のデータボリュームをサーバに開示する必要がなくなるため、クライアントのプライバシが向上する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:43:24 GMT)
Quantifying Extreme Opinions on Reddit Amidst the 2023 Israeli-Palestinian Conflict [3.2] 本研究では,2023年のイスラエル・パレスチナ紛争におけるソーシャルメディアに対する極端な意見の動態について考察する。
極端意見」を測定するための辞書に基づく教師なし方法論が開発された
この分析は、重要な実生活イベントに対応する過激主義のスコアにおいて重要なピークを特定する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:52:28 GMT)
BlockDoor: Blocking Backdoor Based Watermarks in Deep Neural Networks [3.2] BlockDoorは、トレーニングされたニューラルネットワークに透かしをバックドアとして埋め込む手段として、文学で使用される3種類のトリガーサンプルをすべてブロックするラッパーである。
Triggerの透かし検証の精度を最大98%まで下げることができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:38:01 GMT)
Predicting Survival of Hemodialysis Patients using Federated Learning [3.0] 腎臓移植のドナーリストに載っている血液透析患者は誤診され、待ち時間が遅れる可能性がある。
本稿では,インド最大の透析センターであるNephroPlusの透析患者データに対するフェデレートラーニングの性能について検討する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:10:44 GMT)
Detecting Activities of Daily Living in Egocentric Video to Contextualize Hand Use at Home in Outpatient Neurorehabilitation Settings [2.9] 本研究では, 現実のリハビリテーション環境において, 日常生活活動(ADL)を効果的に認識することが可能であることを示す。
健常者16名を対象に,エゴセントリックな映像を2261分収録した複雑なデータセットを用いて実験を行った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:38:27 GMT)
How to Re-enable PDE Loss for Physical Systems Modeling Under Partial Observation [2.9] RPLPO(Re-enable PDE Loss)と呼ばれる新しいフレームワークを提案する。
RPLPOは学習可能な高解像度状態を再構築するための符号化モジュールと、将来の状態を予測するための遷移モジュールを組み合わせる。
各種物理系で実験を行い,RPLPOが疎外,不規則,ノイズ,PDEが不正確であっても,一般化において顕著に改善されていることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:49:20 GMT)
Enhancing Event Extraction from Short Stories through Contextualized Prompts [2.8] 本稿では,実際の出来事に注釈を付けた1000編の短編集集「textttVrittanta-EN」について述べる。
我々の目的は、短い物語の文脈における出来事の複雑な考えを明らかにすることである。
本報告では,テクスタイスに分類したイベント参照とそのカテゴリのアノテートに関する新しいガイドラインについて述べる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:28:52 GMT)
MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance [2.5] MAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を導入する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
我々のユニバーサルエンコーダ・デコーダ事前訓練アプローチは、画像自己回帰、深さ推定、画像分割を含む複数のタスクを統合し、様々な視覚的タスクにおけるモデルの適応性と堅牢性を向上させる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:58:24 GMT)
ANaGRAM: A Natural Gradient Relative to Adapted Model for efficient PINNs learning [2.3] 物理情報ニューラルネットワーク(PINN)はPDE駆動システムの解法として強い関心を集めている。
本稿では,PINNの高速化とトレーニングの精度向上に寄与する自然な勾配法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:38:09 GMT)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3] 本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:04:18 GMT)
Deep Learning-Based Noninvasive Screening of Type 2 Diabetes with Chest X-ray Images and Electronic Health Records [2.3] 本研究は,胸部X線画像と他の非侵襲的データソース,例えば電子健康記録(EHR)や心電図信号の統合をT2DM検出のために評価した。
エンドツーエンドのResNet-LSTMモデルのAUROCは0.86で、CXRのみのベースラインをわずか9863のトレーニングサンプルで2.3%上回った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:18:16 GMT)
Improving Graph Neural Networks via Adversarial Robustness Evaluation [2.2] グラフニューラルネットワーク(GNN)は、ニューラルネットワークアーキテクチャの最も強力なタイプの1つである。
しかし、GNNはグラフ構造のノイズに弱い。
本稿では,雑音の影響を受けない少数のロバストノードを選択するために,対向ロバストネス評価法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:47:20 GMT)
MorphiNet: A Graph Subdivision Network for Adaptive Bi-ventricle Surface Reconstruction [2.1] 本研究は,高分解能CT画像を活用することで,心臓モデル再構築を促進する新しいネットワークであるMorphiNetを紹介する。
MorphiNetは、解剖学的構造を勾配場としてエンコードし、テンプレートメッシュを患者固有のジオメトリに変換する。
提案手法は, 約40%高いDiceスコア, ハースドルフ距離の半分, 平均表面誤差3mmの高解剖率を実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 22:29:22 GMT)
THOR2: Topological Analysis for 3D Shape and Color-Based Human-Inspired Object Recognition in Unseen Environments [2.0] 本研究では,RGB-D画像から生成された点群に対する3次元形状と色に基づく記述子TOPS2と,それに付随する認識フレームワークTHOR2を提案する。
TOPS2ディスクリプタは、TOPSディスクリプタから3D形状のスライシングに基づくトポロジカル表現を保持することにより、人間の認知機構であるオブジェクト単位を具現化する。
合成データを用いてトレーニングされたTHOR2は、3D形状をベースとしたTHORに比べて認識精度が著しく向上した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:24:00 GMT)
A Diagrammatic Approach to Improve Computational Efficiency in Group Equivariant Neural Networks [2.0] 群同変ニューラルネットワークは、データが基礎となる対称性を知っているアプリケーションでよく一般化する能力のために、重要性が増している。
近年,高次テンソルパワー空間を層として用いたネットワークのクラスの特徴化は,それらに有意なポテンシャルがあることを示唆している。
これらのネットワーク内のテンソルパワー層間を4つのグループでマッピングする任意の同変重み行列に対する高速行列乗算アルゴリズムを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:08:06 GMT)
Streamlining Systematic Reviews: A Novel Application of Large Language Models [1.9] 体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
そこで本研究では,大言語モデル(LLM)をベースとした社内システムを提案し,その性能評価を行った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:08:34 GMT)
Movie Recommendation using Web Crawling [1.8] 本稿では,HTMLスクレイピング技術とAPIを用いた人気映画サイトからのリアルタイムデータの統合について検討する。
また、静的なKaggleデータセットでトレーニングされたレコメンデーションシステムも組み込まれており、提案の妥当性と鮮度が向上している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:56:46 GMT)
CATALOG: A Camera Trap Language-guided Contrastive Learning Model [1.8] これらの問題に対処するために,カメラトラップ言語誘導コントラスト学習(CATALOG)モデルを提案する。
提案手法は,複数のFMを組み合わせて,カメラトラップデータから視覚的特徴とテキスト的特徴を抽出し,対照的な損失関数を用いてモデルを訓練する。
CATALOGを2つのベンチマークデータセット上で評価し、カメラトラップ画像認識における従来の最先端手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:06:37 GMT)
A Visual-inertial Localization Algorithm using Opportunistic Visual Beacons and Dead-Reckoning for GNSS-Denied Large-scale Applications [1.7] 拡張現実(AR)により、歩行者はリアルタイムで視覚情報を取得することができる。
低コストな視覚慣性位置決めソリューションを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:36:15 GMT)
SegHeD+: Segmentation of Heterogeneous Data for Multiple Sclerosis Lesions with Anatomical Constraints and Lesion-aware Augmentation [1.6] 複数のデータセットやタスクを扱える新しいセグメンテーションモデルであるSegHeD+を紹介します。
分割モデルに経時的,解剖学的,体積的制約を組み込むことにより,MS病変に関するドメイン知識を統合する。
SegHeD+は5つのMSデータセットで評価され、すべての、新しい、消滅する病変のセグメンテーションにおいて優れたパフォーマンスを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:44:25 GMT)
Robust Recognition of Persian Isolated Digits in Speech using Deep Neural Network [1.6] 既存のニューラルネットワーク手法はノイズの影響を無視することが多く、ノイズの多い環境では精度が低下する。
この研究は、孤立したペルシャ数字(ゼロから9)の認識に挑戦する。
提案手法は,ペルシャ数認識のためのハイブリッド構造において,残差畳み込みニューラルネットワークと双方向リカレントユニットを組み合わせたものである。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:11:42 GMT)
Neural Network Meta Classifier: Improving the Reliability of Anomaly Segmentation [1.5] オープンセット環境では、意味不明なオブジェクトや異常に遭遇することができる。
異常セグメンテーションへの1つの可能なアプローチはエントロピーであり、メタ分類と呼ばれるロジスティック回帰に基づく後処理ステップとペアリングされる。
本稿では,ロジスティック回帰メタ分類器を,より表現力のある完全連結ニューラルネットワークに置き換えることを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:29:44 GMT)
Linear Programming based Approximation to Individually Fair k-Clustering with Outliers [1.4] 我々は、外れ値を含むデータセットに対して、個別に公平な$k$-meansクラスタリングアルゴリズムを開発する。
アウトリーでない各点に対して、与えられた点の最も近い近傍に$fracnk$の中心が存在する必要がある。
我々は,本手法が正半径とクラスタリングコストの保証された近似につながることを理論的に保証する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:16:46 GMT)
Sentiment and Hashtag-aware Attentive Deep Neural Network for Multimodal Post Popularity Prediction [1.4] ソーシャルメディア利用者は、幅広いテーマについて意見を表明し、ソーシャルメディアプラットフォームへの投稿を通じて自身の経験を共有する。
マルチAlposT pOpularity pRedictionのためのセグティメントとhAshtag対応の注意深いneuRal netwoRkを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:18:23 GMT)
Ares: Approximate Representations via Efficient Sparsification -- A Stateless Approach through Polynomial Homomorphism [1.4] 我々は,制約表現を利用して,コンパクトで解釈可能なスケーラブルなデータ圧縮を実現するステートレス圧縮フレームワークを導入する。
提案手法は, 簡易性とスケーラビリティを保ちながら, 再構成精度を損なうことなく高い圧縮比を実現する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:05:43 GMT)
Biological and Radiological Dictionary of Radiomics Features: Addressing Understandable AI Issues in Personalized Prostate Cancer; Dictionary version PM1.0 [1.2] 本研究では,PI-RADSの視覚的意味的特徴と関連する危険因子との関連について検討した。
生物学的・放射線学的放射線学的特徴の標準化された辞書(RF)を作成した。
平均精度は0.78で、単列法よりも優れていた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:55:31 GMT)
Duality defect in a deformed transverse-field Ising model [1.1] 準保存量構築におけるトポロジカル欠陥の役割について検討する。
半鎖クラマース・ワニエ変換、イジング融合圏における技術利用、欠陥修正弱積分性破壊の3つの方法により、双対性欠陥ハミルトニアンを構成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:27:58 GMT)
USM: Unbiased Survey Modeling for Limiting Negative User Experiences in Recommendation Systems [1.1] ネガティブなフィードバックシグナルは、コンテンツのレコメンデーションを守り、ユーザーエクスペリエンスを改善するために重要です。
ユーザがネガティブなフィードバックを表現できるオプションが限られているため、これらの信号はポジティブな信号に比べて疎いことが多い。
肯定的な信号に対する過度な信頼はフィルターバブルを生じさせ、ユーザーはすぐに好みに合うコンテンツに継続的に露出するが、長期的には有益ではないかもしれない。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:22:09 GMT)
Multistep Brent Oil Price Forecasting with a Multi-Aspect Meta-heuristic Optimization and Ensemble Deep Learning Model [1.0] 時系列予測のために,メタヒューリスティック最適化と5つの広く使用されているニューラルネットワークアーキテクチャのアンサンブルを統合するハイブリッドアプローチを提案する。
我々は,GWOメタヒューリスティック・オプティマイザを特徴選択,データ準備,モデルトレーニング,予測ブレンディングの4段階で活用する。
提案手法は実世界のブレント原油価格データを用いて3日前日を予測し, 提案手法が様々なベンチマークを用いて測定した予測性能を改善し, MSEの0.000127を達成していることを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:53:46 GMT)
Thinking with Knowledge Graphs: Enhancing LLM Reasoning Through Structured Data [0.9] 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
近年の研究では、知識グラフ(KG)を活用してLLM性能を向上させるという有望な成果が示されている。
我々は、KG構造と意味論をLLM表現に密に統合する様々な手法を開発した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:51:47 GMT)
ALPACA -- Adaptive Learning Pipeline for Comprehensive AI [0.9] ALPACAは、多様なユーザグループのニーズに対処する包括的なAIパイプラインを提供する。
ビジュアルとコードベースの開発を統合し、AIパイプラインのすべての重要なフェーズを促進する。
このアプリケーションは、類似性認識のためのAndroidアプリによって実証されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:10:18 GMT)
Multi-Class and Multi-Task Strategies for Neural Directed Link Prediction [0.9] Undirected と Directed Link Prediction の間には重要な違いがある。
Directed Link Predictionには3つのサブタスクがあり、それぞれがトレーニング、検証、テストセットの構造化方法によって定義される。
3つのタスクを同時に扱う3つの戦略を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:55:16 GMT)
DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.9] 有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:30:27 GMT)
TinySubNets: An efficient and low capacity continual learning strategy [0.8] 連続学習(CL)は、最近の機械学習研究で注目を集めている非常に関連性の高い環境である。
TinySubNets (TSN) は、異なる空間レベルのプルーニング、適応量子化、およびウェイトシェアリングのユニークな組み合わせによってこの問題に対処する新しいアーキテクチャCL戦略である。
提案手法は,既存の最先端CL戦略よりも精度の高い結果が得られる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:43:38 GMT)
Enhancement of text recognition for hanja handwritten documents of Ancient Korea [0.8] 我々は,古典的手書き文書に対して,高性能な光学文字認識モデルを実装した。
判者手書き文書の認識は有意義で特別な課題である。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:29:07 GMT)
Generative AI: A Pix2pix-GAN-Based Machine Learning Approach for Robust and Efficient Lung Segmentation [0.8] 本研究では, Pix2pix Generative Adversarial Network (GAN) を用いて, CXR画像から肺の異常を抽出する深層学習フレームワークを開発した。
フレームワークの画像処理と拡張技術は、U-Netにインスパイアされたジェネレータ-ディスクリミネータアーキテクチャに適切に組み込まれている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:12:09 GMT)
RegMixMatch: Optimizing Mixup Utilization in Semi-Supervised Learning [0.7] 半教師付きRegMixupは、さまざまなSSLベンチマークで最先端のパフォーマンスを達成する。
我々は,トップ2の予測クラスから低信頼度サンプルとその人工ラベルに情報を統合する,クラス認識ミックスアップ技術を開発した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:22:49 GMT)
Do large language vision models understand 3D shapes? [0.7] 大規模視覚言語モデル(LVLM)は、世界の一般的な視覚的理解を達成するための主要なA.Iアプローチである。
この研究は、LVLMが3次元形状を真に理解しているかどうかを、モデルが全く同じ3次元形状の物体を識別しマッチングする能力をテストすることで検証する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:35:27 GMT)
Energy-Efficient Sampling Using Stochastic Magnetic Tunnel Junctions [0.7] 室温磁気トンネル接合装置を用いた一様Float16サンプリングのためのエネルギー効率アルゴリズムを提案する。
任意の分布を多くの重複しない近似的一様分布に分解し、畳み込みや事前様相演算を行う。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 23:24:28 GMT)
IoT-Enabled Smart Car Parking System through Integrated Sensors and Mobile Applications [0.7] 本稿では,モノのインターネット(IoT)を利用したスマートカー駐車システムを提案する。
駐車場では赤外線センサー、DHT22センサー、MQ-2ガスセンサー、サーボモーターが使用されている。
OLEDディスプレイは、リアルタイムで駐車スロットの状態を表示する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 09:54:48 GMT)
Pretrained Event Classification Model for High Energy Physics Analysis [0.7] グラフニューラルネットワークアーキテクチャ上に構築された高エネルギー物理におけるイベント分類の基礎モデルを提案する。
12個の物理過程にまたがる1億2000万個の陽子-陽子衝突現象を訓練した。
このモデルは、挑戦的なマルチクラスおよびマルチラベル分類タスクを用いて、衝突データの汎用的で堅牢な表現を学ぶために事前訓練されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:45:07 GMT)
MedG-KRP: Medical Graph Knowledge Representation Probing [0.6] 大規模言語モデル(LLM)は、最近、強力なツールとして登場し、多くの医学的応用を見つけている。
LLMの生物医学的推論能力を評価するための知識グラフ(KG)に基づく手法を提案する。
GPT-4, Llama3-70b, PalmyraMed-70bは, 特殊な医療モデルである。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 22:23:20 GMT)
ProtoS-ViT: Visual foundation models for sparse self-explainable classifications [0.6] プロトタイプネットワークは、概念の線形和に基づいて本質的に説明可能なモデルを構築することを目的としている。
この研究はまず、現在の原型ネットワークにおける欠点を識別できる量的および質的なメトリクスの広範なセットを提案する。
その後、コンパクトな説明を提供する新しいアーキテクチャを導入し、説明品質の観点から現在の原型モデルより優れている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:38:30 GMT)
Hidden Echoes Survive Training in Audio To Audio Generative Instrument Models [0.6] トレーニングデータに知覚不可能なエコーが隠されている場合、様々なオーディオ・オーディオアーキテクチャーがこれらのエコーを出力に再現することを示す。
我々は、エコーが微調整されたモデルに変化し、混合/脱混合に耐え、訓練中にピッチシフト増強に耐えることを示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:36:45 GMT)
Large Language Models for Medical Forecasting -- Foresight 2 [0.6] Foresight 2 (FS2) は、患者のスケジュールをモデル化するための病院データに基づいて微調整された大きな言語モデルである。
患者の臨床ノートを理解し、幅広いバイオメディカル・ユースケースのSNOMEDコードを予測する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:45:28 GMT)
Parametrically-controlled microwave-photonic interface for the fluxonium [0.6] マイクロ波誘起パラメトリック変換によるフラキソニウムと走行光子との対面方式を実験的に実証した。
実演方式のシンプルさと柔軟性により,フラキソニウムをベースとしたリモートエンタングルメントアーキテクチャが実現される。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:11:00 GMT)
A simple quantum simulation algorithm with near-optimal precision scaling [0.5] 量子シミュレーションは量子コンピュータの基礎的な応用である。
既存のシミュレーション技術は、初期のフォールトトレラント量子ハードウェアに実装するには複雑すぎる。
本稿では,量子ハミルトン力学シミュレーションアルゴリズムを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:04:35 GMT)
An Optical Interconnect for Modular Quantum Computers [0.4] 量子コンピュータのスケールアップには 光学的相互接続が必要です
グループスイッチが計算終端ノードから出力される光子をルーティングする多群構造を提案する。
試作3ノードスイッチング配線を実装し,少なくとも0.6の忠実度を持つ2ホップ絡みを発生させる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:22:23 GMT)
Detection states of ions in a Paul trap via conventional and quantum machine learning algorithms [0.3] トラップイオンは量子技術の主要なプラットフォームの一つである。
我々は、高感度カメラで得られた画像を用いて、イオン量子状態検出のための一連の方法を開発し、ベンチマークする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:04:30 GMT)
Fermi Velocity Dependent Critical Current in Ballistic Bilayer Graphene Josephson Junctions [0.3] 放射化グラフェングラフェンジョセフソン接合(BGJJs)の輸送測定を行う。
各種温度のバイアス電流とゲート電圧の関数として, ディファレンシャル抵抗を測定した。
BGJJのキャリア密度依存性は、グラフェンベースのジョセフソンジャンクションデバイスにおける追加のチューニングパラメータを可能にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:58:01 GMT)
Decoding Decoded: Understanding Hyperparameter Effects in Open-Ended Text Generation [0.2] 生成型大規模言語モデル(LLM)の復号戦略は、テキスト生成タスクにおいて、重要ではあるがしばしば未発見の側面である。
本研究では,復号化手法,オープンソースLCM,テキストドメイン,評価プロトコルの大規模評価を行う。
我々の実験には、事実的(ニュースなど)と創造的(フィクションなど)の両方が含まれており、人間の判断とともに、幅広い自動評価指標が組み込まれている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:02:28 GMT)
Upstream flow geometries can be uniquely learnt from single-point turbulence signatures [0.2] 時系列データから導出した不変量のベクトルに基づいてランダムな森林多クラス分類器モデルを訓練する。
興味深いことに、アルゴリズムはオリフィス形状を100%精度と100%精度で識別することができた。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:55:34 GMT)
Transfer Learning with Active Sampling for Rapid Training and Calibration in BCI-P300 Across Health States and Multi-centre Data [0.1] 機械学習とディープラーニングの進歩により、Brain-Computer Interface(BCI)のパフォーマンスが向上した。
個々の健康、ハードウェアのバリエーション、そしてニューラルデータに影響を与える文化的差異などの要因により、適用範囲は限られている。
適応的な伝達学習を備えた畳み込みニューラルネットワークを用いたBCIにおけるP300波の検出を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:20:21 GMT)
Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma [0.1] ライセンスプレート認識(LPR)は、カメラとコンピュータビジョンを利用して車両のナンバープレートを読む自動システムである。
既存のLPR法は、特に歪んだ画像に対して、大きな改善を必要としている。
我々は,OpenAI GPT4o, Google Gemini 1.5, Google PaliGemma (Pathways Language and Image Model + Gemma model), Meta Llama 3.2, Anthropic Claude 3.5 Sonnet, LLaVA, NVIDIA VILA, moondream2 などの視覚言語モデル(VLM)を活用して,近い文字を持つ不明瞭なプレートを認識することを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:22:10 GMT)
Level attraction from interference in two-tone driving [0.1] 我々は、コヒーレント結合と散逸結合の物理学が理論的にどのように解析されるかを示す。
レベルアトラクションの観測は、測定装置による干渉に起因するものであり、散逸結合ではないと推定する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:50:13 GMT)
Weak Form of Differential Equations and Differential Identities [0.0] シュル「オーディンガー方程式」は古典的オイラー・ラグランジュ方程式の弱式であることを示す。
量子力学に触発され、微分方程式の解の弱い形式を導入する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:32:33 GMT)
Virtual Trial Room with Computer Vision and Machine Learning [0.0] 顧客は、適合性と適合性に関する確実性がないため、しばしばウェアラブル製品を購入することをためらう。
Virtual Trial Room with Computer Vision and Machine Learningと呼ばれるプラットフォームは、顧客がプロダクトが適合するかどうかを簡単にチェックできるように設計されている。
DECAモデルを用いて1枚の2次元画像から、人間の頭部のAI生成3次元モデルを作成する。
この3Dモデルは、実世界の計測に基づいて人間の頭の上に装着された、カスタムメイドのガラスの3Dモデルで重畳された。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:50:10 GMT)
Unsupervised Learning Approach to Anomaly Detection in Gravitational Wave Data [0.0] 本稿では,変分オートエンコーダ(VAE)を用いた教師なし異常検出手法を提案し,重力波(GW)データを解析する。
VAEはGW信号などの異常信号の再構成に失敗しながらノイズ入力を正確に再構成する。
この研究は、VAEをGWデータ中の異常を識別するための堅牢で教師なしのアプローチとして紹介し、物理学における既知の新しい現象を検知するためのスケーラブルなフレームワークを提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:12:09 GMT)
Uncovering Temporal Patterns in Visualizations of High-Dimensional Data [0.0] このようなデータを探索するための重要なアプローチは次元の減少であり、視覚的な探索を可能にするために2次元に高次元データを埋め込む。
本稿では,2つの時間的損失項を組み込んだ既存の次元減少手法の形式的拡張を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:35:23 GMT)
Tripartite entanglement of qudits [0.0] クイディットのトリパルタイト絡みの詳細な研究について述べる。
分解定理は複素クラスに対する不変量の計算を可能にすることを示す。
我々は、高スピン四重項に対する構築クラスの多くの例で結論付けている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:55:41 GMT)
The geometry of simplicial distributions on suspension scenarios [0.0] 単純分布の幾何学的構造は、量子情報理論の応用のための資源と見なすことができる。
測定空間にコーン構造を適用することで、対応する非シグナリングポリトープが元のポリトープの$m$コピーの結合と等しいことを示す。
円錐測定空間上の単純分布に対する分解は、懸濁測定空間上の単純分布の幾何学に関する深い洞察を与える。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:47:53 GMT)
The Wehrl-type entropy conjecture for symmetric $SU(N)$ coherent states: cases of equality [0.0] 対称$SU(N)$表現に対して、対応するWehrl型エントロピーはコヒーレント状態によって最小化されることを示す。
また、正則状態の濃度が唯一の最小値であることへの応用も提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:33:08 GMT)
Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning [0.0] 本研究は、タイ語の文脈における常識推論能力を評価するために設計された新しいデータセットである、タイ語におけるウィノグラードのコレクションを紹介する。
我々は,このベンチマークで人気の高い大規模言語モデルの性能を評価し,その強み,限界を明らかにし,現在の最先端技術に対する洞察を提供する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:45:28 GMT)
Synthesis of Binary-Input Multi-Valued Output Optical Cascades for Reversible and Quantum Technologies [0.0] 本稿では,Sasao と Saraivanov の群論に基づく手法から分解を拡張し,2値入力型多値出力量子カスケードを設計する。
本手法は,3,5,7値の出力に対して提案するが,一般には奇素値の出力に対して用いることができる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 03:51:51 GMT)
Stochastic Fluctuations and Brownian Motion Detection of Gravitons [0.0] ブラウン運動実験を再現してグラビトンを検出する手法を提案する。
重力子に対するボース=アインシュタインの占有数$N_g$は、物理系の重力ランダム変動の粒子成分となるのに十分大きい。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:10:58 GMT)
Spectral properties of Levy Rosenzweig-Porter model via supersymmetric approach [0.0] rho(E)$はエルゴディックとフラクタル相の遷移を通してシステムを駆動する制御パラメータに大きく依存することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:44:12 GMT)
Security Engineering in IIIf, Part II -- Refinement and Noninterference [0.0] 低レベルへの情報フローの欠如という意味では、絶対的安全を表す非干渉の概念に対処する。
我々は、Morgan [33] が逐次プログラム仕様の精細化計算に与えたこの問題に対する解を用いている。
問題、概念、解決策を説明するための実行中の例として、Flightradarシステム仕様の例を使用します。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:06:27 GMT)
Scientific Realism vs. Anti-Realism: Toward a Common Ground [0.0] 科学的リアリズムと反現実主義の議論は、和解が望ましくないまま停滞している。
双方の課題に対処する共通基盤を提案します。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:08:38 GMT)
Qubit Optimized Quantum Implementation of SLIM [0.0] 我々は,32ビット平文と80ビット鍵に最適化された軽量ブロック暗号SLIMの量子実装を提案する。
この研究は、SLIMが量子抵抗暗号プロトコルのリソース効率が高くセキュアな候補としての可能性を強調している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:52:36 GMT)
Quantum Null Geometry and Gravity [0.0] ヌル超曲面上の重力の量子化は、それぞれのヌル線に付随するCFTの出現につながる。
CFTは非ゼロ中心電荷を示し、重力系における時間の量子発生のメカニズムを提供する。
集中電荷は、無限個のヌル発生器により摂動解析において分岐することを示す。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:27:22 GMT)
Pop-out vs. Glue: A Study on the pre-attentive and focused attention stages in Visual Search tasks [0.0] この研究は、TreismanのFeature Integration Theoryに基づく。
本実験では,垂直方向の斜め線と斜め方向の斜め線とがどの程度容易かを検討した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:31:27 GMT)
Point Cloud to Mesh Reconstruction: A Focus on Key Learning-Based Paradigms [0.0] 点雲からメッシュを再構築することは、ロボット工学、自律システム、医療画像などの分野において重要な課題である。
本研究では,メッシュ再構築における最先端の学習手法について検討する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:39:43 GMT)
Phonon-induced modification of polaritonic Rabi oscillations in the presence of the dark excitonic condensate [0.0] 暗黒励起凝縮物の検出法を提案する。
励起子とフォノンの間の相互作用は、明るい励起子と暗い励起子の間の相互変換に関係している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:06:14 GMT)
Optimizing Few-Step Sampler for Diffusion Probabilistic Model [0.0] 拡散確率モデル(DPM)は、高品質で多様な画像を生成する優れた能力を示している。
しかし、それらの実践的応用は、推論中の計算コストの集中によって妨げられる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 10:47:52 GMT)
One Pixel is All I Need [0.0] 視覚変換器(ViT)は様々な視覚的タスクにおいて記録破りのパフォーマンスを達成した。
バックドア攻撃は、特定のトリガーとターゲットラベルを関連付けることを含み、トリガーが存在するときにモデルが攻撃者特定ラベルを予測する。
その結果, 準トリガー(トレーニングトリガーと異なるが, 元々のトレーニングトリガーと似ている)に対して, CNNと比較して, ViTsは高い攻撃成功率を示すことがわかった。
クリーンサンプルのバックドア機能は、元のトリガーを抑えることができ、準トリガーをより効果的にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 05:01:46 GMT)
Local fermion-to-qudit mappings [0.0] 我々は、フェルミオン格子系をシミュレートするための局所フェルミオン-クォーディットマッピングの集合を提案する。
これらのマッピングは、2量子ゲートの観点でより効率的な量子シミュレーションを可能にする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 12:09:01 GMT)
LLMs-in-the-Loop Part 2: Expert Small AI Models for Anonymization and De-identification of PHI Across Multiple Languages [0.0] 本稿では、LLM-in-the-loop法を用いて開発された専門的な小型AIモデルを紹介し、ドメイン固有非識別NERモデルの需要を満たす。
NERモデルは8言語で開発され、それぞれ0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, 0.953のf1-microスコア平均を達成した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 18:10:29 GMT)
Investigating finite-size effects in random matrices by counting resonances [0.0] 本稿では、共振の概念を再評価し、測定可能な量に関連付ける。
有限サイズシステムへのこの手法の将来の応用の基礎を築いている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:04:09 GMT)
Integrating Generative and Physics-Based Models for Ptychographic Imaging with Uncertainty Quantification [0.0] Ptychographyは、走査コヒーレントな回折イメージング技術であり、拡張サンプルのナノメートル規模の特徴を撮像することができる。
本稿では,近隣のスキャン位置間の重複を少なくしながらも効果的に機能するptychographyのベイズ逆解析法を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 16:16:37 GMT)
Impact of quantum noise on phase transitions in an atom-cavity system with limit cycles [0.0] 量子ノイズは、標準平均場理論によって予測される臨界値よりも低い相互作用強度のLCのシグネチャを示す。
我々の研究は、量子ゆらぎによる有限サイズの効果によって生じる定常相間の明らかな交叉様挙動が、動的相を含む遷移にも適用可能であることを示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:14:51 GMT)
Human-interpretable clustering of short-text using large language models [0.0] この研究は、大規模言語モデル(LLM)が従来のクラスタリングアプローチの限界を克服できることを示している。
結果として得られたクラスターはより独特で、より人間的に解釈可能である。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:04:10 GMT)
Human-Centric NLP or AI-Centric Illusion?: A Critical Investigation [0.0] 本研究は、人間中心性の概念と実際の実践との間に有意なギャップを見出したものである。
この論文は人間中心のNLPの再定義を提唱し、現実の実用性や社会的含意に焦点をあてている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:16:53 GMT)
HITgram: A Platform for Experimenting with n-gram Language Models [0.0] HITgramはn-gramモデル実験のための軽量プラットフォームである。
ユニグラムから4グラムまでをサポートし、コンテキストに敏感な重み付けなどの機能を備えている。
実験では、HITgramの効率を実証し、毎秒50,000トークンを獲得し、320MBコーパスから62秒で2グラムを生成する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:20:35 GMT)
Graph Attention Hamiltonian Neural Networks: A Lattice System Analysis Model Based on Structural Learning [0.0] 本稿では,格子ハミルトニアン系の基盤構造を理解するニューラルネットワーク手法であるグラフ注意ハミルトニアンニューラルネットワーク(GAHN)を提案する。
系のどの粒子が相互作用するか、異なる粒子間の相互作用の割合、粒子間の相互作用のポテンシャルエネルギーが対称性を示すかどうかを決定できる。
得られた構造は、ニューラルネットワークモデルがシステムの軌道を予測し続け、システムの動的特性をさらに理解するのに役立ちます。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:03:15 GMT)
Global Estimation of Subsurface Eddy Kinetic Energy of Mesoscale Eddies Using a Multiple-input Residual Neural Network [0.0] 海洋渦運動エネルギー (EKE) はメソスケール渦の強度を測定する重要な量である。
30年間の衛星高度観測により、海面情報のグローバルな評価が可能となった。
空間フィルタを用いた地下EKEは, 地下観測データの疎度のため, 体系的に研究されていない。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:54:07 GMT)
Generative Modeling with Diffusion [0.0] 新しいサンプルを生成する方法として拡散モデルを導入する。
ノーミングとデノゲーションのプロセスを定義し、拡散モデルを用いてトレーニングと生成を行うアルゴリズムを導入します。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:04:46 GMT)
Exploring Grokking: Experimental and Mechanistic Investigations [0.0] グラッキングは、トレーニングエラーゼロとほぼランダムなテストエラーでトレーニングセットを記憶するニューラルネットワークを含む。
本研究は、広範囲にわたる実験と、グルーキングのメカニズムの背後にある研究の探索を含む。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:11:38 GMT)
Experimental investigation of heralded Gaussification of phase-randomized coherent states of light [0.0] 光の量子状態の確率論的数値化は、連続的な変数の絡み合いとスクイーズを蒸留するためのプロトコルの重要な要素である。
本報告では,反復棚付ガウシフィケーションの収束特性について実験的に検討する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:10:43 GMT)
Entanglement induced by Heisenberg exchange between an electron in a nested quantum dot and a qubit with relative motion [0.0] 電子と量子ビットの相対運動によるハイゼンベルク交換により引き起こされる絡み合いの制御を改善するネスト量子ドット構造を提案する。
長距離相互作用の場合、正規化された交換分布は、クビット移動方向とは独立に、実質的な最終絡み合いをもたらす。
また、ネストドットのないシナリオも考慮し、同じ最大(常に)MIがスピン間の初期角度によってのみ事前決定されることを示した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 04:11:52 GMT)
Enhancing Road Crack Detection Accuracy with BsS-YOLO: Optimizing Feature Fusion and Attention Mechanisms [0.0] 本稿では、拡張パス集約ネットワーク(PAN)と双方向特徴ピラミッドネットワーク(BiFPN)によるマルチスケール特徴融合を最適化するBsS-YOLOモデルを提案する。
重み付き特徴融合の導入は、特徴表現を改善し、検出精度を高め、堅牢性を高める。
実験の結果, BsS-YOLOは道路亀裂検出における平均平均精度(mAP)が2.8%向上し, 多様なシナリオに適用可能であることがわかった。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:20:30 GMT)
Efficient Adaptation of Multilingual Models for Japanese ASR [0.0] 本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 06:32:16 GMT)
EEG-based AI-BCI Wheelchair Advancement: A Brain-Computer Interfacing Wheelchair System Using Machine Learning Mechanism with Right and Left Voluntary Hand Movement [0.0] このシステムは、自発的な左右の動きに基づいて車椅子のナビゲーションをシミュレートするように設計されている。
Support Vector Machines (SVM)、XGBoost、ランダムフォレスト、双方向長短期記憶(Bi-LSTM)アテンションベースモデルなど、さまざまな機械学習モデルを開発した。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 14:31:37 GMT)
Diffusion Models with Anisotropic Gaussian Splatting for Image Inpainting [0.0] 本研究では,拡散モデルと異方性ガウススプラッティングを組み合わせ,局所構造とグローバルコンテキストの両方を効果的に捉える新しい塗装法を提案する。
提案手法は最先端技術より優れ, 構造的整合性とテクスチャリアリズムを向上した視覚的可視性のある結果が得られる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:46:13 GMT)
Diffusion Model from Scratch [0.0] 拡散生成モデルは、現在最も人気のある生成モデルである。
本稿では,VAEからDDPMへの進化をトレースすることで,生成モデルの基本的理解を支援することを目的とする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:05:05 GMT)
Defining classical and quantum chaos through adiabatic transformations [0.0] 量子システムと古典システムの両方におけるカオスを定義する形式主義を提案する。
古典的な時間平均軌道を保存する断熱変換の複雑さはカオスの尺度となる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 02:10:12 GMT)
DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0] オープンセット3Dセグメンテーションは、下流ロボティクスと拡張現実/バーチャルリアリティーアプリケーションにとって大きな関心事である。
本稿では,新しい3次元表現とセマンティックセグメンテーション基盤モデルに対するモジュラリティと適応性を確保するために,分離された3次元セグメンテーションパイプラインを提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 21:26:44 GMT)
Classification of Financial Data Using Quantum Support Vector Machine [0.0] 本稿では,量子カーネルの金融データへの適用性,特に自己計算したDhaka Stock Exchange (DSEx) Broad Indexデータセットについて検討する。
我々は、いくつかの量子カーネルを使用し、このデータセットに最適なものを提案する、経験的量子優位性について報告する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:17:11 GMT)
Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning [0.0] 本稿では,Large Language Models (LLMs) が低リソース言語に対して限られたデータ量で文法情報を生成するのにどのように役立つかを検討する。
提案手法では,既存の言語データを整理し,形式的XLE文法を効率的に生成できるようにする。
本研究は,LLMが言語文書作成の取り組みを強化し,言語データの生成に費用対効果のあるソリューションを提供し,絶滅危惧言語の保存に寄与する可能性を明らかにする。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 20:43:12 GMT)
Can Alice do science and have friends, in a relational quantum world? Solipsism and Relational Quantum Mechanics [0.0] 量子物理学のリレーショナル理解が科学の信頼性を損なうという最近の主張について論じる。
量子物理学のリレーショナル理解が科学の信頼性を損なうという最近の主張について論じる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 08:39:30 GMT)
CRENER: A Character Relation Enhanced Chinese NER Model [0.0] 文字関係強化中国語NERモデル(CRENER)を提案する。
このモデルは、文字間の関係を反映する4種類のタグを定義する。
4つの有名な中国のNERベンチマークデータセットで実施された実験では、提案モデルが最先端のベースラインより優れていることが示されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:14:39 GMT)
CEKER: A Generalizable LLM Framework for Literature Analysis with a Case Study in Unikernel Security [0.0] 本研究は、CEKERと呼ばれる、新しい、一般化可能な文献解析手法を紹介する。
3段階のプロセスを使用して、文献の収集、重要な洞察の抽出、および重要なトレンドとギャップの要約分析を合理化している。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 17:28:43 GMT)
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0] 本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 07:28:38 GMT)
An Adversarial Example for Direct Logit Attribution: Memory Management in GELU-4L [0.0] 以前の研究は、言語モデルが「メモリ管理」メカニズムを通じて残ストリームの限られた帯域幅を管理することを示唆している。
本研究は,4層トランスにおけるこの消去現象の具体的な証拠を提供し,初期頭部の出力を一定に除去する頭部を同定する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 22:22:55 GMT)
Agentic-HLS: An agentic reasoning based high-level synthesis system using large language models (AI for EDA workshop 2024) [0.0] ML Contest for Chip Design with HLS 2024の目的は、サイクルカウントの形でレイテンシーを予測することであった。
そこで我々は,大規模な言語モデルを用いたChain-of- Thought手法を用いて分類と回帰処理を行った。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:24:30 GMT)
Adiabatic definitions of scattering matrix and inclusive scattering matrix [0.0] L-函数の形式論における散乱行列の断熱的定義を解析する。
我々は,この概念と,この手法と断熱量子コンピューティングとの関係について論じる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 01:25:58 GMT)
ASTD Patterns for Integrated Continuous Anomaly Detection In Data Logs [0.0] 本稿では,データログのアンサンブル異常検出におけるASTD言語の使用について検討する。
特に教師なし学習の文脈において,学習モデルを組み合わせるためのASTDパターンを提案する。
学習モデルのシームレスな組み合わせを可能にする新しいASTD演算子であるQuantified Flowが提案されている。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 13:07:00 GMT)
A Staged Deep Learning Approach to Spatial Refinement in 3D Temporal Atmospheric Transport [0.0] 本稿では,2段テンポラル3次元超解像(DST3D-UNet-SR)モデルを提案する。
このモジュールは、低分解能時間データから複雑な地形における羽根の過渡的な進化を予測する時間モジュール(TM)と、その空間分解モジュール(SRM)の2つの逐次モジュールから構成され、その結果、予測の空間分解能が向上する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 19:43:48 GMT)
A Review of Fairness and A Practical Guide to Selecting Context-Appropriate Fairness Metrics in Machine Learning [0.0] 我々は,文脈的に適切な公平度尺度の選択を導くフローチャートを開発した。
これには、モデル評価基準、モデル選択基準、データバイアスの考慮が含まれる。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 00:19:40 GMT)
A Novel End-To-End Event Geolocation Method Leveraging Hyperbolic Space and Toponym Hierarchies [0.0] ソーシャルデータに基づくイベントのタイムリーな検出とロケーションは、危機対応やリソース割り当てといったアプリケーションにとって重要な情報を提供することができる。
本稿では,双曲空間とトポニム階層を利用した新しいエンドツーエンドイベント位置情報手法(GTOP)を提案する。
論文参考訳(メタデータ) (Sat, 14 Dec 2024 15:43:58 GMT)