このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240908となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 病理組織像の効率的な分類法
Efficient Classification of Histopathology Images ( http://arxiv.org/abs/2409.13720v1 ) ライセンス: Link先を確認 | Mohammad Iqbal Nouyed, Mary-Anne Hartley, Gianfranco Doretto, Donald A. Adjeroh, | (参考訳) この研究は、画像レベルのアノテーションを用いたがん診断のためのギガピクセル全スライディング画像などの、挑戦的な病理像を効率的に分類する方法に対処する。
腫瘍領域を付加した画像を用いて,腫瘍のパッチセットと良性パッチセットを癌スライドで同定した。
興味のある領域の変動の性質のため、腫瘍陽性領域はピクセルの極端に少数派を指すことがある。
これはパッチレベルの分類において重要な問題となり、"cancerous"とラベル付けされた画像からのパッチの大部分は実際には腫瘍のないものである。
この問題は、パッチ抽出後にのみパッチレベルのラベルを扱うため、画像内の各ピクセルにラベルを関連付けるセグメンテーションとは違い、既存のアプローチでは、モデルが多数派によって支配されるのを防ぐために、マイノリティクラスのデータ不足を軽減することで、データ不均衡の問題に対処している。
これらの手法には、データ再サンプリング、損失再重み付け、マージン修正、データ拡張が含まれる。
本研究では,パッチレベルのクラス不均衡問題を分散・コンカレントアプローチにより緩和する。
まず、データをサブグループに分割し、これらのデータ分割に基づいて3つの分類サブプロブレムを定義する。
次に,情報理論的クラスタによる深部画像パッチ特徴のサンプリングを用いて,サブグループから識別パッチをサンプリングする。
これらのサンプルパッチを用いて、新しい分類サブプロブレムを解決するために対応する深層モデルを構築する。
最後に、各モデルから得られた情報を統合することにより、パッチに関する最終的な決定を行う。
提案手法は,所定の全スライディング画像において,利用可能なパッチの極めて低い割合を用いて,競合的に実行可能であることを示す。
This work addresses how to efficiently classify challenging histopathology images, such as gigapixel whole-slide images for cancer diagnostics with image-level annotation. We use images with annotated tumor regions to identify a set of tumor patches and a set of benign patches in a cancerous slide. Due to the variable nature of region of interest the tumor positive regions may refer to an extreme minority of the pixels. This creates an important problem during patch-level classification, where the majority of patches from an image labeled as 'cancerous' are actually tumor-free. This problem is different from semantic segmentation which associates a label to every pixel in an image, because after patch extraction we are only dealing with patch-level labels.Most existing approaches address the data imbalance issue by mitigating the data shortage in minority classes in order to prevent the model from being dominated by the majority classes. These methods include data re-sampling, loss re-weighting, margin modification, and data augmentation. In this work, we mitigate the patch-level class imbalance problem by taking a divide-and-conquer approach. First, we partition the data into sub-groups, and define three separate classification sub-problems based on these data partitions. Then, using an information-theoretic cluster-based sampling of deep image patch features, we sample discriminative patches from the sub-groups. Using these sampled patches, we build corresponding deep models to solve the new classification sub-problems. Finally, we integrate information learned from the respective models to make a final decision on the patches. Our result shows that the proposed approach can perform competitively using a very low percentage of the available patches in a given whole-slide image. | 翻訳日:2024-11-07 05:35:28 公開日:2024-09-08 |
# スペイン語を外国語とする大規模言語モデルの評価:パスかフェールか?
Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail? ( http://arxiv.org/abs/2409.15334v1 ) ライセンス: Link先を確認 | Marina Mayor-Rocher, Nina Melero, Elena Merino-Gómez, María Grandury, Javier Conde, Pedro Reviriego, | (参考訳) 大規模言語モデル(LLM)は、多くのトピックに関する質問に答える能力と、異なる自然言語理解タスクにおけるパフォーマンスについて、広く評価されている。
これらのテストは通常英語で実施されるが、ほとんどのLLMユーザーは英語の母語話者ではない。
したがって、LLMが他の言語をどのように理解しているかを、段落からモルヒムまで、さまざまなレベルで分析することに興味がある。
本稿では, TELEIA における最新の LLM の性能評価を行った。このベンチマークは, 留学生のスペイン語試験と類似の質問を対象とし, 読解, 単語形成, 意味, 構成意味論, 文法などの話題を取り上げている。
その結果,LLMはスペイン語理解に優れていたが,文法的能力の面では,母語話者のレベルには程遠いことがわかった。
Large Language Models (LLMs) have been profusely evaluated on their ability to answer questions on many topics and their performance on different natural language understanding tasks. Those tests are usually conducted in English, but most LLM users are not native English speakers. Therefore, it is of interest to analyze how LLMs understand other languages at different levels: from paragraphs to morphems. In this paper, we evaluate the performance of state-of-the-art LLMs in TELEIA, a recently released benchmark with similar questions to those of Spanish exams for foreign students, covering topics such as reading comprehension, word formation, meaning and compositional semantics, and grammar. The results show that LLMs perform well at understanding Spanish but are still far from achieving the level of a native speaker in terms of grammatical competence. | 翻訳日:2024-11-06 19:54:40 公開日:2024-09-08 |
# アライメント・インパタンス・ヒートマップを用いた人体比較の解説
Explaining Human Comparisons using Alignment-Importance Heatmaps ( http://arxiv.org/abs/2409.16292v1 ) ライセンス: Link先を確認 | Nhut Truong, Dario Pesenti, Uri Hasson, | (参考訳) 深層感モデルから得られたアライメント・コンパタンス・スコア(AIS)ヒートマップを用いて,人間の比較課題に対する計算的説明可能性のアプローチを提案する。
AISは、Deep Neural Network(DNN)の表現幾何学と人間の表現のアライメントに対する特徴マップのユニークな貢献を反映している。
まず、トレーニングセットから特定された高次のAIS特徴写像のみを用いて表現を構築する際に、サンプル外人間類似性判定の予測が改善されることを示し、AISを検証した。
次に、AISスコアの高い特徴マップに対応する領域を視覚的に示す画像固有のヒートマップを計算する。
これらの地図は、コホート内の他の画像と比較した場合、どの画像領域が重要かという直感的な説明を提供する。
本研究では,これらの熱マップと,視線予測モデルにより生成された塩分濃度マップの対応関係を観察する。
しかしながら、いくつかのケースでは、比較に関連する次元が必ずしも最も視覚的に有意義であるとは限らないため、有意義な違いが現れる。
結論として、アライメント・パタンスは、DNN埋め込みから人間の類似性判定の予測を改善し、画像空間における関連情報に対する解釈可能な洞察を提供する。
We present a computational explainability approach for human comparison tasks, using Alignment Importance Score (AIS) heatmaps derived from deep-vision models. The AIS reflects a feature-map's unique contribution to the alignment between Deep Neural Network's (DNN) representational geometry and that of humans. We first validate the AIS by showing that prediction of out-of-sample human similarity judgments is improved when constructing representations using only higher-scoring AIS feature maps identified from a training set. We then compute image-specific heatmaps that visually indicate the areas that correspond to feature-maps with higher AIS scores. These maps provide an intuitive explanation of which image areas are more important when it is compared to other images in a cohort. We observe a correspondence between these heatmaps and saliency maps produced by a gaze-prediction model. However, in some cases, meaningful differences emerge, as the dimensions relevant for comparison are not necessarily the most visually salient. To conclude, Alignment Importance improves prediction of human similarity judgments from DNN embeddings, and provides interpretable insights into the relevant information in image space. | 翻訳日:2024-11-06 17:42:27 公開日:2024-09-08 |
# GenCAD:画像記述型コンピュータ支援デザインジェネレーション
変換器によるコントラスト表現と拡散先行
GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors ( http://arxiv.org/abs/2409.16294v1 ) ライセンス: Link先を確認 | Md Ferdous Alam, Faez Ahmed | (参考訳) CAD(Computer-Aided Design)による製造可能で編集可能な3D形状の作成は,3Dソリッドと非直感的デザインツールの境界表現の複雑なトポロジによって妨げられる,手作業と時間を要する作業であり続けている。
本稿では,自己回帰変換器と潜時拡散モデルを用いて画像入力をパラメトリックCADコマンドシーケンスに変換する生成モデルGenCADを紹介する。
GenCADは、自己回帰トランスフォーマーベースのアーキテクチャとコントラスト学習フレームワークを統合し、入力画像からのCADプログラム生成を強化し、エンジニアリング設計に関連する複数のデータモダリティのための表現学習フレームワークを提供する。
広範囲な評価の結果,GenCADは既存の最先端手法よりも,生成した3次元形状の精度と修正性において優れていた。
特に、GenCADは、長いシーケンスの3次元形状生成の精度を著しく向上させ、複雑な設計タスクにおけるその応用をサポートする。
さらに、GenCADの対照的な埋め込み機能により、CADコミュニティにおいて重要な課題であるデータベースからの画像クエリを用いたCADモデルの検索が容易になる。
3D形状生成文学におけるほとんどの研究はメッシュ、ボクセル、ポイントクラウドなどの表現に焦点を当てているが、実用的なエンジニアリングアプリケーションは、モジュラビリティとマルチモーダル条件生成の能力を必要としている。
我々の結果は、この方向への大きな一歩を踏み出し、生成モデルの可能性を浮き彫りにして、設計から運用までのパイプライン全体を迅速化し、異なる設計モダリティをシームレスに統合する。
The creation of manufacturable and editable 3D shapes through Computer-Aided Design (CAD) remains a highly manual and time-consuming task, hampered by the complex topology of boundary representations of 3D solids and unintuitive design tools. This paper introduces GenCAD, a generative model that employs autoregressive transformers and latent diffusion models to transform image inputs into parametric CAD command sequences, resulting in editable 3D shape representations. GenCAD integrates an autoregressive transformer-based architecture with a contrastive learning framework, enhancing the generation of CAD programs from input images and providing a representation learning framework for multiple data modalities relevant to engineering designs. Extensive evaluations demonstrate that GenCAD significantly outperforms existing state-of-the-art methods in terms of the precision and modifiability of generated 3D shapes. Notably, GenCAD shows a marked improvement in the accuracy of 3D shape generation for long sequences, supporting its application in complex design tasks. Additionally, the contrastive embedding feature of GenCAD facilitates the retrieval of CAD models using image queries from databases which is a critical challenge within the CAD community. While most work in the 3D shape generation literature focuses on representations like meshes, voxels, or point clouds, practical engineering applications demand modifiability and the ability for multi-modal conditional generation. Our results provide a significant step forward in this direction, highlighting the potential of generative models to expedite the entire design-to-production pipeline and seamlessly integrate different design modalities. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-08 |
# ELMS: モバイルデバイス上での大規模言語モデルの弾力化
ELMS: Elasticized Large Language Models On Mobile Devices ( http://arxiv.org/abs/2409.09071v1 ) ライセンス: Link先を確認 | Wangsong Yin, Rongjie Yi, Daliang Xu, Gang Huang, Mengwei Xu, Xuanzhe Liu, | (参考訳) デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。
現在、標準のアプローチでは、さまざまなアプリケーションのための汎用ソリューションとして、単一の堅牢なLLMをデプロイする。
既存のLLMには、異なるアプリケーション間での推論レイテンシに関するさまざまなService-Level Objectives(SLO)に対応する柔軟性がない。
この問題に対処するため、ELMSは、LLMaaSのモデルとプロンプト次元の両方に弾力性を提供するように設計されたオンデバイスLLMサービスである。
このシステムは、トランスモデル内の固有の置換一貫性を利用して、ランタイムスイッチングコストを最小限に抑えた高品質で弾力的なサブモデルを作成するワンタイムニューロンリオーダー技術を含む。
プロンプトを効率よく洗練し、モデルとプロンプト間の弾性適応を調整するデュアルヘッドコンパクト言語モデル。
我々は,いくつかのオフ・ザ・シェルフ(COTS)スマートフォン上で,このエラスティックオンデバイスLCMサービスを実装し,スタンドアロンNLP/モバイルエージェントデータセットとエンドツーエンドトレースの両方を用いてELMSを評価した。
SLOの範囲で、ELMSは4つの強いベースラインを平均で最大16.83%、絶対精度で11.04%超え、TFT(Time-to-First-Token)のスイッチオーバヘッド、同等のメモリ使用量、100オフラインGPU使用時間以下である。
On-device Large Language Models (LLMs) are revolutionizing mobile AI, enabling applications such as UI automation while addressing privacy concerns. Currently, the standard approach involves deploying a single, robust LLM as a universal solution for various applications, often referred to as LLM-as-a-Service (LLMaaS). However, this approach faces a significant system challenge: existing LLMs lack the flexibility to accommodate the diverse Service-Level Objectives (SLOs) regarding inference latency across different applications. To address this issue, we introduce ELMS, an on-device LLM service designed to provide elasticity in both the model and prompt dimensions of an LLMaaS. This system includes: A one-time neuron reordering technique, which utilizes the inherent permutation consistency within transformer models to create high-quality, elastic sub-models with minimal runtime switching costs. A dual-head compact language model, which efficiently refines prompts and coordinates the elastic adaptation between the model and the prompt. We have implemented this elastic on-device LLM service on several off-the-shelf (COTS) smartphones and evaluate ELMS using both standalone NLP/mobile-agent datasets and synthesized end-to-end traces. Across a range of SLOs, ELMS surpasses four strong baselines by up to 16.83% and 11.04% in absolute accuracy on average, with less than 1% Time-To-First-Token (TTFT) switching overhead, comparable memory usage, and fewer than 100 offline GPU hours. | 翻訳日:2024-09-22 21:42:00 公開日:2024-09-08 |
# メビウスアテンションを持つ変圧器モデルにおける拡張表現性
Expanding Expressivity in Transformer Models with MöbiusAttention ( http://arxiv.org/abs/2409.12175v1 ) ライセンス: Link先を確認 | Anna-Maria Halacheva, Mojtaba Nayyeri, Steffen Staab, | (参考訳) 注意機構とトランスフォーマーアーキテクチャは、長距離依存の例外的なモデリングと複雑な言語パターンのキャプチャを可能にし、自然言語処理(NLP)に革命をもたらした。
しかし、行列乗法(英語版)の形での線形演算に固有の依存は、彼ら自身でトーケン間の関係を完全に捉える能力を制限している。
我々は、トランスフォーマーモデルにおける注意機構にM\"obius変換を統合する新しいアプローチであるM\"obiusAttentionを提案する。
M\ "obius transformation" は複素数上の空間における非線形演算であり、様々な測地の間に写像する能力を持つ。
これらの特性を取り入れることで、M\"obiusAttentionは、トークン間のより複雑な幾何学的関係を学習し、複雑な値の重みベクトルを通してより広い範囲の情報を取得することができる。
We build and pre-train a BERT and a RoFormer version enhanced with M\"obiusAttention, then finetune on the GLUE benchmark。
下流タスクにおけるBERTモデルとRoFormerモデルに対する我々のアプローチを実証的に評価する。
提案手法は,M\"obiusAttention"の表現性の向上を示唆するパラメータの数が少なくても,ベースラインモデルと良好に比較できる。
本研究は, 基礎モデルの表現性と性能を高めるため, 複素射影空間における「ビオビス変換」の可能性を探究する手法である。
Attention mechanisms and Transformer architectures have revolutionized Natural Language Processing (NLP) by enabling exceptional modeling of long-range dependencies and capturing intricate linguistic patterns. However, their inherent reliance on linear operations in the form of matrix multiplications limits their ability to fully capture inter-token relationships on their own. We propose M\"obiusAttention, a novel approach that integrates M\"obius transformations within the attention mechanism of Transformer-based models. M\"obius transformations are non-linear operations in spaces over complex numbers with the ability to map between various geometries. By incorporating these properties, M\"obiusAttention empowers models to learn more intricate geometric relationships between tokens and capture a wider range of information through complex-valued weight vectors. We build and pre-train a BERT and a RoFormer version enhanced with M\"obiusAttention, which we then finetune on the GLUE benchmark. We evaluate empirically our approach against the baseline BERT and RoFormer models on a range of downstream tasks. Our approach compares favorably against the baseline models, even with smaller number of parameters suggesting the enhanced expressivity of M\"obiusAttention. This research paves the way for exploring the potential of M\"obius transformations in the complex projective space to enhance the expressivity and performance of foundation models. | 翻訳日:2024-09-22 21:12:27 公開日:2024-09-08 |
# RAGent: 検索型アクセス制御ポリシー生成
RAGent: Retrieval-based Access Control Policy Generation ( http://arxiv.org/abs/2409.07489v1 ) ライセンス: Link先を確認 | Sakuna Harinda Jayasundara, Nalin Asanka Gamagedara Arachchilage, Giovanni Russello, | (参考訳) 組織の高レベルの要求仕様から手動でアクセス制御ポリシを生成することは、大きな課題となる。
このような仕様を含む複数の文書を精査し、それらのアクセス要求をアクセス制御ポリシーに翻訳するには、精力的な努力が必要である。
また、これらの仕様の複雑さと曖昧さは、翻訳プロセス中にシステム管理者がエラーを起こし、データ漏洩につながることが多い。
しかし、このプロセスで管理者を支援するために設計された自動ポリシー生成フレームワークは、ドメイン適応の欠如のような制限のために信頼できない。
そこで本稿では,アクセス制御ポリシ生成の信頼性を向上させるために,言語モデルに基づく新しい検索ベースのアクセス制御ポリシ生成フレームワークであるRAGentを提案する。
RAGentは、平均的な最先端F1スコア87.9%のハイレベル要件仕様からアクセス要件を特定している。
検索拡張生成により、RAGentは識別されたアクセス要求を77.9%のF1スコアでアクセス制御ポリシーに変換する。
既存のフレームワークとは異なり、RAGentは主題、アクション、リソースに加えて、目的や条件のような複雑なコンポーネントによるポリシーを生成する。
さらに、RAGentは生成されたポリシーを自動的に検証し、新しい検証調整機構を通じて繰り返し精査し、プロセスの信頼性をさらに3%向上させ、F1スコア80.6%に達する。
また、将来、アクセス制御ポリシー生成フレームワークを開発するためのアノテーション付きデータセットを3つ導入し、ドメインのデータ不足に対処する。
Manually generating access control policies from an organization's high-level requirement specifications poses significant challenges. It requires laborious efforts to sift through multiple documents containing such specifications and translate their access requirements into access control policies. Also, the complexities and ambiguities of these specifications often result in errors by system administrators during the translation process, leading to data breaches. However, the automated policy generation frameworks designed to help administrators in this process are unreliable due to limitations, such as the lack of domain adaptation. Therefore, to improve the reliability of access control policy generation, we propose RAGent, a novel retrieval-based access control policy generation framework based on language models. RAGent identifies access requirements from high-level requirement specifications with an average state-of-the-art F1 score of 87.9%. Through retrieval augmented generation, RAGent then translates the identified access requirements into access control policies with an F1 score of 77.9%. Unlike existing frameworks, RAGent generates policies with complex components like purposes and conditions, in addition to subjects, actions, and resources. Moreover, RAGent automatically verifies the generated policies and iteratively refines them through a novel verification-refinement mechanism, further improving the reliability of the process by 3%, reaching the F1 score of 80.6%. We also introduce three annotated datasets for developing access control policy generation frameworks in the future, addressing the data scarcity of the domain. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-08 |
# 金融システムにおけるデータの整合性確保のための多項式法
Polynomial Methods for Ensuring Data Integrity in Financial Systems ( http://arxiv.org/abs/2409.07490v1 ) ライセンス: Link先を確認 | Ignacio Brasca, | (参考訳) データ完全性を保証することは、複雑なシステム、特に大量のデータが一貫して正確で信頼性の高い金融プラットフォームにおいて重要な要件である。
本稿では,多項式補間法を用いて複数の指標や次元にわたってデータの整合性を維持する頑健な手法を提案する。
Ensuring data integrity is a critical requirement in complex systems, especially in financial platforms where vast amounts of data must be consistently accurate and reliable. This paper presents a robust approach using polynomial interpolation methods to maintain data integrity across multiple indicators and dimensions. | 翻訳日:2024-09-13 20:50:00 公開日:2024-09-08 |
# 人工知能天気予報(AIWP)モデルによる熱帯サイクロン軌道と強度予測の評価
Evaluation of Tropical Cyclone Track and Intensity Forecasts from Artificial Intelligence Weather Prediction (AIWP) Models ( http://arxiv.org/abs/2409.06735v1 ) ライセンス: Link先を確認 | Mark DeMaria, James L. Franklin, Galina Chirokova, Jacob Radford, Robert DeMaria, Kate D. Musgrave, Imme Ebert-Uphoff, | (参考訳) 過去数年間で、複数のデータ駆動人工知能天気予報(AIWP)モデルが開発され、ほぼ毎月新しいバージョンが登場する。
この急速な発展を踏まえると、これらのモデルの運用予測への適用性はまだ十分に検討されておらず、文書化されていない。
2023年5月から11月にかけての北半球TCの7日間の観測と強度予測にNHC検証法を用いた。
4つのオープンソースAIWPモデル(FourCastNetv1、FourCastNetv2-small、GraphCast-operational、Pangu-Weather)が検討されている。
AIWPは、予測エラーと検出率を、最高のパフォーマンスの運用予測モデルと同等に追跡する。
しかし、AIWP強度予測誤差は気候学と持続性に基づく最も単純な強度予測よりも大きい。
AIWPモデルは、特に予測の最初の24時間以内に、ほぼ常にTC強度を減少させ、かなり低いバイアスをもたらす。
また,AIWPモデルのNHCモデルコンセンサスへの貢献も評価した。
コンセンサストラックエラーは、長い期間で最大11%削減される。
5日間のNHC公式トラック予測は2001年以降、年率約2%改善しているため、これは5年以上の精度向上を意味している。
かなりの負の強度バイアスにもかかわらず、AIWPモデルは強度のコンセンサスに中立的な影響を与える。
これらの結果は,現在のAIWPモデルの定式化がTCトラック予測の運用を約束していることを示しているが,正確な強度予測にはバイアス補正やモデル修正が必要であることを示唆している。
In just the past few years multiple data-driven Artificial Intelligence Weather Prediction (AIWP) models have been developed, with new versions appearing almost monthly. Given this rapid development, the applicability of these models to operational forecasting has yet to be adequately explored and documented. To assess their utility for operational tropical cyclone (TC) forecasting, the NHC verification procedure is used to evaluate seven-day track and intensity predictions for northern hemisphere TCs from May-November 2023. Four open-source AIWP models are considered (FourCastNetv1, FourCastNetv2-small, GraphCast-operational and Pangu-Weather). The AIWP track forecast errors and detection rates are comparable to those from the best-performing operational forecast models. However, the AIWP intensity forecast errors are larger than those of even the simplest intensity forecasts based on climatology and persistence. The AIWP models almost always reduce the TC intensity, especially within the first 24 h of the forecast, resulting in a substantial low bias. The contribution of the AIWP models to the NHC model consensus was also evaluated. The consensus track errors are reduced by up to 11% at the longer time periods. The five-day NHC official track forecasts have improved by about 2% per year since 2001, so this represents more than a five-year gain in accuracy. Despite substantial negative intensity biases, the AIWP models have a neutral impact on the intensity consensus. These results show that the current formulation of the AIWP models have promise for operational TC track forecasts, but improved bias corrections or model reformulations will be needed for accurate intensity forecasts. | 翻訳日:2024-09-12 17:44:43 公開日:2024-09-08 |
# 非線形安定解析と学習ベース制御のための契約理論:チュートリアル概要
Contraction Theory for Nonlinear Stability Analysis and Learning-based Control: A Tutorial Overview ( http://arxiv.org/abs/2110.00675v3 ) ライセンス: Link先を確認 | Hiroyasu Tsukamoto, Soon-Jo Chung, Jean-Jacques E. Slotine, | (参考訳) 縮約理論(英: contraction theory)とは、一様正定値行列で定義される縮約計量の下で、非自明な(時間変化の)非線形系の微分力学を研究するための解析ツールである。
二乗微分長をリアプノフ様函数として用いることにより、その非線形安定性解析は、線形行列不等式として表される安定性条件を満たす適切な収縮計量を見つけ、よく知られた線形系理論と非線形系の収縮理論の間に多くの平行性を引き出すことができることを示す。
さらに、収縮理論は、比較補題と合わせて用いられる指数的安定性の優れた堅牢性を利用する。
これにより、入力と状態の安定性に一様漸近安定性を使用するより複雑な方法に頼ることなく、ニューラルネットワークベースの制御と推定スキームの安全性と安定性が保証される。
このような特徴により、凸最適化による縮尺計量の体系的な構成が可能となり、乱れや学習誤差によって外部に摂動する時間変化対象軌道と解軌道の間の距離の指数指数的境界が得られる。
そこで本研究では, 決定論的・確率論的システムの非線形安定性解析における制約理論とその優位性を概説し, 各種学習法およびデータ駆動自動制御法における形式的堅牢性と安定性保証の導出に重点を置いている。
特に、ディープニューラルネットワークを用いて、収縮指標と関連する制御および推定法を見つけるための技術について、詳細なレビューを行う。
Contraction theory is an analytical tool to study differential dynamics of a non-autonomous (i.e., time-varying) nonlinear system under a contraction metric defined with a uniformly positive definite matrix, the existence of which results in a necessary and sufficient characterization of incremental exponential stability of multiple solution trajectories with respect to each other. By using a squared differential length as a Lyapunov-like function, its nonlinear stability analysis boils down to finding a suitable contraction metric that satisfies a stability condition expressed as a linear matrix inequality, indicating that many parallels can be drawn between well-known linear systems theory and contraction theory for nonlinear systems. Furthermore, contraction theory takes advantage of a superior robustness property of exponential stability used in conjunction with the comparison lemma. This yields much-needed safety and stability guarantees for neural network-based control and estimation schemes, without resorting to a more involved method of using uniform asymptotic stability for input-to-state stability. Such distinctive features permit systematic construction of a contraction metric via convex optimization, thereby obtaining an explicit exponential bound on the distance between a time-varying target trajectory and solution trajectories perturbed externally due to disturbances and learning errors. The objective of this paper is therefore to present a tutorial overview of contraction theory and its advantages in nonlinear stability analysis of deterministic and stochastic systems, with an emphasis on deriving formal robustness and stability guarantees for various learning-based and data-driven automatic control methods. In particular, we provide a detailed review of techniques for finding contraction metrics and associated control and estimation laws using deep neural networks. | 翻訳日:2024-09-12 00:23:12 公開日:2024-09-08 |
# 3Dヒューマンリカバリをめざして
Playing for 3D Human Recovery ( http://arxiv.org/abs/2110.07588v3 ) ライセンス: Link先を確認 | Zhongang Cai, Mingyuan Zhang, Jiawei Ren, Chen Wei, Daxuan Ren, Zhengyu Lin, Haiyu Zhao, Lei Yang, Chen Change Loy, Ziwei Liu, | (参考訳) 画像と映像に基づく3次元人間の回復(ポーズと形状の推定)は大きな進歩を遂げた。
しかし、モーションキャプチャーの禁止コストのため、既存のデータセットはスケールと多様性に制限されることが多い。
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には、GTA-Vゲームエンジンで生成された大規模3次元人間のデータセットであるGTA-Humanに、非常に多様な主題、アクション、シナリオをコントリビュートする。
さらに,ゲームプレイデータの利用について検討し,5つの重要な知見を得た。
まず、ゲームプレイのデータは驚くほど効果的です。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
ビデオベースの手法では、GTA-Humanはドメイン内のトレーニングセットと同等である。
第二に、一般的に屋内で収集される実際のデータに対して、合成データが重要な補完となることを発見した。
ドメインギャップに関する我々の調査は、単純で有用なデータ混合戦略の説明を提供する。
第三に、データセットの規模は重要です。
パフォーマンス向上は、利用可能な追加データと密接に関連している。
系統的な研究により、複数の重要な側面からデータ密度に対するモデル感度が明らかにされる。
第4に、GTA-Humanの有効性は、強力な監視ラベル(SMPLパラメータ)の豊富なコレクションによるもので、そうでなければ実際のデータセットを取得するのに高価である。
第5に、合成データの利点は、より深い畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなより大きなモデルにまで拡張され、大きな影響が観測される。
われわれの研究が、人間の3D回復を現実世界に拡大する道を開くことを願っている。
ホームページ:https://caizhongang.github.io/ projects/GTA-Human/
Image- and video-based 3D human recovery (i.e., pose and shape estimation) have achieved substantial progress. However, due to the prohibitive cost of motion capture, existing datasets are often limited in scale and diversity. In this work, we obtain massive human sequences by playing the video game with automatically annotated 3D ground truths. Specifically, we contribute GTA-Human, a large-scale 3D human dataset generated with the GTA-V game engine, featuring a highly diverse set of subjects, actions, and scenarios. More importantly, we study the use of game-playing data and obtain five major insights. First, game-playing data is surprisingly effective. A simple frame-based baseline trained on GTA-Human outperforms more sophisticated methods by a large margin. For video-based methods, GTA-Human is even on par with the in-domain training set. Second, we discover that synthetic data provides critical complements to the real data that is typically collected indoor. Our investigation into domain gap provides explanations for our data mixture strategies that are simple yet useful. Third, the scale of the dataset matters. The performance boost is closely related to the additional data available. A systematic study reveals the model sensitivity to data density from multiple key aspects. Fourth, the effectiveness of GTA-Human is also attributed to the rich collection of strong supervision labels (SMPL parameters), which are otherwise expensive to acquire in real datasets. Fifth, the benefits of synthetic data extend to larger models such as deeper convolutional neural networks (CNNs) and Transformers, for which a significant impact is also observed. We hope our work could pave the way for scaling up 3D human recovery to the real world. Homepage: https://caizhongang.github.io/projects/GTA-Human/ | 翻訳日:2024-09-12 00:23:12 公開日:2024-09-08 |
# 降雨流出モデリングのための生成モデル学習
Learning Generative Models for Lumped Rainfall-Runoff Modeling ( http://arxiv.org/abs/2309.09904v3 ) ライセンス: Link先を確認 | Yang Yang, Ting Fong May Chui, | (参考訳) 本研究は,降雨流出モデルに対する新しい生成モデル手法を提案する。
従来のプロセスベースラッピング水理モデルとは異なり,本手法では少数の潜伏変数を用いて流出生成過程を特徴づける。
これらの潜伏変数は、キャッチメントの固有の性質をカプセル化し、キャッチメント気候の強制と排出のデータから推測することができる。
潜在変数空間からサンプリングすることで、モデルは実世界の観測によく似た流出時系列を生成する。
本研究では,3000以上のグローバルなキャッチメントから得られるデータに基づいて,ニューラルネットワークを用いた生成モデルを訓練し,現在の深層学習モデルに匹敵する予測精度を達成した。
このことは,低次元の潜在表現により,キャッチメントの流出生成過程を効果的に捉えることができることを示唆している。
しかし、等値性や潜伏変数の最適決定といった課題は残されている。
今後の研究は、モデル適用性とロバスト性を改善するために、パラメータ推定手法の精細化と、これらの潜在次元の物理的意味を探究することに集中すべきである。
この生成的アプローチは、キャッチメントの物理的過程について最小限の仮定を必要とする、水文モデリングの有望な代替手段を提供する。
This study presents a novel generative modeling approach to rainfall-runoff modeling, focusing on the synthesis of realistic daily catchment runoff time series in response to catchment-averaged climate forcing. Unlike traditional process-based lumped hydrologic models that depend on predefined sets of variables describing catchment physical properties, our approach uses a small number of latent variables to characterize runoff generation processes. These latent variables encapsulate the intrinsic properties of a catchment and can be inferred from catchment climate forcing and discharge data. By sampling from the latent variable space, the model generates runoff time series that closely resemble real-world observations. In this study, we trained the generative models using neural networks on data from over 3,000 global catchments and achieved prediction accuracies comparable to current deep learning models and various conventional lumped models, both within the catchments from the training set and from other regions worldwide. This suggests that the runoff generation process of catchments can be effectively captured by a low-dimensional latent representation. Yet, challenges such as equifinality and optimal determination of latent variables remain. Future research should focus on refining parameter estimation methods and exploring the physical meaning of these latent dimensions to improve model applicability and robustness. This generative approach offers a promising alternative for hydrological modeling that requires minimal assumptions about the physical processes of the catchment. | 翻訳日:2024-09-11 23:57:26 公開日:2024-09-08 |
# GET-UP: Radar Points UPsampling を用いたGEomeTric-Aware Depth Estimation
GET-UP: GEomeTric-aware Depth Estimation with Radar Points UPsampling ( http://arxiv.org/abs/2409.02720v2 ) ライセンス: Link先を確認 | Huawei Sun, Zixu Wang, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille, | (参考訳) 深さ推定は、自動運転車において重要な役割を担い、車両の3D環境の包括的理解を促進する。
レーダーは悪天候条件に対する頑丈さと距離を測定する能力を備えており、レーダーカメラの深さ推定に大きな関心を寄せている。
しかし、既存のアルゴリズムは、3Dポイントを画像面に投影して画素レベルの特徴抽出を行い、レーダポイントクラウドに含まれる貴重な幾何学的情報を見渡すことによって、本質的にノイズでスパースなレーダデータを処理している。
このギャップに対処するために,レーダーデータから2次元情報と3次元情報を交換・集約するために,注目度の高いグラフニューラルネットワーク(GNN)を利用するGET-UPを提案する。
この手法は,2次元特徴抽出のみに依存する従来の手法と比較して,空間的関係を取り入れた特徴表現を効果的に強化する。
さらに,レーダ点群を密度化し,点位置を補正し,ライダーデータに基づく付加的な3次元特徴を導出する点群アップサンプリングタスクを組み込んだ。
最後に、深度推定のためのデコードフェーズにおいて、レーダとカメラの特徴を融合する。
提案したGET-UPをnuScenesデータセット上でベンチマークし,従来最高のパフォーマンスモデルよりも15.3%,14.7%改善した。
コード:https://github.com/harborsarah/GET-UP
Depth estimation plays a pivotal role in autonomous driving, facilitating a comprehensive understanding of the vehicle's 3D surroundings. Radar, with its robustness to adverse weather conditions and capability to measure distances, has drawn significant interest for radar-camera depth estimation. However, existing algorithms process the inherently noisy and sparse radar data by projecting 3D points onto the image plane for pixel-level feature extraction, overlooking the valuable geometric information contained within the radar point cloud. To address this gap, we propose GET-UP, leveraging attention-enhanced Graph Neural Networks (GNN) to exchange and aggregate both 2D and 3D information from radar data. This approach effectively enriches the feature representation by incorporating spatial relationships compared to traditional methods that rely only on 2D feature extraction. Furthermore, we incorporate a point cloud upsampling task to densify the radar point cloud, rectify point positions, and derive additional 3D features under the guidance of lidar data. Finally, we fuse radar and camera features during the decoding phase for depth estimation. We benchmark our proposed GET-UP on the nuScenes dataset, achieving state-of-the-art performance with a 15.3% and 14.7% improvement in MAE and RMSE over the previously best-performing model. Code: https://github.com/harborsarah/GET-UP | 翻訳日:2024-09-11 22:10:02 公開日:2024-09-08 |
# バンコク郊外における杭駆動振動予測のための説明可能な人工知能(XAI)モデルの開発
Developing an Explainable Artificial Intelligent (XAI) Model for Predicting Pile Driving Vibrations in Bangkok's Subsoil ( http://arxiv.org/abs/2409.05918v1 ) ライセンス: Link先を確認 | Sompote Youwai, Anuwat Pamungmoon, | (参考訳) 本研究では,バンコク軟質土質土中における杭の振動を予測するための説明可能な人工知能(XAI)モデルを提案する。
深層ニューラルネットワークは, 杭寸法, ハンマー特性, センサ位置, 振動測定軸の変動を含む, 1018個の実世界の杭駆動測定データを用いて開発された。
このモデルは0.276の平均絶対誤差(MAE)を達成し、従来の経験的手法やXGBoostやCatBoostといった機械学習アプローチよりも優れていた。
shapley Additive exPlanations (SHAP) 解析を用いてモデルの予測を解釈し、入力特徴とピーク粒子速度(PPV)の複雑な関係を明らかにする。
杭の走行位置からの距離が最も大きな要因として現れ、その後ハンマーの重量と杭の大きさが続いた。
非線型関係としきい値の影響が観察され, 軟粘土の振動伝搬に関する新たな知見が得られた。
先進的な機械学習技術と実践的なエンジニアリングアプリケーションとのギャップを埋めて、エンジニアの実践による採用を促進するために、Webベースのアプリケーションが開発された。
本研究は, 杭振動の予測方法として, 地盤工学の分野に寄与し, 都市部における工事の最適化と環境影響軽減に寄与する。
このモデルとそのソースコードは公開されており、地理技術研究における透明性と再現性を促進する。
This study presents an explainable artificial intelligent (XAI) model for predicting pile driving vibrations in Bangkok's soft clay subsoil. A deep neural network was developed using a dataset of 1,018 real-world pile driving measurements, encompassing variations in pile dimensions, hammer characteristics, sensor locations, and vibration measurement axes. The model achieved a mean absolute error (MAE) of 0.276, outperforming traditional empirical methods and other machine learning approaches such as XGBoost and CatBoost. SHapley Additive exPlanations (SHAP) analysis was employed to interpret the model's predictions, revealing complex relationships between input features and peak particle velocity (PPV). Distance from the pile driving location emerged as the most influential factor, followed by hammer weight and pile size. Non-linear relationships and threshold effects were observed, providing new insights into vibration propagation in soft clay. A web-based application was developed to facilitate adoption by practicing engineers, bridging the gap between advanced machine learning techniques and practical engineering applications. This research contributes to the field of geotechnical engineering by offering a more accurate and nuanced approach to predicting pile driving vibrations, with implications for optimizing construction practices and mitigating environmental impacts in urban areas. The model and its source code are publicly available, promoting transparency and reproducibility in geotechnical research. | 翻訳日:2024-09-11 22:10:02 公開日:2024-09-08 |
# KModels: ビジネスアプリケーションのためのAIのアンロック
KModels: Unlocking AI for Business Applications ( http://arxiv.org/abs/2409.05919v1 ) ライセンス: Link先を確認 | Roy Abitbol, Eyal Cohen, Muhammad Kanaan, Bhavna Agrawal, Yingjie Li, Anuradha Bhamidipaty, Erez Bilgory, | (参考訳) 人工知能(AI)は急速に進歩し続けており、既存のビジネスアプリケーションにAI機能を統合する必要性が高まっている。
しかし、AIの急速な進歩と、AIがビジネス環境にどのように組み込まれているかの間には、大きなギャップがある。
優れた実験モデルをプロダクション環境、特にオンプレミス環境で展開することは、しばしば専門的な専門知識を必要とし、モデル管理の重い負担を課し、現実のアプリケーションでAIモデルを実装する上で重要な障壁を生み出します。
KModelsは、実績のあるライブラリとプラットフォーム(Kubeflow Pipelines、KServe)を活用して、AI開発者とコンシューマの両方をサポートすることで、AIの採用を合理化している。
モデル開発者はモデル開発のみに集中し、モデルをトランスポート可能なユニット(テンプレート)として共有し、複雑な運用デプロイメントの懸念を抽象化することができる。
KModelsは、ビジネス指向のコントロールを提供しながら、ほとんどのデータサイエンスをカプセル化したテンプレートによって、AIコンシューマが専用のデータサイエンティストの必要性を排除することを可能にする。
本稿では、KModelのアーキテクチャと、それを形作る重要な決定について述べる。
我々は、KModelsの主要なコンポーネントとインターフェースを概説する。
さらに、KModelsはオンプレミスのデプロイメントに非常に適しているが、クラウド環境でも利用可能である。
KModelsの有効性は、既存のWork Order Managementシステムに3つのAIモデルのデプロイを成功させることによって実証される。
これらのモデルは、クライアントのデータセンタで動作し、データサイエンティストの介入なしに、ローカルデータでトレーニングされる。
あるモデルは、作業順序のフェールコード仕様の精度を46%から83%に改善し、アクセス可能でローカライズされたAIソリューションの実質的なメリットを示している。
As artificial intelligence (AI) continues to rapidly advance, there is a growing demand to integrate AI capabilities into existing business applications. However, a significant gap exists between the rapid progress in AI and how slowly AI is being embedded into business environments. Deploying well-performing lab models into production settings, especially in on-premise environments, often entails specialized expertise and imposes a heavy burden of model management, creating significant barriers to implementing AI models in real-world applications. KModels leverages proven libraries and platforms (Kubeflow Pipelines, KServe) to streamline AI adoption by supporting both AI developers and consumers. It allows model developers to focus solely on model development and share models as transportable units (Templates), abstracting away complex production deployment concerns. KModels enables AI consumers to eliminate the need for a dedicated data scientist, as the templates encapsulate most data science considerations while providing business-oriented control. This paper presents the architecture of KModels and the key decisions that shape it. We outline KModels' main components as well as its interfaces. Furthermore, we explain how KModels is highly suited for on-premise deployment but can also be used in cloud environments. The efficacy of KModels is demonstrated through the successful deployment of three AI models within an existing Work Order Management system. These models operate in a client's data center and are trained on local data, without data scientist intervention. One model improved the accuracy of Failure Code specification for work orders from 46% to 83%, showcasing the substantial benefit of accessible and localized AI solutions. | 翻訳日:2024-09-11 22:10:02 公開日:2024-09-08 |
# STLLM-DF:マルチモード交通システム予測のための拡散型時空間大言語モデル
STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting ( http://arxiv.org/abs/2409.05921v1 ) ライセンス: Link先を確認 | Zhiqi Shao, Haoning Xi, Haohui Lu, Ze Wang, Michael G. H. Bell, Junbin Gao, | (参考訳) インテリジェントトランスポーテーションシステム(ITS)の急速な進歩は、特にマルチモーダルトランスポーテーションにおける欠如したデータと、集中型のフレームワーク内で多様なシーケンシャルなタスクを扱う複雑さに課題を呈している。
これらの課題に対処するために,多タスク輸送予測を改善するために,DDPM(Denoising Diffusion Probabilistic Models)とLLM(Large Language Models)を活用する革新的なモデルである,時空間大言語拡散(Spatial-Temporal Large Language Model Diffusion,STLLM-DF)を提案する。
DDPMの堅牢なデノゲーション機能により、ノイズの多い入力から基礎となるデータパターンを復元することができ、複雑な輸送システムに特に有効である。
一方、非事前学習LLMはマルチモーダルネットワーク内の空間的・時間的関係に動的に適応し、長期的・短期的な予測において多様な輸送タスクを効率的に管理することができる。
大規模な実験により、STLLM-DFは既存のモデルより一貫して優れており、MAEでは平均2.40 %、RMSEでは4.50 %、MAPEでは1.51 %となっている。
このモデルは、複数のタスクにわたる予測精度、堅牢性、システム全体の性能を向上し、フリーズトランスフォーマー言語モデルと拡散技術の統合により、より効果的な時空間トラフィック予測の道を開くことにより、集中型のITSを著しく向上させる。
The rapid advancement of Intelligent Transportation Systems (ITS) presents challenges, particularly with missing data in multi-modal transportation and the complexity of handling diverse sequential tasks within a centralized framework. To address these issues, we propose the Spatial-Temporal Large Language Model Diffusion (STLLM-DF), an innovative model that leverages Denoising Diffusion Probabilistic Models (DDPMs) and Large Language Models (LLMs) to improve multi-task transportation prediction. The DDPM's robust denoising capabilities enable it to recover underlying data patterns from noisy inputs, making it particularly effective in complex transportation systems. Meanwhile, the non-pretrained LLM dynamically adapts to spatial-temporal relationships within multi-modal networks, allowing the system to efficiently manage diverse transportation tasks in both long-term and short-term predictions. Extensive experiments demonstrate that STLLM-DF consistently outperforms existing models, achieving an average reduction of 2.40\% in MAE, 4.50\% in RMSE, and 1.51\% in MAPE. This model significantly advances centralized ITS by enhancing predictive accuracy, robustness, and overall system performance across multiple tasks, thus paving the way for more effective spatio-temporal traffic forecasting through the integration of frozen transformer language models and diffusion techniques. | 翻訳日:2024-09-11 22:10:02 公開日:2024-09-08 |
# 行列値時系列からのオンライングラフトポロジー学習
Online Graph Topology Learning from Matrix-valued Time Series ( http://arxiv.org/abs/2107.08020v4 ) ライセンス: Link先を確認 | Yiye Jiang, Jérémie Bigot, Sofian Maabout, | (参考訳) 焦点は行列値時系列の統計分析であり、データは時間とともにセンサーのネットワーク(通常は空間的位置)を介して収集される。
各センサは各時点に特徴のベクトルを記録し、各センサのベクトル時系列を生成する。
目標は、これらのセンサー間の依存関係構造を特定し、それをグラフで表現することだ。
センサ毎に1つの特徴しか観測されない場合、ベクトル自己回帰(VAR)モデルは一般的にグランガー因果関係を推測するために使われ、因果グラフとなる。
最初のコントリビューションは、グラフ学習のためにVARモデルを行列変量モデルに拡張する。
さらに、低次元と高次元の両方で2つのオンライン手順が提案され、新しいサンプルが到着するにつれて、係数推定の迅速な更新が可能となった。
高次元環境では、新しいラッソ型アプローチを導入し、オンライン学習のためのホモトピーアルゴリズムを開発した。
正規化パラメータの適応調整手順も提供する。
データへの自己回帰モデルの適用は通常、オンライン環境では実現不可能なデトレクションを必要とするため、提案したARモデルは、トレンドを追加パラメータとして、特に周期的トレンドに焦点を当てることで拡張される。
オンラインアルゴリズムはこれらの拡張データモデルに適応しており、ストリーミングサンプルからグラフとトレンドを同時に学習することができる。
合成データと実データの両方を用いた数値実験により,提案手法の有効性が示された。
The focus is on the statistical analysis of matrix-valued time series, where data is collected over a network of sensors, typically at spatial locations, over time. Each sensor records a vector of features at each time point, creating a vectorial time series for each sensor. The goal is to identify the dependency structure among these sensors and represent it with a graph. When only one feature per sensor is observed, vector auto-regressive (VAR) models are commonly used to infer Granger causality, resulting in a causal graph. The first contribution extends VAR models to matrix-variate models for the purpose of graph learning. Additionally, two online procedures are proposed for both low and high dimensions, enabling rapid updates of coefficient estimates as new samples arrive. In the high-dimensional setting, a novel Lasso-type approach is introduced, and homotopy algorithms are developed for online learning. An adaptive tuning procedure for the regularization parameter is also provided. Given that the application of auto-regressive models to data typically requires detrending, which is not feasible in an online context, the proposed AR models are augmented by incorporating trend as an additional parameter, with a particular focus on periodic trends. The online algorithms are adapted to these augmented data models, allowing for simultaneous learning of the graph and trend from streaming samples. Numerical experiments using both synthetic and real data demonstrate the effectiveness of the proposed methods. | 翻訳日:2024-09-11 06:23:57 公開日:2024-09-08 |
# 有限次元リー群表現を用いたパス開発ネットワーク
Path Development Network with Finite-dimensional Lie Group Representation ( http://arxiv.org/abs/2204.00740v2 ) ライセンス: Link先を確認 | Hang Lou, Siran Li, Hao Ni, | (参考訳) 符号は粗経路理論の中心に位置し、不規則経路によって駆動される制御された微分方程式を分析する中心的なツールである。
最近、機械学習とデータサイエンスの幅広い応用が、シーケンシャルなデータタスクにおけるディープラーニングベースのモデルの性能を高める、数学的に原則化された普遍的な機能として見出されている。
それにもかかわらず、パスが高次元であるときの次元性の呪いに苦しむ。
有限次元リー群を経由した逐次データの表現を利用して,次元の減少をもたらす新しい学習可能な経路開発層を提案する。
そのバックプロパゲーションアルゴリズムは多様体の最適化によって設計されている。
提案するレイヤは、リカレントニューラルネットワーク(RNN)に類似しており、勾配問題を緩和する明示的で単純なリカレントユニットを有している。
我々の層は不規則時系列モデリングにおいてその強度を示す。
様々なデータセットにおける実験結果から、開発層は、精度と次元性において、シグネチャ特性を一貫して、著しく上回っていることが示される。
コンパクトなハイブリッドモデル(開発層に一層LSTMをインストール)は、様々なRNNおよび連続時系列モデルに対して最先端を実現する。
また、この層はリー群に制約されたモデリング力学の性能も向上させる。
コードはhttps://github.com/PDevNet/DevNet.git.comで入手できる。
Signature, lying at the heart of rough path theory, is a central tool for analysing controlled differential equations driven by irregular paths. Recently it has also found extensive applications in machine learning and data science as a mathematically principled, universal feature that boosts the performance of deep learning-based models in sequential data tasks. It, nevertheless, suffers from the curse of dimensionality when paths are high-dimensional. We propose a novel, trainable path development layer, which exploits representations of sequential data through finite-dimensional Lie groups, thus resulting in dimension reduction. Its backpropagation algorithm is designed via optimization on manifolds. Our proposed layer, analogous to recurrent neural networks (RNN), possesses an explicit, simple recurrent unit that alleviates the gradient issues. Our layer demonstrates its strength in irregular time series modelling. Empirical results on a range of datasets show that the development layer consistently and significantly outperforms signature features on accuracy and dimensionality. The compact hybrid model (stacking one-layer LSTM with the development layer) achieves state-of-the-art against various RNN and continuous time series models. Our layer also enhances the performance of modelling dynamics constrained to Lie groups. Code is available at https://github.com/PDevNet/DevNet.git. | 翻訳日:2024-09-11 06:18:42 公開日:2024-09-08 |
# トピックモデルにおける混合測度間のワッサーシュタイン距離の推定と推定
Estimation and inference for the Wasserstein distance between mixing measures in topic models ( http://arxiv.org/abs/2206.12768v3 ) ライセンス: Link先を確認 | Xin Bing, Florentina Bunea, Jonathan Niles-Weed, | (参考訳) 混合測度間のワッサーシュタイン距離は混合モデルの統計解析において中心的な位置を占めるようになった。
本研究は、この距離の新しい標準解釈を提案し、トピックモデルにおける混合測度間のワッサーシュタイン距離の推論を行うためのツールを提供する。
任意の計量 $d$ を持つ集合 $\mathcal{A}$ の分布の混合からなる同定可能な混合モデルの一般的な設定を考えると、混合測度間のワッサーシュタイン距離は、$\mathcal{A}$ の要素の混合集合に対する計量 $d$ の最も差別的な凸拡大として一意に特徴づけられることを示す。
混合測度間のワッサーシュタイン距離はそのようなモデルの研究で広く用いられているが、公理的な正当化は行われていない。
我々の結果は、この計量を正準選択と定めている。
本研究の結果をトピックモデルに特化して,この距離の推定と推定について検討する。
その推定の上限は最近他の場所で確立されているが、トピックモデルにおけるワッサーシュタイン距離の推定のための最初のミニマックス下限を証明している。
また、トピックモデルコンテキストにおいて、Wasserstein距離の完全なデータ駆動推論ツールを構築します。
この結果は、高次元離散確率分布のスパース混合に応用できる。
これらの結果により、トピックモデルにおけるワッサーシュタイン距離に対する最初の漸近的に有効な信頼区間が得られる。
The Wasserstein distance between mixing measures has come to occupy a central place in the statistical analysis of mixture models. This work proposes a new canonical interpretation of this distance and provides tools to perform inference on the Wasserstein distance between mixing measures in topic models. We consider the general setting of an identifiable mixture model consisting of mixtures of distributions from a set $\mathcal{A}$ equipped with an arbitrary metric $d$, and show that the Wasserstein distance between mixing measures is uniquely characterized as the most discriminative convex extension of the metric $d$ to the set of mixtures of elements of $\mathcal{A}$. The Wasserstein distance between mixing measures has been widely used in the study of such models, but without axiomatic justification. Our results establish this metric to be a canonical choice. Specializing our results to topic models, we consider estimation and inference of this distance. Though upper bounds for its estimation have been recently established elsewhere, we prove the first minimax lower bounds for the estimation of the Wasserstein distance in topic models. We also establish fully data-driven inferential tools for the Wasserstein distance in the topic model context. Our results apply to potentially sparse mixtures of high-dimensional discrete probability distributions. These results allow us to obtain the first asymptotically valid confidence intervals for the Wasserstein distance in topic models. | 翻訳日:2024-09-11 06:18:42 公開日:2024-09-08 |
# 変分量子アルゴリズムの反復複素性
Iteration Complexity of Variational Quantum Algorithms ( http://arxiv.org/abs/2209.10615v4 ) ライセンス: Link先を確認 | Vyacheslav Kungurtsev, Georgios Korpas, Jakub Marecek, Elton Yechao Zhu, | (参考訳) 量子コンピュータの短期的応用、すなわちハードウェアの限界によりデコヒーレンス時間を短くする量子回路の利用には、近年ずっと関心が寄せられている。
変分量子アルゴリズム(VQA)は、古典的コンピュータで実装された最適化アルゴリズムで、パラメタライズド量子回路を目的関数として評価するものである。
このフレームワークでは、機械学習、予測、応用物理学、組合せ最適化などの様々な問題を解決するために、膨大な数のアルゴリズムが提案されている。
本稿では、VQAの反復複雑性、すなわち、VQAが反復するまでのステップ数を分析する。
VQAプロシージャは、最適化文献において古典的なプロシージャとしてモデル化できるアルゴリズムを組み込んでいるが、短期デバイスにおけるノイズの特定の性質は、これらのアルゴリズムの既製の解析の適用可能性の主張を無効にする。
具体的には、雑音は量子回路による目的関数の評価を行う。
したがって、SPSAやパラメータシフト規則などの一般的な最適化手順は、偏りのある関数評価を伴う微分自由最適化アルゴリズムと見なすことができる。
我々は、欠落した保証を導き、収束率が影響を受けないことを見出す。
しかし、バイアスのレベルは定数と定常性への漸近距離の両方に好ましくなく寄与し、すなわち、バイアスがより多くなるほど、VQA目標の定常点に達することが保証される。
There has been much recent interest in near-term applications of quantum computers, i.e., using quantum circuits that have short decoherence times due to hardware limitations. Variational quantum algorithms (VQA), wherein an optimization algorithm implemented on a classical computer evaluates a parametrized quantum circuit as an objective function, are a leading framework in this space. An enormous breadth of algorithms in this framework have been proposed for solving a range of problems in machine learning, forecasting, applied physics, and combinatorial optimization, among others. In this paper, we analyze the iteration complexity of VQA, that is, the number of steps that VQA requires until its iterates satisfy a surrogate measure of optimality. We argue that although VQA procedures incorporate algorithms that can, in the idealized case, be modeled as classic procedures in the optimization literature, the particular nature of noise in near-term devices invalidates the claim of applicability of off-the-shelf analyses of these algorithms. Specifically, noise makes the evaluations of the objective function via quantum circuits biased. Commonly used optimization procedures, such as SPSA and the parameter shift rule, can thus be seen as derivative-free optimization algorithms with biased function evaluations, for which there are currently no iteration complexity guarantees in the literature. We derive the missing guarantees and find that the rate of convergence is unaffected. However, the level of bias contributes unfavorably to both the constant therein, and the asymptotic distance to stationarity, i.e., the more bias, the farther one is guaranteed, at best, to reach a stationary point of the VQA objective. | 翻訳日:2024-09-11 06:18:42 公開日:2024-09-08 |
# Ally-Boosting と Rival-Preventing の併用による相補的・競合的影響の最大化
Jointly Complementary&Competitive Influence Maximization with Concurrent Ally-Boosting and Rival-Preventing ( http://arxiv.org/abs/2302.09620v2 ) ライセンス: Link先を確認 | Qihao Shi, Wenjie Tian, Wujian Yang, Mengqi Xue, Can Wang, Minghui Wu, | (参考訳) 本稿では,新たなインフルエンサースプレッドモデル,すなわちComplementary\&Competitive Independent Cascade(C$^2$IC)モデルを提案する。
C$^2$ICモデルは、影響力増強(IB)モデル、キャンペーンオブリブラス(CO)ICモデル、ネガティブな意見を持つIC-N(ICモデル)モデルの3つのよく知られた影響モデルを一般化する。
これは、補完的および競争的な影響が多エージェント環境下で包括的に広がると考える最初のモデルである。
これに対応して,Complementary\&Competitive influence maximization (C$^2$IM) 問題を提案する。
アリシードセットと競合シードセットが与えられた場合、C$^2$IM問題は、アリスプレッドを強化し、競合スプレッドを同時に防止できるアシスタントノードのセットを選択することを目的としている。
NP-hardの問題を示し、影響促進問題と影響遮断問題を一般化することができる。
異なるカスケード優先順位をモノトニック性とサブモジュラリティ(M\&S)保持条件で4つのケースに分類することにより,理論近似境界を付与した4つのアルゴリズムを設計する。
そこで本研究では,実ソーシャルネットワーク上で広範囲に実験を行い,提案アルゴリズムの有効性を実証した。
この研究が、この分野の作業の合理化に役立つ、より一般化されたインフルエンスモデルを構築するための、豊富な将来の探索を促すことを願っている。
In this paper, we propose a new influence spread model, namely, Complementary\&Competitive Independent Cascade (C$^2$IC) model. C$^2$IC model generalizes three well known influence model, i.e., influence boosting (IB) model, campaign oblivious (CO)IC model and the IC-N (IC model with negative opinions) model. This is the first model that considers both complementary and competitive influence spread comprehensively under multi-agent environment. Correspondingly, we propose the Complementary\&Competitive influence maximization (C$^2$IM) problem. Given an ally seed set and a rival seed set, the C$^2$IM problem aims to select a set of assistant nodes that can boost the ally spread and prevent the rival spread concurrently. We show the problem is NP-hard and can generalize the influence boosting problem and the influence blocking problem. With classifying the different cascade priorities into 4 cases by the monotonicity and submodularity (M\&S) holding conditions, we design 4 algorithms respectively, with theoretical approximation bounds provided. We conduct extensive experiments on real social networks and the experimental results demonstrate the effectiveness of the proposed algorithms. We hope this work can inspire abundant future exploration for constructing more generalized influence models that help streamline the works of this area. | 翻訳日:2024-09-11 06:18:42 公開日:2024-09-08 |
# 離散連続領域における宣言的確率論的論理プログラミング
Declarative Probabilistic Logic Programming in Discrete-Continuous Domains ( http://arxiv.org/abs/2302.10674v2 ) ライセンス: Link先を確認 | Pedro Zuidberg Dos Martires, Luc De Raedt, Angelika Kimmig, | (参考訳) 過去30年にわたって、論理プログラミングパラダイムは、確率的モデリング、推論、学習をサポートするために、うまく拡張されてきた。
確率論理プログラミング(PLP)とそのプログラミング言語のパラダイムは、その成功の大部分を宣言的意味論、いわゆる分散意味論に負っている。
しかし、分布のセマンティクスは離散確率変数に限られる。
PLPは、ハイブリッドをサポートする様々な方法で拡張されているが、それでも、分散意味論とモデリング言語を一般化するだけでなく、知識コンパイルに基づく標準推論アルゴリズムであるハイブリッドPLPの宣言的意味論は欠落している。
我々は,この測度セマンティクスを,ハイブリッド PLP 言語 DC-ProbLog (DC は分布節を表す) と推論エンジンの無限小代数的準重み付け (IALW) と共に貢献する。
これらは、元々の分散セマンティクス、ProbLogのような標準PLP言語、特に知識コンパイルに基づくLPPの標準推論エンジンを含んでいる。
そこで我々は, PLPの最先端を, セマンティクス, 言語, 推論の3つの面で, ハイブリッドPLPに一般化する。
さらに、IALWは知識コンパイルに基づくハイブリッド確率型プログラミングのための最初の推論アルゴリズムである。
Over the past three decades, the logic programming paradigm has been successfully expanded to support probabilistic modeling, inference and learning. The resulting paradigm of probabilistic logic programming (PLP) and its programming languages owes much of its success to a declarative semantics, the so-called distribution semantics. However, the distribution semantics is limited to discrete random variables only. While PLP has been extended in various ways for supporting hybrid, that is, mixed discrete and continuous random variables, we are still lacking a declarative semantics for hybrid PLP that not only generalizes the distribution semantics and the modeling language but also the standard inference algorithm that is based on knowledge compilation. We contribute the measure semantics together with the hybrid PLP language DC-ProbLog (where DC stands for distributional clauses) and its inference engine infinitesimal algebraic likelihood weighting (IALW). These have the original distribution semantics, standard PLP languages such as ProbLog, and standard inference engines for PLP based on knowledge compilation as special cases. Thus, we generalize the state of the art of PLP towards hybrid PLP in three different aspects: semantics, language and inference. Furthermore, IALW is the first inference algorithm for hybrid probabilistic programming based on knowledge compilation | 翻訳日:2024-09-11 06:18:42 公開日:2024-09-08 |
# 汎視的セグメンテーションのための深層学習における不確かさ推定
Uncertainty estimation in Deep Learning for Panoptic segmentation ( http://arxiv.org/abs/2304.02098v2 ) ライセンス: Link先を確認 | Michael Smith, Frank Ferrie, | (参考訳) ディープラーニングベースのコンピュータビジョンアルゴリズムが最先端を推し進めている中、実世界のデータに対する堅牢性は問題であり続けており、研究室から現実の世界にアルゴリズムを移すことは困難である。
モンテカルロ・ドロップアウトのようなアンサンブルに基づく不確実性推定手法は、この堅牢性問題に対処するために多くのアプリケーションで成功している。
残念ながら、このようなアンサンブルベースのアプローチが新しい問題領域に適用できるかどうかは必ずしも明確ではない。
これは、この問題を解決するために設計された問題やアーキテクチャの構造が、画像分類やセマンティックセグメンテーションとは異なり、サンプル間で平均を使う典型的な解は直接適用できないことを意味する。
本稿では,モンテカルロ・ドロップアウトのようなアンサンブルに基づく不確実性推定手法が,既存のネットワークに変化がなく,性能が向上し,ネットワークによる予測の不確実性も向上することを示す。
結果はCOCO,KITTI-STEP,VIPERデータセットで定量的に定性的に示される。
As deep learning-based computer vision algorithms continue to advance the state of the art, their robustness to real-world data continues to be an issue, making it difficult to bring an algorithm from the lab to the real world. Ensemble-based uncertainty estimation approaches such as Monte Carlo Dropout have been successfully used in many applications in an attempt to address this robustness issue. Unfortunately, it is not always clear if such ensemble-based approaches can be applied to a new problem domain. This is the case with panoptic segmentation, where the structure of the problem and architectures designed to solve it means that unlike image classification or even semantic segmentation, the typical solution of using a mean across samples cannot be directly applied. In this paper, we demonstrate how ensemble-based uncertainty estimation approaches such as Monte Carlo Dropout can be used in the panoptic segmentation domain with no changes to an existing network, providing both improved performance and more importantly a better measure of uncertainty for predictions made by the network. Results are demonstrated quantitatively and qualitatively on the COCO, KITTI-STEP and VIPER datasets. | 翻訳日:2024-09-11 04:24:51 公開日:2024-09-08 |
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v6 ) ライセンス: Link先を確認 | Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie, | (参考訳) 医用ビジュアル質問回答(MedVQA)は,医療画像に基づく質問の解釈と回答に人工知能を活用することにより,診断精度と医療提供を向上する重要な機会を提供する。
本研究では,MedVQAの課題を,人間と機械の相互作用を自然に追従する生成タスクとして再編成し,事前学習した視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAは227kのVQA対の149k画像を含み、様々なモダリティや病気をカバーしています。
PMC-VQAで提案したモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef-2019といった複数の公開ベンチマークで微調整し、関連する正確なフリーフォームの回答を生成する上で、既存のMedVQAモデルよりも大幅に優れています。
さらに,手作業による検証を行うテストセットを提案する。これは非常に困難であり,生成型MedVQA手法の開発をよりよく監視するのに役立つ。
包括的な評価と比較を容易にするため、私たちはhttps://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medicalでリーダーボードを維持し、進捗を追跡し、最先端のアプローチをベンチマークするための集中的なリソースを提供しました。
PMC-VQAデータセットは研究分野の重要な資源として現れ、MedVInTはMedVQAの領域で重要なブレークスルーを示す。
Medical Visual Question Answering (MedVQA) presents a significant opportunity to enhance diagnostic accuracy and healthcare delivery by leveraging artificial intelligence to interpret and answer questions based on medical images. In this study, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction and propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. We establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. We train the proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD, SLAKE, and Image-Clef-2019, significantly outperforming existing MedVQA models in generating relevant, accurate free-form answers. In addition, we propose a test set that has undergone manual verification, which is significantly more challenging, serving to better monitor the development of generative MedVQA methods. To facilitate comprehensive evaluation and comparison, we have maintained a leaderboard at https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical, offering a centralized resource for tracking progress and benchmarking state-of-the-art approaches. The PMC-VQA dataset emerges as a vital resource for the field of research, and the MedVInT presents a significant breakthrough in the area of MedVQA. | 翻訳日:2024-09-11 04:24:51 公開日:2024-09-08 |
# Hint of Thought prompting:LLMによる推論タスクへの説明可能なゼロショットアプローチ
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs ( http://arxiv.org/abs/2305.11461v7 ) ライセンス: Link先を確認 | Ioktong Lei, Zhidong Deng, | (参考訳) プロンプティングは、LLMのより良い利用のための、ますます重要な研究トピックとなっている。
単純なプロンプトは単段階の質問ではうまく機能するが、多段階推論タスクの正しい知識経路を永久に活性化することはできない。
思考の連鎖(CoT)は、しばしばゼロショットCoTと少数ショットCoTを含むが、最近開発されたプロンプト法であり、LLMに推論プロセスを説明し、算術、記号、コモンセンス推論を含む3つの挑戦的推論タスクにおいて単純なプロンプトよりも優れている。
ゼロショットCoTにインスパイアされ、さらにゼロショット能力を拡張し、説明可能性とゼロショット一般化を促進させる新しい思考ヒント(HoT)を提案する。
説明可能なサブクエスト、論理的推論、答えの3つのステップに分けられる。
このような3つのステップはステップバイステップのヒントで順番に順序付けされ、簡単に調整でき、異なるタスクに説明できる。
最後に,実験結果から,HoTプロンプトは既存のゼロショットCoTと比較してゼロショット推論タスクに有意なアドバンテージを持つことが示された。
GSM8K, ADDSUB, AQUA, SVAMPなどの数学タスクとStrategyQAのような常識タスクについてゼロショット実験を行った。
特に、提案されたHoTプロンプトの精度は、GSM8Kを40.50%から70.65%に、AQUAを31.9%から46.4%に、SVAMPを63.7%から76.9%に、ADDSUBを74.7%から87.34%に改善し、GSM8k、AQUA、SVAMPの競合するPoTアプローチを破る結果となった。
Prompting becomes an increasingly important research topic for better utilization of LLMs. Although simple prompting performs well on single-step questions, it cannot permanently activate the correct knowledge path for multi-step reasoning tasks. The chain of thought (CoT), which often contains zero-shot CoT and few-shot CoT, is a recently developed prompting method that can explain the reasoning process to the LLM and outperforms simple prompting in three challenging reasoning tasks, including arithmetic, symbolic, and commonsense reasoning. Inspired by zero-shot CoT, and further extending the zero-shot ability, this paper proposes a novel hint of thought (HoT) prompting with explain-ability and zero-shot generalization. It is decomposed into three steps: explainable sub-questions, logical reasoning, and answering. Such three steps are sequentially ordered in step-by-step hints, which can be easily adjusted and explained to different tasks. Finally, experimental results demonstrate that our HoT prompting has a significant advantage on the zero-shot reasoning task compared to existing zero-shot CoT. We did zero-shot experiments on math tasks like GSM8K, ADDSUB, AQUA, SVAMP, and commonsense tasks such as StrategyQA. In particular, the accuracy of the proposed HoT prompting is improved with GSM8K from 40.50% to 70.65%, with AQUA from 31.9% to 46.4%, with SVAMP from 63.7% to 76.9%, and with ADDSUB from 74.7% to 87.34%, respectively, which even defeats the competitive PoT approach on GSM8k, AQUA, and SVAMP. | 翻訳日:2024-09-11 04:24:51 公開日:2024-09-08 |
# ベル非局所性と不確実性の関係の統計的関連
Statistical link between Bell nonlocality and uncertainty relations ( http://arxiv.org/abs/2305.13006v3 ) ライセンス: Link先を確認 | Li-Yi Hsu, | (参考訳) ベルの非局所性と不確実性の関係は古典物理学とは異なる量子論の特徴である。
ベル非局所性(英語版)は、異なる量子粒子上の局所観測値間の相関強度を懸念する一方、不確実性関係は、観測値の分散正方形の和または積の下界を規定する。
ここでは、アハロノフ・ヴァイドマン恒等式を用いて、これらの2つの量子文字間の統計的リンクを確立する。
これにより、ベル型不等式の上界は、分散平方の局所和の積で表される。
一方、局所的不確実性関係を評価する代わりに、2つ以上の量子系の不確実性関係はベル非局所性の量によって上界となる。
Bell nonlocality and uncertainty relations are distinct features of quantum theory from classical physics. Bell nonlocality concerns the correlation strength among local observables on different quantum particles, whereas the uncertainty relations set the lower bound of the sum or product of the variance square of observables. Here we establish the statistical link between these two quantum characters using the Aharonov-Vaidman identity. Therein, the upper bounds of Bell-type inequalities are expressed in terms of the product of the local sum of the variance square. On the other hand, instead of evaluating local uncertainty relations, the uncertainty relations on two or more quantum systems are upper-bounded by the amount of Bell nonlocality therein. | 翻訳日:2024-09-11 04:24:51 公開日:2024-09-08 |
# 動的特徴選択のための条件付き相互情報の推定
Estimating Conditional Mutual Information for Dynamic Feature Selection ( http://arxiv.org/abs/2306.03301v3 ) ライセンス: Link先を確認 | Soham Gadgil, Ian Covert, Su-In Lee, | (参考訳) 動的機能選択は、最小限の予算で正確な予測を行うために、機能をシーケンシャルにクエリし、機能獲得コストを削減し、モデルの予測に透明性を提供する、有望なパラダイムである。
しかし問題は、任意の特徴セットで予測することと、価値ある選択を特定するためのポリシーを学ぶことの両方を必要とするため、難しい。
ここでは、情報理論の観点から、応答変数との相互情報に基づいて特徴を優先順位付けする。
主な課題は、このポリシーを実践することであり、我々は、生成的手法ではなく、差別的手法で相互情報を推定する新しいアプローチを設計する。
サンプル間での多様な機能予算の実現、一様でない機能コストの実現、事前情報の導入、部分的な入力を処理するための現代的なアーキテクチャの探索などです。
実験の結果,本手法は様々なデータセットにまたがる最近の手法よりも一貫した利得を提供することがわかった。
Dynamic feature selection, where we sequentially query features to make accurate predictions with a minimal budget, is a promising paradigm to reduce feature acquisition costs and provide transparency into a model's predictions. The problem is challenging, however, as it requires both predicting with arbitrary feature sets and learning a policy to identify valuable selections. Here, we take an information-theoretic perspective and prioritize features based on their mutual information with the response variable. The main challenge is implementing this policy, and we design a new approach that estimates the mutual information in a discriminative rather than generative fashion. Building on our approach, we then introduce several further improvements: allowing variable feature budgets across samples, enabling non-uniform feature costs, incorporating prior information, and exploring modern architectures to handle partial inputs. Our experiments show that our method provides consistent gains over recent methods across a variety of datasets. | 翻訳日:2024-09-11 04:24:51 公開日:2024-09-08 |
# 量子粒子統計学の再構築:ボソン、フェルミオン、転移学
Reconstruction of Quantum Particle Statistics: Bosons, Fermions, and Transtatistics ( http://arxiv.org/abs/2306.05919v2 ) ライセンス: Link先を確認 | Nicolás Medina Sánchez, Borivoje Dakić, | (参考訳) 固有量子粒子はボゾンとフェルミオンの2種類の統計しか示さない。
理論的には、この制限は、生成および消滅作用素の代数に課される対称性の仮定または(反)交換の制約によって一般的に確立される。
これらの公理の物理的動機はいまだに理解されておらず、数学的形式主義を幾らか任意の方法で修正することで様々な一般化をもたらす。
本研究では, 量子粒子統計学を, 運用上よく動機づけられた仮定に基づいて分類する。
特に私たちが考えるのは
a) 標準(複雑な)ユニタリダイナミクスは、単一粒子変換の集合を定義し、
b) 多粒子系の空間において位相変換が局所的に作用する。
我々は、最小対称性の統計量としてボソンとフェルミオンを含む完全な特徴付けを開発する。
興味深いことに、隠れた対称性、基底状態の一般的な退化、自然発生の対称性の破れを伴う新しい統計学のすべての家系が(典型的には)通常の統計では欠落している。
Identical quantum particles exhibit only two types of statistics: bosonic and fermionic. Theoretically, this restriction is commonly established through the symmetrization postulate or (anti)commutation constraints imposed on the algebra of creation and annihilation operators. The physical motivation for these axioms remains poorly understood, leading to various generalizations by modifying the mathematical formalism in somewhat arbitrary ways. In this work, we take an opposing route and classify quantum particle statistics based on operationally well-motivated assumptions. Specifically, we consider that a) the standard (complex) unitary dynamics defines the set of single-particle transformations, and b) phase transformations act locally in the space of multi-particle systems. We develop a complete characterization, which includes bosons and fermions as basic statistics with minimal symmetry. Interestingly, we have discovered whole families of novel statistics (dubbed transtatistics) accompanied by hidden symmetries, generic degeneracy of ground states, and spontaneous symmetry breaking -- effects that are (typically) absent in ordinary statistics. | 翻訳日:2024-09-11 04:13:49 公開日:2024-09-08 |
# DP-BREM:クライアントモメンタムを用いた差分学習とビザンチン・ロバスト・フェデレーション学習
DP-BREM: Differentially-Private and Byzantine-Robust Federated Learning with Client Momentum ( http://arxiv.org/abs/2306.12608v3 ) ライセンス: Link先を確認 | Xiaolan Gu, Ming Li, Li Xiong, | (参考訳) フェデレートラーニング(FL)は、複数の参加するクライアントがデータセットをローカルに保ちながら、機械学習モデルを協調的にトレーニングすることを可能にする。
既存のFLプロトコルは、データのプライバシやモデルの堅牢性を損なうような攻撃に対して脆弱である。
最近提案された防衛策は、プライバシとロバスト性の両方を保証することに焦点を当てたが、両方ではない。
本稿では,歴史から学ぶという考え方に基づいて,差分プライバシ(DP)とビザンチン頑健性(Byzantine robustness)を同時に達成することに焦点を当てる。
この堅牢性はクライアントのモーメントによって達成され、これは各クライアントの更新時間の平均化によって、誠実なクライアントの分散を減らし、単一のラウンドでは検出できないが時間とともに蓄積するビザンティンクライアントの小さな悪意のある摂動を露呈する。
最初のソリューションであるDP-BREMでは、集約されたモーメントにノイズを加えることでDPを実現し、このモーメントからプライバシコストを考慮し、この勾配からプライバシコストを考慮に入れた従来のDP-SGDとは異なる。
DP-BREMは信頼性の高いサーバ(クライアントのローカルモデルや更新を入手できる)を仮定するため,クライアントがDPノイズを安全かつ共同生成するセキュアアグリゲーション技術を利用することで,DP-BREMとDP-BREMと同じDPとロバスト性を実現するDP-BREM+と呼ばれる最終ソリューションをさらに発展させる。
理論的解析および実験結果から,提案プロトコルは,DP予算や攻撃条件の異なる複数の基本手法よりも,より優れたプライバシ・ユーティリティ・トレードオフと強力なビザンチンロバスト性を達成できることが示されている。
Federated Learning (FL) allows multiple participating clients to train machine learning models collaboratively while keeping their datasets local and only exchanging the gradient or model updates with a coordinating server. Existing FL protocols are vulnerable to attacks that aim to compromise data privacy and/or model robustness. Recently proposed defenses focused on ensuring either privacy or robustness, but not both. In this paper, we focus on simultaneously achieving differential privacy (DP) and Byzantine robustness for cross-silo FL, based on the idea of learning from history. The robustness is achieved via client momentum, which averages the updates of each client over time, thus reducing the variance of the honest clients and exposing the small malicious perturbations of Byzantine clients that are undetectable in a single round but accumulate over time. In our initial solution DP-BREM, DP is achieved by adding noise to the aggregated momentum, and we account for the privacy cost from the momentum, which is different from the conventional DP-SGD that accounts for the privacy cost from the gradient. Since DP-BREM assumes a trusted server (who can obtain clients' local models or updates), we further develop the final solution called DP-BREM+, which achieves the same DP and robustness properties as DP-BREM without a trusted server by utilizing secure aggregation techniques, where DP noise is securely and jointly generated by the clients. Both theoretical analysis and experimental results demonstrate that our proposed protocols achieve better privacy-utility tradeoff and stronger Byzantine robustness than several baseline methods, under different DP budgets and attack settings. | 翻訳日:2024-09-11 04:13:49 公開日:2024-09-08 |
# プログラムセマンティックス学習のためのコード対称性の展開
Exploiting Code Symmetries for Learning Program Semantics ( http://arxiv.org/abs/2308.03312v9 ) ライセンス: Link先を確認 | Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana, | (参考訳) 本稿では,Large Language Models (LLM) にコードセマンティクスを教えることの課題に,モデルアーキテクチャにコード対称性を組み込むことで対処する。
我々は、コード対称性を意味論的保存変換として定義するグループ理論フレームワークを導入し、コード対称性グループを形成することで、コード意味論の正確かつ効率的な推論を可能にする。
私たちのソリューションであるSymCは、プログラム依存グラフ上で定義された置換群からコード対称性に確実に同値な新しい自己意図の変種を開発する。
SymCは5つのプログラム分析タスクにおいて優れた性能を示し、事前トレーニングなしで最先端のコードモデルより優れている。
この結果から,コード対称性群を経由したコード構造を符号化するコードLLMが,より高速に一般化されることが示唆された。
This paper tackles the challenge of teaching code semantics to Large Language Models (LLMs) for program analysis by incorporating code symmetries into the model architecture. We introduce a group-theoretic framework that defines code symmetries as semantics-preserving transformations, where forming a code symmetry group enables precise and efficient reasoning of code semantics. Our solution, SymC, develops a novel variant of self-attention that is provably equivariant to code symmetries from the permutation group defined over the program dependence graph. SymC obtains superior performance on five program analysis tasks, outperforming state-of-the-art code models without any pre-training. Our results suggest that code LLMs that encode the code structural prior via the code symmetry group generalize better and faster. | 翻訳日:2024-09-11 04:13:49 公開日:2024-09-08 |
# DEFormer:低照度画像と暗視のためのDCT駆動型拡張変換器
DEFormer: DCT-driven Enhancement Transformer for Low-light Image and Dark Vision ( http://arxiv.org/abs/2309.06941v2 ) ライセンス: Link先を確認 | Xiangchen Yin, Zhenda Yu, Xin Gao, Xiao Sun, | (参考訳) 低照度画像強調は、単一画像の色と詳細を復元し、ハイレベルな視覚タスクを改善する。
しかし、暗黒領域で失われた詳細を復元することは、RGBドメインにのみ依存することによる課題である。
本稿では,ネットワークに新たな手がかりとして周波数を導入し,DCT駆動型拡張トランスフォーマ(DEFormer)フレームワークを提案する。
まず、DCT処理と曲率に基づく周波数強調(CFE)を含む周波数強調のための学習可能な周波数分岐(LFB)を提案する。
さらに,RGB領域と周波数領域の差を低減するために,クロスドメイン融合(CDF)を提案する。
我々のDEFormerは、LOLとMIT-Adobe FiveKデータセットの両方で高度な結果を達成し、ダーク検出の性能を改善しました。
Low-light image enhancement restores colors and details of single image and improves high-level visual tasks. However, restoring the lost details in the dark area is a challenge by only relying on the RGB domain. In this paper, we introduce frequency as a new clue into the network and propose a DCT-driven enhancement transformer (DEFormer) framework. First, we propose a learnable frequency branch (LFB) for frequency enhancement contains DCT processing and curvature-based frequency enhancement (CFE) to represent frequency features. In addition, we propose a cross domain fusion (CDF) for reducing the differences between the RGB domain and the frequency domain. Our DEFormer has achieved advanced results in both the LOL and MIT-Adobe FiveK datasets and improved the performance of dark detection. | 翻訳日:2024-09-11 04:03:29 公開日:2024-09-08 |
# 強化学習の能動的学習:確率的最適制御アプローチ
Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach ( http://arxiv.org/abs/2309.10831v4 ) ライセンス: Link先を確認 | Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos G. Vamvoudakis, | (参考訳) 本稿では,2つの相反する目的を達成するための枠組みを提案する。
一 活発な探索及び故意の情報収集による強化学習を施し、不一致及び騒音感覚のモデル化による状態及びパラメータの不確かさを規制すること。
(II)確率的最適制御の計算的難易度を克服する。
我々は、強化学習を用いて両方の目的にアプローチし、確率的最適制御法を計算する。
一方、確率的動的計画方程式の直接解を禁ずる次元性の呪いは避ける。
一方、確率的最適制御強化学習エージェントは、注意と探索、すなわち、最適オンライン探索と搾取を認めている。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
本論文は, 線形二次レギュレータが一定の等価性仮定を持つことにより, 性能が低下し, フィルタのばらつきが生じ, 提案手法は安定化され, 許容性能が向上し, 計算上有用であることを示す数値シミュレーションにより結論付けている。
In this paper we propose a framework towards achieving two intertwined objectives: (i) equipping reinforcement learning with active exploration and deliberate information gathering, such that it regulates state and parameter uncertainties resulting from modeling mismatches and noisy sensory; and (ii) overcoming the computational intractability of stochastic optimal control. We approach both objectives by using reinforcement learning to compute the stochastic optimal control law. On one hand, we avoid the curse of dimensionality prohibiting the direct solution of the stochastic dynamic programming equation. On the other hand, the resulting stochastic optimal control reinforcement learning agent admits caution and probing, that is, optimal online exploration and exploitation. Unlike fixed exploration and exploitation balance, caution and probing are employed automatically by the controller in real-time, even after the learning process is terminated. We conclude the paper with a numerical simulation, illustrating how a Linear Quadratic Regulator with the certainty equivalence assumption may lead to poor performance and filter divergence, while our proposed approach is stabilizing, of an acceptable performance, and computationally convenient. | 翻訳日:2024-09-11 04:03:29 公開日:2024-09-08 |
# CA-PCA:曲率に適応したマニフォールド次元推定
CA-PCA: Manifold Dimension Estimation, Adapted for Curvature ( http://arxiv.org/abs/2309.13478v2 ) ライセンス: Link先を確認 | Anna C. Gilbert, Kevin O'Neill, | (参考訳) 高次元データの解析におけるアルゴリズムの成功は、しばしば、このデータがより低次元の多様体上または近くにあると仮定する多様体仮説に起因している。
例えば、次元還元を行う前に、この多様体の次元を決定または推定することはしばしば有用である。
既存の次元推定法は平らな単位球を用いて校正する。
本稿では,2次埋め込みのキャリブレーションに基づく局所PCAのバージョンであるCA-PCAを開発し,基礎となる多様体の曲率を認識する。
多くの注意深い実験により、この適応は広範囲な設定で推定器を改善することが示されている。
The success of algorithms in the analysis of high-dimensional data is often attributed to the manifold hypothesis, which supposes that this data lie on or near a manifold of much lower dimension. It is often useful to determine or estimate the dimension of this manifold before performing dimension reduction, for instance. Existing methods for dimension estimation are calibrated using a flat unit ball. In this paper, we develop CA-PCA, a version of local PCA based instead on a calibration of a quadratic embedding, acknowledging the curvature of the underlying manifold. Numerous careful experiments show that this adaptation improves the estimator in a wide range of settings. | 翻訳日:2024-09-11 04:03:29 公開日:2024-09-08 |
# LESSON: オプションフレームワークによる強化学習のための探索戦略の統合学習
LESSON: Learning to Integrate Exploration Strategies for Reinforcement Learning via an Option Framework ( http://arxiv.org/abs/2310.03342v2 ) ライセンス: Link先を確認 | Woojun Kim, Jeonghye Kim, Youngchul Sung, | (参考訳) 本稿では,選択肢批判モデルに基づく強化学習(RL)における探索のための統一的枠組みを提案する。
提案手法は多様な探索戦略を統合することを学び、エージェントが時間とともに最も効果的な探索戦略を適応的に選択し、各タスクに対して関連する探索・探索トレードオフを実現する。
提案手法の有効性は,MiniGridおよびAtari環境における様々な実験により実証された。
In this paper, a unified framework for exploration in reinforcement learning (RL) is proposed based on an option-critic model. The proposed framework learns to integrate a set of diverse exploration strategies so that the agent can adaptively select the most effective exploration strategy over time to realize a relevant exploration-exploitation trade-off for each given task. The effectiveness of the proposed exploration framework is demonstrated by various experiments in the MiniGrid and Atari environments. | 翻訳日:2024-09-11 04:03:29 公開日:2024-09-08 |
# DNA基盤モデルのためのBERTライクな事前試験の理解に向けて
Toward Understanding BERT-Like Pre-Training for DNA Foundation Models ( http://arxiv.org/abs/2310.07644v3 ) ライセンス: Link先を確認 | Chaoqi Liang, Lifeng Qiao, Peng Ye, Nanqing Dong, Jianle Sun, Weiqiang Bai, Yuchen Ren, Xinzhu Ma, Hongliang Yan, Chunfeng Song, Wanli Ouyang, Wangmeng Zuo, | (参考訳) 言語タスクにおける大規模事前学習の成功により、生命科学分野に適用する傾向が高まっている。
特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。
しかし、既存のDNA配列の事前学習法は、NLPからのBERT事前学習の直接的な採用に大きく依存しており、包括的理解と特別に調整されたアプローチが欠如している。
この研究ギャップに対処するため、3つの洞察に富んだ観察を行った最初の経験的研究を行った。
実証実験から, 重複トークン化器は下流タスクの微調整の恩恵を受けるが, 高速収束を伴う事前学習が不十分であることに気付く。
事前学習の可能性を解き放つためにランダムマスク(RandomMask)と呼ばれる新しい手法を導入する。これは、マスク境界を連続的に拡張することで、BERTライクな事前学習作業の難しさを徐々に増大させ、モデルにより多くの知識を学ばせる。
RandomMaskはシンプルだが効果的で、6つのダウンストリームタスクで最先端のパフォーマンスを実現する。
RandomMaskは、マシューのエピジェネティックマーク予測の相関係数の68.16\%、ベースラインの19.85\%の画期的な増加、そして前回の最先端よりも3.69\%の顕著な改善を達成している。
With the success of large-scale pre-training in language tasks, there is an increasing trend of applying it to the domain of life sciences. In particular, pre-training methods based on DNA sequences have received increasing attention because of their potential to capture general information about genes. However, existing pre-training methods for DNA sequences largely rely on direct adoptions of BERT pre-training from NLP, lacking a comprehensive understanding and a specifically tailored approach. To address this research gap, we provide the first empirical study with three insightful observations. Based on the empirical study, we notice that overlapping tokenizer can benefit the fine-tuning of downstream tasks but leads to inadequate pre-training with fast convergence. To unleash the pre-training potential, we introduce a novel approach called RandomMask, which gradually increases the task difficulty of BERT-like pre-training by continuously expanding its mask boundary, forcing the model to learn more knowledge. RandomMask is simple but effective, achieving state-of-the-art performance across 6 downstream tasks. RandomMask achieves a staggering 68.16\% in Matthew's correlation coefficient for Epigenetic Mark Prediction, a groundbreaking increase of 19.85\% over the baseline and a remarkable 3.69\% improvement over the previous state-of-the-art result. | 翻訳日:2024-09-11 03:52:53 公開日:2024-09-08 |
# 進化的多目的最適化によるミグラント再定住
Migrant Resettlement by Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2310.08896v3 ) ライセンス: Link先を確認 | Dan-Xuan Liu, Yu-Ran Gu, Chao Qian, Xin Mu, Ke Tang, | (参考訳) 移行は普遍的な現象であり、グローバルな開発のための機会と課題をもたらす。
近年、移民(難民など)の数が急増するにつれて、各国が直面する重要な課題は移民再定住の問題である。
この問題は、雇用率の最大化の観点から、科学的研究の注目を集めている。
これまでの研究は主に、複数のマトロイド制約に従属する概ね部分モジュラー最適化問題として移民再定住を定式化し、グリーディアルゴリズムを用いたが、その性能はグリーディ性によって制限される可能性がある。
本稿では, 進化的多目的最適化に基づくMR-EMOを提案する。これは, ミグラント再定住を双目的最適化問題として再編成し, 被雇用者数の最大化と移住者数の同時最小化を実現し, 両対象問題の解法として多目的進化アルゴリズム(MOEA)を採用している。
3つのMOEA, NSGA-II, MOEA/D, GSEMOを用いてMR-EMOを実装した。
MR-EMOの性能をさらに向上させるために,マトリックススワップの突然変異と修復機構を用いて,GSEMO-SRと呼ばれる特定のMOEAを提案する。
GSEMOとGSEMO-SRを併用したMR-EMOは,従来のグリージーアルゴリズムよりも理論上の保証が得られることを示す。
インタビューおよび調整移行モデルによる実験結果から,従来のアルゴリズムよりもMR-EMO(NSGA-II, MOEA/D, GSEMO-SR, GSEMO-SR)の方が優れており,GSEMO-SRを用いることでMR-EMOの最高の性能が得られることが明らかとなった。
Migration has been a universal phenomenon, which brings opportunities as well as challenges for global development. As the number of migrants (e.g., refugees) increases rapidly in recent years, a key challenge faced by each country is the problem of migrant resettlement. This problem has attracted scientific research attention, from the perspective of maximizing the employment rate. Previous works mainly formulated migrant resettlement as an approximately submodular optimization problem subject to multiple matroid constraints and employed the greedy algorithm, whose performance, however, may be limited due to its greedy nature. In this paper, we propose a new framework MR-EMO based on Evolutionary Multi-objective Optimization, which reformulates Migrant Resettlement as a bi-objective optimization problem that maximizes the expected number of employed migrants and minimizes the number of dispatched migrants simultaneously, and employs a Multi-Objective Evolutionary Algorithm (MOEA) to solve the bi-objective problem. We implement MR-EMO using three MOEAs, the popular NSGA-II, MOEA/D as well as the theoretically grounded GSEMO. To further improve the performance of MR-EMO, we propose a specific MOEA, called GSEMO-SR, using matrix-swap mutation and repair mechanism, which has a better ability to search for feasible solutions. We prove that MR-EMO using either GSEMO or GSEMO-SR can achieve better theoretical guarantees than the previous greedy algorithm. Experimental results under the interview and coordination migration models clearly show the superiority of MR-EMO (with either NSGA-II, MOEA/D, GSEMO or GSEMO-SR) over previous algorithms, and that using GSEMO-SR leads to the best performance of MR-EMO. | 翻訳日:2024-09-11 03:52:53 公開日:2024-09-08 |
# 魔法のロバストさを定量化するハンドブック
Handbook for Quantifying Robustness of Magic ( http://arxiv.org/abs/2311.01362v5 ) ライセンス: Link先を確認 | Hiroki Hamaguchi, Kou Hamada, Nobuyuki Yoshioka, | (参考訳) 非安定化器性(英: nonstabilizerness)またはマジック(英: magic)は、普遍的な量子計算を行うために必要な量子資源である。
特に魔法のロバスト性(RoM)は、非クリフォード演算に対する与えられた量子状態の有用性の度合いを特徴づける。
RoMの数学的形式は簡潔な方法で与えられるが、極端に多くの純粋な安定化状態を含むため、実際にRoMを決定することは極めて困難である。
そこで本研究では,RoMの計算に有効な新しいアルゴリズムを提案する。
重要な技術は、純粋な安定化状態間の重なりの計算において顕著な特徴を達成するサブルーチンである。
i) 各安定化器毎の時間複雑性を指数関数的に減少させる。
(ii)空間複雑性は指数関数的に減少する。
このサブルーチンに基づいて、ラップトップ上で最大$n=7$ qubitsの任意の状態に対してRoMを計算するアルゴリズムを提案する。
副生成物として、提案したサブルーチンは安定化器の忠実度を最大$n=8$ qubitsまでシミュレートすることができる。
さらに,解離の置換対称性などの対象量子状態の構造に対する事前知識を利用する新しいアルゴリズムを提案し,魔術状態と部分的に解離した量子状態のコピーに対して,我々の最先端の結果を数値的に示す。
一連のアルゴリズムは、RoMの計算をスケールアップするための包括的「ハンドブック」を構成しており、提案手法が他の量子リソースの計算にも適用可能であることを想定する。
The nonstabilizerness, or magic, is an essential quantum resource to perform universal quantum computation. Robustness of magic (RoM) in particular characterizes the degree of usefulness of a given quantum state for non-Clifford operation. While the mathematical formalism of RoM can be given in a concise manner, it is extremely challenging to determine the RoM in practice, since it involves superexponentially many pure stabilizer states. In this work, we present efficient novel algorithms to compute the RoM. The crucial technique is a subroutine that achieves the remarkable features in calculation of overlaps between pure stabilizer states: (i) the time complexity per each stabilizer is reduced exponentially, (ii) the space complexity is reduced superexponentially. Based on this subroutine, we present algorithms to compute the RoM for arbitrary states up to $n=7$ qubits on a laptop, while brute-force methods require a memory size of 86 TiB. As a byproduct, the proposed subroutine allows us to simulate the stabilizer fidelity up to $n=8$ qubits, for which naive methods require memory size of 86 PiB so that any state-of-the-art classical computer cannot execute the computation. We further propose novel algorithms that utilize the preknowledge on the structure of target quantum state such as the permutation symmetry of disentanglement, and numerically demonstrate our state-of-the-art results for copies of magic states and partially disentangled quantum states. The series of algorithms constitute a comprehensive ``handbook'' to scale up the computation of the RoM, and we envision that the proposed technique applies to the computation of other quantum resource measures as well. | 翻訳日:2024-09-11 03:52:53 公開日:2024-09-08 |
# TimelyGPT:医療における長期予測のための拡張性トランスフォーマー事前トレーニング
TimelyGPT: Extrapolatable Transformer Pre-training for Long-term Time-Series Forecasting in Healthcare ( http://arxiv.org/abs/2312.00817v3 ) ライセンス: Link先を確認 | Ziyang Song, Qincheng Lu, Hao Xu, He Zhu, David L. Buckeridge, Yue Li, | (参考訳) BERTやGPTのような大規模事前学習モデル(PTM)は、最近自然言語処理やコンピュータビジョンの分野で大きな成功を収めている。
しかし、医療時系列データに対するPTMの開発は遅れており、これは既存のトランスフォーマーベースのアーキテクチャ、特に大規模時系列を処理するスケーラビリティと長期の時間的依存関係をキャプチャする能力の限界を浮き彫りにしている。
本研究では,Timely Generative Pre-trained Transformer (TimelyGPT)を提案する。
TimelyGPTは、トレンドと周期パターンを時系列表現にエンコードするために、extrapolatable position (xPos) を組み込んでいる。
また、再帰的な注意と時間的畳み込みモジュールを統合して、グローバルな時間的依存関係を効果的にキャプチャする。
我々は,2つの大規模医療時系列データセットにおいて,連続生体信号と不規則サンプル時系列に対応するタイムリーGPTを評価した。
本実験は, トレーニング前において, 経時的電子健康記録(EHR)でよく見られる連続監視バイオシグナーと不規則サンプリング時系列データから時系列表現の学習において, タイムリーGPTが優れていることを示す。
連続的な生体信号の予測において、TimelyGPTは、2,000のタイムステップしか持たない短いルックアップウィンドウ(即ちプロンプト)が与えられた場合、睡眠段階遷移中の体温の6,000までの正確な外挿を達成する。
不規則にサンプリングされた時系列に対して、TimelyGPTは時間固有の推論を用いて、早期診断記録を用いて将来の診断を予測し、臨床記録間の不規則な間隔を効果的に扱う際に、高いトップリコールスコアを示す。
今回我々は,TimelyGPTを,長期患者の健康状態予測や患者のリスク軌跡予測など,幅広い健康領域で有用であると想定した。
Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success in Natural Language Processing and Computer Vision domains. However, the development of PTMs on healthcare time-series data is lagging behind.This underscores the limitations of the existing transformer-based architectures, particularly their scalability to handle large-scale time series and ability to capture long-term temporal dependencies. In this study, we present Timely Generative Pre-trained Transformer (TimelyGPT). TimelyGPT employs an extrapolatable position (xPos) embedding to encode trend and periodic patterns into time-series representations. It also integrates recurrent attention and temporal convolution modules to effectively capture global-local temporal dependencies. We evaluated TimelyGPT on two large-scale healthcare time series datasets corresponding to continuous biosignals and irregularly-sampled time series, respectively. Our experiments show that during pre-training, TimelyGPT excels in learning time-series representations from continuously monitored biosignals and irregularly-sampled time series data commonly observed in longitudinal electronic health records (EHRs). In forecasting continuous biosignals, TimelyGPT achieves accurate extrapolation up to 6,000 timesteps of body temperature during the sleep stage transition, given a short look-up window (i.e., prompt) containing only 2,000 timesteps. For irregularly-sampled time series, TimelyGPT with a proposed time-specific inference demonstrates high top recall scores in predicting future diagnoses using early diagnostic records, effectively handling irregular intervals between clinical records. Together, we envision TimelyGPT to be useful in a broad spectrum of health domains, including long-term patient health state forecasting and patient risk trajectory prediction. | 翻訳日:2024-09-11 03:42:43 公開日:2024-09-08 |
# Silent Guardian: 大規模言語モデルによる悪意ある爆発からテキストを保護する
Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models ( http://arxiv.org/abs/2312.09669v6 ) ライセンス: Link先を確認 | Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Yuang Qi, Weiming Zhang, Nenghai Yu, | (参考訳) 大規模言語モデル(LLM)の急速な開発は、様々な下流タスクにおいて顕著な成功を収めた。
しかし、LLMの膨大な可能性と目覚ましい能力は、その開放性のために悪用された場合、新たなセキュリティとプライバシの懸念も引き起こす。
例えば、LSMは、文書を盗用したり、模倣したりすることで、オリジナルコンテンツの著作権を侵害したり、特定のソーステキストに基づいて識別できない偽の情報を生成したりすることができる。
場合によっては、LLMは個人のプライバシーを推測するためにインターネットからテキストを分析することもできる。
残念なことに、従来のテキスト保護研究は強力なLSMの出現を予測できなかったため、この新しい文脈ではもはや効果を示さなかった。
このギャップを埋めるために,LLMに対するテキスト保護機構であるSilent Guardian(SG)を導入する。
具体的には,まず,トラニケート保護事例(TPE)の概念を提案する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
さらに,テキストデータの離散空間においてTPEを効率的に構築するために,高効率であるだけでなく,最適化プロセス中にテキストのセマンティック一貫性を維持できる,Super Tailored Protection (STP)と呼ばれる新しい最適化アルゴリズムを提案する。
総合的な実験評価により、SGは様々な構成下でターゲットテキストを効果的に保護でき、場合によってはほぼ100%の保護成功率を達成できることが示された。
特に、SGは比較的優れた転送性とロバスト性を示しており、現実的なシナリオでも適用可能である。
私たちのコードはhttps://github.com/weiyezhimeng/Silent-Guardian.comで公開されています。
The rapid development of large language models (LLMs) has yielded impressive success in various downstream tasks. However, the vast potential and remarkable capabilities of LLMs also raise new security and privacy concerns if they are exploited for nefarious purposes due to their open-endedness. For example, LLMs may be used to plagiarize or imitate writing, thereby infringing the copyright of the original content, or to create indiscriminate fake information based on a certain source text. In some cases, LLMs can even analyze text from the Internet to infer personal privacy. Unfortunately, previous text protection research could not foresee the emergence of powerful LLMs, rendering it no longer effective in this new context. To bridge this gap, we introduce Silent Guardian (SG), a text protection mechanism against LLMs, which allows LLMs to refuse to generate response when receiving protected text, preventing the malicious use of text from the source. Specifically, we first propose the concept of Truncation Protection Examples (TPE). By carefully modifying the text to be protected, TPE can induce LLMs to first sample the end token, thus directly terminating the interaction. In addition, to efficiently construct TPE in the discrete space of text data, we propose a novel optimization algorithm called Super Tailored Protection (STP), which is not only highly efficient but also maintains the semantic consistency of the text during the optimization process. The comprehensive experimental evaluation demonstrates that SG can effectively protect the target text under various configurations and achieve almost 100% protection success rate in some cases. Notably, SG also exhibits relatively good transferability and robustness, making its application in practical scenarios possible. Our code is available at https://github.com/weiyezhimeng/Silent-Guardian. | 翻訳日:2024-09-11 03:42:43 公開日:2024-09-08 |
# ソフトウェア工学のための大規模言語モデルに関する調査
A Survey on Large Language Models for Software Engineering ( http://arxiv.org/abs/2312.15223v2 ) ライセンス: Link先を確認 | Quanjun Zhang, Chunrong Fang, Yang Xie, Yaxin Zhang, Yun Yang, Weisong Sun, Shengcheng Yu, Zhenyu Chen, | (参考訳) ソフトウェアエンジニアリング(SE)は、現代の世界のデジタルインフラを支えるソフトウェアアプリケーションの体系的設計、開発、保守、管理である。
つい最近、SEコミュニティは広範囲のSEタスクを自動化するためにLLM(Large Language Models)を使用する技術が急速に増えているのを見た。
それでも、SE 内の LLM のアプリケーション、エフェクト、および可能性の制限に関する既存の情報は、まだ十分に研究されていない。
本稿では,LLM ベースの SE コミュニティにおける現状研究を要約する体系的な調査を行う。
3つのモデルアーキテクチャにまたがる62の代表的なLLM,4つのカテゴリにまたがる15の事前学習目標,5つのカテゴリにまたがる16のダウンストリームタスクをまとめた。
次に,LLMが一般的に利用される最近のSE研究の詳細な要約について述べる。
また, 実証評価, ベンチマーク, セキュリティと信頼性, ドメインチューニング, 圧縮, 蒸留など, LDMをSEに統合する際のいくつかの重要な側面についても論じる。
最後に,ドメインLLMの探索やクリーンな評価データセットの構築など,将来のSE研究にLLMを適用する上での課題と可能性について紹介する。
本研究は,既存のLLMベースのSE研究の成果を総合的に理解し,これらの手法の実用化を促進する上で有効である。
私たちのアーティファクトは公開されており、リビングリポジトリで継続的に更新されます。
Software Engineering (SE) is the systematic design, development, maintenance, and management of software applications underpinning the digital infrastructure of our modern world. Very recently, the SE community has seen a rapidly increasing number of techniques employing Large Language Models (LLMs) to automate a broad range of SE tasks. Nevertheless, existing information of the applications, effects, and possible limitations of LLMs within SE is still not well-studied. In this paper, we provide a systematic survey to summarize the current state-of-the-art research in the LLM-based SE community. We summarize 62 representative LLMs of Code across three model architectures, 15 pre-training objectives across four categories, and 16 downstream tasks across five categories. We then present a detailed summarization of the recent SE studies for which LLMs are commonly utilized, including 947 studies for 112 specific code-related tasks across five crucial phases within the SE workflow. We also discuss several critical aspects during the integration of LLMs into SE, such as empirical evaluation, benchmarking, security and reliability, domain tuning, compressing and distillation. Finally, we highlight several challenges and potential opportunities on applying LLMs for future SE studies, such as exploring domain LLMs and constructing clean evaluation datasets. Overall, our work can help researchers gain a comprehensive understanding about the achievements of the existing LLM-based SE studies and promote the practical application of these techniques. Our artifacts are publicly available and will be continuously updated at the living repository: https://github.com/iSEngLab/AwesomeLLM4SE. | 翻訳日:2024-09-11 03:32:49 公開日:2024-09-08 |
# 点雲上での3次元物体追跡のカテゴリー統一に向けて
Towards Category Unification of 3D Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2401.11204v2 ) ライセンス: Link先を確認 | Jiahao Nie, Zhiwei He, Xudong Lv, Xueyi Zhou, Dong-Kyu Chae, Fei Xie, | (参考訳) カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
しかし、そのような過度に特殊化されたモデル設計は冗長なパラメータを発生させるため、3D SOTタスクの広範な適用性が制限される。
本稿ではまず,共有モデルパラメータを持つ単一ネットワークを用いて,すべてのカテゴリにまたがるオブジェクトを同時に追跡できる統一モデルを提案する。
具体的には、異なるオブジェクトカテゴリに関連付けられた異なる属性を明示的に符号化し、モデルがカテゴリ間データに適応できるようにする。
点雲の物体の属性のばらつきは、主に大きさと形状の違い(例えば、大型・四角形車両対小型・細い人間)から生じる。
本研究では,AdaFormerと呼ばれるトランスフォーマーアーキテクチャを継承する新しい点集合表現学習ネットワークを設計する。
さらに、既知のテンプレートターゲットから派生したサイズと形状をモデルの入力と学習目的に組み込んで、統一表現の学習を容易にする。
SiamCUT と MoCUT の2つのカテゴリ統一モデルを構築し,SiamCUT と MoCUT が強い一般化と訓練安定性を示すことを示した。
さらに, カテゴリー統一モデルは, KITTIデータセットでは12%, 3%, シームズ・モーション・パラダイムでは3%の差で, カテゴリー特化モデルよりも優れていた。
私たちのコードは利用可能です。
Category-specific models are provenly valuable methods in 3D single object tracking (SOT) regardless of Siamese or motion-centric paradigms. However, such over-specialized model designs incur redundant parameters, thus limiting the broader applicability of 3D SOT task. This paper first introduces unified models that can simultaneously track objects across all categories using a single network with shared model parameters. Specifically, we propose to explicitly encode distinct attributes associated to different object categories, enabling the model to adapt to cross-category data. We find that the attribute variances of point cloud objects primarily occur from the varying size and shape (e.g., large and square vehicles v.s. small and slender humans). Based on this observation, we design a novel point set representation learning network inheriting transformer architecture, termed AdaFormer, which adaptively encodes the dynamically varying shape and size information from cross-category data in a unified manner. We further incorporate the size and shape prior derived from the known template targets into the model's inputs and learning objective, facilitating the learning of unified representation. Equipped with such designs, we construct two category-unified models SiamCUT and MoCUT.Extensive experiments demonstrate that SiamCUT and MoCUT exhibit strong generalization and training stability. Furthermore, our category-unified models outperform the category-specific counterparts by a significant margin (e.g., on KITTI dataset, 12% and 3% performance gains on the Siamese and motion paradigms). Our code will be available. | 翻訳日:2024-09-11 03:32:49 公開日:2024-09-08 |
# LYT-NET:低照度画像強調のための軽量YUVトランスを用いたネットワーク
LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement ( http://arxiv.org/abs/2401.15204v5 ) ライセンス: Link先を確認 | A. Brateanu, R. Balmez, A. Avram, C. Orhei, C. Ancuti, | (参考訳) 本稿では,低照度画像強調(LLIE)のための新しい軽量トランスフォーマーモデルであるLYT-Netを紹介する。
LYT-Netは,CWD(Channel-Wise Denoiser)やMSEF(Multi-Stage Squeeze & Excite Fusion)など,いくつかのレイヤと分離可能なブロックから構成される。
提案手法では, 蛍光チャネルU, V, 発光チャネルYを別個のエンティティとして扱い, 照明調整, 劣化復旧に役立てる。
確立されたLLIEデータセットに対する包括的評価は、その複雑さが低いにもかかわらず、我々のモデルは最近のLLIE法よりも優れていることを示す。
ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。
This letter introduces LYT-Net, a novel lightweight transformer-based model for low-light image enhancement (LLIE). LYT-Net consists of several layers and detachable blocks, including our novel blocks--Channel-Wise Denoiser (CWD) and Multi-Stage Squeeze & Excite Fusion (MSEF)--along with the traditional Transformer block, Multi-Headed Self-Attention (MHSA). In our approach we adopt a dual-path approach, treating chrominance channels U and V and luminance channel Y as separate entities to help the model better handle illumination adjustment and corruption restoration. Our comprehensive evaluation on established LLIE datasets demonstrates that, despite its low complexity, our model outperforms recent LLIE methods. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net | 翻訳日:2024-09-11 03:32:49 公開日:2024-09-08 |
# Fractional-Truncated Seriesによる高速量子アルゴリズム
Faster Quantum Algorithms with "Fractional"-Truncated Series ( http://arxiv.org/abs/2402.05595v2 ) ライセンス: Link先を確認 | Yue Wang, Qi Zhao, | (参考訳) 量子アルゴリズムは、しばしば乱数列近似(英語版)に依存するが、これは一般に適切な精度で高い乱数順序を必要とするため、非現実的な回路の複雑さをもたらす。
そこで本研究では,トラニケート誤差を2次的に改善し,有効トラニケート順序の連続的な調整を可能にすることにより,回路深度を大幅に低減するフレームワークであるランダム化トラニケートシリーズ(RTS)を紹介した。
RTSはこれらの拡張を達成するために列展開のランダムな混合を利用する。
我々は,この補題を準ユニタリなインスタンスに一般化して誤差解析をサポートし,一元数,量子信号処理,量子微分方程式の線形結合によるRTSの汎用性を実証する。
我々の結果は、実用的な量子優位性への道に光を当てた。
Quantum algorithms frequently rely on truncated series approximations, which typically require high truncation orders for adequate accuracy, leading to impractical circuit complexity. In response, we introduce Randomized Truncated Series (RTS), a framework that significantly reduces circuit depth by quadratically improving truncation error and enabling continuous adjustment of the effective truncation order. RTS leverages random mixing of series expansions to achieve these enhancements. We generalize the mixing lemma to near-unitary instances to support our error analysis and demonstrate the versatility of RTS through applications in linear combinations of unitaries, quantum signal processing, and quantum differential equations. Our results shed light on the path toward practical quantum advantage. | 翻訳日:2024-09-11 03:22:55 公開日:2024-09-08 |
# MIM-Refiner: 中間的事前学習表現からのコントラスト学習促進
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations ( http://arxiv.org/abs/2402.10093v3 ) ライセンス: Link先を確認 | Benedikt Alkin, Lukas Miklautz, Sepp Hochreiter, Johannes Brandstetter, | (参考訳) 我々は,MIMモデルに対するコントラスト学習強化であるMIM-Refinerを紹介する。
MIM-Refinerは、MIMモデル内の強い表現が一般的に中間層に存在するという洞察に動機づけられている。
そのため、MIM-Refinerは異なる中間層に接続された複数のコントラストヘッドを利用する。
それぞれのヘッドでは、修正された近接オブジェクトがセマンティッククラスタを構成し、セマンティック情報をキャプチャして、オフザシェルフや微調整設定など、下流タスクのパフォーマンスを改善する。
精製プロセスは短くてシンプルですが、非常に効果的です。
数世紀以内に、MIMモデルの機能をサブパーから最先端のオフザシェルフ機能まで洗練します。
ImageNet-1KでData2vec 2.0で事前トレーニングされたViT-Hの精製は、リニアプローブ(84.7%)の新たな最先端と、ImageNet-1Kで事前トレーニングされたモデルのローショット分類を規定する。
MIM-RefinerはMIMとIDの利点を効果的に組み合わせ、ローショット分類、ロングテール分類、クラスタリング、セマンティックセグメンテーションといった様々なベンチマークにおいて、従来の最先端SSLモデルと良好に比較する。
We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. MIM-Refiner is motivated by the insight that strong representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to different intermediate layers. In each head, a modified nearest neighbor objective constructs semantic clusters that capture semantic information which improves performance on downstream tasks, including off-the-shelf and fine-tuning settings. The refinement process is short and simple - yet highly effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, sets a new state-of-the-art in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. MIM-Refiner efficiently combines the advantages of MIM and ID objectives and compares favorably against previous state-of-the-art SSL models on a variety of benchmarks such as low-shot classification, long-tailed classification, clustering and semantic segmentation. | 翻訳日:2024-09-11 03:22:55 公開日:2024-09-08 |
# ロバストUDC画像復元のための逆浄化法と微細調整法
Adversarial Purification and Fine-tuning for Robust UDC Image Restoration ( http://arxiv.org/abs/2402.13629v2 ) ライセンス: Link先を確認 | Zhenbo Song, Zhenyuan Zhang, Kaihao Zhang, Zhaoxin Fan, Jianfeng Lu, | (参考訳) 本研究は、敵の攻撃に対する堅牢性に着目し、UDC画像復元モデルの強化に焦点を当てた。
シームレスなディスプレイ統合に対する革新的なアプローチにもかかわらず、UDC技術は、対向的摂動に対する感受性により、独自の画像劣化の課題に直面している。
本研究は,複数のホワイトボックスとブラックボックス攻撃手法を用いて,深層学習に基づくUDC画像復元モデルの詳細な堅牢性評価を行う。
この評価は、現在のUDC画像復元技術の脆弱性を理解する上で重要である。
評価の後、敵の浄化とその後の微調整プロセスを統合する防衛枠組みを導入する。
まず, 拡散型逆流浄化法を用いて, 対流摂動を効果的に中和する手法を提案する。
そして,この微調整手法を適用し,画像復元モデルをさらに洗練し,復元画像の品質と忠実さを確実に維持する。
提案手法の有効性は広範囲な実験により検証され、典型的な敵攻撃に対するレジリエンスの顕著な改善が示されている。
This study delves into the enhancement of Under-Display Camera (UDC) image restoration models, focusing on their robustness against adversarial attacks. Despite its innovative approach to seamless display integration, UDC technology faces unique image degradation challenges exacerbated by the susceptibility to adversarial perturbations. Our research initially conducts an in-depth robustness evaluation of deep-learning-based UDC image restoration models by employing several white-box and black-box attacking methods. This evaluation is pivotal in understanding the vulnerabilities of current UDC image restoration techniques. Following the assessment, we introduce a defense framework integrating adversarial purification with subsequent fine-tuning processes. First, our approach employs diffusion-based adversarial purification, effectively neutralizing adversarial perturbations. Then, we apply the fine-tuning methodologies to refine the image restoration models further, ensuring that the quality and fidelity of the restored images are maintained. The effectiveness of our proposed approach is validated through extensive experiments, showing marked improvements in resilience against typical adversarial attacks. | 翻訳日:2024-09-11 03:22:55 公開日:2024-09-08 |
# 負の客観性を持つ不確かさのアンサンブルによる外乱検出
Outlier detection by ensembling uncertainty with negative objectness ( http://arxiv.org/abs/2402.15374v4 ) ライセンス: Link先を確認 | Anja Delić, Matej Grcić, Siniša Šegvić, | (参考訳) 外乱検出は、教師付き視覚認識の安全クリティカルな応用に欠かせない能力である。
既存の手法のほとんどは、標準クローズドセットモデルを奨励し、負のトレーニングデータに低信頼の予測を生成することで、最良の結果をもたらす。
しかし、この手法は予測の不確かさと負のクラス認識を混同する。
したがって、K の基底クラスと 1 の外れ値クラスに対応する K+1 の対数を直接予測する。
この設定により、非分布不確実性のアンサンブルとして新しい異常スコアを定式化し、負の客観性(英語版)と称する外れ値クラスの後部を定式化することができる。
現在、アウトリーチは独立して検出できる
一 高い予測の不確実性又は
二 陰性データとの類似性
K+2クラスにマスクレベルの認識を組み込んだ高密度予測アーキテクチャに本手法を組み込む。
トレーニング手順は、新しいK+2クラスがペーストされた負のインスタンスで負のオブジェクト性を学ぶことを奨励する。
我々のモデルは、実際の負のデータをトレーニングすることなく、画像全体および画素レベルのアウトレーラ検出のための標準ベンチマークの最先端技術より優れています。
Outlier detection is an essential capability in safety-critical applications of supervised visual recognition. Most of the existing methods deliver best results by encouraging standard closed-set models to produce low-confidence predictions in negative training data. However, that approach conflates prediction uncertainty with recognition of the negative class. We therefore reconsider direct prediction of K+1 logits that correspond to K groundtruth classes and one outlier class. This setup allows us to formulate a novel anomaly score as an ensemble of in-distribution uncertainty and the posterior of the outlier class which we term negative objectness. Now outliers can be independently detected due to i) high prediction uncertainty or ii) similarity with negative data. We embed our method into a dense prediction architecture with mask-level recognition over K+2 classes. The training procedure encourages the novel K+2-th class to learn negative objectness at pasted negative instances. Our models outperform the current state-of-the art on standard benchmarks for image-wide and pixel-level outlier detection with and without training on real negative data. | 翻訳日:2024-09-11 03:22:55 公開日:2024-09-08 |
# ファクト・アンド・リフレクション(FaR)は大規模言語モデルの信頼度校正を改善する
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models ( http://arxiv.org/abs/2402.17124v2 ) ライセンス: Link先を確認 | Xinran Zhao, Hongming Zhang, Xiaoman Pan, Wenlin Yao, Dong Yu, Tongshuang Wu, Jianshu Chen, | (参考訳) LLMが信頼できるためには、その信頼性レベルが実際のパフォーマンスと良好に調整されるべきである。
LLMの性能がプロンプトに大きく影響していることは、現在では一般的な感覚であるが、LLMのプロンプトにおける信頼性校正は、まだ徹底的に検討されていない。
本稿では, LLMの信頼性校正に異なるプロンプト戦略がどう影響するか, 改善の方法について検討する。
質問応答の文脈で6つのプロンプト手法について広範な実験を行い、これらの手法がLLMキャリブレーションの改善に役立ちつつも、いくつかの事例に応答するとLSMが過信されてしまうことを観察した。
人間の認知にインスパイアされたファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
第一に、FaR は LLM からの入力プロンプトに関連する既知の「ファクト」を付与する。
そして、最終的な答えを生成するためにモデルにそれを"修正"するように頼みます。
実験により、FaRのプロンプトによりキャリブレーションが大幅に向上し、多目的QAタスクにおいて期待されるキャリブレーション誤差が23.5%低下することが示された。
特に、FaRのプロンプトは、信頼性の低いシナリオで懸念を言葉で表現する能力さえも引き起こすため、これらの難しいインスタンスを解決するために検索強化をトリガーするのに役立つ。
For a LLM to be trustworthy, its confidence level should be well-calibrated with its actual performance. While it is now common sense that LLM performances are greatly impacted by prompts, the confidence calibration in prompting LLMs has yet to be thoroughly explored. In this paper, we explore how different prompting strategies influence LLM confidence calibration and how it could be improved. We conduct extensive experiments on six prompting methods in the question-answering context and we observe that, while these methods help improve the expected LLM calibration, they also trigger LLMs to be over-confident when responding to some instances. Inspired by human cognition, we propose Fact-and-Reflection (FaR) prompting, which improves the LLM calibration in two steps. First, FaR elicits the known "facts" that are relevant to the input prompt from the LLM. And then it asks the model to "reflect" over them to generate the final answer. Experiments show that FaR prompting achieves significantly better calibration; it lowers the Expected Calibration Error by 23.5% on our multi-purpose QA tasks. Notably, FaR prompting even elicits the capability of verbally expressing concerns in less confident scenarios, which helps trigger retrieval augmentation for solving these harder instances. | 翻訳日:2024-09-11 03:22:55 公開日:2024-09-08 |
# スケーラブル量子回路による双曲偏微分方程式のハミルトンシミュレーション
Hamiltonian simulation for hyperbolic partial differential equations by scalable quantum circuits ( http://arxiv.org/abs/2402.18398v2 ) ライセンス: Link先を確認 | Yuki Sato, Ruho Kondo, Ikko Hamamura, Tamiya Onodera, Naoki Yamamoto, | (参考訳) 計算時間内で超大規模システムに対する偏微分方程式を解くことは、工学開発を加速させるのに役立つ。
量子コンピューティングアルゴリズム、特にハミルトンシミュレーションは、この目的を達成するための潜在的かつ有望なアプローチを示す。
実際、潜在的な量子スピードアップを持ついくつかのオラクルベースのハミルトンシミュレーションがあるが、それらの詳細な実装とそれによる詳細な計算複雑性は不明確である。
本稿では,ハミルトンシミュレーションのための量子回路を明示的に実装する手法を提案する。鍵となる手法は,有限差分法で微分された対象偏微分方程式に含まれる微分作用素の明示ゲート構成である。
さらに,構成回路の空間と時間的複雑さは,従来の古典的アルゴリズムよりも指数関数的に小さいことを示す。
また,提案手法の有効性を示すために,波動方程式の実機上での数値実験と実験を行った。
Solving partial differential equations for extremely large-scale systems within a feasible computation time serves in accelerating engineering developments. Quantum computing algorithms, particularly the Hamiltonian simulations, present a potential and promising approach to achieve this purpose. Actually, there are several oracle-based Hamiltonian simulations with potential quantum speedup, but their detailed implementations and accordingly the detailed computational complexities are all unclear. This paper presents a method that enables us to explicitly implement the quantum circuit for Hamiltonian simulation; the key technique is the explicit gate construction of differential operators contained in the target partial differential equation discretized by the finite difference method. Moreover, we show that the space and time complexities of the constructed circuit are exponentially smaller than those of conventional classical algorithms. We also provide numerical experiments and an experiment on a real device for the wave equation to demonstrate the validity of our proposed method. | 翻訳日:2024-09-11 03:12:39 公開日:2024-09-08 |
# CLIPを用いたCT画像におけるロバストなCOVID-19検出
Robust COVID-19 Detection in CT Images with CLIP ( http://arxiv.org/abs/2403.08947v3 ) ライセンス: Link先を確認 | Li Lin, Yamini Sri Krubha, Zhenhuan Yang, Cheng Ren, Thuc Duy Le, Irene Amerini, Xin Wang, Shu Hu, | (参考訳) 医療画像、特に新型コロナウイルス(COVID-19)検出の分野では、ディープラーニングモデルは、広範な計算資源の必要性、よく注釈されたデータセットの質、膨大な量のラベルのないデータなど、重大な課題に直面している。
本研究では,これらの障害を克服し,凍結したCLIP画像エンコーダとトレーニング可能な多層認識(MLP)を利用する,最初の軽量検出器を提案する。
リスクに対する条件付値(CVaR)の強化と、一般化を改善するための損失景観平ら化戦略により、当社のモデルは、COVID-19検出における高い有効性のために調整されている。
さらに,教師による学習フレームワークを統合して,大量の未ラベルデータを活用することにより,本モデルが持つデータ制限にもかかわらず,優れたパフォーマンスを実現することができる。
COV19-CT-DBデータセットによる実験結果から,教師あり学習における「マクロ」F1スコアの10.6%を超えるベースラインを達成できた。
コードはhttps://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUEで公開されている。
In the realm of medical imaging, particularly for COVID-19 detection, deep learning models face substantial challenges such as the necessity for extensive computational resources, the paucity of well-annotated datasets, and a significant amount of unlabeled data. In this work, we introduce the first lightweight detector designed to overcome these obstacles, leveraging a frozen CLIP image encoder and a trainable multilayer perception (MLP). Enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization, our model is tailored for high efficacy in COVID-19 detection. Furthermore, we integrate a teacher-student framework to capitalize on the vast amounts of unlabeled data, enabling our model to achieve superior performance despite the inherent data limitations. Experimental results on the COV19-CT-DB dataset demonstrate the effectiveness of our approach, surpassing baseline by up to 10.6% in `macro' F1 score in supervised learning. The code is available at https://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUE. | 翻訳日:2024-09-11 03:12:39 公開日:2024-09-08 |
# CLIPを用いたロバスト軽量顔行動認識
Robust Light-Weight Facial Affective Behavior Recognition with CLIP ( http://arxiv.org/abs/2403.09915v2 ) ライセンス: Link先を確認 | Li Lin, Sarah Papabathini, Xin Wang, Shu Hu, | (参考訳) 人間の感情行動分析は、人間の感情に対する理解を深めるために、人間の表情や行動を調べることを目的としている。
基本表現カテゴリー(EXPR)と行動単位(AU)は、感情を分類し、顔の動きを要素単位に分解する2つの重要な要素である。
進歩にもかかわらず、式分類とAU検出における既存のアプローチは複雑なモデルとかなりの計算資源を必要とし、日常的な設定で適用性を制限する。
本研究では,表現分類とAU検出の両方を効率的に処理できる,最初の軽量フレームワークを提案する。
このフレームワークは、トレーニング可能な多層パーセプトロン(MLP)とともに凍結したCLIPイメージエンコーダを使用し、ロバストネスにCVaR(Conditional Value at Risk)を付加し、一般化を改善するためのロスランドスケープフラット化戦略を採用している。
Aff-wild2データセットの実験結果は、最小限の計算要求を維持しながらベースラインと比較して優れた性能を示し、感情行動分析のための実用的なソリューションを提供する。
コードはhttps://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUEで公開されている。
Human affective behavior analysis aims to delve into human expressions and behaviors to deepen our understanding of human emotions. Basic expression categories (EXPR) and Action Units (AUs) are two essential components in this analysis, which categorize emotions and break down facial movements into elemental units, respectively. Despite advancements, existing approaches in expression classification and AU detection often necessitate complex models and substantial computational resources, limiting their applicability in everyday settings. In this work, we introduce the first lightweight framework adept at efficiently tackling both expression classification and AU detection. This framework employs a frozen CLIP image encoder alongside a trainable multilayer perceptron (MLP), enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization. Experimental results on the Aff-wild2 dataset demonstrate superior performance in comparison to the baseline while maintaining minimal computational demands, offering a practical solution for affective behavior analysis. The code is available at https://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUE | 翻訳日:2024-09-11 03:12:39 公開日:2024-09-08 |
# 無限温度における非可積分スピン鎖の熱固有状態
Exact Thermal Eigenstates of Nonintegrable Spin Chains at Infinite Temperature ( http://arxiv.org/abs/2403.12330v3 ) ライセンス: Link先を確認 | Yuuya Chiba, Yasushi Yoneta, | (参考訳) 固有状態熱化仮説(ETH)は、孤立量子多体系の熱化を説明する上で重要な役割を果たしている。
しかし、非可積分系の熱エネルギー固有状態の理論的な処理が困難であるため、現実的な系ではETHが証明されていない。
ここでは、非可積分スピン鎖の解析的熱固有状態を記述する。
我々は, 絡み合った対足動物対 (EAP) 状態と呼ばれる, 理論的に拘束可能な容積法状態のクラスを考える。
これらの状態は熱的であり、最も基本的な意味では、無限の温度で全ての局所観測可能な状態に対してギブス状態と区別できない。
次に、EAP状態が固有状態であるハミルトニアンを同定し、これらのハミルトニアンのうちいくつかが可積分であることを示す。
さらに、EAP状態の想像時間進化により任意の温度で熱純状態を得る。
以上の結果から,ETHの実証可能な例が提案される可能性が示唆された。
The eigenstate thermalization hypothesis (ETH) plays a major role in explaining thermalization of isolated quantum many-body systems. However, there has been no proof of the ETH in realistic systems due to the difficulty in the theoretical treatment of thermal energy eigenstates of nonintegrable systems. Here, we write down analytically thermal eigenstates of nonintegrable spin chains. We consider a class of theoretically tractable volume-law states, which we call entangled antipodal pair (EAP) states. These states are thermal, in the most fundamental sense that they are indistinguishable from the Gibbs state with respect to all local observables, with infinite temperature. We then identify Hamiltonians having the EAP state as an eigenstate and rigorously show that some of these Hamiltonians are nonintegrable. Furthermore, a thermal pure state at an arbitrary temperature is obtained by the imaginary time evolution of an EAP state. Our results offer a potential avenue for providing a provable example of the ETH. | 翻訳日:2024-09-11 03:12:39 公開日:2024-09-08 |
# Few-Shot Class-Incremental Learningのためのトリックの袋
A Bag of Tricks for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2403.14392v2 ) ライセンス: Link先を確認 | Shuvendu Roy, Chunjong Park, Aldi Fahrezi, Ali Etemad, | (参考訳) 本稿では,少数のクラスインクリメンタル・ラーニング(FSCIL)のためのトリック・フレームワークについて紹介する。
FSCILは安定性と適応性の両方を必要とする。
提案手法は,FSCILの統一フレームワークの下で,安定性,適応性,全体的な性能を向上させる6つの重要かつ影響力の高いテクニックを組み合わさったものである。
これらのトリックを,安定性トリック,適応性トリック,トレーニングトリックという3つのカテゴリに分類する。
安定性のトリックは、学習したクラスの埋め込みの分離を強化し、新しいクラスを学ぶ際の干渉を最小限にすることで、学習したクラスの忘れを緩和することを目的としている。
一方、適応性のトリックは、新しいクラスの効果的な学習に焦点を当てている。
最後に、トレーニングのトリックは、安定性や適応性を損なうことなく、全体的なパフォーマンスを改善する。
我々は,CIFAR-100,CUB-200,MiniIMageNetの3つのベンチマークデータセットについて広範な実験を行い,提案フレームワークの効果を評価する。
詳細な分析により,本手法は安定性と適応性の両方を著しく向上させ,その領域における先行研究を上回り,新たな最先端技術を確立した。
我々は,本手法がゴーツーソリューションであり,今後の研究の基盤となると信じている。
We present a bag of tricks framework for few-shot class-incremental learning (FSCIL), which is a challenging form of continual learning that involves continuous adaptation to new tasks with limited samples. FSCIL requires both stability and adaptability, i.e., preserving proficiency in previously learned tasks while learning new ones. Our proposed bag of tricks brings together six key and highly influential techniques that improve stability, adaptability, and overall performance under a unified framework for FSCIL. We organize these tricks into three categories: stability tricks, adaptability tricks, and training tricks. Stability tricks aim to mitigate the forgetting of previously learned classes by enhancing the separation between the embeddings of learned classes and minimizing interference when learning new ones. On the other hand, adaptability tricks focus on the effective learning of new classes. Finally, training tricks improve the overall performance without compromising stability or adaptability. We perform extensive experiments on three benchmark datasets, CIFAR-100, CUB-200, and miniIMageNet, to evaluate the impact of our proposed framework. Our detailed analysis shows that our approach substantially improves both stability and adaptability, establishing a new state-of-the-art by outperforming prior works in the area. We believe our method provides a go-to solution and establishes a robust baseline for future research in this area. | 翻訳日:2024-09-11 03:12:39 公開日:2024-09-08 |
# TOGS: リアルタイム4D DSAレンダリングのための時空間オフセット付きガウス撮影
TOGS: Gaussian Splatting with Temporal Opacity Offset for Real-Time 4D DSA Rendering ( http://arxiv.org/abs/2403.19586v2 ) ライセンス: Link先を確認 | Shuai Zhang, Huangxuan Zhao, Zhenghong Zhou, Guanjun Wu, Chuansheng Zheng, Xinggang Wang, Wenyu Liu, | (参考訳) 4次元デジタルサブトラクション血管造影(4D DSA)は、血管を充填するコントラスト剤の過程で異なる段階と角度で撮影される一連の2D画像を提供する医用イメージング技術である。
脳血管疾患の診断において重要な役割を担っている。
スパースサンプリングにおけるレンダリング品質と速度の向上は,病変の状態と位置を観察する上で重要である。
現在の手法では、スパースビューではレンダリング品質が不十分であり、レンダリング速度の遅さに悩まされている。
これらの制約を克服するために,時間とともに不透明なオフセットを持つガウス分割法であるTOGSを提案し,これにより、4D DSAのレンダリング品質と速度を効果的に向上させることができる。
両ガウスアンに対して不透明オフセットテーブルを導入し、ガウスアンの不透明オフセットをモデル化し、これらの不透明なガウスアンを用いてコントラスト剤の放射率の時間的変動をモデル化する。
不透明オフセットテーブルを補間することにより、異なる時点におけるガウスの不透明変動を決定することができる。
これにより、2D DSA画像をその特定の瞬間にレンダリングすることができます。
さらに、損失関数にスムース損失項を導入し、スパースビューのシナリオを扱う際にモデルに生じるような過度な問題を軽減する。
トレーニングフェーズでは,ランダムにガウスをプルーし,モデルの保存オーバーヘッドを低減する。
実験の結果, 従来の手法と比較して, 同数のトレーニングビューで最先端のレンダリング品質が得られることがわかった。
さらに、ストレージオーバーヘッドを低く保ちながらリアルタイムレンダリングを可能にする。
コードはhttps://github.com/hustvl/TOGS.comで公開されている。
Four-dimensional Digital Subtraction Angiography (4D DSA) is a medical imaging technique that provides a series of 2D images captured at different stages and angles during the process of contrast agent filling blood vessels. It plays a significant role in the diagnosis of cerebrovascular diseases. Improving the rendering quality and speed under sparse sampling is important for observing the status and location of lesions. The current methods exhibit inadequate rendering quality in sparse views and suffer from slow rendering speed. To overcome these limitations, we propose TOGS, a Gaussian splatting method with opacity offset over time, which can effectively improve the rendering quality and speed of 4D DSA. We introduce an opacity offset table for each Gaussian to model the opacity offsets of the Gaussian, using these opacity-varying Gaussians to model the temporal variations in the radiance of the contrast agent. By interpolating the opacity offset table, the opacity variation of the Gaussian at different time points can be determined. This enables us to render the 2D DSA image at that specific moment. Additionally, we introduced a Smooth loss term in the loss function to mitigate overfitting issues that may arise in the model when dealing with sparse view scenarios. During the training phase, we randomly prune Gaussians, thereby reducing the storage overhead of the model. The experimental results demonstrate that compared to previous methods, this model achieves state-of-the-art render quality under the same number of training views. Additionally, it enables real-time rendering while maintaining low storage overhead. The code is available at https://github.com/hustvl/TOGS. | 翻訳日:2024-09-11 03:02:27 公開日:2024-09-08 |
# 凝縮した量子井戸励起子偏光子の生成に対する磁場の非線形効果
Nonlinear effect of magnetic field on the build-up of condensated quantum well exciton-polaritons ( http://arxiv.org/abs/2404.00970v2 ) ライセンス: Link先を確認 | Nguyen Dung Chinh, Le Tri Dat, Vinh N. T. Pham, Tran Duong Anh-Tai, Vo Quoc Phong, Nguyen Duy Vy, | (参考訳) GaAs量子井戸におけるボース・アインシュタイン凝縮に対する励起子偏光子の緩和過程における磁場の非線形効果を理論的に検討する。
本研究により,エキシトンの有効質量,ラビ分裂,分散の変化が,凝縮に近づくにつれて偏光子の緩和速度を著しく変化させることが明らかとなった。
準定常ポンプを用いることで、磁場強度の変化に応じて、全および縮合した偏光子集団のダイナミクスを明らかにする。
特に,低エネルギーポンピング条件下では,磁場の存在が凝縮を著しく抑制することを示す。
この抑制はエネルギー準位間の散乱速度の低下によるもので、これは高エネルギー分散における急勾配の減少の結果である。
逆に、ポンプエネルギーと磁場の両方を増大させることで緩和効率が向上し、凝縮した分極子の数が大幅に増加する。
We theoretically investigate the nonlinear effects of a magnetic field on the relaxation process of exciton-polaritons toward Bose-Einstein condensation in GaAs quantum wells. Our study reveals that the modification of the exciton's effective mass, Rabi splitting, and dispersion significantly alters the relaxation rate of polaritons as they approach condensation. By employing a quasi-stationary pump, we clarify the dynamics of the total and condensed polariton populations in response to varying magnetic field strengths. Notably, we demonstrate that under low-energy pumping conditions, the presence of a magnetic field significantly suppresses condensation. This suppression is attributed to the decreased scattering rate between energy levels, which is a consequence of the reduced steepness in the high-energy dispersion. Conversely, increasing both the pump energy and the magnetic field can enhance relaxation efficiency, leading to a substantially larger number of condensed polaritons. | 翻訳日:2024-09-11 03:02:27 公開日:2024-09-08 |
# 量子回路における零温度エンタングルメント膜
Zero-temperature entanglement membranes in quantum circuits ( http://arxiv.org/abs/2404.02975v2 ) ライセンス: Link先を確認 | Grace M. Sommers, Sarang Gopalakrishnan, Michael J. Gullans, David A. Huse, | (参考訳) カオス量子系において、領域$A$の絡み合いは、A$の境界に固定された時空膜の表面張力の観点から記述することができる。
ここでは,この絡み合い膜の張力について,情報の「流れる」速度で解釈する。
膜上の任意の向きについて、膜全体にわたる(本質的には非一意的な)ダイナミクスを定義することができ、このダイナミクスを1次元と2次元の様々な時空変換不変回路(STTI)で探索する。
これらのSTTI回路の膜にまたがる情報のフラックスは定常状態に達する。
このダイナミクスが非一意であり、定常状態のフラックスがゼロでない場合、これは膜を横切るダイナミクスが広いエントロピーのサブ空間でユニタリであるためである。
この一般化されたユニタリティは、STTI安定化回路の幅広いクラスに存在し、いくつかの特別な非安定化器モデルにも存在している。
多重ユニタリ方向(あるいは一般化ユニタリ方向)の存在は、エンタングルメント膜張力が膜配向の断片的に線形関数となることを強制する。
ボリューム・ロー・エンタングルメントを発生させるランダム・スタビライザー回路におけるエンタングルメント膜は、ゼロ温度でも有効であると主張する。
In chaotic quantum systems, the entanglement of a region $A$ can be described in terms of the surface tension of a spacetime membrane pinned to the boundary of $A$. Here, we interpret the tension of this entanglement membrane in terms of the rate at which information "flows" across it. For any orientation of the membrane, one can define (generically nonunitary) dynamics across the membrane; we explore this dynamics in various space-time translation-invariant (STTI) stabilizer circuits in one and two spatial dimensions. We find that the flux of information across the membrane in these STTI circuits reaches a steady state. In the cases where this dynamics is nonunitary and the steady state flux is nonzero, this occurs because the dynamics across the membrane is unitary in a subspace of extensive entropy. This generalized unitarity is present in a broad class of STTI stabilizer circuits, and is also present in some special non-stabilizer models. The existence of multiple unitary (or generalized unitary) directions forces the entanglement membrane tension to be a piecewise linear function of the orientation of the membrane; in this respect, the entanglement membrane behaves like an interface in a zero-temperature classical lattice model. We argue that entanglement membranes in random stabilizer circuits that produce volume-law entanglement are also effectively at zero temperature. | 翻訳日:2024-09-11 03:02:27 公開日:2024-09-08 |
# 文脈に富むインテリジェントアプリケーションのための自動ソフトウェア進化を実現するマルチモーダル・コンセプト・フレームワーク
A Data-to-Product Multimodal Conceptual Framework to Achieve Automated Software Evolution for Context-rich Intelligent Applications ( http://arxiv.org/abs/2404.04821v4 ) ライセンス: Link先を確認 | Songhui Yue, | (参考訳) AIはソフトウェア工学(SE)の分野を大きく変えつつあるが、SEはソフトウェア進化の自動化(ASEv)を促進するためのすべてのフェーズを総合的に検討するフレームワークを必要としている。
その複雑さは、インテリジェントなアプリケーションの複雑さ、データソースの不均一性、コンテキストにおける一定の変化による。
本研究では,ソフトウェアの自動進化を実現するための概念的枠組みを提案し,マルチモーダル学習の重要性を強調した。
Selective Sequential Scope Model (3S) Modelは概念的枠組みに基づいて開発されており、SEフェーズやマルチモーダル学習タスクをカバーする際に、既存の研究と将来の研究を分類することができる。
この研究は、高レベルのASEvの青写真に向けた予備的なステップである。
提案する概念的枠組みは,実践者がこの分野に飛び込むための実践的ガイドラインとして機能する。
この研究はインテリジェントなアプリケーションに関するものだが、フレームワークと分析方法は、AIが彼らのライフサイクルにより多くのインテリジェンスをもたらすため、他のタイプのソフトウェアに適用される可能性がある。
While AI is extensively transforming Software Engineering (SE) fields, SE is still in need of a framework to overall consider all phases to facilitate Automated Software Evolution (ASEv), particularly for intelligent applications that are context-rich, instead of conquering each division independently. Its complexity comes from the intricacy of the intelligent applications, the heterogeneity of the data sources, and the constant changes in the context. This study proposes a conceptual framework for achieving automated software evolution, emphasizing the importance of multimodality learning. A Selective Sequential Scope Model (3S) model is developed based on the conceptual framework, and it can be used to categorize existing and future research when it covers different SE phases and multimodal learning tasks. This research is a preliminary step toward the blueprint of a higher-level ASEv. The proposed conceptual framework can act as a practical guideline for practitioners to prepare themselves for diving into this area. Although the study is about intelligent applications, the framework and analysis methods may be adapted for other types of software as AI brings more intelligence into their life cycles. | 翻訳日:2024-09-11 03:02:27 公開日:2024-09-08 |
# Tasks People Prompt: ソフトウェア検証とFalsificationアプローチにおけるLLM下流タスクの分類
Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches ( http://arxiv.org/abs/2404.09384v2 ) ライセンス: Link先を確認 | Víctor A. Braberman, Flavia Bonomo-Braberman, Yiannis Charalambous, Juan G. Colonna, Lucas C. Cordeiro, Rosiane de Freitas, | (参考訳) Promptingは、大規模言語モデル(Brown et al NeurIPS 2020、Wei et al TMLR 2022、Wei et al NeurIPS 2022)の創発的能力を活用する主要なアプローチの1つになっています。
最近、研究者や実践者たちは、事前訓練された言語モデルをどのように活用するかを知るためのプロンプト(例えば、In-Context Learning)を"プレイ"している。
100以上の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがLLMの機能をどのように活用したかを調べる。
まず、ダウンストリームタスクが、スコープ内のプロンプトベースのプロポーザルの非自明なモジュールブループリントを伝達するのに適切であることを検証する。
さらに、検証研究論文とソリューション提案の両方において、回復する具体的な下流タスクの名前と分類を行う。
分類,マッピング,解析を行うため,下流タスクの新たな分類法も開発している。
主な分類基準は、テスト、ファジィング、フォールトローカライゼーション、脆弱性検出、静的解析、プログラム検証アプローチを含む、ソフトウェア工学の様々な領域で出現するパターンを特定できるタスクタイプの変動点を示しながら、共通点を強調することである。
将来の研究のためのアベニューも、分類学によって誘導される概念的クラスターに基づいて議論されている。
Prompting has become one of the main approaches to leverage emergent capabilities of Large Language Models [Brown et al. NeurIPS 2020, Wei et al. TMLR 2022, Wei et al. NeurIPS 2022]. Recently, researchers and practitioners have been "playing" with prompts (e.g., In-Context Learning) to see how to make the most of pre-trained Language Models. By homogeneously dissecting more than a hundred articles, we investigate how software testing and verification research communities have leveraged LLMs capabilities. First, we validate that downstream tasks are adequate to convey a nontrivial modular blueprint of prompt-based proposals in scope. Moreover, we name and classify the concrete downstream tasks we recover in both validation research papers and solution proposals. In order to perform classification, mapping, and analysis, we also develop a novel downstream-task taxonomy. The main taxonomy requirement is to highlight commonalities while exhibiting variation points of task types that enable pinpointing emerging patterns in a varied spectrum of Software Engineering problems that encompasses testing, fuzzing, fault localization, vulnerability detection, static analysis, and program verification approaches. Avenues for future research are also discussed based on conceptual clusters induced by the taxonomy. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# 拡散モデル生成画像のロバストCLIP検出装置
Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images ( http://arxiv.org/abs/2404.12908v2 ) ライセンス: Link先を確認 | Santosh, Li Lin, Irene Amerini, Xin Wang, Shu Hu, | (参考訳) 拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
しかし、超現実的画像を作成する能力は、実際のコンテンツと合成コンテンツを区別する上で大きな課題を招き、ディープフェイクを作成する際のデジタル認証と潜在的な誤用に対する懸念を提起する。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
本研究では,検出器のロバスト性を向上し,不均衡なデータセットを処理できる新たな損失を提案する。
さらに,モデルトレーニング中の損失景観を平坦化し,検出器の一般化能力を向上させる。
従来の検出技術より優れている本手法の有効性を実証し,DM画像検出における新しい最先端手法の確立の可能性を示す。
コードはhttps://github.com/Purdue-M2/Robust_DM_Generated_Image_Detectionで公開されている。
Diffusion models (DMs) have revolutionized image generation, producing high-quality images with applications spanning various fields. However, their ability to create hyper-realistic images poses significant challenges in distinguishing between real and synthetic content, raising concerns about digital authenticity and potential misuse in creating deepfakes. This work introduces a robust detection framework that integrates image and text features extracted by CLIP model with a Multilayer Perceptron (MLP) classifier. We propose a novel loss that can improve the detector's robustness and handle imbalanced datasets. Additionally, we flatten the loss landscape during the model training to improve the detector's generalization capabilities. The effectiveness of our method, which outperforms traditional detection techniques, is demonstrated through extensive experiments, underscoring its potential to set a new state-of-the-art approach in DM-generated image detection. The code is available at https://github.com/Purdue-M2/Robust_DM_Generated_Image_Detection. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# 皮膚科AIにおけるゼロショット概念生成のためのデータアライメント
Data Alignment for Zero-Shot Concept Generation in Dermatology AI ( http://arxiv.org/abs/2404.13043v2 ) ライセンス: Link先を確認 | Soham Gadgil, Mahtab Bigverdi, | (参考訳) 皮膚科学におけるAIは急速に進化しているが、信頼できる分類器を訓練するための大きな制限は、人間にとって意味のあるメタラベルである、地味な概念レベルラベルによるデータの不足である。
ゼロショット機能を提供するCLIPのようなファンデーションモデルは、インターネット上で利用可能な膨大な画像キャプチャペアを活用することで、この課題を軽減するのに役立ちます。
CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。
しかし、CLIPの事前トレーニングデータは、臨床医が診断を行うために使用する医学用語とよく一致していない。
近年の大規模言語モデル(LLM)の発展により、これらのモデルの表現性を活用してリッチテキストを生成する可能性が高まっている。
我々のゴールは、これらのモデルを用いて臨床語彙とCLIPの事前学習データに使用される自然言語の両方とよく一致した字幕テキストを生成することである。
PubMedの記事の画像のキャプションから始めて、フィールドのいくつかの教科書に微調整されたLLMを通して、原文のキャプションを渡すことによって拡張する。
GPT-3.5のような表現的微調整LDMによって生成されたキャプションを使用することで、下流のゼロショット概念分類性能が向上することがわかった。
AI in dermatology is evolving at a rapid pace but the major limitation to training trustworthy classifiers is the scarcity of data with ground-truth concept level labels, which are meta-labels semantically meaningful to humans. Foundation models like CLIP providing zero-shot capabilities can help alleviate this challenge by leveraging vast amounts of image-caption pairs available on the internet. CLIP can be fine-tuned using domain specific image-caption pairs to improve classification performance. However, CLIP's pre-training data is not well-aligned with the medical jargon that clinicians use to perform diagnoses. The development of large language models (LLMs) in recent years has led to the possibility of leveraging the expressive nature of these models to generate rich text. Our goal is to use these models to generate caption text that aligns well with both the clinical lexicon and with the natural human language used in CLIP's pre-training data. Starting with captions used for images in PubMed articles, we extend them by passing the raw captions through an LLM fine-tuned on the field's several textbooks. We find that using captions generated by an expressive fine-tuned LLM like GPT-3.5 improves downstream zero-shot concept classification performance. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# FakeBench: 大規模なマルチモーダルモデルによる説明可能なフェイク画像の検出
FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models ( http://arxiv.org/abs/2404.13306v2 ) ライセンス: Link先を確認 | Yixuan Li, Xuelin Liu, Xiaoyang Wang, Bu Sung Lee, Shiqi Wang, Anderson Rocha, Weisi Lin, | (参考訳) 人工知能(AI)によって画像が生成されるかどうかを識別する能力は、人間の知能において重要な要素であり、通常、複雑で弁証的な法学と推論のプロセスが伴う。
しかし、現在の偽画像検出モデルとデータベースは、一般大衆に対する理解可能な説明なしにバイナリ分類に焦点を当てている。
これは真正性判定の信頼性を弱め、潜在的なモデルバイアスを隠蔽する可能性がある。
一方、大型マルチモーダルモデル(LMM)は、様々なタスクにおいて膨大な視覚的テキスト能力を示しており、説明可能な偽画像検出の可能性を秘めている。
そこで本稿では,テキストの真正性記述を含むマルチモーダルデータベースである FakeBench を提示することにより,説明可能な偽画像検出のためのLMMの探索を行った。
構築のために,我々はまず,人間の知覚に関する生成的視覚的偽造の微粒な分類を導入する。
FakeBench氏はLMMを4つの評価基準(検出、推論、解釈、きめ細かな偽造分析)で検証し、画像の真正性関連能力に関する深い洞察を得る。
様々なLMM実験は、偽画像検出タスクのさまざまな側面において、そのメリットとデメリットを確認している。
本研究は、偽画像検出領域の透明性へのパラダイムシフトを示し、視覚言語研究やAIリスクコントロールにおける法医学的要素の強調の必要性を明らかにする。
FakeBenchはhttps://github.com/Yixuan423/FakeBench.comから入手できる。
The ability to distinguish whether an image is generated by artificial intelligence (AI) is a crucial ingredient in human intelligence, usually accompanied by a complex and dialectical forensic and reasoning process. However, current fake image detection models and databases focus on binary classification without understandable explanations for the general populace. This weakens the credibility of authenticity judgment and may conceal potential model biases. Meanwhile, large multimodal models (LMMs) have exhibited immense visual-text capabilities on various tasks, bringing the potential for explainable fake image detection. Therefore, we pioneer the probe of LMMs for explainable fake image detection by presenting a multimodal database encompassing textual authenticity descriptions, the FakeBench. For construction, we first introduce a fine-grained taxonomy of generative visual forgery concerning human perception, based on which we collect forgery descriptions in human natural language with a human-in-the-loop strategy. FakeBench examines LMMs with four evaluation criteria: detection, reasoning, interpretation and fine-grained forgery analysis, to obtain deeper insights into image authenticity-relevant capabilities. Experiments on various LMMs confirm their merits and demerits in different aspects of fake image detection tasks. This research presents a paradigm shift towards transparency for the fake image detection area and reveals the need for greater emphasis on forensic elements in visual-language research and AI risk control. FakeBench will be available at https://github.com/Yixuan423/FakeBench. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# LTOS:適応的クロスアテンション融合によるレイアウト制御可能なテキストオブジェクト合成
LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions ( http://arxiv.org/abs/2404.13579v2 ) ライセンス: Link先を確認 | Xiaoran Zhao, Tianhao Wu, Yu Lai, Zhiliang Tian, Zhen Huang, Yahui Liu, Zejiang He, Dongsheng Li, | (参考訳) 制御可能なテキスト・ツー・イメージ生成は、特定の条件で画像中の視覚テキストやオブジェクトを合成し、絵文字やポスター生成に頻繁に適用される。
ビジュアルテキストレンダリングとレイアウト・ツー・イメージ生成タスクは、制御可能なテキスト・ツー・イメージ生成で人気がある。
しかしながら、これらのタスクは一般的に単一のモダリティ生成やレンダリングに重点を置いており、それぞれのタスク用に設計されているアプローチの間には、まだ橋渡しのギャップが残っている。
本稿では,テキストレンダリングとレイアウト・ツー・イメージ生成タスクをひとつのタスクに統合する。レイアウト制御可能なテキストオブジェクト合成(LTOS)タスク。
LTOSタスクに適合するデータセットは簡単には利用できないため、レイアウト対応のテキストオブジェクト合成データセットを構築し、ビジュアルテキストとオブジェクト情報を精巧に整列したラベルを含む。
本稿では,レイアウト制御可能なテキストオブジェクト適応融合(TOF)フレームワークを提案する。
テキストを合成するビジュアルテキストレンダリングモジュールを構築し、オブジェクトを生成するためにオブジェクトレイアウト制御モジュールを使用し、2つのモジュールを統合してテキストコンテンツと画像内のオブジェクトを調和して生成・統合する。
画像テキスト統合を改善するために,画像生成者が重要なテキスト情報により参加するのに役立つ自己適応型クロスアテンション融合モジュールを提案する。
このような融合モジュール内では、自己適応的学習可能因子を用いて、画像生成における相互注意出力の影響を柔軟に制御する。
実験結果から,本手法はLTOS,テキストレンダリング,レイアウト・トゥ・イメージタスクの最先端性に優れ,高調なビジュアルテキストレンダリングとオブジェクト生成を実現していることがわかった。
Controllable text-to-image generation synthesizes visual text and objects in images with certain conditions, which are frequently applied to emoji and poster generation. Visual text rendering and layout-to-image generation tasks have been popular in controllable text-to-image generation. However, each of these tasks typically focuses on single modality generation or rendering, leaving yet-to-be-bridged gaps between the approaches correspondingly designed for each of the tasks. In this paper, we combine text rendering and layout-to-image generation tasks into a single task: layout-controllable text-object synthesis (LTOS) task, aiming at synthesizing images with object and visual text based on predefined object layout and text contents. As compliant datasets are not readily available for our LTOS task, we construct a layout-aware text-object synthesis dataset, containing elaborate well-aligned labels of visual text and object information. Based on the dataset, we propose a layout-controllable text-object adaptive fusion (TOF) framework, which generates images with clear, legible visual text and plausible objects. We construct a visual-text rendering module to synthesize text and employ an object-layout control module to generate objects while integrating the two modules to harmoniously generate and integrate text content and objects in images. To better the image-text integration, we propose a self-adaptive cross-attention fusion module that helps the image generation to attend more to important text information. Within such a fusion module, we use a self-adaptive learnable factor to learn to flexibly control the influence of cross-attention outputs on image generation. Experimental results show that our method outperforms the state-of-the-art in LTOS, text rendering, and layout-to-image tasks, enabling harmonious visual text rendering and object generation. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# 光空洞と結合した二重量子ドットの待ち時間統計
Waiting time statistics for a double quantum dot coupled with an optical cavity ( http://arxiv.org/abs/2404.13775v3 ) ライセンス: Link先を確認 | Luis F. Santos, Gabriel T. Landi, | (参考訳) 光空洞に結合した二重量子ドットは、非自明な開量子系の原始的な例である。
近年の実験的および理論的研究により、このシステムはマイクロ波領域における単一光子検出の候補であることが示されている。
これは、平均的な電流を超える研究を動機付け、光子と電子検出の完全なカウント統計を考慮に入れている。
このことを念頭に置いて, 量子ジャンプによる待ち時間統計を詳細に解析し, 成功率, 失敗確率, および検出間時間について解析式を抽出する。
さらに、単光子と多光子の比較により、異なる事象の発生確率の階層を推定し、検出確率における光子干渉イベントの役割を明らかにする。
そこで本研究では,待ち時間の統計値を用いて,時間的,関連性の高い気象課題を最適化する方法について直接図示する。
A double quantum dot coupled to an optical cavity is a prototypical example of a non-trivial open quantum system. Recent experimental and theoretical studies show that this system is a candidate for single-photon detection in the microwave domain. This motivates studies that go beyond just the average current, and also take into account the full counting statistics of photon and electron detections. With this in mind, here we provide a detailed analysis of the waiting time statistics of this system within the quantum jump unravelling, which allows us to extract analytical expressions for the success and failure probabilities, as well as for the inter detection times. Furthermore, by comparing single and multi-photon scenarios, we infer a hierarchy of occurrence probabilities for the different events, highlighting the role of photon interference events in the detection probabilities. Our results therefore provide a direct illustration of how waiting time statistics can be used to optimize a timely and relevant metrological task. | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# ランダム可逆回路からの擬似乱数置換
Pseudorandom Permutations from Random Reversible Circuits ( http://arxiv.org/abs/2404.14648v3 ) ライセンス: Link先を確認 | William He, Ryan O'Donnell, | (参考訳) 我々は、${0,1\}^n$上の置換の擬似ランダム性特性を、可逆な$$3$-bitゲート($\{0,1\}^3$上の置換)から得られるランダム回路で計算する。
我々の主な結果は深さ$n \cdot \tilde{O}(k^2)$のランダム回路であり、各層は固定された最寄りのアーキテクチャにおいて$\approx n/3$のランダムゲートで構成され、ほぼ$k$の独立な置換が得られることである。
主な技術的構成要素は、$k$-tuples of $n$-bit strings by a single random $3$-bit Near-nebor gate has gap at least $1/n \cdot \tilde{O}(k)$である。
これは、1/\mathrm{poly}(n,k)$が1つのランダムゲート(非隣接入力を持つ)に対して1/\mathrm{poly}(n,k)$のギャップを示していたGowers [Gowers96] の元々の作業を改善し、続く作業 [HMMR05,BH08] では、ギャップを同じ設定で$\Omega(1/n^2k)$に改善した。
暗号の観点では、我々の結果は特に単純で実践的なブロック暗号構造であり、数ラウンドで$k$〜input-outputペアにアクセスする攻撃者に対して、証明可能な統計的セキュリティを提供する。
また、擬似乱数関数からの擬似乱数置換のLuby-Rackoff構成は可逆回路で実装可能であることを示す。
そこで我々は, 最小可逆回路サイズ問題 (MRCSP) の複雑性を推し進め, 一方向関数 (OWF) の存在を前提として, 固定多項式サイズのブロック暗号が任意の多項式時間逆数に対して計算的に安全であることを示す。
We study pseudorandomness properties of permutations on $\{0,1\}^n$ computed by random circuits made from reversible $3$-bit gates (permutations on $\{0,1\}^3$). Our main result is that a random circuit of depth $n \cdot \tilde{O}(k^2)$, with each layer consisting of $\approx n/3$ random gates in a fixed nearest-neighbor architecture, yields almost $k$-wise independent permutations. The main technical component is showing that the Markov chain on $k$-tuples of $n$-bit strings induced by a single random $3$-bit nearest-neighbor gate has spectral gap at least $1/n \cdot \tilde{O}(k)$. This improves on the original work of Gowers [Gowers96], who showed a gap of $1/\mathrm{poly}(n,k)$ for one random gate (with non-neighboring inputs); and, on subsequent work [HMMR05,BH08] improving the gap to $\Omega(1/n^2k)$ in the same setting. From the perspective of cryptography, our result can be seen as a particularly simple/practical block cipher construction that gives provable statistical security against attackers with access to $k$~input-output pairs within few rounds. We also show that the Luby--Rackoff construction of pseudorandom permutations from pseudorandom functions can be implemented with reversible circuits. From this, we make progress on the complexity of the Minimum Reversible Circuit Size Problem (MRCSP), showing that block ciphers of fixed polynomial size are computationally secure against arbitrary polynomial-time adversaries, assuming the existence of one-way functions (OWFs). | 翻訳日:2024-09-11 02:52:35 公開日:2024-09-08 |
# フェデレーションモデルの発展とオープンチャレンジ
Advances and Open Challenges in Federated Foundation Models ( http://arxiv.org/abs/2404.15381v4 ) ライセンス: Link先を確認 | Chao Ren, Han Yu, Hongyi Peng, Xiaoli Tang, Bo Zhao, Liping Yi, Alysa Ziying Tan, Yulan Gao, Anran Li, Xiaoxiao Li, Zengxiang Li, Qiang Yang, | (参考訳) ファンデーションモデル(FM)とフェデレートラーニング(FL)の統合は、人工知能(AI)における変革的パラダイムである。
この統合は、プライバシ、データ分散化、計算効率に関する懸念に対処しながら、機能強化を提供する。
本稿では,フェデレーション・ファンデーション・モデル (FedFM) の新興分野を包括的に調査し,そのシナジスティックな関係を解明し,新たな方法論,課題,今後の方向性を探究する。
モデルトレーニング、アグリゲーション、信頼性、インセンティブ化のための既存のFedFMアプローチを分類し、体系的な多層分類を提案する。
FLの計算要求の複雑さへの対処、プライバシーの考慮、コントリビューション評価、通信効率など、主な課題について詳しく論じる。
さらに,FLを用いた訓練・微調整FMにおける通信,スケーラビリティ,セキュリティの複雑な課題について検討する。
これは、トレーニング、推論、最適化、セキュリティのプロセスに革命をもたらす量子コンピューティングの可能性を強調している。
この調査ではまた、FedFMといくつかの実用的なFedFMアプリケーションの実装要件についても紹介する。
FedFMに関する私たちの発見を明確に理解することで、学んだ教訓を強調します。
最後に、この調査は、FedFMの現状と課題に関する洞察を提供するだけでなく、将来の研究方向性の青写真を提供し、信頼できるソリューションを開発する必要性を強調している。
これは、この学際的で急速に進歩する分野に貢献することに興味を持つ研究者や実践者のための基礎的なガイドとして機能する。
The integration of Foundation Models (FMs) with Federated Learning (FL) presents a transformative paradigm in Artificial Intelligence (AI). This integration offers enhanced capabilities, while addressing concerns of privacy, data decentralization and computational efficiency. This paper provides a comprehensive survey of the emerging field of Federated Foundation Models (FedFM), elucidating their synergistic relationship and exploring novel methodologies, challenges, and future directions that the FL research field needs to focus on in order to thrive in the age of FMs. A systematic multi-tiered taxonomy is proposed, categorizing existing FedFM approaches for model training, aggregation, trustworthiness, and incentivization. Key challenges, including how to enable FL to deal with high complexity of computational demands, privacy considerations, contribution evaluation, and communication efficiency, are thoroughly discussed. Moreover, this paper explores the intricate challenges of communication, scalability and security inherent in training/fine-tuning FMs via FL. It highlights the potential of quantum computing to revolutionize the processes of training, inference, optimization and security. This survey also introduces the implementation requirement of FedFM and some practical FedFM applications. It highlights lessons learned with a clear understanding of our findings for FedFM. Finally, this survey not only provides insights into the current state and challenges of FedFM, but also offers a blueprint for future research directions, emphasizing the need for developing trustworthy solutions. It serves as a foundational guide for researchers and practitioners interested in contributing to this interdisciplinary and rapidly advancing field. | 翻訳日:2024-09-11 02:42:12 公開日:2024-09-08 |
# CodeIP: 大規模言語のコードモデルのための文法ガイド付きマルチビット透かし
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code ( http://arxiv.org/abs/2404.15639v2 ) ライセンス: Link先を確認 | Batu Guan, Yao Wan, Zhangqian Bi, Zheng Wang, Hongyu Zhang, Pan Zhou, Lichao Sun, | (参考訳) 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
今や、コードがAI生成されているかどうかを特定し、特に産業における知的財産権(IP)の保護や、プログラミング演習における不正行為の防止など、使用する特定のモデルを決定することが重要になっている。
この目的のために、ウォーターマークを機械生成コードに挿入する試みがいくつか行われた。
しかし、既存のアプローチは1ビットの情報のみを挿入するか、特定のコードパターンに依存するかに限られている。
本稿では,LLMのベンダーIDなどの重要な前兆情報を保持するために追加情報を埋め込んだ新しいマルチビット透かし技術であるCodeIPを紹介し,コード生成におけるLLMのIPの保護を行う。
さらに,生成したコードの構文的正確性を確保するため,型予測器を訓練することにより次のトークンを予測するサンプリングプロセスの制約を提案する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、コードの構文的正しさを維持しながら、コード生成のためのLLMを透かし、CodeIPの有効性を示す。
Large Language Models (LLMs) have achieved remarkable progress in code generation. It now becomes crucial to identify whether the code is AI-generated and to determine the specific model used, particularly for purposes such as protecting Intellectual Property (IP) in industry and preventing cheating in programming exercises. To this end, several attempts have been made to insert watermarks into machine-generated code. However, existing approaches are limited to inserting only a single bit of information or overly depending on particular code patterns. In this paper, we introduce CodeIP, a novel multi-bit watermarking technique that embeds additional information to preserve crucial provenance details, such as the vendor ID of an LLM, thereby safeguarding the IPs of LLMs in code generation. Furthermore, to ensure the syntactical correctness of the generated code, we propose constraining the sampling process for predicting the next token by training a type predictor. Experiments conducted on a real-world dataset across five programming languages demonstrate the effectiveness of CodeIP in watermarking LLMs for code generation while maintaining the syntactical correctness of code. | 翻訳日:2024-09-11 02:42:12 公開日:2024-09-08 |
# 列車なしのゲイン:訓練不要な言語適応者強化のための言語算術
No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement ( http://arxiv.org/abs/2404.15737v2 ) ライセンス: Link先を確認 | Mateusz Klimaszewski, Piotr Andruszkiewicz, Alexandra Birch, | (参考訳) モジュール型深層学習は、多言語性の呪いを解き、負の干渉の影響を防ぎ、多言語事前学習言語モデルにおける言語間性能を実現するための最先端のソリューションである。
しかし、このアプローチのトレードオフは、密接な関係のある言語からの正転移学習の削減である。
そこで本研究では,この制限に対処するためのトレーニング不要なポストプロセッシングを実現する,言語演算と呼ばれる新しい手法を提案する。
タスク演算フレームワークを拡張して、言語アダプタに加えて学習を適用し、フレームワークをマルチタスクから多言語設定に移行する。
提案手法の有効性は,MAD-Xに基づく言語間スキームの3つの下流タスクにおいて実証され,後処理の手順として機能する。
言語演算は、特にゼロショットアプリケーションにおいて最も難しい場合において、大きなゲインでベースラインを一貫して改善する。
私たちのコードとモデルはhttps://github.com/mklimasz/ language-arithmetic で利用可能です。
Modular deep learning is the state-of-the-art solution for lifting the curse of multilinguality, preventing the impact of negative interference and enabling cross-lingual performance in Multilingual Pre-trained Language Models. However, a trade-off of this approach is the reduction in positive transfer learning from closely related languages. In response, we introduce a novel method called language arithmetic, which enables training-free post-processing to address this limitation. Extending the task arithmetic framework, we apply learning via addition to the language adapters, transitioning the framework from a multi-task to a multilingual setup. The effectiveness of the proposed solution is demonstrated on three downstream tasks in a MAD-X-based set of cross-lingual schemes, acting as a post-processing procedure. Language arithmetic consistently improves the baselines with significant gains, especially in the most challenging case of zero-shot application. Our code and models are available at https://github.com/mklimasz/language-arithmetic . | 翻訳日:2024-09-11 02:42:12 公開日:2024-09-08 |
# ゼロショットクロスリンガル転送の一般化対策
Generalization Measures for Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2404.15928v2 ) ライセンス: Link先を確認 | Saksham Bassi, Duygu Ataman, Kyunghyun Cho, | (参考訳) モデルが未知の入力を異なる特徴で解釈する知識を一般化する能力は、堅牢で信頼性の高い機械学習システムを構築する上で不可欠である。
言語モデル評価タスクには、モデル一般化に関する情報メトリクスが欠如しており、新しい設定での適用性は、多くの言語やタスクでしばしば欠落しているタスクと言語固有の下流のパフォーマンスを用いて測定される。
本稿では,言語間ゼロショット設定における言語モデルの一般化能力に関する,より効率的な情報計算を支援するための,効率的かつ信頼性の高い尺度のセットについて検討する。
学習後のパラメータのばらつきや初期化からの距離といった従来の尺度に加えて、言語間移動の成功を捉えた損失景観のシャープネスの効果も測定し、一般化に相関するモデル最適化のシャープネスを確実に計算する新しい安定アルゴリズムを提案する。
A model's capacity to generalize its knowledge to interpret unseen inputs with different characteristics is crucial to build robust and reliable machine learning systems. Language model evaluation tasks lack information metrics about model generalization and their applicability in a new setting is measured using task and language-specific downstream performance, which is often lacking in many languages and tasks. In this paper, we explore a set of efficient and reliable measures that could aid in computing more information related to the generalization capability of language models in cross-lingual zero-shot settings. In addition to traditional measures such as variance in parameters after training and distance from initialization, we also measure the effectiveness of sharpness in loss landscape in capturing the success in cross-lingual transfer and propose a novel and stable algorithm to reliably compute the sharpness of a model optimum that correlates to generalization. | 翻訳日:2024-09-11 02:42:12 公開日:2024-09-08 |
# GuideWalk: 拡張テキスト分類のためのグラフベースの新しい単語埋め込み
GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification ( http://arxiv.org/abs/2404.18942v2 ) ライセンス: Link先を確認 | Sarmad N. Mohammed, Semra Gündüç, | (参考訳) 計算機科学と機械学習の主な問題のひとつは、大規模な異種データから情報を効率的に抽出することである。
テキストデータは、その構文、セマンティクス、さらには隠された情報コンテンツによって、懸念されるデータ型の中で例外的な位置を占める。
テキストデータの処理には埋め込みが必要である。
正しい埋め込みアルゴリズムは、テキストデータの完全な情報内容を取得するための出発点である。
本稿では,新しいテキスト埋め込み手法,すなわちGTPMモデルを提案する。
このモデルは文のグラフ構造を用いて、構文、意味、隠された内容など、テキストデータから様々な種類の情報をキャプチャする。
重み付き単語グラフ上のランダムウォークを用いて、GTPMはテキスト埋め込みベクトルを導出する遷移確率を算出する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
GTPMは、よく知られたアルゴリズムよりも、バイナリとマルチクラスデータセットの分類性能が著しく向上している。
さらに, 提案手法は, 限られた(たった10 %$)のトレーニングデータで性能を保ち, ベースライン法では15-20 %$に対して 8 %$ の低下を示した。
One of the prime problems of computer science and machine learning is to extract information efficiently from large-scale, heterogeneous data. Text data, with its syntax, semantics, and even hidden information content, possesses an exceptional place among the data types in concern. The processing of the text data requires embedding, a method of translating the content of the text to numeric vectors. A correct embedding algorithm is the starting point for obtaining the full information content of the text data. In this work, a new text embedding approach, namely the Guided Transition Probability Matrix (GTPM) model is proposed. The model uses the graph structure of sentences to capture different types of information from text data, such as syntactic, semantic, and hidden content. Using random walks on a weighted word graph, GTPM calculates transition probabilities to derive text embedding vectors. The proposed method is tested with real-world data sets and eight well-known and successful embedding algorithms. GTPM shows significantly better classification performance for binary and multi-class datasets than well-known algorithms. Additionally, the proposed method demonstrates superior robustness, maintaining performance with limited (only $10\%$) training data, showing an $8\%$ decline compared to $15-20\%$ for baseline methods. | 翻訳日:2024-09-11 02:42:12 公開日:2024-09-08 |
# エントロピーと原子-原子対相関のマックスウェル関係
Maxwell relation between entropy and atom-atom pair correlation ( http://arxiv.org/abs/2405.04159v2 ) ライセンス: Link先を確認 | Raymon S. Watson, Caleb Coleman, Karen V. Kheruntsyan, | (参考訳) 短距離相互作用を持つ多粒子系では、局所(母点)粒子-粒子対相関関数はヘルマン・ファインマンの定理を用いて計算できる熱力学量を表す。
ここでは, この特性を利用して, 局所対相関と超低温ボース気体のエントロピーの1次元(1次元)における熱力学的マックスウェル関係を導出する。
このマクスウェル関係の有効性を示すために、確率射影グロス・ピタエフスキー方程式(SPGPE)の計算形式に応用し、その原子対相関関数から有限温度1Dボース気体のエントロピーを決定する。
そのような相関関数は、エントロピー自体の計算とは異なり、SPGPEやその他の形式論の中で数値的に計算し易い。
我々の計算は、測定された原子-原子相関から量子気体のエントロピーを推定する実験方法の実証実験として機能する数値実験と見なすことができる。
For many-particle systems with short-range interactions the local (same point) particle-particle pair correlation function represents a thermodynamic quantity that can be calculated using the Hellmann-Feynman theorem. Here we exploit this property to derive a thermodynamic Maxwell relation between the local pair correlation and the entropy of an ultracold Bose gas in one dimension (1D). To demonstrate the utility of this Maxwell relation, we apply it to the computational formalism of the stochastic projected Gross-Pitaevskii equation (SPGPE) to determine the entropy of a finite-temperature 1D Bose gas from its atom-atom pair correlation function. Such a correlation function is easy to compute numerically within the SPGPE and other formalisms, which is unlike computing the entropy itself. Our calculations can be viewed as a numerical experiment that serves as a proof-of-principle demonstration of an experimental method to deduce the entropy of a quantum gas from the measured atom-atom correlations. | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# LLM剤の自己反射:問題溶解性能への影響
Self-Reflection in LLM Agents: Effects on Problem-Solving Performance ( http://arxiv.org/abs/2405.06682v2 ) ライセンス: Link先を確認 | Matthew Renze, Erhan Guven, | (参考訳) 本研究では,大規模言語モデル(LLM)における自己回帰が問題解決性能に及ぼす影響について検討した。
我々は9つの人気のあるLCMに対して,パフォーマンスベースラインを提供するために,複数の質問に回答するように指示した。
各質問に対して, 誤りを反映し, 問題解決のためのガイダンスを提供するために, 8種類の自己表現型LLMエージェントを指示した。
そして、このガイダンスを用いて、各自己表現エージェントは、同じ質問を再回答しようと試みた。
以上の結果から, LLM エージェントは自己回帰 (0.001$) により, 問題解決性能を著しく向上させることができることが示唆された。
さらに,各種の自己回帰を比較検討し,個人による演奏への貢献度について検討した。
すべてのコードとデータはGitHubでhttps://github.com/matthewrenze/self-reflectionで公開されている。
In this study, we investigated the effects of self-reflection in large language models (LLMs) on problem-solving performance. We instructed nine popular LLMs to answer a series of multiple-choice questions to provide a performance baseline. For each incorrectly answered question, we instructed eight types of self-reflecting LLM agents to reflect on their mistakes and provide themselves with guidance to improve problem-solving. Then, using this guidance, each self-reflecting agent attempted to re-answer the same questions. Our results indicate that LLM agents are able to significantly improve their problem-solving performance through self-reflection ($p < 0.001$). In addition, we compared the various types of self-reflection to determine their individual contribution to performance. All code and data are available on GitHub at https://github.com/matthewrenze/self-reflection | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# 探索コスト最小化制約を排除して逆2乗歩行を普遍的に生成するランダムウォークモデル
Random walk model that universally generates inverse square Lévy walk by eliminating search cost minimization constraint ( http://arxiv.org/abs/2405.07541v3 ) ライセンス: Link先を確認 | Shuji Shinohara, Daiki Morita, Hayato Hirai, Ryosuke Kuribayashi, Nobuhito Manome, Toru Moriyama, Hiroshi Okamoto, Yoshihiro Nakajima, Pegio-Yukio Gunji, Ung-il Chung, | (参考訳) L''evy ウォーク(L'evy walk)は、細菌からヒトまで、様々な生物の移動行動において、力の分布に追従する線形ステップの長さを特徴とするランダムウォークの一種である。
特に、L''evyは2倍近いパワー指数を持つ歩行を頻繁に観察するが、その根本原因は解明されていない。
本研究では、逆2乗歩行(Cauchy walk)と呼ばれる逆2乗歩行(L''evy walk)を生成するために設計された、単純化された抽象的なランダムウォークモデルを導入し、これらの現象を促進する条件を探索する。
モデルでは,エージェントは多次元空間においてランダムに選択された目的地に向かって移動し,その移動戦略は最短経路を追求する範囲によってパラメータ化される。
探索コストが走行距離に比例すると、このパラメータは探索コストの最小化を効果的に反映する。
以上の結果より,このコスト最小化制約への厳密な固着は,ブラウン歩行パターンをもたらすことが明らかとなった。
しかし、この制約を取り除くことは、運動を逆正方形 L\'evy ウォークに遷移させる。
したがって,探索コストの優先順位付けを調節することにより,Bownian と Cauchy の歩行動態をシームレスに切り替えることができる。
このモデルは最適化問題のパラメータ空間の探索に利用できる可能性がある。
The L\'evy walk, a type of random walk characterized by linear step lengths that follow a power-law distribution, is observed in the migratory behaviors of various organisms, ranging from bacteria to humans. Notably, L\'evy walks with power exponents close to two are frequently observed, though their underlying causes remain elusive. This study introduces a simplified, abstract random walk model designed to produce inverse square L\'evy walks, also known as Cauchy walks and explores the conditions that facilitate these phenomena. In our model, agents move toward a randomly selected destination in multi-dimensional space, and their movement strategy is parameterized by the extent to which they pursue the shortest path. When the search cost is proportional to the distance traveled, this parameter effectively reflects the emphasis on minimizing search costs. Our findings reveal that strict adherence to this cost minimization constraint results in a Brownian walk pattern. However, removing this constraint transitions the movement to an inverse square L\'evy walk. Therefore, by modulating the prioritization of search costs, our model can seamlessly alternate between Brownian and Cauchy walk dynamics. This model has the potential to be utilized for exploring the parameter space of an optimization problem. | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# 量子熱機械の浮き彫り工学:その性能を最適化するための勾配に基づくスペクトル法
Floquet engineering of quantum thermal machines: A gradient-based spectral method to optimize their performance ( http://arxiv.org/abs/2405.09126v2 ) ライセンス: Link先を確認 | Alberto Castro, | (参考訳) 量子サーマルエンジン (QTM) の最適条件を求める手法について述べ, 実演した。
QTMは開量子系の周期的に駆動される非平衡定常状態としてモデル化され、その力学はマルコフのマスター方程式で近似される。
外部剤の作用と熱貯水池との結合は制御関数で変調することができ、これらの制御関数の時間依存的な形状が最適化の対象となる。
これらの関数は自由にパラメータ化することができ、実験的あるいは物理的要求に応じて解を制約することができる。
A procedure to find optimal regimes for quantum thermal engines (QTMs) is described and demonstrated. The QTMs are modelled as the periodically-driven non-equilibrium steady states of open quantum systems, whose dynamics is approximated in this work with Markovian master equations. The action of the external agent, and the couplings to the heat reservoirs can be modulated with control functions, and it is the time-dependent shape of these control functions the object of optimisation. Those functions can be freely parameterised, which permits to constrain the solutions according to experimental or physical requirements. | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# 疾患予後の解釈可能な機械学習モデルの検討
Review of Interpretable Machine Learning Models for Disease Prognosis ( http://arxiv.org/abs/2405.11672v4 ) ライセンス: Link先を確認 | Jinzhi Shen, Ke Ma, | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、解釈可能な機械学習技術の統合は大きな注目を集め、情報的な臨床的意思決定に不可欠な透明で理解可能な洞察を提供してきた。
本論文は,呼吸器疾患の予後予測における解釈可能な機械学習の応用,特に新型コロナウイルスとその今後の研究・臨床実践への意義を考察する。
我々は、既存の臨床領域の知識を組み込むだけでなく、データから新たな情報を探索する学習能力を持つ各種機械学習モデルについてレビューした。
これらのモデルと経験は、現在の危機の管理を助けるだけでなく、将来の病気の流行に対応するための約束も持つ。
解釈可能な機械学習を活用することで、医療システムは、その準備と応答能力を高め、患者の成果を改善し、今後数年間の呼吸器疾患の影響を軽減することができる。
In response to the COVID-19 pandemic, the integration of interpretable machine learning techniques has garnered significant attention, offering transparent and understandable insights crucial for informed clinical decision making. This literature review delves into the applications of interpretable machine learning in predicting the prognosis of respiratory diseases, particularly focusing on COVID-19 and its implications for future research and clinical practice. We reviewed various machine learning models that are not only capable of incorporating existing clinical domain knowledge but also have the learning capability to explore new information from the data. These models and experiences not only aid in managing the current crisis but also hold promise for addressing future disease outbreaks. By harnessing interpretable machine learning, healthcare systems can enhance their preparedness and response capabilities, thereby improving patient outcomes and mitigating the impact of respiratory diseases in the years to come. | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# 大域的局所フーリエニューラル演算子によるコロナ磁場の加速
Global-local Fourier Neural Operator for Accelerating Coronal Magnetic Field Model ( http://arxiv.org/abs/2405.12754v3 ) ライセンス: Link先を確認 | Yutao Du, Qin Li, Raghav Gnanasambandam, Mengnan Du, Haimin Wang, Bo Shen, | (参考訳) 太陽の外大気を探索することは、様々な太陽の事象に大きく影響を及ぼす複雑な磁場の形成を考えると、天体物理学において重要なボトルネックとなっている。
磁気流体力学(MHD)シミュレーションにより、太陽のプラズマ、磁場、周囲の環境の間の複雑な相互作用をモデル化することができる。
しかし、MHDシミュレーションは非常に時間がかかり、シミュレーションには数日や数週間を要する。
本研究の目的は、深層学習、特にフーリエニューラル演算子(FNO)を用いたコロナ磁場シミュレーションを高速化することである。
FNOは、科学計算と文献発見のための理想的なツールであることが証明されている。
本稿では,FNOの2つの分岐を含むグローバルローカルフーリエニューラル演算子(GL-FNO)を提案する。
GLFNOの性能は、FNO、U-NO、U-FNO、Vision Transformer、CNN-RNN、CNN-LSTMといった最先端のディープラーニング手法と比較され、その精度、計算効率、スケーラビリティを示す。
さらに, GL-FNOの信頼性を示すために, 領域の専門家による物理解析を行った。
その結果、GL-FNOはMHDシミュレーションを加速するだけでなく、信頼性の高い予測能力も提供し、宇宙気象力学の理解に大きく貢献することが示された。
私たちのコード実装はhttps://github.com/Yutao-0718/GL-FNOで利用可能です。
Exploring the outer atmosphere of the sun has remained a significant bottleneck in astrophysics, given the intricate magnetic formations that significantly influence diverse solar events. Magnetohydrodynamics (MHD) simulations allow us to model the complex interactions between the sun's plasma, magnetic fields, and the surrounding environment. However, MHD simulation is extremely time-consuming, taking days or weeks for simulation. The goal of this study is to accelerate coronal magnetic field simulation using deep learning, specifically, the Fourier Neural Operator (FNO). FNO has been proven to be an ideal tool for scientific computing and discovery in the literature. In this paper, we proposed a global-local Fourier Neural Operator (GL-FNO) that contains two branches of FNOs: the global FNO branch takes downsampled input to reconstruct global features while the local FNO branch takes original resolution input to capture fine details. The performance of the GLFNO is compared with state-of-the-art deep learning methods, including FNO, U-NO, U-FNO, Vision Transformer, CNN-RNN, and CNN-LSTM, to demonstrate its accuracy, computational efficiency, and scalability. Furthermore, physics analysis from domain experts is also performed to demonstrate the reliability of GL-FNO. The results demonstrate that GL-FNO not only accelerates the MHD simulation (a few seconds for prediction, more than \times 20,000 speed up) but also provides reliable prediction capabilities, thus greatly contributing to the understanding of space weather dynamics. Our code implementation is available at https://github.com/Yutao-0718/GL-FNO | 翻訳日:2024-09-11 02:31:55 公開日:2024-09-08 |
# 大規模言語モデルの分散投機推論は、おそらくより高速である
Distributed Speculative Inference of Large Language Models is Provably Faster ( http://arxiv.org/abs/2405.14105v3 ) ライセンス: Link先を確認 | Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel, | (参考訳) 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。
本稿では,分散投機推論(DSI)を提案する。分散投機推論(DSI)は,投機推論(SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] や従来の自己回帰推論(非SI)よりも確実に高速な分散推論アルゴリズムである。
他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。
SIに関する以前の研究は、実証的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフト作成が必要であり、実際は利用できないことが多い。
我々は、SIが非SIよりも遅くなり得るギャップを、より遅く、より正確でない草案作成者によって特定する。
DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。
DSIはSP(Speculation Parallelism)と呼ばれる新しいタイプのタスク並列処理を導入し、ターゲットインスタンスとドラフトインスタンスを時間的に重複させ、計算リソースとレイテンシーの間に新たな基本的なトレードオフを生み出す。
DSI は SI よりも高速であるだけでなく、SI で加速できない LLM もサポートしている。
DSI が SI よりも 1.29-1.92 倍速い現実的な単一ノード設定において,本シミュレーションは既製の LLM の高速化を示す。
Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces Distributed Speculative Inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require fast and accurate drafters, which are often unavailable in practice. We identify a gap where SI can be slower than non-SI given slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI--given any drafters. DSI introduces a novel type of task parallelism called Speculation Parallelism (SP), which orchestrates target and drafter instances to overlap in time, creating a new foundational tradeoff between computational resources and latency. DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic single-node settings where DSI is 1.29-1.92x faster than SI. | 翻訳日:2024-09-11 02:21:54 公開日:2024-09-08 |
# 長距離相互作用を用いたリーブ・シュルツ・マティス理論
Lieb-Schultz-Mattis Theorem with Long-Range Interactions ( http://arxiv.org/abs/2405.14949v2 ) ライセンス: Link先を確認 | Ruochen Ma, | (参考訳) 距離$r$を持つ$\sim 1/r^\alpha$として崩壊する$k-$局所相互作用の存在下で、$SO(3)$スピン回転と格子変換対称性を示す$d$次元スピン系におけるリーブ=シュルツ=マティスの定理を証明する。
I型は長距離スピンスピン結合を持ち、II型は$SO(3)$対称局所作用素の間の長距離スピンスピン結合である。
スピン=$\frac{1}{2}$系の場合、I型は相互作用が十分に高速に崩壊した場合、非ゼロ励起ギャップを持つ一意の対称基底状態を持たず、$\alpha>\max(3d,4d-2)$の場合、\ie である。
II型の場合、条件は$\alpha>\max(3d-1,4d-3)$となる。
$1d$では、この入力性条件をタイプIの$\alpha>2$とタイプIIの$\alpha>0$に改善し、均一な2\pi$ツイストで状態のエネルギーを調べる。
特に、2d$では、ファン・デル・ワールス相互作用を持つタイプIIハミルトニアンが定理の制約を受ける。
We prove the Lieb-Schultz-Mattis theorem in $d$-dimensional spin systems exhibiting $SO(3)$ spin rotation and lattice translation symmetries in the presence of $k-$local interactions decaying as $\sim 1/r^\alpha$ with distance $r$. Two types of Hamiltonians are considered: Type I comprises long-range spin-spin couplings, while Type II features long-range couplings between $SO(3)$ symmetric local operators. For spin-$\frac{1}{2}$ systems, it is shown that Type I cannot have a unique symmetric ground state with a nonzero excitation gap when the interaction decays sufficiently fast, \ie when $\alpha>\max(3d,4d-2)$. For Type II, the condition becomes $\alpha>\max(3d-1,4d-3)$. In $1d$, this ingappability condition is improved to $\alpha>2$ for Type I and $\alpha>0$ for Type II by examining the energy of a state with a uniform $2\pi$ twist. Notably, in $2d$, a Type II Hamiltonian with van der Waals interaction is subject to the constraint of the theorem. | 翻訳日:2024-09-11 02:21:54 公開日:2024-09-08 |
# DiffUHaul: 画像にオブジェクトをドラッグする訓練不要の方法
DiffUHaul: A Training-Free Method for Object Dragging in Images ( http://arxiv.org/abs/2406.01594v2 ) ライセンス: Link先を確認 | Omri Avrahami, Rinon Gal, Gal Chechik, Ohad Fried, Dani Lischinski, Arash Vahdat, Weili Nie, | (参考訳) テキストから画像への拡散モデルは多くの画像編集タスクを解くのに有効であることが証明されている。
しかし、シーン内のオブジェクトをシームレスに移動させるという一見単純な作業は、驚くほど難しいままだ。
この問題に対処する既存の手法は、空間的推論が欠如しているために、現実のシナリオで確実に機能するのに苦労することが多い。
本研究では,DiffUHaulと呼ばれるオブジェクトドラッグングタスクに対して,局所的なテキスト・画像モデルの空間的理解を活用する学習自由度手法を提案する。
局所モデルのレイアウト入力を盲目的に操作すると、モデル内のオブジェクト表現の内在的絡み合いにより、編集性能が低下する傾向にある。
この目的のために,まず注目マスキングを各デノナイズステップに適用し,各生成物を異なるオブジェクトに分散させ,高レベルのオブジェクトの外観を維持するために自己認識共有機構を採用する。
さらに,新しい拡散アンカリング手法を提案する。初期の段階では,ソース画像とターゲット画像の注意特徴を補間して,元の外観とスムーズに新しいレイアウトを融合させ,後段では,ソース画像から補間された画像に局所的特徴を渡すことで,細かなオブジェクトの詳細を保持する。
DiffUHaul を実画像編集に適用するために,DiffUHaul に DDPM 自己注意バケットを適用する。
最後に,本課題に対する自動評価パイプラインを導入し,本手法の有効性を示す。
私たちの結果は、ユーザの好み調査によって強化されています。
Text-to-image diffusion models have proven effective for solving many image editing tasks. However, the seemingly straightforward task of seamlessly relocating objects within a scene remains surprisingly challenging. Existing methods addressing this problem often struggle to function reliably in real-world scenarios due to lacking spatial reasoning. In this work, we propose a training-free method, dubbed DiffUHaul, that harnesses the spatial understanding of a localized text-to-image model, for the object dragging task. Blindly manipulating layout inputs of the localized model tends to cause low editing performance due to the intrinsic entanglement of object representation in the model. To this end, we first apply attention masking in each denoising step to make the generation more disentangled across different objects and adopt the self-attention sharing mechanism to preserve the high-level object appearance. Furthermore, we propose a new diffusion anchoring technique: in the early denoising steps, we interpolate the attention features between source and target images to smoothly fuse new layouts with the original appearance; in the later denoising steps, we pass the localized features from the source images to the interpolated images to retain fine-grained object details. To adapt DiffUHaul to real-image editing, we apply a DDPM self-attention bucketing that can better reconstruct real images with the localized model. Finally, we introduce an automated evaluation pipeline for this task and showcase the efficacy of our method. Our results are reinforced through a user preference study. | 翻訳日:2024-09-11 02:11:38 公開日:2024-09-08 |
# ベイズニューラルネットワークを用いた確率最適化問題の学習解
Learning Solutions of Stochastic Optimization Problems with Bayesian Neural Networks ( http://arxiv.org/abs/2406.03082v2 ) ライセンス: Link先を確認 | Alan A. Lahoud, Erik Schaffernicht, Johannes A. Stork, | (参考訳) 数学的解法はパラメータ最適化問題(OP)を入力として最適決定を与える。
多くの実世界の設定において、これらのパラメータのいくつかは未知または不確かである。
近年の研究では、これらの未知パラメータの価値を予測することに焦点を当てており、エンド・ツー・エンドの学習アプローチを採用することで、意思決定の後悔を減らすことを目的としている。
しかし、これらの手法は予測の不確実性を無視し、従って、低信頼な予測の場合、数学的解決者が誤った決定を下す可能性がある。
本稿では,ベイズニューラルネットワーク(BNN)による予測の不確かさをモデル化し,確率計画法を用いて数学的解法にその不確かさを伝達する新しい枠組みを提案する。
分離学習アプローチでは、予測値のOPパラメータの分布の質を高めるために、BNN重みを更新する一方、組合せ学習アプローチでは、予測値OPのコスト関数を確率的エンドツーエンドで直接最小化することを目的とした重みを更新する。
様々なノイズ特性を持つ合成データと実データセットを用いて広範囲な評価を行い, 両手法を比較検討した。
Mathematical solvers use parametrized Optimization Problems (OPs) as inputs to yield optimal decisions. In many real-world settings, some of these parameters are unknown or uncertain. Recent research focuses on predicting the value of these unknown parameters using available contextual features, aiming to decrease decision regret by adopting end-to-end learning approaches. However, these approaches disregard prediction uncertainty and therefore make the mathematical solver susceptible to provide erroneous decisions in case of low-confidence predictions. We propose a novel framework that models prediction uncertainty with Bayesian Neural Networks (BNNs) and propagates this uncertainty into the mathematical solver with a Stochastic Programming technique. The differentiable nature of BNNs and differentiable mathematical solvers allow for two different learning approaches: In the Decoupled learning approach, we update the BNN weights to increase the quality of the predictions' distribution of the OP parameters, while in the Combined learning approach, we update the weights aiming to directly minimize the expected OP's cost function in a stochastic end-to-end fashion. We do an extensive evaluation using synthetic data with various noise properties and a real dataset, showing that decisions regret are generally lower (better) with both proposed methods. | 翻訳日:2024-09-11 02:11:38 公開日:2024-09-08 |
# PCART: Python APIパラメータ互換性問題の自動修正
PCART: Automated Repair of Python API Parameter Compatibility Issues ( http://arxiv.org/abs/2406.03839v2 ) ライセンス: Link先を確認 | Shuai Zhang, Guanping Xiao, Jun Wang, Huashan Lei, Yepang Liu, Zheng Zheng, | (参考訳) 現代のソフトウェア開発において、Pythonのサードパーティライブラリは特にディープラーニングや科学計算などの分野で広く使われているため、重要になっている。
しかし、サードパーティライブラリのAPIパラメータは進化の過程で頻繁に変更され、特定のバージョンに依存するクライアントアプリケーションの互換性の問題が発生する。
Pythonのフレキシブルなパラメータパス機構のため、異なるパラメータパスのメソッドは異なるAPI互換性をもたらす可能性がある。
現在、Python APIパラメータの互換性問題を自動的に検出し、修正するツールは存在しない。
このギャップを埋めるために、PCARTは、まず、API抽出、コードインスツルメンテーション、APIマッピング設定から互換性評価まで、そして最後に、様々な種類のPython APIパラメータ互換性問題、すなわちパラメータの追加、削除、リネーム、パラメータの再順序付け、およびパラメータへの位置パラメータの変換の修正と検証まで、完全に自動化されたプロセスを実装する。
47,478個のテストケースを含む大規模ベンチマークPCBENCHを構築し,PCARTを評価する。
評価の結果、PCARTは効率的かつ効率的であり、既存のツール(MLCatchUpとRelancer)と大規模言語モデルChatGPT-4を著しく上回り、APIパラメータの互換性問題の検出に96.49%、修復精度91.36%を達成していることがわかった。
GitHubによる14の現実世界のPythonプロジェクトの評価は、PCARTが優れた実用性を持っていることを示している。
PCARTは、Python APIアップデートのメンテナンスに費やした時間を短縮し、Python APIの自動互換性問題の修正を容易にすることができると信じています。
In modern software development, Python third-party libraries have become crucial, particularly due to their widespread use in fields such as deep learning and scientific computing. However, the parameters of APIs in third-party libraries often change during evolution, causing compatibility issues for client applications that depend on specific versions. Due to Python's flexible parameter-passing mechanism, different methods of parameter passing can result in different API compatibility. Currently, no tool is capable of automatically detecting and repairing Python API parameter compatibility issues. To fill this gap, we propose PCART, the first to implement a fully automated process from API extraction, code instrumentation, and API mapping establishment, to compatibility assessment, and finally to repair and validation, for solving various types of Python API parameter compatibility issues, i.e., parameter addition, removal, renaming, reordering of parameters, as well as the conversion of positional parameters to keyword parameters. We construct a large-scale benchmark PCBENCH, including 47,478 test cases mutated from 844 parameter-changed APIs of 33 popular Python libraries, to evaluate PCART. The evaluation results show that PCART is effective yet efficient, significantly outperforming existing tools (MLCatchUp and Relancer) and the large language model ChatGPT-4, achieving an F-measure of 96.49% in detecting API parameter compatibility issues and a repair accuracy of 91.36%. The evaluation on 14 real-world Python projects from GitHub further demonstrates that PCART has good practicality. We believe PCART can help programmers reduce the time spent on maintaining Python API updates and facilitate automated Python API compatibility issue repair. | 翻訳日:2024-09-11 02:11:38 公開日:2024-09-08 |
# 平衡外固有状態熱化仮説
Out-of-equilibrium Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2406.04684v3 ) ライセンス: Link先を確認 | Laura Foini, Anatoli Dymarski, Silvia Pappalardi, | (参考訳) 量子ユニタリ力学の下での非平衡状態の温暖化の理解は、多体物理学において重要な問題である。
本研究では,エネルギー固有基底における非平衡初期状態の行列要素に対する統計的アンサッツを提案し,その進化を記述する。
このアプローチは固有状態熱化仮説(ETH)にインスパイアされているが、提案されたアンザッツは異なるスケーリングを示す。
重要な点として、観測可能要素と初期状態行列要素との間の指数関数的に小さな相関関係を指摘し、緩和ダイナミクスを平衡に向けて決定する。
我々は,スケーリングと相互相関を数値的に検証し,高周波挙動の創発的普遍性を指摘し,一般化の可能性について概説する。
Understanding how out-of-equilibrium states thermalize under quantum unitary dynamics is an important problem in many-body physics. In this work, we propose a statistical ansatz for the matrix elements of non-equilibrium initial states in the energy eigenbasis, in order to describe such evolution. The approach is inspired by the Eigenstate Thermalisation Hypothesis (ETH) but the proposed ansatz exhibits different scaling. Importantly, we point out the exponentially small cross-correlations between the observable and the initial state matrix elements that determine relaxation dynamics toward equilibrium. We numerically verify scaling and cross-correlation, point out the emergent universality of the high-frequency behavior, and outline possible generalizations. | 翻訳日:2024-09-11 02:11:38 公開日:2024-09-08 |
# 自由を破る:非協力的仮定なしで効率的な多人数のプライベート・セット・ユニオン
Breaking Free: Efficient Multi-Party Private Set Union Without Non-Collusion Assumptions ( http://arxiv.org/abs/2406.07011v4 ) ライセンス: Link先を確認 | Minglang Dong, Yu Chen, Cong Zhang, Yujie Bai, | (参考訳) マルチパーティ・プライベート・セット・ユニオン(MPSU)プロトコルでは、$m$$(m > 2)$パーティがそれぞれセットを持っていて、他のパーティに追加情報を公開することなく、セットのユニオンをまとめて計算することができる。
マルチパーティ・プライベート・セット・ユニオン(MPSU)プロトコルには2つの主要なカテゴリがある: 最初のカテゴリは公開鍵技術に基づいて構築される。
第2のカテゴリは、暗黙の移動と対称キー技術に基づいている。
Liu と Gao (ASIACRYPT 2023) によって提案されたこのカテゴリの唯一の成果は、既存のすべてのプロトコルの中で最高の具体的なパフォーマンスであるが、それでもなお超線形計算と通信を持っている。
さらに、本来は非衝突仮定に依存しており、実際には保持されないため、標準的な半正直なセキュリティは達成しない。
MPSUプロトコルは、暗黙の転送と対称キー技術に基づく半正直なセキュリティを達成せず、MPSUプロトコルは線形計算と線形通信の複雑さの両方を達成する。
この作業では、両方を解決します。
-本論文では,標準半高次モデルにおいて,暗黙の転送と対称鍵技術に基づく最初のMPSUプロトコルを提案する。
このプロトコルは、LAN設定において、LiuやGaoよりも3.9-10.0 \times$高速である。
具体的には、当社のプロトコルはオンラインフェーズで4.4ドル秒しか必要としない。
-公開鍵演算に基づく線形計算と線形通信の複雑さを両立させる最初のMPSUプロトコルを提案する。
このプロトコルは通信コストが低く、Liu や Gao と比較すると、通信コストが3.0-36.5 倍になる。
Multi-party private set union (MPSU) protocol enables $m$ $(m > 2)$ parties, each holding a set, to collectively compute the union of their sets without revealing any additional information to other parties. There are two main categories of multi-party private set union (MPSU) protocols: The first category builds on public-key techniques, where existing works require a super-linear number of public-key operations, resulting in their poor practical efficiency. The second category builds on oblivious transfer and symmetric-key techniques. The only work in this category, proposed by Liu and Gao (ASIACRYPT 2023), features the best concrete performance among all existing protocols, but still has super-linear computation and communication. Moreover, it does not achieve the standard semi-honest security, as it inherently relies on a non-collusion assumption, which is unlikely to hold in practice. There remains two significant open problems so far: no MPSU protocol achieves semi-honest security based on oblivious transfer and symmetric-key techniques, and no MPSU protocol achieves both linear computation and linear communication complexity. In this work, we resolve both of them. - We propose the first MPSU protocol based on oblivious transfer and symmetric-key techniques in the standard semi-honest model. This protocol is $3.9-10.0 \times$ faster than Liu and Gao in the LAN setting. Concretely, our protocol requires only $4.4$ seconds in online phase for 3 parties with sets of $2^{20}$ items each. - We propose the first MPSU protocol achieving both linear computation and linear communication complexity, based on public-key operations. This protocol has the lowest overall communication costs and shows a factor of $3.0-36.5\times$ improvement in terms of overall communication compared to Liu and Gao. | 翻訳日:2024-09-11 02:11:38 公開日:2024-09-08 |
# Argument Miningのためのジェネレーティブマーカーによるエンドツーエンドフレームワーク
A Generative Marker Enhanced End-to-End Framework for Argument Mining ( http://arxiv.org/abs/2406.08606v2 ) ライセンス: Link先を確認 | Nilmadhab Das, Vishal Choudhary, V. Vijaya Saradhi, Ashish Anand, | (参考訳) Argument Mining (AM)は、Argumentative Components (AC)とそれに対応するArgumentative Relations (AR)を特定して抽出する。
以前の作業のほとんどは、これらのタスクを複数のサブタスクに分割しました。
既存のエンドツーエンドのセットアップは、主に依存性解析のアプローチを使用する。
本稿では、生成パラダイムに基づくエンドツーエンドフレームワークargTANLを紹介する。
argTANL は Augmented Natural Language (ANL) と呼ばれるラベル付きテキストに引数構造をフレーム化する。
このフレームワークは、与えられた議論文からACとARを共同で抽出する。
さらに,提案フレームワークにおけるモデルの性能向上にArgumentativeおよびDiscourseマーカーが与える影響について検討した。
これを実現するために、Marker-Enhanced argTANL(ME-argTANL)と特殊なMarker-Based Fine-Tuningを備えたargTANLという2つの異なるフレームワークが提案されている。
ME-argTANLの優れた性能を示すため、3つの標準AMベンチマークで大規模な実験を行った。
Argument Mining (AM) involves identifying and extracting Argumentative Components (ACs) and their corresponding Argumentative Relations (ARs). Most of the prior works have broken down these tasks into multiple sub-tasks. Existing end-to-end setups primarily use the dependency parsing approach. This work introduces a generative paradigm-based end-to-end framework argTANL. argTANL frames the argumentative structures into label-augmented text, called Augmented Natural Language (ANL). This framework jointly extracts both ACs and ARs from a given argumentative text. Additionally, this study explores the impact of Argumentative and Discourse markers on enhancing the model's performance within the proposed framework. Two distinct frameworks, Marker-Enhanced argTANL (ME-argTANL) and argTANL with specialized Marker-Based Fine-Tuning, are proposed to achieve this. Extensive experiments are conducted on three standard AM benchmarks to demonstrate the superior performance of the ME-argTANL. | 翻訳日:2024-09-11 02:01:46 公開日:2024-09-08 |
# 拡散型生成モデルの設計空間の評価
Evaluating the design space of diffusion-based generative models ( http://arxiv.org/abs/2406.12839v3 ) ライセンス: Link先を確認 | Yuqing Wang, Ye He, Molei Tao, | (参考訳) 拡散モデルの精度に関する既存の理論的な研究は、有意であるが、スコア関数が一定の精度に近似されたと仮定し、これを用いて生成の誤差を制御する。
この記事では、生成プロセス全体、すなわち、トレーニングとサンプリングの両方について、初めて定量的に理解する。
より正確には、勾配降下下でのdenoising score matchingの非漸近収束解析を行う。
また,分散爆発モデルに対する改良されたサンプリング誤差解析も提供する。
これら2つの結果を組み合わせて完全な誤差解析を行い、効率的な生成のためのトレーニングおよびサンプリングプロセスを設計する方法を解明する(しかし、理論上は)。
例えば、我々の理論は、[Karras et al 2022]で使われているものと定性的に一致する訓練において、ノイズ分布と損失重み付けを好むことを示唆している。
スコアが十分に訓練された場合には(Song et al 2020)の設計がより好まれるが、訓練が少ない場合には(Karras et al 2022)の設計がより好まれる。
Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting in training that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides perspectives on the choices of time and variance schedules in sampling: when the score is well trained, the design in [Song et al. 2020] is more preferable, but when it is less trained, the design in [Karras et al. 2022] becomes more preferable. | 翻訳日:2024-09-11 02:01:46 公開日:2024-09-08 |
# SS-GEN: 大規模言語モデルを用いたソーシャルストーリー生成フレームワーク
SS-GEN: A Social Story Generation Framework with Large Language Models ( http://arxiv.org/abs/2406.15695v2 ) ライセンス: Link先を確認 | Yi Feng, Mingyang Song, Jiaqi Wang, Zhuang Chen, Guanqun Bi, Minlie Huang, Liping Jing, Jian Yu, | (参考訳) 自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。
社会物語は伝統的にこれらの課題に対処するために厳格な制約の下で心理学の専門家によって作られたが、コストがかかり多様性が制限されている。
大きな言語モデル(LLMs)が進むにつれ、より自動化され、安価で、アクセスしやすい方法を開発し、幅広い範囲でリアルタイムでソーシャルストーリーを生成する機会があります。
しかし、ソーシャルストーリーのユニークで厳格な制約を満たすためにLLMを適用することは、難しい問題である。
この目的のために, LLM を用いた \textbf{S}ocial \textbf{S}tory \textbf{GEN}eration フレームワークである \textbf{SS-GEN} を提案する。
まず, 階層的に LLM に社会ストーリの生成を促すための制約駆動型高度戦略である \textbf{\textsc{StarSow}} を開発し, 続いて厳密な人間のフィルタリングを行い, 高品質なデータセットを構築する。
さらに,これらの生成したストーリーの有効性を評価するために,「textbf{quality Assessment criteria」を導入する。
強力なクローズドソースの大規模モデルは、非常に複雑な命令と高価なAPI料金を必要とするため、我々は最終的に、キュレートされた高品質データセットで小さな言語モデルを微調整し、より低コストで、よりシンプルなインストラクションとデプロイメントで、同等の結果を得ることができました。
この研究は、AIを活用して、大規模に自閉症の子供に費用対効果の高いソーシャルストーリーをパーソナライズするための重要なステップとなる。
プロンプト、コード、データは、 \texttt{Technical Appendix} と \texttt{Code \& Data Appendix} at \url{https://github.com/MIMIFY/SS-GEN} でリリースされる。
Children with Autism Spectrum Disorder (ASD) often misunderstand social situations and struggle to participate in daily routines. Social Stories are traditionally crafted by psychology experts under strict constraints to address these challenges but are costly and limited in diversity. As Large Language Models (LLMs) advance, there's an opportunity to develop more automated, affordable, and accessible methods to generate Social Stories in real-time with broad coverage. However, adapting LLMs to meet the unique and strict constraints of Social Stories is a challenging issue. To this end, we propose \textbf{SS-GEN}, a \textbf{S}ocial \textbf{S}tory \textbf{GEN}eration framework with LLMs. Firstly, we develop a constraint-driven sophisticated strategy named \textbf{\textsc{StarSow}} to hierarchically prompt LLMs to generate Social Stories at scale, followed by rigorous human filtering to build a high-quality dataset. Additionally, we introduce \textbf{quality assessment criteria} to evaluate the effectiveness of these generated stories. Considering that powerful closed-source large models require very complex instructions and expensive API fees, we finally fine-tune smaller language models with our curated high-quality dataset, achieving comparable results at lower costs and with simpler instruction and deployment. This work marks a significant step in leveraging AI to personalize Social Stories cost-effectively for autistic children at scale, which we hope can encourage future research. The prompt, code and data will release in the \texttt{Technical Appendix} and \texttt{Code \& Data Appendix} at \url{https://github.com/MIMIFY/SS-GEN}. | 翻訳日:2024-09-11 02:01:46 公開日:2024-09-08 |
# ディープニューラルネットワークを用いたユニバーサル量子トモグラフィ
Universal Quantum Tomography With Deep Neural Networks ( http://arxiv.org/abs/2407.01734v3 ) ライセンス: Link先を確認 | Nhan T. Luu, Thang C. Truong, Duong T. Luu, | (参考訳) 量子状態トモグラフィー(quantum state tomography)は、量子技術の多くの応用に欠かせない量子系の状態を特徴づける重要な技術である。
近年、量子状態トモグラフィーの効率性と精度を高めるためにニューラルネットワークを活用することへの関心が高まっている。
それでも、それらの多くは混合量子状態を含んでおらず、これは純粋状態が実際的な状況では一般的ではないからである。
本稿では,純粋かつ混合な量子状態トモグラフィーのための2つのニューラルネットワークベースのアプローチを提案する。
提案手法は,実験データから混合量子状態の再構成を行なえることを示す。
我々の研究は、量子状態トモグラフィーを革新し、量子技術の発展を促進するニューラルネットワークの可能性を強調している。
Quantum state tomography is a crucial technique for characterizing the state of a quantum system, which is essential for many applications in quantum technologies. In recent years, there has been growing interest in leveraging neural networks to enhance the efficiency and accuracy of quantum state tomography. Still, many of them did not include mixed quantum state, since pure states are arguably less common in practical situations. In this research paper, we present two neural networks based approach for both pure and mixed quantum state tomography: Restricted Feature Based Neural Network and Mixed States Conditional Generative Adversarial Network, evaluate its effectiveness in comparison to existing neural based methods. We demonstrate that our proposed methods can achieve state-of-the-art results in reconstructing mixed quantum states from experimental data. Our work highlights the potential of neural networks in revolutionizing quantum state tomography and facilitating the development of quantum technologies. | 翻訳日:2024-09-11 02:01:46 公開日:2024-09-08 |
# DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築
DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.03627v5 ) ライセンス: Link先を確認 | Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。
しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。
Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。
しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。
そこで本研究では、検索した文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークであるDSLRを提案する。
我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。
さらに、我々のDSLRは、追加のトレーニングを必要とせずに、特定の現実的なシナリオにおけるパフォーマンスを高め、RAGシステムで取得した文書を精算するための効率的かつ効率的なソリューションを提供する。
Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems. | 翻訳日:2024-09-11 01:51:43 公開日:2024-09-08 |
# T2VSafetyBench: テキスト・ビデオ生成モデルの安全性を評価する
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models ( http://arxiv.org/abs/2407.05965v3 ) ライセンス: Link先を確認 | Yibo Miao, Yifan Zhu, Yinpeng Dong, Lijia Yu, Jun Zhu, Xiao-Shan Gao, | (参考訳) Soraの最近の発展は、テキスト・トゥ・ビデオ(T2V)世代の新しい時代へと繋がる。
これに伴い、セキュリティリスクに対する懸念が高まっている。
生成されたビデオには違法なコンテンツや非倫理的なコンテンツが含まれており、それらの安全性に関する包括的な定量的理解が欠如しており、信頼性と実践的な展開に挑戦している。
これまでの評価は、主にビデオ生成の品質に焦点を当てていた。
テキスト・ツー・イメージ・モデルのいくつかの評価は安全性を考慮しているが、より少ない側面をカバーし、ビデオ生成に固有のユニークな時間的リスクに対処しない。
この研究ギャップを埋めるために,テキスト・ツー・ビデオモデルの安全性クリティカルな評価を行うために設計された新しいベンチマークであるT2VSafetyBenchを紹介する。
ビデオ生成の安全性の12つの重要な側面を定義し、実世界のプロンプト、LLM生成プロンプト、ジェイルブレイク攻撃に基づくプロンプトを含む悪意のあるプロンプトデータセットを構築する。
評価結果から,いくつかの重要な知見が得られた。
1) 異なるモデルが様々な強みを示すため,すべての面において単一のモデルが優れているものはない。
2) GPT-4評価とマニュアルレビューの相関は概ね高い。
3)テキスト・ビデオ生成モデルのユーザビリティと安全性にはトレードオフがある。
このことは、ビデオ生成の分野が急速に進歩するにつれて、安全リスクが急上昇し、ビデオ安全性の優先順位付けの急激さが浮き彫りになることを示している。
我々は、T2VSafetyBenchが、生成AI時代のビデオ生成の安全性をよりよく理解するための洞察を提供することを期待している。
The recent development of Sora leads to a new era in text-to-video (T2V) generation. Along with this comes the rising concern about its security risks. The generated videos may contain illegal or unethical content, and there is a lack of comprehensive quantitative understanding of their safety, posing a challenge to their reliability and practical deployment. Previous evaluations primarily focus on the quality of video generation. While some evaluations of text-to-image models have considered safety, they cover fewer aspects and do not address the unique temporal risk inherent in video generation. To bridge this research gap, we introduce T2VSafetyBench, a new benchmark designed for conducting safety-critical assessments of text-to-video models. We define 12 critical aspects of video generation safety and construct a malicious prompt dataset including real-world prompts, LLM-generated prompts and jailbreak attack-based prompts. Based on our evaluation results, we draw several important findings, including: 1) no single model excels in all aspects, with different models showing various strengths; 2) the correlation between GPT-4 assessments and manual reviews is generally high; 3) there is a trade-off between the usability and safety of text-to-video generative models. This indicates that as the field of video generation rapidly advances, safety risks are set to surge, highlighting the urgency of prioritizing video safety. We hope that T2VSafetyBench can provide insights for better understanding the safety of video generation in the era of generative AI. | 翻訳日:2024-09-11 01:51:43 公開日:2024-09-08 |
# グリーンスクリーンの強化によりロボットマニピュレーションにおけるシーンの一般化が可能に
Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation ( http://arxiv.org/abs/2407.07868v2 ) ライセンス: Link先を確認 | Eugene Teoh, Sumit Patidar, Xiao Ma, Stephen James, | (参考訳) 視覚に基づく新しい環境に対する操作ポリシーの一般化は、限られた探索の難しい領域のままである。
現在のプラクティスでは、ひとつの場所にデータを集め、このデータを使って模倣学習や強化学習のポリシーを訓練し、同じ場所にポリシーをデプロイする。
しかし、このアプローチはスケーラビリティに欠けており、各タスクに複数のロケーションでデータ収集を必要とする。
本稿では,主にグリーンスクリーンを特徴とする場所でデータを収集する手法を提案する。
背景テクスチャをグリーンスクリーン上にオーバーレイするためにクロマキーアルゴリズムを用いたグリーンスクリーン拡張(GreenAug)を導入する。
850以上のトレーニングデモと8.2kの評価エピソードによる広範囲な実世界の実証研究を通じて、GreenAugは、向上、標準的なコンピュータビジョンの増強、パフォーマンスにおける以前の生成拡張メソッドを超越していることを示した。
アルゴリズムのノベルティは主張されていないが、我々の論文はデータ収集の実践の根本的な変化を提唱している。
今後の研究における実世界の実証はグリーンスクリーンを活用すべきであり、続いてGreenAugを適用すべきである。
GreenAugは、ポリシーの一般化を視覚的に異なる新しい場所に開放し、ロボット学習における現在の場面の一般化の限界に対処する。
Generalising vision-based manipulation policies to novel environments remains a challenging area with limited exploration. Current practices involve collecting data in one location, training imitation learning or reinforcement learning policies with this data, and deploying the policy in the same location. However, this approach lacks scalability as it necessitates data collection in multiple locations for each task. This paper proposes a novel approach where data is collected in a location predominantly featuring green screens. We introduce Green-screen Augmentation (GreenAug), employing a chroma key algorithm to overlay background textures onto a green screen. Through extensive real-world empirical studies with over 850 training demonstrations and 8.2k evaluation episodes, we demonstrate that GreenAug surpasses no augmentation, standard computer vision augmentation, and prior generative augmentation methods in performance. While no algorithmic novelties are claimed, our paper advocates for a fundamental shift in data collection practices. We propose that real-world demonstrations in future research should utilise green screens, followed by the application of GreenAug. We believe GreenAug unlocks policy generalisation to visually distinct novel locations, addressing the current scene generalisation limitations in robot learning. | 翻訳日:2024-09-11 01:51:43 公開日:2024-09-08 |
# DistillSeq: 知識蒸留を用いた大規模言語モデルの安全アライメントテストフレームワーク
DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation ( http://arxiv.org/abs/2407.10106v4 ) ライセンス: Link先を確認 | Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi, | (参考訳) 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
このリスクは、安全で責任ある使用を確保するために、厳密なテストとLLMの包括的な評価を必要とする。
しかし、LLMの広範なテストには相当な計算資源が必要であり、コストがかかる。
したがって、テストフェーズにおけるコスト削減戦略の探求は、リソース可用性の制約と徹底的な評価の必要性のバランスをとるために不可欠である。
そこで本手法は,LLMから小さなモデルにモデレーション知識を移すことから始める。
その後、私たちは、構文木アプローチに基づく悪質なクエリを生成するための2つの戦略をデプロイし、もう1つはLLMベースのメソッドを活用する。
最後に, 本手法では, 有害反応を誘発しやすい検査事例を特定するために, シーケンシャルなフィルタテストプロセスを導入している。
本研究は, GPT-3.5, GPT-4.0, Vicuna-13B, Llama-13Bの4種類のLDMに対するDistillSeqの有効性を検討した。
DistillSeqがなければ、これらのLSMの攻撃成功率は、GPT-3.5が31.5%、GPT-4.0が21.4%、Vicuna-13Bが28.3%、Llama-13Bが30.9%であった。
しかし、DistillSeqの適用により、これらの成功率は58.5%、50.7%、52.5%、54.4%に顕著に増加した。
これは、DistillSeqを使用せずにシナリオと比較した場合、攻撃成功率の平均エスカレーションを93.0%削減した。
このような知見は、LLMを効果的にテストするために必要な時間とリソース投資を減らすという点で、DistillSeqが提供する重要な強化を浮き彫りにしている。
Large Language Models (LLMs) have showcased their remarkable capabilities in diverse domains, encompassing natural language understanding, translation, and even code generation. The potential for LLMs to generate harmful content is a significant concern. This risk necessitates rigorous testing and comprehensive evaluation of LLMs to ensure safe and responsible use. However, extensive testing of LLMs requires substantial computational resources, making it an expensive endeavor. Therefore, exploring cost-saving strategies during the testing phase is crucial to balance the need for thorough evaluation with the constraints of resource availability. To address this, our approach begins by transferring the moderation knowledge from an LLM to a small model. Subsequently, we deploy two distinct strategies for generating malicious queries: one based on a syntax tree approach, and the other leveraging an LLM-based method. Finally, our approach incorporates a sequential filter-test process designed to identify test cases that are prone to eliciting toxic responses. Our research evaluated the efficacy of DistillSeq across four LLMs: GPT-3.5, GPT-4.0, Vicuna-13B, and Llama-13B. In the absence of DistillSeq, the observed attack success rates on these LLMs stood at 31.5% for GPT-3.5, 21.4% for GPT-4.0, 28.3% for Vicuna-13B, and 30.9% for Llama-13B. However, upon the application of DistillSeq, these success rates notably increased to 58.5%, 50.7%, 52.5%, and 54.4%, respectively. This translated to an average escalation in attack success rate by a factor of 93.0% when compared to scenarios without the use of DistillSeq. Such findings highlight the significant enhancement DistillSeq offers in terms of reducing the time and resource investment required for effectively testing LLMs. | 翻訳日:2024-09-11 01:41:10 公開日:2024-09-08 |
# マルチブランチ深部畳み込みネットワークとLSTM-CNNを用いた心臓音の分類
Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN ( http://arxiv.org/abs/2407.10689v3 ) ライセンス: Link先を確認 | Seyed Amir Latifi, Hassan Ghassemian, Maryam Imani, | (参考訳) 本稿では,クリニックにおける低コストシステムを用いて,より高精度かつ信頼性の高い心疾患の迅速かつ低コスト診断法を提案する。
心臓疾患の自動診断の第一の限界は、正確で許容できるラベル付き標本の希少性であり、準備に費用がかかる。
この問題に対処するため,本研究では2つの手法を提案する。
最初の方法は、人間の聴覚処理にインスパイアされた独自のマルチブランチディープ畳み込みニューラルネットワーク(MBDCN)アーキテクチャで、様々なサイズの畳み込みフィルタと音声信号パワースペクトルを入力として利用することによって特徴抽出を最適化するように設計されている。
第二の手法はLong Short-term memory-Convolutional Neural (LSCN)モデルと呼ばれ、ネットワークアーキテクチャにはLong Short-Term Memory (LSTM)ネットワークブロックが含まれており、時間領域における特徴抽出を改善する。
LSTMブロックとともに一次元畳み込み層からなる複数の並列分岐を結合するという革新的なアプローチは、音声信号処理タスクにおいて優れた結果を得るのに役立つ。
実験により,提案手法が最先端技術よりも優れていることが示された。
LSCNネットワークによる心臓音の総合的分類精度は96%以上である。
このネットワークの効率は、Mel Frequency Cepstral Coefficients (MFCC) やウェーブレット変換のような一般的な特徴抽出法と比較すると顕著である。
そこで本手法は,心臓音の自動解析において有望な結果を示し,心血管疾患の診断と早期発見に有効である可能性が示唆された。
This paper presents a fast and cost-effective method for diagnosing cardiac abnormalities with high accuracy and reliability using low-cost systems in clinics. The primary limitation of automatic diagnosing of cardiac diseases is the rarity of correct and acceptable labeled samples, which can be expensive to prepare. To address this issue, two methods are proposed in this work. The first method is a unique Multi-Branch Deep Convolutional Neural Network (MBDCN) architecture inspired by human auditory processing, specifically designed to optimize feature extraction by employing various sizes of convolutional filters and audio signal power spectrum as input. In the second method, called as Long short-term memory-Convolutional Neural (LSCN) model, Additionally, the network architecture includes Long Short-Term Memory (LSTM) network blocks to improve feature extraction in the time domain. The innovative approach of combining multiple parallel branches consisting of the one-dimensional convolutional layers along with LSTM blocks helps in achieving superior results in audio signal processing tasks. The experimental results demonstrate superiority of the proposed methods over the state-of-the-art techniques. The overall classification accuracy of heart sounds with the LSCN network is more than 96%. The efficiency of this network is significant compared to common feature extraction methods such as Mel Frequency Cepstral Coefficients (MFCC) and wavelet transform. Therefore, the proposed method shows promising results in the automatic analysis of heart sounds and has potential applications in the diagnosis and early detection of cardiovascular diseases. | 翻訳日:2024-09-11 01:41:10 公開日:2024-09-08 |
# クーポン割当における即時収益の均衡と今後のオフ・ポリティ・アセスメント
Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation ( http://arxiv.org/abs/2407.11039v3 ) ライセンス: Link先を確認 | Naoki Nishimura, Ken Kobayashi, Kazuhide Nakata, | (参考訳) クーポンの割り当ては顧客の購入を加速させ、収益を増大させる。
しかし、即時収益を最大化するための現在の最適政策の活用と、外部評価(OPE)を通じて将来の政策改善のためのデータ収集のための代替政策の探求の間には、根本的なトレードオフが生じる。
このトレードオフのバランスをとるために,モデルに基づく収益最大化政策とデータ収集のためのランダム化探索政策を組み合わせた新しいアプローチを提案する。
当社の枠組みは、短期収益と今後の政策改善のバランスを最適化するために、これらの2つの政策の混合比率を柔軟に調整することができる。
我々は、最適混合比を多目的最適化として決定する問題を定式化し、このトレードオフの定量的評価を可能にする。
合成データを用いた混合政策の有効性を実証的に検証した。
1)データ収集と収益のトレードオフを柔軟に調整し、決定的・確率的な政策を組み合わせた混合政策を実証する。
2) 最適混合比問題を多目的最適化として定式化し, このトレードオフの定量的評価を可能にする。
Coupon allocation drives customer purchases and boosts revenue. However, it presents a fundamental trade-off between exploiting the current optimal policy to maximize immediate revenue and exploring alternative policies to collect data for future policy improvement via off-policy evaluation (OPE). To balance this trade-off, we propose a novel approach that combines a model-based revenue maximization policy and a randomized exploration policy for data collection. Our framework enables flexible adjustment of the mixture ratio between these two policies to optimize the balance between short-term revenue and future policy improvement. We formulate the problem of determining the optimal mixture ratio as multi-objective optimization, enabling quantitative evaluation of this trade-off. We empirically verified the effectiveness of the proposed mixed policy using synthetic data. Our main contributions are: (1) Demonstrating a mixed policy combining deterministic and probabilistic policies, flexibly adjusting the data collection vs. revenue trade-off. (2) Formulating the optimal mixture ratio problem as multi-objective optimization, enabling quantitative evaluation of this trade-off. | 翻訳日:2024-09-11 01:41:10 公開日:2024-09-08 |
# BMRとBWR: 現実の非凸制約問題と非制約問題に対する2つの単純なメタファーなし最適化アルゴリズム
BMR and BWR: Two simple metaphor-free optimization algorithms for solving real-life non-convex constrained and unconstrained problems ( http://arxiv.org/abs/2407.11149v2 ) ライセンス: Link先を確認 | Ravipudi Venkata Rao, Ravikumar shah, | (参考訳) BMR(Best-Mean-Random)アルゴリズムとBWR(Best-Worst-Random)アルゴリズムという2つの単純かつ強力な最適化アルゴリズムを開発し,制約のない最適化問題に対処する。
これらのアルゴリズムはメタファーやアルゴリズム固有のパラメータを含まない。
BMRアルゴリズムは与えられた問題を解決するために生成される集団の最適、平均、ランダムな解に基づいており、BWRアルゴリズムは最良の、最悪の、ランダムな解に基づいている。
提案した2つのアルゴリズムの性能は,CEC2020コンペティションにおける26個の実時間非凸制約最適化問題に実装して検討し,他の顕著な最適化アルゴリズムとの比較を行った。
12の制約付きエンジニアリング問題のパフォーマンスについても検討し、その結果を非常に最近のアルゴリズムと比較する(場合によっては30以上のアルゴリズムと比較する)。
さらに、最近開発された5つの異なる特徴を持つベンチマーク問題を含む、30の制約のない標準ベンチマーク最適化問題に対して、計算実験を行う。
その結果,提案した単純アルゴリズムの競争性や優越性を実証した。
最適化研究コミュニティは、これらのアルゴリズムを適用して、様々な科学・工学分野にわたる様々な制約や制約のない実生活最適化問題を解くことで、利点を得ることができる。
BMRとBWRのアルゴリズムのコードはhttps://sites.google.com/view/bmr-bwr-timization-algorithm/home?
authuser=0。
Two simple yet powerful optimization algorithms, named the Best-Mean-Random (BMR) and Best-Worst-Random (BWR) algorithms, are developed and presented in this paper to handle both constrained and unconstrained optimization problems. These algorithms are free of metaphors and algorithm-specific parameters. The BMR algorithm is based on the best, mean, and random solutions of the population generated for solving a given problem, and the BWR algorithm is based on the best, worst, and random solutions. The performances of the proposed two algorithms are investigated by implementing them on 26 real-life nonconvex constrained optimization problems given in the Congress on Evolutionary Computation (CEC) 2020 competition, and comparisons are made with those of the other prominent optimization algorithms. The performances on 12 constrained engineering problems are also investigated, and the results are compared with those of very recent algorithms (in some cases, compared with more than 30 algorithms). Furthermore, computational experiments are conducted on 30 unconstrained standard benchmark optimization problems, including 5 recently developed benchmark problems with distinct characteristics. The results demonstrated the superior competitiveness and superiority of the proposed simple algorithms. The optimization research community may gain an advantage by adapting these algorithms to solve various constrained and unconstrained real-life optimization problems across various scientific and engineering disciplines. The codes of the BMR and BWR algorithms are available at https://sites.google.com/view/bmr-bwr-optimization-algorithm/home?authuser=0. | 翻訳日:2024-09-11 01:41:10 公開日:2024-09-08 |
# Kantの立場から見た人工知能判断の不明瞭性
Unexplainability of Artificial Intelligence Judgments in Kant's Perspective ( http://arxiv.org/abs/2407.18950v2 ) ライセンス: Link先を確認 | Jongwoo Seo, | (参考訳) カントの純粋推論批判は、認識論の歴史に大きく貢献し、人間の判断の先駆的な原理の構造を解明するためのカテゴリの表を提案している。
人工知能(AI)の技術は機能主義に基づいて、人間の判断をシミュレートまたは再現すると主張している。
この主張を評価するためには、AI判断が人間の判断の特徴を持っているかどうかを検討する必要がある。
本稿は,AI判断が人間の判断の特性の観点から理解できない形態を示すものであることを論じる。
判断の特性が重なるので、このAIの不確実性と呼ぶことができる。
そして,身体的な直観のない概念は,視覚を通して機能を示すときの説明が困難であることを示す。
最後に、AIが主語を通して文章を作成し、判断の要素である自然言語で述語するとしても、AIが人間が受け入れられるレベルの概念を理解しているかどうかを判断することは困難である、と説明する。
これは、自然言語による説明が信頼できるかどうかが疑問であることを示している。
Kant's Critique of Pure Reason, a major contribution to the history of epistemology, proposes a table of categories to elucidate the structure of the a priori principle of human judgment. The technology of artificial intelligence (AI), based on functionalism, claims to simulate or replicate human judgment. To assess this claim, it is necessary to study whether AI judgment possesses the characteristics of human judgment. This paper argues that AI judgments exhibit a form that cannot be understood in terms of the characteristics of human judgments according to Kant. Because the characteristics of judgment overlap, we can call this AI's uncertainty. Then, I show that concepts without physical intuitions are not easy to explain when their functions are shown through vision. Finally, I illustrate that even if AI makes sentences through subject and predicate in natural language, which are components of judgment, it is difficult to determine whether AI understands the concepts to the level humans can accept. This shows that it is questionable whether the explanation through natural language is reliable. | 翻訳日:2024-09-11 01:25:35 公開日:2024-09-08 |
# GEGA:文書レベルの関係抽出のためのグラフ畳み込みネットワークとエビデンス検索ガイド
GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction ( http://arxiv.org/abs/2407.21384v2 ) ライセンス: Link先を確認 | Yanxu Mao, Xiaohui Chen, Peipei Liu, Tiehan Cui, Zuhui Yue, Zheng Li, | (参考訳) ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
文レベルの関係抽出と比較して、より広いテキストコンテキストからより複雑な意味理解が必要である。
現在、いくつかの研究はDocREの性能を高めるためにエビデンス文内の論理ルールを活用している。
しかし、証拠文が提供されていないデータでは、研究者は証拠検索(ER)を通じて文書全体の証拠文のリストを得ることが多い。
したがって、DocREは2つの課題に悩まされる: 第一に、エビデンスとエンティティペアの関係は弱く、第二に、長距離マルチエンティティ間の複雑な相互関係の抽出が不十分である。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
このモデルはグラフニューラルネットワークを利用して、複数の重み行列を構築し、証拠文への注意割当を導く。
また、ERを強化するためにマルチスケールの表現アグリゲーションも採用している。
その後、モデルのための完全教師付きおよび弱教師付きトレーニングプロセスの両方を実装するために、最も効率的なエビデンス情報を統合する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
実験結果から,既存のSOTAモデルと比較して総合的な改善が得られたことが示唆された。
Document-level relation extraction (DocRE) aims to extract relations between entities from unstructured document text. Compared to sentence-level relation extraction, it requires more complex semantic understanding from a broader text context. Currently, some studies are utilizing logical rules within evidence sentences to enhance the performance of DocRE. However, in the data without provided evidence sentences, researchers often obtain a list of evidence sentences for the entire document through evidence retrieval (ER). Therefore, DocRE suffers from two challenges: firstly, the relevance between evidence and entity pairs is weak; secondly, there is insufficient extraction of complex cross-relations between long-distance multi-entities. To overcome these challenges, we propose GEGA, a novel model for DocRE. The model leverages graph neural networks to construct multiple weight matrices, guiding attention allocation to evidence sentences. It also employs multi-scale representation aggregation to enhance ER. Subsequently, we integrate the most efficient evidence information to implement both fully supervised and weakly supervised training processes for the model. We evaluate the GEGA model on three widely used benchmark datasets: DocRED, Re-DocRED, and Revisit-DocRED. The experimental results indicate that our model has achieved comprehensive improvements compared to the existing SOTA model. | 翻訳日:2024-09-11 01:25:35 公開日:2024-09-08 |
# 反復フォローアップ質問による検索機能向上
Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions ( http://arxiv.org/abs/2408.00727v2 ) ライセンス: Link先を確認 | Guangzhi Xiong, Qiao Jin, Xiao Wang, Minjia Zhang, Zhiyong Lu, Aidong Zhang, | (参考訳) 大規模言語モデル(LLM)の創発的能力は、医学的問題を解く大きな可能性を示している。
医学的な知識を持つことができるが、それでも幻覚があり、知識の更新には柔軟性がない。
Retrieval-Augmented Generation (RAG) は、外部知識ベースを用いたLSMの医療質問応答能力を高めるために提案されているが、複数の情報検索が必要な複雑なケースでは失敗する可能性がある。
このような問題に対処するため,医学用反復RAG(i-MedRAG)を提案する。
i-MedRAGの各イテレーションでは、フォローアップクエリは従来のRAGシステムによって応答され、次のイテレーションでクエリ生成をガイドするためにさらに使用される。
I-MedRAG による様々な LLM の性能向上を,米国医学ライセンス試験 (USMLE) における臨床ヴィグネットの複雑な質問に対する従来の RAG との比較,および,Multitask Language Understanding (MMLU) データセットにおける様々な知識テストと比較した。
特に、ゼロショットのi-MedRAGは、GPT-3.5上の既存のプロンプトエンジニアリングと微調整メソッドを全て上回り、MedQAデータセットの精度は69.68\%である。
さらに、i-MedRAGのスケーリング特性を、追従クエリの異なるイテレーションと、反復毎に異なるクエリ数で特徴付ける。
今回のケーススタディでは,i-MedRAGが順応的にフォローアップクエリを問合せして推論連鎖を形成できることが示され,医学的質問の詳細な分析が可能となった。
我々の知る限りでは、フォローアップクエリを医療用RAGに組み込むための最初の研究である。
The emergent abilities of large language models (LLMs) have demonstrated great potential in solving medical questions. They can possess considerable medical knowledge, but may still hallucinate and are inflexible in the knowledge updates. While Retrieval-Augmented Generation (RAG) has been proposed to enhance the medical question-answering capabilities of LLMs with external knowledge bases, it may still fail in complex cases where multiple rounds of information-seeking are required. To address such an issue, we propose iterative RAG for medicine (i-MedRAG), where LLMs can iteratively ask follow-up queries based on previous information-seeking attempts. In each iteration of i-MedRAG, the follow-up queries will be answered by a conventional RAG system and they will be further used to guide the query generation in the next iteration. Our experiments show the improved performance of various LLMs brought by i-MedRAG compared with conventional RAG on complex questions from clinical vignettes in the United States Medical Licensing Examination (USMLE), as well as various knowledge tests in the Massive Multitask Language Understanding (MMLU) dataset. Notably, our zero-shot i-MedRAG outperforms all existing prompt engineering and fine-tuning methods on GPT-3.5, achieving an accuracy of 69.68\% on the MedQA dataset. In addition, we characterize the scaling properties of i-MedRAG with different iterations of follow-up queries and different numbers of queries per iteration. Our case studies show that i-MedRAG can flexibly ask follow-up queries to form reasoning chains, providing an in-depth analysis of medical questions. To the best of our knowledge, this is the first-of-its-kind study on incorporating follow-up queries into medical RAG. | 翻訳日:2024-09-11 01:25:35 公開日:2024-09-08 |
# LLMを使ってソフトウェアの望ましくないユーザ感を確立する
Using LLMs to Establish Implicit User Sentiment of Software Desirability ( http://arxiv.org/abs/2408.01527v2 ) ライセンス: Link先を確認 | Sherri Weitl-Harms, John D. Hastings, Jonah Lum, | (参考訳) 本研究は,従来のレビュースコアが便利ではあるが,質的なユーザフィードバックの豊かさを捉えることができない製品評価において重要な課題に対処するため,暗黙のソフトウェア望ましさを定量的にゼロショット感情分析にLLMを使うことを検討する。
イノベーションには、方法を確立することが含まれる
1)明示的なレビュースコアを必要とせずに質的なユーザエクスペリエンスデータを扱う。
2)暗黙のユーザ満足度に焦点が当てられ、
3) スケールした数値的な感情分析を提供し、単に感情を肯定的、中立的、否定的なものに分類するのではなく、ユーザーの感情をより微妙に理解する。
データはMicrosoft Product Desirability Toolkit (PDT)を使って収集される。
最初の調査では、2つのソフトウェアシステムのユーザに対してPDTメトリクスが与えられた。
PDTデータは、いくつかのLCM(Claude Sonnet 3, 3.5, GPT4, GPT4o)と、主要なトランスファー学習技術であるTwitter-Roberta-Base-Sentimentと、主要な感情分析ツールであるVaderを通じて供給された。
各システムには, PDTワード/説明ペアで表される感情と, ユーザによる5つの単語と説明の集団選択で表される感情の2つの方法による評価が求められた。
各LSMは、感情スコア、スコアの信頼度(低、中、高)、スコアの説明を提供する。
テストされたすべてのLSMは、ユーザのグループ化されたデータから統計的にユーザ感情を検出できたが、TRBSとVaderはそうではなかった。
LLMが提供した信頼感と説明は、ユーザの感情を理解するのに役立った。
本研究は、暗黙の感情を定量化する普遍的なツールを開発することを目的として、ユーザエクスペリエンスを評価することの理解を深める。
This study explores the use of LLMs for providing quantitative zero-shot sentiment analysis of implicit software desirability, addressing a critical challenge in product evaluation where traditional review scores, though convenient, fail to capture the richness of qualitative user feedback. Innovations include establishing a method that 1) works with qualitative user experience data without the need for explicit review scores, 2) focuses on implicit user satisfaction, and 3) provides scaled numerical sentiment analysis, offering a more nuanced understanding of user sentiment, instead of simply classifying sentiment as positive, neutral, or negative. Data is collected using the Microsoft Product Desirability Toolkit (PDT), a well-known qualitative user experience analysis tool. For initial exploration, the PDT metric was given to users of two software systems. PDT data was fed through several LLMs (Claude Sonnet 3 and 3.5, GPT4, and GPT4o) and through a leading transfer learning technique, Twitter-Roberta-Base-Sentiment, and Vader, a leading sentiment analysis tool. Each system was asked to evaluate the data in two ways, by looking at the sentiment expressed in the PDT word/explanation pairs; and by looking at the sentiment expressed by the users in their grouped selection of five words and explanations, as a whole. Each LLM provided a sentiment score, its confidence (low, medium, high) in the score, and an explanation of the score. All LLMs tested were able to statistically detect user sentiment from the users' grouped data, whereas TRBS and Vader were not. The confidence and explanation of confidence provided by the LLMs assisted in understanding user sentiment. This study adds deeper understanding of evaluating user experiences, toward the goal of creating a universal tool that quantifies implicit sentiment. | 翻訳日:2024-09-11 01:25:35 公開日:2024-09-08 |
# 大規模言語モデルを用いた意味的拡張間接呼分析
Semantic-Enhanced Indirect Call Analysis with Large Language Models ( http://arxiv.org/abs/2408.04344v2 ) ライセンス: Link先を確認 | Baijun Cheng, Cen Zhang, Kailong Wang, Ling Shi, Yang Liu, Haoyu Wang, Yao Guo, Xiangqun Chen, | (参考訳) 現代のソフトウェア開発において、動的特徴を達成するために間接呼び出しが広く使われることは、正確な制御フローグラフ(CFG)を構築する上での課題を招き、下流の静的解析タスクのパフォーマンスにさらに影響を及ぼす。
この問題に対処するために、様々な種類の間接呼び出しアナライザが提案されている。
しかし、プログラムのセマンティック情報を完全に活用せず、現実のシナリオでの有効性を制限している。
これらの問題に対処するために,間接的な呼分析の有効性を高めるための新しいアプローチであるセマンティック・エンハンスメント・アナリティクス(SEA)を提案する。
私たちの基本的な洞察は、一般的なプログラミングプラクティスでは、間接呼び出しは、しばしば呼び出されたターゲットとセマンティックな類似性を示します。
このセマンティックアライメントは、偽ターゲットをフィルタリングする静的解析手法の補助メカニズムとして機能する。
特に、現代の大規模言語モデル(LLM)は、コード要約などのタスクを含む広範なコードコーパスで訓練されており、セマンティック分析に適している。
特に、SEAはLLMを活用し、複数の視点から間接呼び出しとターゲット関数の両方の自然言語要約を生成する。
これらの要約をさらに分析することで、SEAは呼び出しとキャリーのペアとして適合性を決定することができる。
実験により,SEAは間接呼び出しのためのより正確なターゲットセットを生成することにより,既存の静的解析手法を大幅に強化できることが示された。
In contemporary software development, the widespread use of indirect calls to achieve dynamic features poses challenges in constructing precise control flow graphs (CFGs), which further impacts the performance of downstream static analysis tasks. To tackle this issue, various types of indirect call analyzers have been proposed. However, they do not fully leverage the semantic information of the program, limiting their effectiveness in real-world scenarios. To address these issues, this paper proposes Semantic-Enhanced Analysis (SEA), a new approach to enhance the effectiveness of indirect call analysis. Our fundamental insight is that for common programming practices, indirect calls often exhibit semantic similarity with their invoked targets. This semantic alignment serves as a supportive mechanism for static analysis techniques in filtering out false targets. Notably, contemporary large language models (LLMs) are trained on extensive code corpora, encompassing tasks such as code summarization, making them well-suited for semantic analysis. Specifically, SEA leverages LLMs to generate natural language summaries of both indirect calls and target functions from multiple perspectives. Through further analysis of these summaries, SEA can determine their suitability as caller-callee pairs. Experimental results demonstrate that SEA can significantly enhance existing static analysis methods by producing more precise target sets for indirect calls. | 翻訳日:2024-09-11 01:15:13 公開日:2024-09-08 |
# 知的物体運動セグメンテーションのための網膜回路のハードウェア・アルゴリズムによる再設計
Hardware-Algorithm Re-engineering of Retinal Circuit for Intelligent Object Motion Segmentation ( http://arxiv.org/abs/2408.08320v2 ) ライセンス: Link先を確認 | Jason Sinaga, Victoria Clerico, Md Abdullah-Al Kaiser, Shay Snyder, Arya Lohia, Gregory Schwartz, Maryam Parsa, Akhilesh Jaiswal, | (参考訳) 網膜神経科学の最近の進歩は、コンピュータビジョンタスクのための網膜に触発されたソリューションを開発するための様々なハードウェアとアルゴリズムの取り組みを加速させた。
本研究では,哺乳動物網膜の基本的な視覚的特徴であるOMS(Object Motion Sensitivity)に着目した。
EV-IMOデータセットからのDVSデータを用いて,エゴモーションの存在下での動作セグメンテーションのためのOMS回路のアルゴリズム実装の性能を解析する。
この総論的な分析は、ハードウェア回路の実装から生じる基礎的な制約を考察する。
本稿では,画像センサの内部にOMS機能を実装した新しいCMOS回路を提案する。
動的環境適応のためのインセンサー技術はシステム性能の確保に不可欠である。
最後に,180nm技術におけるCadenceシミュレーションにより,提案したCMOS回路設計の機能と再構成性を検証する。
まとめると、本論文は、応用ニーズに合うように、既知の生体回路のハードウェア・アルゴリズム再設計の基礎を定めている。
Recent advances in retinal neuroscience have fueled various hardware and algorithmic efforts to develop retina-inspired solutions for computer vision tasks. In this work, we focus on a fundamental visual feature within the mammalian retina, Object Motion Sensitivity (OMS). Using DVS data from EV-IMO dataset, we analyze the performance of an algorithmic implementation of OMS circuitry for motion segmentation in presence of ego-motion. This holistic analysis considers the underlying constraints arising from the hardware circuit implementation. We present novel CMOS circuits that implement OMS functionality inside image sensors, while providing run-time re-configurability for key algorithmic parameters. In-sensor technologies for dynamical environment adaptation are crucial for ensuring high system performance. Finally, we verify the functionality and re-configurability of the proposed CMOS circuit designs through Cadence simulations in 180nm technology. In summary, the presented work lays foundation for hardware-algorithm re-engineering of known biological circuits to suit application needs. | 翻訳日:2024-09-11 01:15:13 公開日:2024-09-08 |
# BernGraph: EHRベースの医療勧告のための確率的グラフニューラルネットワーク
BernGraph: Probabilistic Graph Neural Networks for EHR-based Medication Recommendations ( http://arxiv.org/abs/2408.09410v2 ) ライセンス: Link先を確認 | Xihao Piao, Pei Gao, Zheng Chen, Lingwei Zhu, Yasuko Matsubara, Yasushi Sakurai, Jimeng Sun, | (参考訳) 医療コミュニティは、EHRデータにおける2つの医療イベントの結果は、合理的な推奨を行うのに十分な情報を含んでいると考えている。
しかし,このようなデータを効果的に活用するには,(1) 大規模0,1イベント結果の関係をモデル化することは,専門家の知識でも困難である,(2) 実際には,0項目が等しく重要な学習信号を伝達しないため,バイナリ値によって学習が停滞することがある,という2つの課題がある。
現在、想定される十分な情報と、バイナリデータのみを利用することで有望な結果が示されていない現実の間には大きなギャップがある。
本稿では,2つの課題に対処し,二元的 EHR 医療記録のみを用いて有効な医薬品推薦システムを構築することを目的としている。
この目的のために、我々は、EHRデータをコホートからのサンプルと見なして、連続ベルヌーイ確率に変換する統計的視点を取る。
変換されたエントリは、分布を持つ決定論的バイナリイベントをモデル化するだけでなく、条件付き確率で \emph{event-event} 関係を反映することを可能にする。
変換の上にグラフニューラルネットワークが学習される。
これは、emph{event-to- patient}機能を強調しながら、イベントとイベントの相関をキャプチャする。
その結果,提案手法は大規模データベース上での最先端性能を実現し,二次情報を用いたベースライン手法よりも大きなマージンで優れていた。
ソースコードは \url{https://github.com/chenzRG/BEHRMecom} で入手できる。
The medical community believes binary medical event outcomes in EHR data contain sufficient information for making a sensible recommendation. However, there are two challenges to effectively utilizing such data: (1) modeling the relationship between massive 0,1 event outcomes is difficult, even with expert knowledge; (2) in practice, learning can be stalled by the binary values since the equally important 0 entries propagate no learning signals. Currently, there is a large gap between the assumed sufficient information and the reality that no promising results have been shown by utilizing solely the binary data: visiting or secondary information is often necessary to reach acceptable performance. In this paper, we attempt to build the first successful binary EHR data-oriented drug recommendation system by tackling the two difficulties, making sensible drug recommendations solely using the binary EHR medical records. To this end, we take a statistical perspective to view the EHR data as a sample from its cohorts and transform them into continuous Bernoulli probabilities. The transformed entries not only model a deterministic binary event with a distribution but also allow reflecting \emph{event-event} relationship by conditional probability. A graph neural network is learned on top of the transformation. It captures event-event correlations while emphasizing \emph{event-to-patient} features. Extensive results demonstrate that the proposed method achieves state-of-the-art performance on large-scale databases, outperforming baseline methods that use secondary information by a large margin. The source code is available at \url{https://github.com/chenzRG/BEHRMecom} | 翻訳日:2024-09-11 01:15:13 公開日:2024-09-08 |
# 小データを用いたソフト制約物理情報ニューラルネットワークによる振動子正規微分方程式の解法
Solving Oscillator Ordinary Differential Equations via Soft-constrained Physics-informed Neural Network with Small Data ( http://arxiv.org/abs/2408.11077v3 ) ライセンス: Link先を確認 | Kai-liang Lu, Yu-meng Su, Zhuo Bi, Cheng Qiu, Wen-jun Zhang, | (参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN),従来のニューラルネットワーク(NN)および従来の数値離散化法を,文献調査と実験的検証を通じて比較した。
我々は,ソフト制約のPINNアプローチに着目し,その数学的枠組みと計算フローを正規DESと部分DDE(ODE/PDE)の解法として定式化した。
動作機構とその精度と効率は、典型的な線形および非線形振動子ODEを解くことによって実験的に検証された。
我々は、PINNのDeepXDEベースの実装が、トレーニングにおいて軽量コードであり、効率的なだけでなく、CPU/GPUプラットフォーム間で柔軟なことを実証した。
PINNは、ODEの非線形性が弱い場合、非常に少数の教師なしのトレーニングデータと少数の教師なしのコロケーションポイントが解を予測するのに十分であり、最小限の場合、それぞれ1階または2階のODEに対して1つまたは2つのトレーニングポイント(初期値)しか必要としない。
また,コロケーションポイントの活用と物理情報の利用により,PINNはトレーニングセットの時間領域外からデータを外挿する能力を有し,特にノイズの多いデータに対して堅牢であり,一般化能力の強化が期待できる。
損失関数項の増加による遅延よりも、データ量の削減とともに得られる利得が、トレーニングを加速する。
ソフト制約されたPINNは、全損失関数に正規化項を追加することにより、物理法則(例えばエネルギーの保存)を容易に課すことができ、この物理法則に従うODEに対する解性能を向上させることができる。
さらに、PINNは固いODEやPDE、その他のDESにも利用でき、デジタルツインズ時代において好ましい触媒になりつつある。
This paper compared physics-informed neural network (PINN), conventional neural network (NN) and traditional numerical discretization methods on solving differential equations (DEs) through literature investigation and experimental validation. We focused on the soft-constrained PINN approach and formalized its mathematical framework and computational flow for solving Ordinary DEs and Partial DEs (ODEs/PDEs). The working mechanism and its accuracy and efficiency were experimentally verified by solving typical linear and non-linear oscillator ODEs. We demonstrate that the DeepXDE-based implementation of PINN is not only light code and efficient in training, but also flexible across CPU/GPU platforms. PINN greatly reduces the need for labeled data: when the nonlinearity of the ODE is weak, a very small amount of supervised training data plus a few unsupervised collocation points are sufficient to predict the solution; in the minimalist case, only one or two training points (with initial values) are needed for first- or second-order ODEs, respectively. We also find that, with the aid of collocation points and the use of physical information, PINN has the ability to extrapolate data outside the time domain of the training set, and especially is robust to noisy data, thus with enhanced generalization capabilities. Training is accelerated when the gains obtained along with the reduction in the amount of data outweigh the delay caused by the increase in the loss function terms. The soft-constrained PINN can easily impose a physical law (e.g., conservation of energy) constraint by adding a regularization term to the total loss function, thus improving the solution performance to ODEs that obey this physical law. Furthermore, PINN can also be used for stiff ODEs, PDEs, and other types of DEs, and is becoming a favorable catalyst for the era of Digital Twins. | 翻訳日:2024-09-11 01:05:18 公開日:2024-09-08 |
# 安全で倫理的な自動運転車のための人間によるロボット学習--原則、課題、機会
Human-In-The-Loop Machine Learning for Safe and Ethical Autonomous Vehicles: Principles, Challenges, and Opportunities ( http://arxiv.org/abs/2408.12548v2 ) ライセンス: Link先を確認 | Yousef Emami, Luis Almeida, Kai Li, Wei Ni, Zhu Han, | (参考訳) 機械学習(ML)の急速な進歩は、自律走行車(AV)の新たなトレンドを引き起こしている。
MLアルゴリズムは、センサデータの解釈、潜在的なハザードの予測、ナビゲーション戦略の最適化において重要な役割を果たす。
しかし、複雑な交差点、多様な景色、様々な軌道、複雑なミッションなど、散らばった複雑な状況において完全な自律性を達成することは依然として困難であり、データラベルのコストは依然として大きなボトルネックとなっている。
複雑なシナリオにおける人間の適応性と堅牢性は、人間のMLプロセスへの参加を動機付け、その創造性、倫理的能力、感情的知性を活用してMLの有効性を向上させる。
科学的コミュニティは、このアプローチをHuman-In-The-Loop Machine Learning (HITL-ML)として知っている。
安全・倫理的な自律性に向けて,我々はカリキュラム学習(CL),ヒューマン・イン・ザ・ループ強化学習(HITL-RL),アクティブ・ラーニング(AL),倫理的原則を中心に,AVのためのHITL-MLのレビューを行う。
CLでは、人間の専門家が単純なタスクから始めて、より難しいタスクへと徐々に進むことで、MLモデルを体系的に訓練する。
HITL-RLは報酬形成、アクションインジェクション、対話型学習といった技術を通じて人間の入力を組み込むことで、RLプロセスを大幅に強化する。
ALは、人間の監視でラベル付けする必要がある特定のインスタンスをターゲットにすることで、アノテーションプロセスの合理化を図り、トレーニングに関連する全体的な時間とコストを削減します。
倫理原則は、彼らの行動と社会的価値と規範を一致させるために、AVに埋め込まれなければならない。
さらに、洞察を提供し、今後の研究の方向性を特定する。
Rapid advances in Machine Learning (ML) have triggered new trends in Autonomous Vehicles (AVs). ML algorithms play a crucial role in interpreting sensor data, predicting potential hazards, and optimizing navigation strategies. However, achieving full autonomy in cluttered and complex situations, such as intricate intersections, diverse sceneries, varied trajectories, and complex missions, is still challenging, and the cost of data labeling remains a significant bottleneck. The adaptability and robustness of humans in complex scenarios motivate the inclusion of humans in the ML process, leveraging their creativity, ethical power, and emotional intelligence to improve ML effectiveness. The scientific community knows this approach as Human-In-The-Loop Machine Learning (HITL-ML). Towards safe and ethical autonomy, we present a review of HITL-ML for AVs, focusing on Curriculum Learning (CL), Human-In-The-Loop Reinforcement Learning (HITL-RL), Active Learning (AL), and ethical principles. In CL, human experts systematically train ML models by starting with simple tasks and gradually progressing to more difficult ones. HITL-RL significantly enhances the RL process by incorporating human input through techniques like reward shaping, action injection, and interactive learning. AL streamlines the annotation process by targeting specific instances that need to be labeled with human oversight, reducing the overall time and cost associated with training. Ethical principles must be embedded in AVs to align their behavior with societal values and norms. In addition, we provide insights and specify future research directions. | 翻訳日:2024-09-11 01:05:18 公開日:2024-09-08 |
# グラフ畳み込みネットワークを用いた知識を考慮した会話脱線予測
Knowledge-Aware Conversation Derailment Forecasting Using Graph Convolutional Networks ( http://arxiv.org/abs/2408.13440v2 ) ライセンス: Link先を確認 | Enas Altarawneh, Ameeta Agrawal, Michael Jenkin, Manos Papagelis, | (参考訳) オンライン会話は特に脱線の影響を受けやすく、不敬なコメントや虐待を含む有害なコミュニケーションパターンの形で現れうる。
予測された会話脱線は、事前に脱線兆候を予測し、会話の積極的なモデレーションを可能にする。
会話を逐次エンコードし、グラフニューラルネットワークを使用して対話ユーザのダイナミクスをモデル化する、会話脱線予測のための最先端のアプローチ。
しかし、既存のグラフモデルは、文脈の伝播や感情の変化のような複雑な会話の特徴を捉えることができない。
常識知識を利用することで、モデルがそのような特徴を捉え、性能を向上させることができる。
本稿では,対話文脈情報の知識ベースからコモンセンス文を導出し,グラフニューラルネットワークの分類アーキテクチャを充実させる。
我々は,発話のマルチソース情報をカプセルに融合し,会話の脱線を予測するためにトランスフォーマーベースの予測器が使用する。
我々のモデルは、CGAおよびCMVベンチマークデータセットにおける最先端モデルよりも優れた、会話のダイナミクスと文脈の伝播をキャプチャする。
Online conversations are particularly susceptible to derailment, which can manifest itself in the form of toxic communication patterns including disrespectful comments and abuse. Forecasting conversation derailment predicts signs of derailment in advance enabling proactive moderation of conversations. State-of-the-art approaches to conversation derailment forecasting sequentially encode conversations and use graph neural networks to model dialogue user dynamics. However, existing graph models are not able to capture complex conversational characteristics such as context propagation and emotional shifts. The use of common sense knowledge enables a model to capture such characteristics, thus improving performance. Following this approach, here we derive commonsense statements from a knowledge base of dialogue contextual information to enrich a graph neural network classification architecture. We fuse the multi-source information on utterance into capsules, which are used by a transformer-based forecaster to predict conversation derailment. Our model captures conversation dynamics and context propagation, outperforming the state-of-the-art models on the CGA and CMV benchmark datasets | 翻訳日:2024-09-11 01:05:18 公開日:2024-09-08 |
# 因果推論に基づくマイクロサービスシステムの根本原因分析:どこまで遠いのか?
Root Cause Analysis for Microservice System based on Causal Inference: How Far Are We? ( http://arxiv.org/abs/2408.13729v2 ) ライセンス: Link先を確認 | Luan Pham, Huong Ha, Hongyu Zhang, | (参考訳) マイクロサービスアーキテクチャは多くのクラウドアプリケーションで採用されている。
しかしながら、マイクロサービスシステムにおける障害の根本原因を特定することは、依然として困難で時間を要する作業です。
近年、様々な因果推論に基づく根本原因分析手法を導入し、根本原因の特定を支援する。
マイクロサービスシステムにおける因果推論に基づく根本原因分析技術の現状をよりよく理解するために,9つの因果発見手法と21の根本原因解析手法を総合的に評価する。
本評価は,因果推論に基づく根本原因分析手法の有効性と効率の両立を図ることを目的としている。
実験結果と分析結果から,全ての状況においてどの手法も目立たず,各手法は有効性,効率性,あるいは特定のパラメータに対する感度が低い傾向にあることが示された。
特に、合成データセットにおける根本原因分析手法の性能は、実システムにおけるその性能を正確に反映していない可能性がある。
実際、さらなる改善の余地はまだ大きい。
また,本研究の成果に基づく今後の研究も提案する。
Microservice architecture has become a popular architecture adopted by many cloud applications. However, identifying the root cause of a failure in microservice systems is still a challenging and time-consuming task. In recent years, researchers have introduced various causal inference-based root cause analysis methods to assist engineers in identifying the root causes. To gain a better understanding of the current status of causal inference-based root cause analysis techniques for microservice systems, we conduct a comprehensive evaluation of nine causal discovery methods and twenty-one root cause analysis methods. Our evaluation aims to understand both the effectiveness and efficiency of causal inference-based root cause analysis methods, as well as other factors that affect their performance. Our experimental results and analyses indicate that no method stands out in all situations; each method tends to either fall short in effectiveness, efficiency, or shows sensitivity to specific parameters. Notably, the performance of root cause analysis methods on synthetic datasets may not accurately reflect their performance in real systems. Indeed, there is still a large room for further improvement. Furthermore, we also suggest possible future work based on our findings. | 翻訳日:2024-09-11 01:05:17 公開日:2024-09-08 |
# TF-Attack:大規模言語モデルにおける転送可能かつ高速な敵攻撃
TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models ( http://arxiv.org/abs/2408.13985v3 ) ライセンス: Link先を確認 | Zelin Li, Kehai Chen, Lemao Liu, Xuefeng Bai, Mingming Yang, Yang Xiang, Min Zhang, | (参考訳) 大規模言語モデル (LLM) の進歩により, LLM に対する敵対的攻撃が近年注目されている。
既存の対向攻撃法は移動性に限界があり,特にLSMに適用した場合,特に非効率であることがわかった。
本稿では,従来主流であった敵攻撃手法のコアメカニズムを解析し,それを明らかにする。
1) 重要得点の分布は,被害者のモデルによって著しく異なり,伝達可能性に制限がある。
2) シーケンシャル・アタック・プロセスは時間的オーバーヘッドを生じさせる。
上記の2つの知見に基づいて, TF-Attack という新しいスキームを導入し, LLM に対するTransferable と Fast の敵攻撃について検討した。
TF-Attack は外部の LLM を被害者モデルではなく第三者の監督者として使用し、文内の重要な単位を識別する。
さらにTF-Attackは、攻撃の並列置換を可能にするImportance Levelの概念を導入している。
我々は6つの広く採用されているベンチマークについて広範な実験を行い、提案手法を自動測定と人為計測の両方で評価した。
その結果,本手法は従来手法をはるかに上回り,従来の攻撃戦略の最大20倍の速度向上を実現していることがわかった。
With the great advancements in large language models (LLMs), adversarial attacks against LLMs have recently attracted increasing attention. We found that pre-existing adversarial attack methodologies exhibit limited transferability and are notably inefficient, particularly when applied to LLMs. In this paper, we analyze the core mechanisms of previous predominant adversarial attack methods, revealing that 1) the distributions of importance score differ markedly among victim models, restricting the transferability; 2) the sequential attack processes induces substantial time overheads. Based on the above two insights, we introduce a new scheme, named TF-Attack, for Transferable and Fast adversarial attacks on LLMs. TF-Attack employs an external LLM as a third-party overseer rather than the victim model to identify critical units within sentences. Moreover, TF-Attack introduces the concept of Importance Level, which allows for parallel substitutions of attacks. We conduct extensive experiments on 6 widely adopted benchmarks, evaluating the proposed method through both automatic and human metrics. Results show that our method consistently surpasses previous methods in transferability and delivers significant speed improvements, up to 20 times faster than earlier attack strategies. | 翻訳日:2024-09-10 23:12:22 公開日:2024-09-08 |
# 予測可能性の最大化と語順調和の起源
Predictability maximization and the origins of word order harmony ( http://arxiv.org/abs/2408.16570v2 ) ライセンス: Link先を確認 | Ramon Ferrer-i-Cancho, | (参考訳) 本稿では,情報理論の観点から,頭部の逐次配置とその依存関係の言語的問題に対処する。
特に、シーケンスの予測可能性を最大化するヘッドの最適配置について検討する。
係り受けは, 自由選択原理と依存文法の中核的な仮定に従って, 頭部に対して統計的に独立であると仮定する。
我々は、頭部を最後に配置すると頭部の予測可能性が最大になるのに対して、頭部を最初に配置すると依存者の予測可能性が最大になるという調和秩序の最適性を示す。
また,頭部の延期が予測可能性の最大化のための最適戦略であり,さらに,依存者の予測可能性の最大化のための最適戦略であることを示す。
我々は,依存者の予測可能性の最大化よりも,頭部の予測可能性の最大化という戦略の利点を明らかにする。
以上の結果から,実言語で採用される頭部の配置や,異なる種類の実験で現れる頭部の配置が明らかになった。
We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments. | 翻訳日:2024-09-10 23:12:22 公開日:2024-09-08 |
# ダウンサンプリングスパースグラフ畳み込みネットワークの転送可能性
The Transferability of Downsamped Sparse Graph Convolutional Networks ( http://arxiv.org/abs/2408.17274v2 ) ライセンス: Link先を確認 | Qinji Shu, Hang Sheng, Feng Ji, Hui Feng, Bo Hu, | (参考訳) 実世界の大規模スパースグラフ上でのグラフ畳み込みネットワーク(GCN)のトレーニングを高速化するために、ダウンサンプリング手法は一般的に前処理ステップとして使用される。
しかし, トポロジ的構造がダウンサンプリング法の伝達性に及ぼす影響は, 特にトポロジ的構造がグラフのスポロジ性に影響された場合, 厳密に解析あるいは理論的に保証されていない。
本稿では、スパースランダムグラフモデルに基づく新しいダウンサンプリング手法を導入し、転送エラーに対する期待上界を導出する。
その結果,より小さいグラフサイズ,高い平均度,サンプリング率の増加が,この上限値の低減に寄与していることがわかった。
実験結果は理論予測を検証した。
このモデルに空間的類似性と位相的類似性の両方を組み込むことにより、大規模スパースグラフのトレーニングにおけるダウンサンプリングの転送誤差の上限を確立し、トポロジ構造が転送性能に与える影響について考察する。
To accelerate the training of graph convolutional networks (GCNs) on real-world large-scale sparse graphs, downsampling methods are commonly employed as a preprocessing step. However, the effects of graph sparsity and topological structure on the transferability of downsampling methods have not been rigorously analyzed or theoretically guaranteed, particularly when the topological structure is affected by graph sparsity. In this paper, we introduce a novel downsampling method based on a sparse random graph model and derive an expected upper bound for the transfer error. Our findings show that smaller original graph sizes, higher expected average degrees, and increased sampling rates contribute to reducing this upper bound. Experimental results validate the theoretical predictions. By incorporating both sparsity and topological similarity into the model, this study establishes an upper bound on the transfer error for downsampling in the training of large-scale sparse graphs and provides insight into the influence of topological structure on transfer performance. | 翻訳日:2024-09-10 23:12:22 公開日:2024-09-08 |
# VLMを用いたオープンボキャブラリ時間行動定位
Open-vocabulary Temporal Action Localization using VLMs ( http://arxiv.org/abs/2408.17422v3 ) ライセンス: Link先を確認 | Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, | (参考訳) ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
既存の学習ベースのアプローチは成功したが、相当なコストがかかるビデオに注釈をつける必要がある。
本稿では,市販の視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。
この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。
我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。
具体的には、ビデオフレームをフレームインデックスラベル付き連結画像にサンプリングし、VLMがアクションの開始/終了に最も近いと考えられるフレームを推測する。
このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了の特定のフレームを見つけることができる。
このサンプリング手法は,ビデオ理解のためのVLMの実践的拡張を図り,妥当な結果をもたらすことを示す。
サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/で公開されている。
Video action localization aims to find timings of a specific action from a long video. Although existing learning-based approaches have been successful, those require annotating videos that come with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLM). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames into a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start/end of the action. Iterating this process by narrowing a sampling time window results in finding a specific frame of start and end of an action. We demonstrate that this sampling technique yields reasonable results, illustrating a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/. | 翻訳日:2024-09-10 22:55:38 公開日:2024-09-08 |
# 文脈学習による無線シンボル検出のための大規模言語モデルの活用
Leveraging Large Language Models for Wireless Symbol Detection via In-Context Learning ( http://arxiv.org/abs/2409.00124v2 ) ライセンス: Link先を確認 | Momin Abbas, Koushik Kar, Tianyi Chen, | (参考訳) ディープニューラルネットワーク(DNN)は、特に正確な無線モデルが利用できない場合、無線システムにおいて困難なタスクに取り組むために大きな進歩を遂げている。
しかし、利用可能なデータが限られている場合、従来のDNNは不適合のため、しばしば低い結果をもたらす。
同時に、GPT-3で実証された大規模言語モデル(LLM)は、広範囲の自然言語処理タスクでその能力を顕著に示した。
しかし、LLMがワイヤレスシステムにおける非言語タスクに挑戦する上で、どのように役立つのかは未定だ。
本研究では,学習を必要とするDNNとは異なり,LLMのテキスト内学習能力(即ち,プロンプト)を活用して,トレーニングや微調整を行わずに低データ体制下での無線タスクを解くことを提案する。
さらに,異なるプロンプトテンプレートを用いた場合,LLMの性能が著しく異なることを示す。
この問題を解決するために、我々は最新のLCMキャリブレーション手法を採用した。
以上の結果から,ICL法によるLCMの使用はシンボル復調作業において従来のDNNよりも優れており,キャリブレーション手法と組み合わせた場合の信頼性の高い予測が得られた。
Deep neural networks (DNNs) have made significant strides in tackling challenging tasks in wireless systems, especially when an accurate wireless model is not available. However, when available data is limited, traditional DNNs often yield subpar results due to underfitting. At the same time, large language models (LLMs) exemplified by GPT-3, have remarkably showcased their capabilities across a broad range of natural language processing tasks. But whether and how LLMs can benefit challenging non-language tasks in wireless systems is unexplored. In this work, we propose to leverage the in-context learning ability (a.k.a. prompting) of LLMs to solve wireless tasks in the low data regime without any training or fine-tuning, unlike DNNs which require training. We further demonstrate that the performance of LLMs varies significantly when employed with different prompt templates. To solve this issue, we employ the latest LLM calibration methods. Our results reveal that using LLMs via ICL methods generally outperforms traditional DNNs on the symbol demodulation task and yields highly confident predictions when coupled with calibration techniques. | 翻訳日:2024-09-10 22:55:38 公開日:2024-09-08 |
# ProGRes: ASR n-Best上でのプログレッシブな生成リコーディング
ProGRes: Prompted Generative Rescoring on ASR n-Best ( http://arxiv.org/abs/2409.00217v2 ) ライセンス: Link先を確認 | Ada Defne Tur, Adel Moumen, Mirco Ravanelli, | (参考訳) 大規模言語モデル(LLM)は,ビーム探索過程において発生するn-best仮説を効果的に再現することにより,音声認識の性能を向上させる能力を示した。
しかし、近年のジェネレーティブ・インストラクション・チューニング LLM を仮説再構成に活用する最善の方法はいまだ不明である。
本稿では, 命令調整型LLMを用いて, 適切にプロンプトされたLLMを用いて生成した新しい仮説を用いて, n-best音声認識仮説を動的に拡張する手法を提案する。
具体的には、信頼性スコア、LLMシークエンススコア、およびプロンプトベースの仮説生成を組み合わせた、ASR n-best Rescoringの新しいゼロショット手法を提案する。
Llama-3-Instruct, GPT-3.5 Turbo, GPT-4 Turbo をプロンプトベースジェネレータとして, Llama-3 をシーケンススコアラ LLM として比較した。
単語誤り率 (WER) は, 5%から25%の範囲で有意に改善した。
Large Language Models (LLMs) have shown their ability to improve the performance of speech recognizers by effectively rescoring the n-best hypotheses generated during the beam search process. However, the best way to exploit recent generative instruction-tuned LLMs for hypothesis rescoring is still unclear. This paper proposes a novel method that uses instruction-tuned LLMs to dynamically expand the n-best speech recognition hypotheses with new hypotheses generated through appropriately-prompted LLMs. Specifically, we introduce a new zero-shot method for ASR n-best rescoring, which combines confidence scores, LLM sequence scoring, and prompt-based hypothesis generation. We compare Llama-3-Instruct, GPT-3.5 Turbo, and GPT-4 Turbo as prompt-based generators with Llama-3 as sequence scorer LLM. We evaluated our approach using different speech recognizers and observed significant relative improvement in the word error rate (WER) ranging from 5% to 25%. | 翻訳日:2024-09-10 22:55:38 公開日:2024-09-08 |
# CoLaNET - 分類のためのカラム階層アーキテクチャを備えたスパイクニューラルネットワーク
CoLaNET -- A Spiking Neural Network with Columnar Layered Architecture for Classification ( http://arxiv.org/abs/2409.01230v3 ) ライセンス: Link先を確認 | Mikhail Kiselev, | (参考訳) 本稿では、幅広い教師付き学習分類タスクに使用できるスパイキングニューラルネットワーク(SNN)アーキテクチャについて述べる。
全ての参加信号(分類対象記述、正しいクラスラベル、SNN決定)がスパイクの性質を持つと仮定する。
このアーキテクチャの特徴は、異なるクラスに対応する原型ネットワーク構造と、1つのクラス(=カラム)の顕著な特異なインスタンスと、列(=層)内のニューロンの機能的に異なる個体群の組み合わせである。
もう一つの特徴は、抗ヘビアンとドーパミン修飾可塑性の新規な組み合わせである。
塑性規則は局所的であり、バックプロパゲーション原理を使わない。
それに加えて、以前の研究と同様に、全てのニューロン/塑性モデルが現代の神経チップに容易に実装されるべきという要件に導かれました。
モデルに基づく強化学習,すなわち,外界状態と対象状態との近接性を評価するタスクにおいて,私のネットワークの性能について説明する。
In the present paper, I describe a spiking neural network (SNN) architecture which, can be used in wide range of supervised learning classification tasks. It is assumed, that all participating signals (the classified object description, correct class label and SNN decision) have spiking nature. The distinctive feature of this architecture is a combination of prototypical network structures corresponding to different classes and significantly distinctive instances of one class (=columns) and functionally differing populations of neurons inside columns (=layers). The other distinctive feature is a novel combination of anti-Hebbian and dopamine-modulated plasticity. The plasticity rules are local and do not use the backpropagation principle. Besides that, as in my previous studies, I was guided by the requirement that the all neuron/plasticity models should be easily implemented on modern neurochips. I illustrate the high performance of my network on a task related to model-based reinforcement learning, namely, evaluation of proximity of an external world state to the target state. | 翻訳日:2024-09-10 22:55:38 公開日:2024-09-08 |
# 量子ハイブリッド支援ベクトルマシンを用いた実世界のサイバー物理セキュリティの異常検出
Anomaly Detection for Real-World Cyber-Physical Security using Quantum Hybrid Support Vector Machines ( http://arxiv.org/abs/2409.04935v1 ) ライセンス: Link先を確認 | Tyler Cultice, Md. Saif Hassan Onim, Annarita Giani, Himanshu Thapliyal, | (参考訳) サイバー物理制御システムは、数百のセンサーやコントローラによって測定・操作される高応答のフィードバックループを中心に設計された重要なインフラである。
サイバー攻撃のような異常なデータは、インフラと人間のオペレーターの安全を著しく危険にさらしている。
量子コンピューティングパラダイムの最近の進歩により、異常検出における量子の応用は、物理的センサーデータにおけるサイバー攻撃の識別を大幅に改善することができる。
本稿では,パラメータ化量子回路の忠実性を生かし,超高次元データを効率よく効果的にフラット化する,強力な前処理手法と量子ハイブリッド支援ベクトルマシン(SVM)の利用について検討する。
その結果、F-1スコアは0.86で、HAI CPSデータセットでは8-qubit、16-featureの量子カーネルを使用して87%の精度を示し、既存の処理に等しく、従来の処理よりも14%優れていた。
Cyber-physical control systems are critical infrastructures designed around highly responsive feedback loops that are measured and manipulated by hundreds of sensors and controllers. Anomalous data, such as from cyber-attacks, greatly risk the safety of the infrastructure and human operators. With recent advances in the quantum computing paradigm, the application of quantum in anomaly detection can greatly improve identification of cyber-attacks in physical sensor data. In this paper, we explore the use of strong pre-processing methods and a quantum-hybrid Support Vector Machine (SVM) that takes advantage of fidelity in parameterized quantum circuits to efficiently and effectively flatten extremely high dimensional data. Our results show an F-1 Score of 0.86 and accuracy of 87% on the HAI CPS dataset using an 8-qubit, 16-feature quantum kernel, performing equally to existing work and 14% better than its classical counterpart. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# CONNECTOR: 自動チェーントランザクションアソシエーションによる分散型ブリッジアプリケーションのトレーサビリティ向上
CONNECTOR: Enhancing the Traceability of Decentralized Bridge Applications via Automatic Cross-chain Transaction Association ( http://arxiv.org/abs/2409.04937v1 ) ライセンス: Link先を確認 | Dan Lin, Jiajing Wu, Yuxin Su, Ziye Zheng, Yuhong Nan, Zibin Zheng, | (参考訳) 分散ブリッジアプリケーションは、さまざまなブロックチェーンを接続し、現在マルチチェーン環境で運用されている分散ファイナンス(DeFi)エコシステムにおけるクロスチェーンアセット転送を促進する重要なソフトウェアである。
クロスチェーントランザクションアソシエーションは、クロスチェーンブリッジDAppsのトレーサビリティを高める重要な研究であるブリッジDAppsによって実行されるユニークなトランザクションを特定し、一致させる。
しかし、既存のメソッドは完全に監視不能な内部台帳やAPIに依存しており、ブロックチェーンのオープンで分散化されたプロパティを侵害している。
本稿では,この問題の課題を分析し,橋渡しスマートコントラクトに基づくクロスチェーントランザクションアソシエーション分析手法であるCONNECTORについて述べる。
特に、CONNECTORは、ブリッジ契約のトランザクショントレースから特徴的で汎用的な特徴を抽出することで、最初に預金取引を識別する。
正確な預金取引により、CONNECTORは、離脱取引マッチングを達成するためにブリッジ契約の実行ログをマイニングする。
各種橋梁における実環境実験を行い, 実環境における CONNECTOR の有効性を実証する。
この実験は、CONNECTORが100%の預金取引を識別し、95.81%の引き出し取引を関連付け、CeFiブリッジの手法を超越していることを示した。
関連付けの結果から,DeFiブリッジにおけるクロスチェーントランザクションの挙動に関する興味深い知見を得るとともに,ConNECTORのトレース機能を分析して,DeFiブリッジアプリを支援する。
Decentralized bridge applications are important software that connects various blockchains and facilitates cross-chain asset transfer in the decentralized finance (DeFi) ecosystem which currently operates in a multi-chain environment. Cross-chain transaction association identifies and matches unique transactions executed by bridge DApps, which is important research to enhance the traceability of cross-chain bridge DApps. However, existing methods rely entirely on unobservable internal ledgers or APIs, violating the open and decentralized properties of blockchain. In this paper, we analyze the challenges of this issue and then present CONNECTOR, an automated cross-chain transaction association analysis method based on bridge smart contracts. Specifically, CONNECTOR first identifies deposit transactions by extracting distinctive and generic features from the transaction traces of bridge contracts. With the accurate deposit transactions, CONNECTOR mines the execution logs of bridge contracts to achieve withdrawal transaction matching. We conduct real-world experiments on different types of bridges to demonstrate the effectiveness of CONNECTOR. The experiment demonstrates that CONNECTOR successfully identifies 100% deposit transactions, associates 95.81% withdrawal transactions, and surpasses methods for CeFi bridges. Based on the association results, we obtain interesting findings about cross-chain transaction behaviors in DeFi bridges and analyze the tracing abilities of CONNECTOR to assist the DeFi bridge apps. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# チャージ型インメモリコンピューティングを用いた変圧器用アナログ・ディジタルハイブリッドアテンション加速器
An Analog and Digital Hybrid Attention Accelerator for Transformers with Charge-based In-memory Computing ( http://arxiv.org/abs/2409.04940v1 ) ライセンス: Link先を確認 | Ashkan Moradifirouzabadi, Divya Sri Dodla, Mingu Kang, | (参考訳) 注意機構はトランスフォーマーの重要な計算カーネルであり、入力シーケンス全体にわたってペアワイズ相関を計算する。
計算複雑性と自己アテンションの頻繁なメモリアクセスは、特にシーケンス長が増加するとシステムに大きな負担を被る。
本稿では,65nmCMOS技術における変圧器の注目機構を高速化するアナログ・ディジタルハイブリッドプロセッサを提案する。
超低消費電力・遅延で実行中に平均75%の低スコアトークンを発生させるアナログ・コンピューティング・イン・メモリ(CIM)コアを提案する。
さらに、アナログCIMコアによって選択された25%の未処理トークンに対してのみ正確な計算を行い、精度劣化を防止する。
その結果、ピークエネルギー効率は14.8TOPS/Wで、ピーク面積効率は976.6、ピーク面積効率は79.4GOPS/mm$^\mathrm{2}$である。
The attention mechanism is a key computing kernel of Transformers, calculating pairwise correlations across the entire input sequence. The computing complexity and frequent memory access in computing self-attention put a huge burden on the system especially when the sequence length increases. This paper presents an analog and digital hybrid processor to accelerate the attention mechanism for transformers in 65nm CMOS technology. We propose an analog computing-in-memory (CIM) core, which prunes ~75% of low-score tokens on average during runtime at ultra-low power and delay. Additionally, a digital processor performs precise computations only for ~25% unpruned tokens selected by the analog CIM core, preventing accuracy degradation. Measured results show peak energy efficiency of 14.8 and 1.65 TOPS/W, and peak area efficiency of 976.6 and 79.4 GOPS/mm$^\mathrm{2}$ in the analog core and the system-on-chip (SoC), respectively. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# UMOD: 都市域の新規かつ効果的な原点推定フロー予測法
UMOD: A Novel and Effective Urban Metro Origin-Destination Flow Prediction Method ( http://arxiv.org/abs/2409.04942v1 ) ライセンス: Link先を確認 | Peng Xie, Minbo Ma, Bin Wang, Junbo Zhang, Tianrui Li, | (参考訳) 都市交通システムの構築と効果的な都市交通管理には,都市原位置推定(OD)の正確な予測が不可欠である。
既存のアプローチでは、乗客の出発駅の流出を予測したり、目的地駅の流入を予測するのが一般的である。
しかし、旅行者は一般的に出発点と到着点を明確に定義しており、これらのODペアは本質的に相互接続されている。
したがって、ODペアを統一エンティティとして考えることは、実際のメトロ旅行パターンをより正確に反映し、異なるODペア間の潜在的時空間相関を解析することができる。
これらの課題に対処するために,データ埋め込みモジュール,時間的関係モジュール,空間的関係モジュールの3つのコアモジュールからなる,新規で効果的な都市内ODフロー予測手法(UMOD)を提案する。
データ埋め込みモジュールは、生のODペアの入力を隠された空間表現に投影し、その後、時間的および空間的関係モジュールによって処理され、ペア間およびペア内の時空間依存関係の両方をキャプチャする。
2つの実世界の都市ODフローデータセットの実験結果から,ODペアの視点の採用が正確なODフロー予測に重要であることが示された。
我々の手法は既存の手法より優れ、予測性能が優れている。
Accurate prediction of metro Origin-Destination (OD) flow is essential for the development of intelligent transportation systems and effective urban traffic management. Existing approaches typically either predict passenger outflow of departure stations or inflow of destination stations. However, we argue that travelers generally have clearly defined departure and arrival stations, making these OD pairs inherently interconnected. Consequently, considering OD pairs as a unified entity more accurately reflects actual metro travel patterns and allows for analyzing potential spatio-temporal correlations between different OD pairs. To address these challenges, we propose a novel and effective urban metro OD flow prediction method (UMOD), comprising three core modules: a data embedding module, a temporal relation module, and a spatial relation module. The data embedding module projects raw OD pair inputs into hidden space representations, which are subsequently processed by the temporal and spatial relation modules to capture both inter-pair and intra-pair spatio-temporal dependencies. Experimental results on two real-world urban metro OD flow datasets demonstrate that adopting the OD pairs perspective is critical for accurate metro OD flow prediction. Our method outperforms existing approaches, delivering superior predictive performance. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# ラベルのない映像特徴抽出のための高速深部予測符号化ネットワーク
Fast Deep Predictive Coding Networks for Videos Feature Extraction without Labels ( http://arxiv.org/abs/2409.04945v1 ) ライセンス: Link先を確認 | Wenqian Xue, Chi Ding, Jose Principe, | (参考訳) 脳にインスパイアされたディープ予測符号化ネットワーク(DPCN)は、ラベルなしでも双方向の情報フローを通じて、ビデオ機能を効果的にモデル化し、キャプチャする。
それらはビデオシーンの過剰な記述に基づいており、そのボトルネックの1つは、差別的で堅牢な辞書を見つけるための効果的なスペア化技術が欠如していることである。
FISTAは最良の代替品です。
本稿では,内部モデル変数(状態と原因)を高速に推定したDPCNを提案する。
大規模化最小化フレームワークを用いた適応型動的プログラミングにインスパイアされた教師なし学習手法とその収束を厳密に分析する。
CIFAR-10, Super Mario Bros ゲーム, Coil-100 での実験では,DPCN の以前のバージョンよりも学習率, スパーシティ比, 特徴クラスタリング精度が優れていた。
DCPNのソリッド基盤と説明可能性のため、この進歩はラベルのないビデオにおけるオブジェクト認識の一般的な応用への扉を開く。
Brain-inspired deep predictive coding networks (DPCNs) effectively model and capture video features through a bi-directional information flow, even without labels. They are based on an overcomplete description of video scenes, and one of the bottlenecks has been the lack of effective sparsification techniques to find discriminative and robust dictionaries. FISTA has been the best alternative. This paper proposes a DPCN with a fast inference of internal model variables (states and causes) that achieves high sparsity and accuracy of feature clustering. The proposed unsupervised learning procedure, inspired by adaptive dynamic programming with a majorization-minimization framework, and its convergence are rigorously analyzed. Experiments in the data sets CIFAR-10, Super Mario Bros video game, and Coil-100 validate the approach, which outperforms previous versions of DPCNs on learning rate, sparsity ratio, and feature clustering accuracy. Because of DCPN's solid foundation and explainability, this advance opens the door for general applications in object recognition in video without labels. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# スタジオ録音における意図に基づく効果的な呼吸音除去
Attention-Based Efficient Breath Sound Removal in Studio Audio Recordings ( http://arxiv.org/abs/2409.04949v1 ) ライセンス: Link先を確認 | Nidula Elgiriyewithana, N. D. Kodikara, | (参考訳) 本研究では,音声録音における非音声音声,特に呼吸音の自動検出と消去に,注目U-Netアーキテクチャを利用する,革新的でパラメータ効率のよいモデルを提案する。
この課題は、比較的過小評価されているにもかかわらず、音工学の分野では最重要課題である。
従来の手作業でこれらの音を検知・除去するにはかなりの専門知識が必要であり、非常に時間を要する。
既存の自動検出と除去の方法は、効率と精度の点で不足することが多い。
提案モデルでは,先進的な深層学習技術の適用により達成された,合理化プロセスと精度の向上により,これらの制約に対処する。
この目的のために、DAPS(Device and Produced Speech)から派生したユニークなデータセットが採用された。
モデルのトレーニングフェーズでは、ログのスペクトログラムを強調し、オーバーフィッティングを防ぐための早期停止メカニズムを統合する。
我々のモデルは、音響技術者にとって貴重な時間を節約するだけでなく、音質と音質の整合性も向上させる。
これは、その比較効率によって証明され、わずか1.9Mのパラメータと3.2時間のトレーニング期間が必要であり、この領域の最高性能モデルよりも著しく少ない。
このモデルでは以前のモデルと同じ出力を生成することができ、精度が大幅に向上し、最適な選択となっている。
In this research, we present an innovative, parameter-efficient model that utilizes the attention U-Net architecture for the automatic detection and eradication of non-speech vocal sounds, specifically breath sounds, in vocal recordings. This task is of paramount importance in the field of sound engineering, despite being relatively under-explored. The conventional manual process for detecting and eliminating these sounds requires significant expertise and is extremely time-intensive. Existing automated detection and removal methods often fall short in terms of efficiency and precision. Our proposed model addresses these limitations by offering a streamlined process and superior accuracy, achieved through the application of advanced deep learning techniques. A unique dataset, derived from Device and Produced Speech (DAPS), was employed for this purpose. The training phase of the model emphasizes a log spectrogram and integrates an early stopping mechanism to prevent overfitting. Our model not only conserves precious time for sound engineers but also enhances the quality and consistency of audio production. This constitutes a significant breakthrough, as evidenced by its comparative efficiency, necessitating only 1.9M parameters and a training duration of 3.2 hours - markedly less than the top-performing models in this domain. The model is capable of generating identical outputs as previous models with drastically improved precision, making it an optimal choice. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# 潰瘍性大腸炎重症度推定のための相対アノテーション付き深ベイズ能動的学習
Deep Bayesian Active Learning-to-Rank with Relative Annotation for Estimation of Ulcerative Colitis Severity ( http://arxiv.org/abs/2409.04952v1 ) ライセンス: Link先を確認 | Takeaki Kadota, Hideaki Hayashi, Ryoma Bise, Kiyohito Tanaka, Seiichi Uchida, | (参考訳) 画像に基づく重症度自動推定は,コンピュータ支援診断において重要な課題である。
ディープラーニングによる重症度推定は、高いパフォーマンスを達成するために大量のトレーニングデータを必要とする。
一般に、重大度推定は、個別(量子化された)重大度ラベルでアノテートされたトレーニングデータを使用する。
離散ラベルのアノテートは、曖昧な重大さを持つ画像では困難であり、アノテーションのコストが高い。
対照的に、一対のイメージ間の重大さを比較する相対的アノテーションは、重大さの定量化を回避し、より容易にすることができる。
相対的なアノテーションを用いた学習からランクまでのフレームワークを用いて,相対的な病気の重症度を推定できるが,相対的なアノテーションには,注釈付け可能な膨大な数のペアの問題がある。
したがって、適切なペアの選択は相対的なアノテーションに不可欠である。
本稿では,相対的アノテーションに対して適切なペアを自動的に選択する深層ベイズ能動的学習 to ランクを提案する。
本手法は,サンプルのモデル不確実性から,ラベルのないペアに高い学習効率でアノテートする。
ベイズニューラルネットワークを相互に学習してランク付けするための理論的基礎を証明し,私的および公的なデータセットの潰瘍性大腸炎の内視鏡的画像化実験を通じて,本手法の有効性を実証する。
また,本手法は,マイノリティクラスからのサンプルを自動的に選択するため,クラス不均衡な条件下で高い性能を達成することを示す。
Automatic image-based severity estimation is an important task in computer-aided diagnosis. Severity estimation by deep learning requires a large amount of training data to achieve a high performance. In general, severity estimation uses training data annotated with discrete (i.e., quantized) severity labels. Annotating discrete labels is often difficult in images with ambiguous severity, and the annotation cost is high. In contrast, relative annotation, in which the severity between a pair of images is compared, can avoid quantizing severity and thus makes it easier. We can estimate relative disease severity using a learning-to-rank framework with relative annotations, but relative annotation has the problem of the enormous number of pairs that can be annotated. Therefore, the selection of appropriate pairs is essential for relative annotation. In this paper, we propose a deep Bayesian active learning-to-rank that automatically selects appropriate pairs for relative annotation. Our method preferentially annotates unlabeled pairs with high learning efficiency from the model uncertainty of the samples. We prove the theoretical basis for adapting Bayesian neural networks to pairwise learning-to-rank and demonstrate the efficiency of our method through experiments on endoscopic images of ulcerative colitis on both private and public datasets. We also show that our method achieves a high performance under conditions of significant class imbalance because it automatically selects samples from the minority classes. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# Spring Reverbモデリングのためのニューラルネットワークアーキテクチャの評価
Evaluating Neural Networks Architectures for Spring Reverb Modelling ( http://arxiv.org/abs/2409.04953v1 ) ライセンス: Link先を確認 | Francesco Papaleo, Xavier Lizarraga-Seijas, Frederic Font, | (参考訳) 残響は空間的音声知覚において重要な要素であり、歴史的にはプレートやバネの残響などのアナログデバイスを用いて達成され、過去数十年で仮想アナログモデリング(VAM)の異なるアプローチを可能にしたデジタル信号処理技術によって達成された。
スプリングレバーブの電気機械的機能により、ホワイトボックスモデリング技術を用いてデジタル領域で完全にエミュレートすることが難しい非線形システムとなる。
本研究では、畳み込みモデルと繰り返しモデルを含む5つの異なるニューラルネットワークアーキテクチャを比較し、この音響効果の特性を再現する効果を評価する。
この評価は、サンプリングレートが16kHzと48kHzの2つのデータセットで実施される。
本稿では,春の残響領域における現在のブラックボックスモデリング技術の境界線を推し進めることを目的として,パラメトリック制御を提供するニューラルオーディオアーキテクチャに焦点を当てた。
Reverberation is a key element in spatial audio perception, historically achieved with the use of analogue devices, such as plate and spring reverb, and in the last decades with digital signal processing techniques that have allowed different approaches for Virtual Analogue Modelling (VAM). The electromechanical functioning of the spring reverb makes it a nonlinear system that is difficult to fully emulate in the digital domain with white-box modelling techniques. In this study, we compare five different neural network architectures, including convolutional and recurrent models, to assess their effectiveness in replicating the characteristics of this audio effect. The evaluation is conducted on two datasets at sampling rates of 16 kHz and 48 kHz. This paper specifically focuses on neural audio architectures that offer parametric control, aiming to advance the boundaries of current black-box modelling techniques in the domain of spring reverberation. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# 量子幾何学的機械学習
Quantum Geometric Machine Learning ( http://arxiv.org/abs/2409.04955v1 ) ライセンス: Link先を確認 | Elija Perrier, | (参考訳) 量子的および古典的な情報処理における幾何学的および対称性の技法の使用は、理論的な発見と応用的な問題解決の手段として、物理科学において長い伝統を持つ。
現代において、このような幾何学的および対称性に基づく手法と量子機械学習(QML)の創発的な組み合わせは、QMLパラメトリゼーション、量子制御、量子ユニタリ合成、量子証明生成といった分野における多くの永続的な課題の解決に寄与する豊富な機会を与えてきた。
この論文では、最先端の機械学習手法と微分幾何学やトポロジーの技法を組み合わせて、これらの課題に対処する。
本稿では,オープン量子システムの大規模シミュレーションデータセットについて紹介し,量子機械学習をフィールドとして開発することを容易にする。
準リーマン対称空間多様体上の測地線として、近似時間-最適ユニタリ列を推定するためのディープラーニンググレーボックス機械学習手法を実演する。
最後に、カルタン分解と変分法を利用して、リーマン対称空間のある種のクラスに対する量子制御問題を解析的に解く新しい手法を提案する。
多分野的な性質から、この作品にはアペンデンスという形で、広範な補足的な背景情報が含まれている。
補充された各アペンディックスは、これらの多様な科学分野に慣れ親しんだ読者のために、比較的包含された方法で追加の背景資料を提供するように調整されている。
Appendicesは、各Appendixの開始時に、ソース資料が特定された文献を再生またはパラフレーズ化する。
証明は簡潔さのために省略されるが、引用されたソースやその他の標準テキストで見ることができる。
The use of geometric and symmetry techniques in quantum and classical information processing has a long tradition across the physical sciences as a means of theoretical discovery and applied problem solving. In the modern era, the emergent combination of such geometric and symmetry-based methods with quantum machine learning (QML) has provided a rich opportunity to contribute to solving a number of persistent challenges in fields such as QML parametrisation, quantum control, quantum unitary synthesis and quantum proof generation. In this thesis, we combine state-of-the-art machine learning methods with techniques from differential geometry and topology to address these challenges. We present a large-scale simulated dataset of open quantum systems to facilitate the development of quantum machine learning as a field. We demonstrate the use of deep learning greybox machine learning techniques for estimating approximate time-optimal unitary sequences as geodesics on subRiemannian symmetric space manifolds. Finally, we present novel techniques utilising Cartan decompositions and variational methods for analytically solving quantum control problems for certain classes of Riemannian symmetric space. Owing to its multidisciplinary nature, this work contains extensive supplementary background information in the form of Appendices. Each supplementary Appendix is tailored to provide additional background material in a relatively contained way for readers whom may be familiar with some, but not all, of these diverse scientific disciplines. The Appendices reproduce or paraphrase standard results in the literature with source material identified at the beginning of each Appendix. Proofs are omitted for brevity but can be found in the cited sources and other standard texts. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# DDNet:リサイクル書籍の表面欠陥検出のための変形可能な畳み込みと高密度FPN
DDNet: Deformable Convolution and Dense FPN for Surface Defect Detection in Recycled Books ( http://arxiv.org/abs/2409.04958v1 ) ライセンス: Link先を確認 | Jun Yu, WenJian Wang, | (参考訳) 古文書や古教科書などのリサイクル・再流通された書籍は、中古品市場において大きな価値を有しており、その価値は表面保存に大きく依存している。
しかし, 表面欠陥を正確に評価することは, 形状, 寸法, しばしば不正確な欠陥検出の多様さにより困難である。
これらの問題に対処するために,欠陥の局所化と分類を向上する革新的な検出モデルDDNetを提案する。
DDNetは、変形可能な畳み込み演算子(DC)と密結合されたFPNモジュール(DFPN)に基づく表面欠陥特徴抽出モジュールを導入する。
DCモジュールは、コンボリューショングリッドを動的に調整し、オブジェクトの輪郭との整合性を向上し、微妙な形状の変化を捉え、境界線と予測精度を向上させる。
一方、DFPNは高密度スキップ接続を利用して特徴融合を強化し、多解像度で高忠実な特徴写像を生成する階層構造を構築し、様々なサイズの欠陥を効果的に検出する。
本モデルに加えて, リサイクル・再循環書籍の表面欠陥検出のための包括的データセットを提案する。
このデータセットは、さまざまな種類の欠陥タイプ、形状、サイズを含み、欠陥検出モデルの堅牢性と有効性を評価するのに最適である。
DDNetは広範な評価を通じて、表面欠陥の正確なローカライズと分類を実現し、私たちのプロプライエタリなデータセットでmAP値46.7%を記録し、ベースラインモデルよりも14.2%改善した。
Recycled and recirculated books, such as ancient texts and reused textbooks, hold significant value in the second-hand goods market, with their worth largely dependent on surface preservation. However, accurately assessing surface defects is challenging due to the wide variations in shape, size, and the often imprecise detection of defects. To address these issues, we propose DDNet, an innovative detection model designed to enhance defect localization and classification. DDNet introduces a surface defect feature extraction module based on a deformable convolution operator (DC) and a densely connected FPN module (DFPN). The DC module dynamically adjusts the convolution grid to better align with object contours, capturing subtle shape variations and improving boundary delineation and prediction accuracy. Meanwhile, DFPN leverages dense skip connections to enhance feature fusion, constructing a hierarchical structure that generates multi-resolution, high-fidelity feature maps, thus effectively detecting defects of various sizes. In addition to the model, we present a comprehensive dataset specifically curated for surface defect detection in recycled and recirculated books. This dataset encompasses a diverse range of defect types, shapes, and sizes, making it ideal for evaluating the robustness and effectiveness of defect detection models. Through extensive evaluations, DDNet achieves precise localization and classification of surface defects, recording a mAP value of 46.7% on our proprietary dataset - an improvement of 14.2% over the baseline model - demonstrating its superior detection capabilities. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# SU(N)対称性相互作用によるスピン不平衡フェルミガスの熱力学
Thermodynamics of Spin-Imbalanced Fermi Gases with SU(N) Symmetric Interaction ( http://arxiv.org/abs/2409.04960v1 ) ライセンス: Link先を確認 | Chengdong He, Xin-Yuan Gao, Ka Kwan Pak, Yu-Jun Liu, Peng Ren, Mengbo Guo, Entong Zhao, Yangqian Yan, Gyu-Boong Jo, | (参考訳) 縮退したフェルミ気体の熱力学は、パウリ・ブロッキング効果、集合モード、BCS超流動性など様々な側面から研究されている。
これにもかかわらず、不均衡なスピン配置を持つ多成分フェルミオンは、特に2成分シナリオを超えて、ほとんど探索されていないままである。
本研究では,SU($N$)フェルミオンの熱力学的研究を密度変動に基づくスピン不均衡な構成に一般化する。
理論的には、一般的なスピン集団設定のために、すべての温度範囲にわたる密度変動の閉形式表現を提供する。
実験により, スピン平衡系における密度変動を, 深く縮退した$^{173}$Ybフェルミガス(N\leq$~6)で測定した後, スピン平衡系における密度変動について検討した。
具体的には、2つの種と4つの種の構成を調査し、理論的な予測を検証した。
本分析は,高スピン不均衡系においても相互作用促進効果が顕著であることを示す。
最後に、アプリケーションとして、この手法を用いてデコヒーレンスプロセスを調べます。
本研究は,スピン不均衡多成分フェルミガスの熱力学特性を深く理解し,複雑な量子多体系を探索するための新たな道を開くものである。
Thermodynamics of degenerate Fermi gases has been extensively studied through various aspects such as Pauli blocking effects, collective modes, BCS superfluidity, and more. Despite this, multi-component fermions with imbalanced spin configurations remain largely unexplored, particularly beyond the two-component scenario. In this work, we generalize the thermodynamic study of SU($N$) fermions to spin-imbalanced configurations based on density fluctuations. Theoretically, we provide closed-form expressions of density fluctuation across all temperature ranges for general spin population setups. Experimentally, after calibrating the measurements with deeply degenerate $^{173}$Yb Fermi gases under spin-balanced configurations ($N\leq$~6), we examine the density fluctuations in spin-imbalanced systems. Specifically, we investigate two-species and four-species configurations to validate our theoretical predictions. Our analysis indicates that interaction enhancement effects can be significant even in highly spin-imbalanced systems. Finally, as an application, we use this approach to examine the decoherence process. Our study provides a deeper understanding of the thermodynamic features of spin-imbalanced multi-component Fermi gases and opens new avenues for exploring complex quantum many-body systems. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# マルチモーダル・プロンプトエンジンを応用した地震探査用基礎モデル
A foundation model enpowered by a multi-modal prompt engine for universal seismic geobody interpretation across surveys ( http://arxiv.org/abs/2409.04962v1 ) ライセンス: Link先を確認 | Hang Gao, Xinming Wu, Luming Liang, Hanlin Sheng, Xu Si, Gao Hui, Yaxing Li, | (参考訳) 地震の地体解釈は構造地質学研究や様々な工学的応用に不可欠である。
既存のディープラーニング手法は、将来性を示すが、マルチモーダル入力のサポートが欠如し、異なるジオボディタイプやサーベイへの一般化に苦慮している。
本研究では, 地震探査における地盤構造を解析するための基礎モデルを提案する。
このモデルは、事前訓練された視覚基盤モデル(VFM)と洗練されたマルチモーダルプロンプトエンジンを統合する。
VFMは、巨大な自然画像に基づいて事前訓練され、地震データに基づいて微調整され、クロスサーベイの一般化のための堅牢な特徴抽出を提供する。
プロンプトエンジンは、複数モーダル事前情報を反復的に微調整する。
大規模な実験では、モデルの優れた精度、2Dから3Dへのスケーラビリティ、および訓練中に見えないものを含む様々なジオボディタイプへの一般化性を示す。
我々の知る限り、これは、リアルタイムのインタラクションをサポートしながら、調査全体にわたる任意のジオボディーを解釈できる、スケーラブルで汎用的なマルチモーダル基盤モデルとしては、初めてのものです。
提案手法は地学データ解釈のための新しいパラダイムを確立し,他のタスクへの転送の可能性も広い。
Seismic geobody interpretation is crucial for structural geology studies and various engineering applications. Existing deep learning methods show promise but lack support for multi-modal inputs and struggle to generalize to different geobody types or surveys. We introduce a promptable foundation model for interpreting any geobodies across seismic surveys. This model integrates a pre-trained vision foundation model (VFM) with a sophisticated multi-modal prompt engine. The VFM, pre-trained on massive natural images and fine-tuned on seismic data, provides robust feature extraction for cross-survey generalization. The prompt engine incorporates multi-modal prior information to iteratively refine geobody delineation. Extensive experiments demonstrate the model's superior accuracy, scalability from 2D to 3D, and generalizability to various geobody types, including those unseen during training. To our knowledge, this is the first highly scalable and versatile multi-modal foundation model capable of interpreting any geobodies across surveys while supporting real-time interactions. Our approach establishes a new paradigm for geoscientific data interpretation, with broad potential for transfer to other tasks. | 翻訳日:2024-09-10 20:00:10 公開日:2024-09-08 |
# GS-PT: 自己教師型学習による総合的ポイントクラウド理解のための3次元ガウス平滑化
GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning ( http://arxiv.org/abs/2409.04963v1 ) ライセンス: Link先を確認 | Keyi Liu, Yeqi Luo, Weidong Yang, Jingyi Xu, Zhijun Li, Wen-Ming Chen, Ben Fei, | (参考訳) ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
しかし、現在のアプローチでは、データ多様性の制限や効果的な特徴学習のための不十分な拡張といった課題に直面している。
これらの課題に対処するため、3D Gaussian Splatting (3DGS)をポイントクラウドの自己教師型学習に初めて統合するGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
具体的には、変圧器は、マスクされた点雲を再構築することを目的としている。
3DGSは、マルチビューレンダリング画像を入力として使用し、拡張ポイントクラウド分布と新しいビューイメージを生成し、データ拡張とクロスモーダルコントラスト学習を容易にする。
さらに,深度マップの特徴も取り入れた。
これらのタスクをまとめて最適化することにより,3次元点雲と2次元画像の相互関係を利用した3次元自己教師付き学習プロセスが強化される。
我々は、複数の下流タスクでモデルの性能を事前学習し、テストした後、エンコーダを凍結する。
実験の結果,GS-PTは3次元オブジェクト分類,実世界分類,少数ショット学習とセグメンテーションなど,様々な下流タスクにおいて,既成の自己教師型学習法よりも優れていた。
Self-supervised learning of point cloud aims to leverage unlabeled 3D data to learn meaningful representations without reliance on manual annotations. However, current approaches face challenges such as limited data diversity and inadequate augmentation for effective feature learning. To address these challenges, we propose GS-PT, which integrates 3D Gaussian Splatting (3DGS) into point cloud self-supervised learning for the first time. Our pipeline utilizes transformers as the backbone for self-supervised pre-training and introduces novel contrastive learning tasks through 3DGS. Specifically, the transformers aim to reconstruct the masked point cloud. 3DGS utilizes multi-view rendered images as input to generate enhanced point cloud distributions and novel view images, facilitating data augmentation and cross-modal contrastive learning. Additionally, we incorporate features from depth maps. By optimizing these tasks collectively, our method enriches the tri-modal self-supervised learning process, enabling the model to leverage the correlation across 3D point clouds and 2D images from various modalities. We freeze the encoder after pre-training and test the model's performance on multiple downstream tasks. Experimental results indicate that GS-PT outperforms the off-the-shelf self-supervised learning methods on various downstream tasks including 3D object classification, real-world classifications, and few-shot learning and segmentation. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 感情分析と意味分析を用いた中国語翻訳におけるGoogle翻訳の評価
Evaluation of Google Translate for Mandarin Chinese translation using sentiment and semantic analysis ( http://arxiv.org/abs/2409.04964v1 ) ライセンス: Link先を確認 | Xuechun Wang, Rodney Beard, Rohitash Chandra, | (参考訳) 大規模言語モデル(LLM)を用いた機械翻訳は、コミュニケーションを容易にし、世界規模で大きな影響を与えている。
中国語は、中国における政府、教育機関、メディアによるコミュニケーションに使用される公用語である。
本研究では、感情分析と意味分析を用いて、人間の専門家による機械翻訳モデルの自動評価を行う。
この枠組みを実証するため、20世紀前半の古典的小説「Ah Qの真話」を中国語から英語への翻訳で選択した。
また、Google Translateを使用して、与えられたテキストを英語に変換し、章ごとの感情分析と意味分析を行い、異なる翻訳間で抽出された感情を比較する。
LLMを意味分析や感情分析に活用する。
以上の結果から,Google翻訳の精度は,人文翻訳と比較して意味的・感情的分析の両面で異なることが示唆された。
Google Translateは中国語の特定の単語やフレーズを翻訳できないことがわかりました。
この誤訳は、中国の文脈的重要性と歴史的知識の欠如に起因している。
このように、この枠組みは中国マンダリンの機械翻訳に関する新たな洞察をもたらした。
将来の作業は、このフレームワークで他の言語やテキストのタイプを探索することができる。
Machine translation using large language models (LLMs) is having a significant global impact, making communication easier. Mandarin Chinese is the official language used for communication by the government, education institutes, and media in China. In this study, we provide an automated assessment of machine translation models with human experts using sentiment and semantic analysis. In order to demonstrate our framework, we select classic early twentieth-century novel 'The True Story of Ah Q' with selected Mandarin Chinese to English translations. We also us Google Translate to generate the given text into English and then conduct a chapter-wise sentiment analysis and semantic analysis to compare the extracted sentiments across the different translations. We utilise LLMs for semantic and sentiment analysis. Our results indicate that the precision of Google Translate differs both in terms of semantic and sentiment analysis when compared to human expert translations. We find that Google Translate is unable to translate some of the specific words or phrases in Chinese, such as Chinese traditional allusions. The mistranslations have to its lack of contextual significance and historical knowledge of China. Thus, this framework brought us some new insights about machine translation for Chinese Mandarin. The future work can explore other languages or types of texts with this framework. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 内在性パーセルフィルタを用いた高速多重超伝導量子ビットリードアウト
Fast multiplexed superconducting qubit readout with intrinsic Purcell filtering ( http://arxiv.org/abs/2409.04967v1 ) ライセンス: Link先を確認 | Peter A. Spring, Luka Milanovic, Yoshiki Sunada, Shiyu Wang, Arjan F. van Loo, Shuhei Tamate, Yasunobu Nakamura, | (参考訳) 高速かつ正確な量子ビット計測は、フォールトトレラント量子コンピューティングへの道のりにおいて重要な課題である。
超伝導量子回路では、大きな外線幅を持つ分散結合共振器を用いて高速量子ビット計測が達成されている。
これにより、キュービットが読み出しチャネルを通して緩和されるのを防ぐPurcellフィルタを使用する必要がある。
ここでは, パルス共振器とフィルタ共振器を容量的に, インダクタンス的に結合することで, パーセルの減衰チャネルを破壊的干渉により効果的に除去する小型ノッチフィルタ回路を実現できることを示す。
42MHzのライン幅を利用することで、4つのキュービットの56ns同時読み出しを実行し、平均割り当て忠実度99.77%をベンチマークし、最も高いキュービット割り当て忠実度99.9%を超えた。
これらの結果は、多重超伝導量子ビットの読み出しにおける速度と忠実度が著しく向上したことを示している。
Fast and accurate qubit measurement remains a critical challenge on the path to fault-tolerant quantum computing. In superconducting quantum circuits, fast qubit measurement has been achieved using a dispersively coupled resonator with a large external linewidth. This necessitates the use of a Purcell filter that protects the qubit from relaxation through the readout channel. Here we show that a readout resonator and filter resonator, coupled to each other both capacitively and inductively, can produce a compact notch-filter circuit that effectively eliminates the Purcell decay channel through destructive interference. By utilizing linewidths as large as 42 MHz, we perform 56-ns simultaneous readout of four qubits and benchmark an average assignment fidelity of 99.77%, with the highest qubit assignment fidelity exceeding 99.9%. These results demonstrate a significant advancement in speed and fidelity for multiplexed superconducting qubit readout. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# Natias: ニューロンのアトリビューションに基づく転写可能な画像逆行性ステガノグラフィ
Natias: Neuron Attribution based Transferable Image Adversarial Steganography ( http://arxiv.org/abs/2409.04968v1 ) ライセンス: Link先を確認 | Zexin Fan, Kejiang Chen, Kai Zeng, Jiansong Zhang, Weiming Zhang, Nenghai Yu, | (参考訳) 画像ステガノグラフィー(英: Image steganography)は、デジタル画像内の秘密メッセージを隠蔽する技術である。
逆にステガナリシスは、画像内の秘密メッセージの存在を検出することを目的としている。
近年,ディープラーニングに基づくステガナリシス法は優れた検出性能を実現している。
この対策として, 逆行性ステガナグラフィーは, 深層学習に基づくステガナシスを効果的に欺く能力から注目されている。
しかし、ステガナリストは検出に未知のステガナリストモデルを用いることが多い。
そのため、非標的ステガナシスモデルであるトランスファビリティー(Transferability)を欺く逆向きステガナグラフィーの能力が特に重要である。
それでも、既存の逆向きのステガノグラフィー法は、転送可能性を高める方法を考慮していない。
この問題に対処するため,ナティアス(Natias)という新たな逆向きステガノグラフィー手法を提案する。
具体的には,まず,対象中層の各ニューロンに対してステガナシスモデルの出力を推定し,重要な特徴を同定する。
次に、様々なステガナシスモデルで採用されるかもしれないこれらの重要な特徴を台無しにする。
これにより、逆行性ステガノグラフィーの伝達性を促進することができる。
提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
提案手法は, 従来の手法と対比した場合, 伝達性の向上を図り, 再訓練シナリオにおける安全性の向上を図っている。
Image steganography is a technique to conceal secret messages within digital images. Steganalysis, on the contrary, aims to detect the presence of secret messages within images. Recently, deep-learning-based steganalysis methods have achieved excellent detection performance. As a countermeasure, adversarial steganography has garnered considerable attention due to its ability to effectively deceive deep-learning-based steganalysis. However, steganalysts often employ unknown steganalytic models for detection. Therefore, the ability of adversarial steganography to deceive non-target steganalytic models, known as transferability, becomes especially important. Nevertheless, existing adversarial steganographic methods do not consider how to enhance transferability. To address this issue, we propose a novel adversarial steganographic scheme named Natias. Specifically, we first attribute the output of a steganalytic model to each neuron in the target middle layer to identify critical features. Next, we corrupt these critical features that may be adopted by diverse steganalytic models. Consequently, it can promote the transferability of adversarial steganography. Our proposed method can be seamlessly integrated with existing adversarial steganography frameworks. Thorough experimental analyses affirm that our proposed technique possesses improved transferability when contrasted with former approaches, and it attains heightened security in retraining scenarios. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 入射再パラメータ化勾配によるベータポリシを持つソフトアクタクリティカル
Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients ( http://arxiv.org/abs/2409.04971v1 ) ライセンス: Link先を確認 | Luca Della Libera, | (参考訳) 深層強化学習の最近の進歩は、様々な複雑なタスクにおいて顕著な成果を上げているが、サンプル効率の低さは、現実世界の展開にとって大きな障害となっている。
ソフトアクター批判(SAC)は確率的ポリシー最適化と非政治学習を組み合わせることでこの問題を軽減するが、その適用性は再パラメータ化トリックによって勾配を計算できる分布に制限される。
この制限は、ベータ分布のようないくつかの重要な例を除外しており、これは、その有界サポートにより高次元連続制御問題におけるアクター批判アルゴリズムの収束率を改善することが示されている。
この問題に対処するために,再パラメータ化可能な分布のクラスを拡張する強力な手法である暗黙的再パラメータ化(暗黙的再パラメータ化)の使用について検討する。
特に、暗黙的再パラメータ化勾配を用いて、シミュレーションされたロボットの移動環境におけるベータポリシーでSACを訓練し、その性能を共通のベースラインと比較する。
実験の結果、ベータポリシーは通常のポリシーよりも優れており、SACの選択肢である正常なポリシーと同等であることが明らかとなった。
コードはhttps://github.com/lucadellalib/sac-beta.comで公開されている。
Recent advances in deep reinforcement learning have achieved impressive results in a wide range of complex tasks, but poor sample efficiency remains a major obstacle to real-world deployment. Soft actor-critic (SAC) mitigates this problem by combining stochastic policy optimization and off-policy learning, but its applicability is restricted to distributions whose gradients can be computed through the reparameterization trick. This limitation excludes several important examples such as the beta distribution, which was shown to improve the convergence rate of actor-critic algorithms in high-dimensional continuous control problems thanks to its bounded support. To address this issue, we investigate the use of implicit reparameterization, a powerful technique that extends the class of reparameterizable distributions. In particular, we use implicit reparameterization gradients to train SAC with the beta policy on simulated robot locomotion environments and compare its performance with common baselines. Experimental results show that the beta policy is a viable alternative, as it outperforms the normal policy and is on par with the squashed normal policy, which is the go-to choice for SAC. The code is available at https://github.com/lucadellalib/sac-beta. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# セキュリティと精度のバランスをとる:ブロックチェーンネットワークにおけるサイバー攻撃検出のための新しいフェデレーション学習アプローチ
Balancing Security and Accuracy: A Novel Federated Learning Approach for Cyberattack Detection in Blockchain Networks ( http://arxiv.org/abs/2409.04972v1 ) ライセンス: Link先を確認 | Tran Viet Khoa, Mohammad Abu Alsheikh, Yibeltal Alem, Dinh Thai Hoang, | (参考訳) 本稿では,ブロックチェーンベースのデータ共有ネットワークのセキュリティ向上を目的とした,協調型サイバー攻撃検出(CCD)システムを提案する。
差分プライバシの理論的原理を活用することで,本手法は信号伝達によるグローバルモデル再構築に先立って,学習したサブモデルにノイズを戦略的に統合する。
攻撃検出精度,ディープラーニングモデル収束時間,グローバルモデル生成の全体的な実行時間など,様々なノイズタイプ,すなわちガウシアン,ラプラス,モーメント会計士が重要なパフォーマンス指標に与える影響を体系的に検討する。
この結果から,データプライバシの確保とシステムパフォーマンスの維持という,複雑なトレードオフが明らかとなり,これらのパラメータを多様なCCD環境に最適化するための貴重な洞察が得られた。
広範なシミュレーションを通じて、データ保護とシステム効率の最適バランスを達成するための実行可能なレコメンデーションを提供し、セキュアで信頼性の高いブロックチェーンネットワークの進化に寄与する。
This paper presents a novel Collaborative Cyberattack Detection (CCD) system aimed at enhancing the security of blockchain-based data-sharing networks by addressing the complex challenges associated with noise addition in federated learning models. Leveraging the theoretical principles of differential privacy, our approach strategically integrates noise into trained sub-models before reconstructing the global model through transmission. We systematically explore the effects of various noise types, i.e., Gaussian, Laplace, and Moment Accountant, on key performance metrics, including attack detection accuracy, deep learning model convergence time, and the overall runtime of global model generation. Our findings reveal the intricate trade-offs between ensuring data privacy and maintaining system performance, offering valuable insights into optimizing these parameters for diverse CCD environments. Through extensive simulations, we provide actionable recommendations for achieving an optimal balance between data protection and system efficiency, contributing to the advancement of secure and reliable blockchain networks. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 四重項のプラトン力学デカップリング配列
Platonic dynamical decoupling sequences for qudits ( http://arxiv.org/abs/2409.04974v1 ) ライセンス: Link先を確認 | Colin Read, Eduardo Serrano-Ensástiga, John Martin, | (参考訳) 量子情報処理が基本的な量子システムのデコヒーレンスと散逸によって妨げられているNISQ時代には、量子状態の寿命を延ばす新しいプロトコルを開発することは、かなり実用的で理論的に重要である。
動的疎結合(Dynamical decoupling)と呼ばれる顕著な手法は、qudit(dレベル量子系)のような量子系に適用されるパルス列を慎重に設計し、システムと環境の間のハミルトニアン結合を抑える。
量子ビット系の動的デカップリングは広く研究されているが、キューディット系のデカップリングははるかに研究が進んでおらず、複雑なシーケンスや演算を伴っていることが多い。
本研究では,SU(2)回転のみで構成され,四面体,八面体,イコサヘド点群に基づく効率的な疎結合配列を設計し,これをプラトン配列と呼ぶ。
我々は、ハミルトニアンのマヨラナ表現の一般化を用いて、各プラトン列の疎結合性を確立し、多くの例でその効率性を示す単純なフレームワークを開発する。
これらのシーケンスは、最大6つのレベルを持つ単一量子ビットの環境とのあらゆる種類の相互作用をキャンセルする能力において普遍的であり、大域的なパルスのみと相互作用する量子ビットのアンサンブルにおいて最大5体の相互作用を分離することができる。
また、有限パルス持続時間と広範囲のパルス誤差に対する固有のロバスト性や、動的に修正されたゲートのビルディングブロックとしての可能性についても論じる。
In the NISQ era, where quantum information processing is hindered by the decoherence and dissipation of elementary quantum systems, developing new protocols to extend the lifetime of quantum states is of considerable practical and theoretical importance. A prominent method, called dynamical decoupling, uses a carefully designed sequence of pulses applied to a quantum system, such as a qudit (a d-level quantum system), to suppress the coupling Hamiltonian between the system and its environment, thereby mitigating dissipation. While dynamical decoupling of qubit systems has been widely studied, the decoupling of qudit systems has been far less explored and often involves complex sequences and operations. In this work, we design efficient decoupling sequences composed solely of SU(2) rotations and based on tetrahedral, octahedral, and icosahedral point groups, which we call Platonic sequences. We use a generalization of the Majorana representation for Hamiltonians to develop a simple framework that establishes the decoupling properties of each Platonic sequence and show its efficiency on many examples. These sequences are universal in their ability to cancel any type of interaction with the environment for single qudits with up to 6 levels, and they are capable of decoupling up to 5-body interactions in an ensemble of interacting qubits with only global pulses, provided that the interaction Hamiltonian has no isotropic component, with the exception of the global identity. We also discuss their inherent robustness to finite pulse duration and a wide range of pulse errors, as well as their potential application as building blocks for dynamically corrected gates. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# PatchAlign:臨床検査による皮膚疾患の画像分類
PatchAlign:Fair and Accurate Skin Disease Image Classification by Alignment with Clinical Labels ( http://arxiv.org/abs/2409.04975v1 ) ライセンス: Link先を確認 | Aayushman, Hemanth Gaddey, Vidhi Mittal, Manisha Chawla, Gagan Raj Gupta, | (参考訳) 深層学習モデルは皮膚病変の診断を自動化することに成功している。
しかしながら、これらのモデルの予測における民族的格差は、それらを展開する前に対処する必要がある。
我々は,皮膚条件のテキスト表現と整合して,皮膚条件画像の分類精度と公平性を向上するための新しいアプローチであるPatchAlignを導入する。
PatchAlignは、グラフ最適トランスポート(GOT)ロスを正規化子として、クロスドメインアライメントを実行する。
得られた表現は、限られたトレーニングサンプルであっても、皮膚のトーンにわたって頑健で一般化されている。
臨床皮膚科画像におけるノイズやアーティファクトの影響を低減するため,領域横断アライメントのための学習可能なMasked Graph Optimal Transportを提案する。
Fitzpatrick17kとDiverse Dermatology Images(DDI)の2種類の皮膚病変データセットを比較した。
PatchAlignはFitzpatrick17k上の2.8%(ドメイン内)と6.2%(ドメイン外)、そしてFairDisCoと比較してDDI上の4.2%(ドメイン内)の皮膚条件画像分類の精度を高める。
さらに、皮膚の音色にまたがる真の正の比率の公平さを一貫して改善する。
実装のソースコードは以下のGitHubリポジトリで入手できる。 https://github.com/aayushmanace/PatchAlign24。
Deep learning models have achieved great success in automating skin lesion diagnosis. However, the ethnic disparity in these models' predictions needs to be addressed before deploying them. We introduce a novel approach, PatchAlign, to enhance skin condition image classification accuracy and fairness by aligning with clinical text representations of skin conditions. PatchAlign uses Graph Optimal Transport (GOT) Loss as a regularizer to perform cross-domain alignment. The representations obtained are robust and generalize well across skin tones, even with limited training samples. To reduce the effect of noise and artifacts in clinical dermatology images, we propose a learnable Masked Graph Optimal Transport for cross-domain alignment that further improves fairness metrics. We compare our model to the state-of-the-art FairDisCo on two skin lesion datasets with different skin types: Fitzpatrick17k and Diverse Dermatology Images (DDI). PatchAlign enhances the accuracy of skin condition image classification by 2.8% (in-domain) and 6.2% (out-domain) on Fitzpatrick17k, and 4.2% (in-domain) on DDI compared to FairDisCo. Additionally, it consistently improves the fairness of true positive rates across skin tones. The source code for the implementation is available at the following GitHub repository: https://github.com/aayushmanace/PatchAlign24, enabling easy reproduction and further experimentation. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# HYDRA: ハイブリッドデータ多重化と実行時のレイヤ構成可能なDNNアクセラレータ
HYDRA: Hybrid Data Multiplexing and Run-time Layer Configurable DNN Accelerator ( http://arxiv.org/abs/2409.04976v1 ) ライセンス: Link先を確認 | Sonu Kumar, Komal Gupta, Gopal Raut, Mukul Lokhande, Santosh Kumar Vishvakarma, | (参考訳) ディープニューラルネットワーク(DNN)は、エッジノードで効率的な計算を実行する上で、多くの課題を提供する。
この記事では、欠点を克服するため、HYDRA、ハイブリッドデータ多重化、ランタイム層構成可能なDNNアクセラレータを提案する。
本研究は,FMA(Fused-Multiply-Accumulate)を改良した単一層の実行において,単一のアクティベーション関数を再利用した層多重化手法を提案する。
提案手法は繰り返しモードで動作し、同じハードウェアを再利用し、異なるレイヤを構成可能な方法で実行する。
提案したアーキテクチャは,35.21TOPSWの電力消費の90%以上を削減し,資源利用の改善を実現している。
提案したアーキテクチャは、帯域幅、AF、レイヤアーキテクチャに必要な領域オーバーヘッド(N-1)時間を短縮する。
この研究は、HYDRAアーキテクチャがリソース制約されたエッジデバイスの性能を改善しながら、最適なDNN計算をサポートすることを示している。
Deep neural networks (DNNs) offer plenty of challenges in executing efficient computation at edge nodes, primarily due to the huge hardware resource demands. The article proposes HYDRA, hybrid data multiplexing, and runtime layer configurable DNN accelerators to overcome the drawbacks. The work proposes a layer-multiplexed approach, which further reuses a single activation function within the execution of a single layer with improved Fused-Multiply-Accumulate (FMA). The proposed approach works in iterative mode to reuse the same hardware and execute different layers in a configurable fashion. The proposed architectures achieve reductions over 90% of power consumption and resource utilization improvements of state-of-the-art works, with 35.21 TOPSW. The proposed architecture reduces the area overhead (N-1) times required in bandwidth, AF and layer architecture. This work shows HYDRA architecture supports optimal DNN computations while improving performance on resource-constrained edge devices. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 高次数値差分法による畳み込みニューラルネットワークの強化
Enhancing Convolutional Neural Networks with Higher-Order Numerical Difference Methods ( http://arxiv.org/abs/2409.04977v1 ) ライセンス: Link先を確認 | Qi Wang, Zijun Gao, Mingxiu Sui, Taiyuan Mei, Xiaohan Cheng, Iris Li, | (参考訳) ディープラーニング技術の実用化に伴い、畳み込みニューラルネットワーク(CNN)は、人間が現実世界の多くの問題を解決するのを助けることができた。
CNNの性能を高めるために、多くのネットワークアーキテクチャが検討されている。
これらのアーキテクチャのいくつかは、時間の経過とともに研究者の蓄積した経験に基づいて設計されている。
上記の方法によるCNNの改善は極めて重要であるが、改善手法の多くはモデルのサイズや環境制約によって現実的に制限されているため、改善された性能を完全に実現することは困難である。
近年、通常の微分方程式の離散化によって多くのCNN構造が説明できることが研究で判明している。
これは,高次数値差分法を用いて理論的に支持されたディープネットワーク構造を設計できることを示唆している。
従来のCNNモデル構造のほとんどは低次数値法に基づいている点に注意が必要である。
そこで本稿では, 線形多段差分法の精度が前方オイラー法よりも高いことを考慮し, 線形多段差分法に基づく重ね合わせ方式を提案する。
このスキームはモデルサイズを増大させることなくResNetの性能を高め、Runge-Kuttaスキームと比較する。
実験結果から,既存のスタック方式(ResNetとHO-ResNet)よりもスタック方式の性能が優れており,他のタイプのニューラルネットワークにも拡張可能であることがわかった。
With the rise of deep learning technology in practical applications, Convolutional Neural Networks (CNNs) have been able to assist humans in solving many real-world problems. To enhance the performance of CNNs, numerous network architectures have been explored. Some of these architectures are designed based on the accumulated experience of researchers over time, while others are designed through neural architecture search methods. The improvements made to CNNs by the aforementioned methods are quite significant, but most of the improvement methods are limited in reality by model size and environmental constraints, making it difficult to fully realize the improved performance. In recent years, research has found that many CNN structures can be explained by the discretization of ordinary differential equations. This implies that we can design theoretically supported deep network structures using higher-order numerical difference methods. It should be noted that most of the previous CNN model structures are based on low-order numerical methods. Therefore, considering that the accuracy of linear multi-step numerical difference methods is higher than that of the forward Euler method, this paper proposes a stacking scheme based on the linear multi-step method. This scheme enhances the performance of ResNet without increasing the model size and compares it with the Runge-Kutta scheme. The experimental results show that the performance of the stacking scheme proposed in this paper is superior to existing stacking schemes (ResNet and HO-ResNet), and it has the capability to be extended to other types of neural networks. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 効率的なスパイキングニューラルネットワークの膜電位推定による時間非依存スパイキングニューロン
Time-independent Spiking Neuron via Membrane Potential Estimation for Efficient Spiking Neural Networks ( http://arxiv.org/abs/2409.04978v1 ) ライセンス: Link先を確認 | Hanqi Chen, Lixing Yu, Shaojie Zhan, Penghui Yao, Jiankun Shao, | (参考訳) スパイキングニューラルネットワーク(SNN)の計算非効率は、主に膜電位の逐次的な更新によるもので、人工ニューラルネットワーク(ANN)に比べてエンコーディング期間が長くなる。
これにより、SNN計算を効果的に並列化し、利用可能なハードウェア並列性を活用する必要性が強調される。
そこで本研究では,SNNの固有動的特性を保ちながら並列処理を可能とし,計算効率を高めたスパイクニューロンの並列計算手法である膜電位推定並列スパイクニューロン(MPE-PSN)を提案する。
提案手法では,特に高次ニューロン密度条件下での計算効率の向上が期待できる。
実験により, 本手法は, 追加の訓練パラメータを必要とせずに, ニューロモルフィックデータセット上でのSOTA(State-of-the-art)の精度と効率を達成することを示した。
コードは~\url{https://github.com/chrazqee/MPE-PSN}で入手できる。
The computational inefficiency of spiking neural networks (SNNs) is primarily due to the sequential updates of membrane potential, which becomes more pronounced during extended encoding periods compared to artificial neural networks (ANNs). This highlights the need to parallelize SNN computations effectively to leverage available hardware parallelism. To address this, we propose Membrane Potential Estimation Parallel Spiking Neurons (MPE-PSN), a parallel computation method for spiking neurons that enhances computational efficiency by enabling parallel processing while preserving the intrinsic dynamic characteristics of SNNs. Our approach exhibits promise for enhancing computational efficiency, particularly under conditions of elevated neuron density. Empirical experiments demonstrate that our method achieves state-of-the-art (SOTA) accuracy and efficiency on neuromorphic datasets without requiring additional training parameters. Codes are available at~\url{https://github.com/chrazqee/MPE-PSN}. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# RCBEVDet++ - 高精度レーダカメラフュージョン3次元知覚ネットワークを目指して
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network ( http://arxiv.org/abs/2409.04979v1 ) ライセンス: Link先を確認 | Zhiwei Lin, Zhe Liu, Yongtao Wang, Le Zhang, Ce Zhu, | (参考訳) 周囲の環境を認識することは自動運転の基本的な課題である。
高精度な認識結果を得るために、現代の自律運転システムは一般的に、総合的な環境データ収集にマルチモーダルセンサーを使用する。
これらのうち、レーダーカメラによるマルチモーダル認識システムは、優れたセンシング能力とコスト効率に特に好まれる。
しかし、レーダとカメラのセンサー間の実質的なモダリティの違いは、情報を融合する上での課題である。
本稿では,レーダカメラ融合3Dオブジェクト検出フレームワークであるCBEVDetを提案する。
具体的には、RCBEVDetは既存のカメラベースの3Dオブジェクト検出器から開発され、特別に設計されたレーダー特徴抽出器、RadarBEVNet、CAMFモジュールによって補完される。
第一に、RadarBEVNetは、二重ストリームレーダーバックボーンとレーダークロスセクションが認識するBEVエンコーダを使用して、スパースレーダーポイントを密度の高い鳥眼ビュー(BEV)特徴にエンコードする。
第2に、CAMFモジュールは変形可能なアテンション機構を使用してレーダーとカメラのBEV特徴を整列させ、チャネル層と空間融合層を融合させる。
RCBEVDetの機能をさらに強化するため、細かな融合によりCAMFを向上し、クエリベースのマルチビューカメラ認識モデルをサポートし、幅広い知覚タスクに適応するCBEVDet++を導入する。
nuScenesの大規模な実験により、既存のカメラベースの3D知覚モデルとシームレスに統合され、様々な知覚タスクにおける性能が向上することが示された。
さらに,3Dオブジェクト検出,BEVセマンティックセグメンテーション,および3Dマルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
特に、画像バックボーンとしてViT-Lを使用すると、RTBEVDet++はテスト時間拡張やモデルアンサンブルなしで3Dオブジェクト検出において72.73 NDSと67.34 mAPを達成する。
Perceiving the surrounding environment is a fundamental task in autonomous driving. To obtain highly accurate perception results, modern autonomous driving systems typically employ multi-modal sensors to collect comprehensive environmental data. Among these, the radar-camera multi-modal perception system is especially favored for its excellent sensing capabilities and cost-effectiveness. However, the substantial modality differences between radar and camera sensors pose challenges in fusing information. To address this problem, this paper presents RCBEVDet, a radar-camera fusion 3D object detection framework. Specifically, RCBEVDet is developed from an existing camera-based 3D object detector, supplemented by a specially designed radar feature extractor, RadarBEVNet, and a Cross-Attention Multi-layer Fusion (CAMF) module. Firstly, RadarBEVNet encodes sparse radar points into a dense bird's-eye-view (BEV) feature using a dual-stream radar backbone and a Radar Cross Section aware BEV encoder. Secondly, the CAMF module utilizes a deformable attention mechanism to align radar and camera BEV features and adopts channel and spatial fusion layers to fuse them. To further enhance RCBEVDet's capabilities, we introduce RCBEVDet++, which advances the CAMF through sparse fusion, supports query-based multi-view camera perception models, and adapts to a broader range of perception tasks. Extensive experiments on the nuScenes show that our method integrates seamlessly with existing camera-based 3D perception models and improves their performance across various perception tasks. Furthermore, our method achieves state-of-the-art radar-camera fusion results in 3D object detection, BEV semantic segmentation, and 3D multi-object tracking tasks. Notably, with ViT-L as the image backbone, RCBEVDet++ achieves 72.73 NDS and 67.34 mAP in 3D object detection without test-time augmentation or model ensembling. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# Multi-V2X:協調知覚のための大規模マルチモーダルマルチペネレーションレートデータセット
Multi-V2X: A Large Scale Multi-modal Multi-penetration-rate Dataset for Cooperative Perception ( http://arxiv.org/abs/2409.04980v1 ) ライセンス: Link先を確認 | Rongsong Li, Xin Pei, | (参考訳) 車間コミュニケーション(V2X)による協調的知覚は, 咬合を克服し, 長距離知覚を高める可能性から近年, 注目されている。
データセットとアルゴリズムの両方で大きな成果が得られています。
しかし、既存の実世界のデータセットは通信可能なエージェントがほとんど存在しないため制限されている。
さらに,コネクテッド・自動運転車(CAV)の浸透速度は,協調認識技術の展開に欠かせない要因である。
これらの問題に対処するため、V2X知覚のための大規模マルチモーダルマルチペネティフィケーションレートデータセットであるMulti-V2Xを導入する。
SuMO と CARLA を併用することにより,センサスイートを用いたシミュレーション街において,かなりの数の車や道路側ユニット(RSU)を配置し,総合的なセンシングデータを収集する。
特定のCAV侵入率のデータセットは、一部の装備車両を通常の車両として隠蔽することで得られる。
私たちのMulti-V2Xデータセットは、合計549kのRGBフレーム、146kのLiDARフレーム、および6つのカテゴリにわたる4,219kの注釈付き3Dバウンディングボックスで構成されています。
最も高いCAV侵入率は86.21%に達し、通信範囲に最大31のエージェントがおり、協力するエージェントを選択する際の新たな課題となっている。
協調的な3Dオブジェクト検出タスクのための総合的なベンチマークを提供する。
私たちのデータとコードはhttps://github.com/RadetzkyLi/Multi-V2X で公開されています。
Cooperative perception through vehicle-to-everything (V2X) has garnered significant attention in recent years due to its potential to overcome occlusions and enhance long-distance perception. Great achievements have been made in both datasets and algorithms. However, existing real-world datasets are limited by the presence of few communicable agents, while synthetic datasets typically cover only vehicles. More importantly, the penetration rate of connected and autonomous vehicles (CAVs) , a critical factor for the deployment of cooperative perception technologies, has not been adequately addressed. To tackle these issues, we introduce Multi-V2X, a large-scale, multi-modal, multi-penetration-rate dataset for V2X perception. By co-simulating SUMO and CARLA, we equip a substantial number of cars and roadside units (RSUs) in simulated towns with sensor suites, and collect comprehensive sensing data. Datasets with specified CAV penetration rates can be obtained by masking some equipped cars as normal vehicles. In total, our Multi-V2X dataset comprises 549k RGB frames, 146k LiDAR frames, and 4,219k annotated 3D bounding boxes across six categories. The highest possible CAV penetration rate reaches 86.21%, with up to 31 agents in communication range, posing new challenges in selecting agents to collaborate with. We provide comprehensive benchmarks for cooperative 3D object detection tasks. Our data and code are available at https://github.com/RadetzkyLi/Multi-V2X . | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# 2DSig-Detect:2D信号を用いた画像データの異常検出のための半教師付きフレームワーク
2DSig-Detect: a semi-supervised framework for anomaly detection on image data using 2D-signatures ( http://arxiv.org/abs/2409.04982v1 ) ライセンス: Link先を確認 | Xinheng Xie, Kureha Yamaguchi, Margaux Leblanc, Simon Malzard, Varun Chhabra, Victoria Nockles, Yue Wu, | (参考訳) 機械学習技術の急速な進歩は、トレーニング時間(解雇)とテスト時間(回避、偽装、反転)の攻撃に関して、機械学習モデルのセキュリティに関する疑問を提起する。
画像関連タスクを実行するモデル、例えば、検出や分類は、パフォーマンスを低下させ、望ましくない結果をもたらす可能性のある敵攻撃に対して脆弱である。
本稿では,2次元信号埋め込み型半教師付きフレームワークを用いた2DSig-Detectと呼ばれる画像の異常検出手法を提案する。
我々は,本手法を訓練時間およびテスト時間攻撃の対角的設定で実証し,他の最先端手法と比較してフレームワークをベンチマークする。
異常検出に2DSig-Detectを用いると,画像中の対向摂動の存在を検出するために,優れた性能と計算時間の短縮が示される。
The rapid advancement of machine learning technologies raises questions about the security of machine learning models, with respect to both training-time (poisoning) and test-time (evasion, impersonation, and inversion) attacks. Models performing image-related tasks, e.g. detection, and classification, are vulnerable to adversarial attacks that can degrade their performance and produce undesirable outcomes. This paper introduces a novel technique for anomaly detection in images called 2DSig-Detect, which uses a 2D-signature-embedded semi-supervised framework rooted in rough path theory. We demonstrate our method in adversarial settings for training-time and test-time attacks, and benchmark our framework against other state of the art methods. Using 2DSig-Detect for anomaly detection, we show both superior performance and a reduction in the computation time to detect the presence of adversarial perturbations in images. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# DynamicFL: 動的コミュニケーションリソース割り当てによるフェデレーション学習
DynamicFL: Federated Learning with Dynamic Communication Resource Allocation ( http://arxiv.org/abs/2409.04986v1 ) ライセンス: Link先を確認 | Qi Le, Enmao Diao, Xinran Wang, Vahid Tarokh, Jie Ding, Ali Anwar, | (参考訳) Federated Learning(FL)は、複数のユーザがローカルデータを使ってモデルを分散的にトレーニングできる、協調的な機械学習フレームワークである。
しかし、デバイス間での局所データの統計的不均一性は、独立で同一に分散した(IID)データシナリオと比較して、最適以下のモデルの性能をもたらすことが多い。
本稿では,FedSGD(Federated Stochastic Gradient Descent)とFedAvg(Federated Averaging)という2つの広く採用されているFL手法における,グローバルモデル性能と通信コストのトレードオフを調査する新しいFLフレームワークであるDynamicFLを紹介する。
提案手法は, 通信リソースの制約を考慮したデータ統計的不均一性に基づいて, 多様な通信リソースをクライアントに割り当て, 通信リソースの均一な割り当てに比べて, 大幅な性能向上を実現している。
この手法はFedSGDとFedAvgのギャップを埋め、FLの統計的不均一性に対処するための通信不均一性を活用する柔軟なフレームワークを提供する。
実験により,DynamicFLはモデル精度を最大10%向上させ,データの統計的不均一性問題への適応性と有効性を示した。
Federated Learning (FL) is a collaborative machine learning framework that allows multiple users to train models utilizing their local data in a distributed manner. However, considerable statistical heterogeneity in local data across devices often leads to suboptimal model performance compared with independently and identically distributed (IID) data scenarios. In this paper, we introduce DynamicFL, a new FL framework that investigates the trade-offs between global model performance and communication costs for two widely adopted FL methods: Federated Stochastic Gradient Descent (FedSGD) and Federated Averaging (FedAvg). Our approach allocates diverse communication resources to clients based on their data statistical heterogeneity, considering communication resource constraints, and attains substantial performance enhancements compared to uniform communication resource allocation. Notably, our method bridges the gap between FedSGD and FedAvg, providing a flexible framework leveraging communication heterogeneity to address statistical heterogeneity in FL. Through extensive experiments, we demonstrate that DynamicFL surpasses current state-of-the-art methods with up to a 10% increase in model accuracy, demonstrating its adaptability and effectiveness in tackling data statistical heterogeneity challenges. | 翻訳日:2024-09-10 19:50:12 公開日:2024-09-08 |
# InstInfer: コスト効果の長いLLM推論のためのIn-Storage Attention Offloading
InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference ( http://arxiv.org/abs/2409.04992v1 ) ライセンス: Link先を確認 | Xiurui Pan, Endian Li, Qiao Li, Shengwen Liang, Yizhou Shan, Ke Zhou, Yingwei Luo, Xiaolin Wang, Jie Zhang, | (参考訳) LLM(Large Language Models)の普及は、ジェネレーティブAIにおいて重要なマイルストーンとなる。
それでも、オフラインのLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求を増大させ、特にリソース制約シナリオ(エッジコンピューティングやパーソナルデバイスなど)においてGPU VRAMに大きな負担をかけることになる。
いくつかのコスト効率の良いソリューションは、ホストメモリまたはSSDを活用して、オフライン推論シナリオのストレージコストを削減し、スループットを向上させる。
それでも、PCIe帯域幅の制限により、集中的なKVキャッシュアクセスによって課される大幅なパフォーマンス上のペナルティに悩まされている。
これらの問題に対処するため,計算ストレージドライブ(CSD)に最も性能クリティカルな計算(復号フェーズにおける注意)とデータ(KVキャッシュ)をオフロードする新しいLLM推論システムであるInstInferを提案し,KV転送オーバーヘッドを最小化する。
InstInferは、KVキャッシュ管理機構を備えた専用のフラッシュ対応インストレージアテンションエンジンを設計した。
GPUとCSD間の最適化されたP2P伝送により、データのマイグレーションオーバーヘッドはさらに削減される。
実験結果によると、NVIDIA A6000 GPUを使用した13Bモデルでは、InstInferはFlexGenのような既存のSSDベースのソリューションと比較して、時系列推論のスループットを最大11.1$\times$に改善している。
The widespread of Large Language Models (LLMs) marks a significant milestone in generative AI. Nevertheless, the increasing context length and batch size in offline LLM inference escalate the memory requirement of the key-value (KV) cache, which imposes a huge burden on the GPU VRAM, especially for resource-constraint scenarios (e.g., edge computing and personal devices). Several cost-effective solutions leverage host memory or SSDs to reduce storage costs for offline inference scenarios and improve the throughput. Nevertheless, they suffer from significant performance penalties imposed by intensive KV cache accesses due to limited PCIe bandwidth. To address these issues, we propose InstInfer, a novel LLM inference system that offloads the most performance-critical computation (i.e., attention in decoding phase) and data (i.e., KV cache) parts to Computational Storage Drives (CSDs), which minimize the enormous KV transfer overheads. InstInfer designs a dedicated flash-aware in-storage attention engine with KV cache management mechanisms to exploit the high internal bandwidths of CSDs instead of being limited by the PCIe bandwidth. The optimized P2P transmission between GPU and CSDs further reduces data migration overheads. Experimental results demonstrate that for a 13B model using an NVIDIA A6000 GPU, InstInfer improves throughput for long-sequence inference by up to 11.1$\times$, compared to existing SSD-based solutions such as FlexGen. | 翻訳日:2024-09-10 19:40:10 公開日:2024-09-08 |
# 圧縮データから非負行列分解を学習する
Learning nonnegative matrix factorizations from compressed data ( http://arxiv.org/abs/2409.04994v1 ) ライセンス: Link先を確認 | Abraar Chaudhry, Elizaveta Rebrova, | (参考訳) スケーラブルな非負行列分解のためのフレキシブルで理論的に支持されたフレームワークを提案する。
目標は、圧縮された測定値から直接非負の低ランクコンポーネントを見つけ、元のデータに1回か2回だけアクセスすることである。
我々は、データに適応できる、あるいは無視できるランダム化されたスケッチ手法による圧縮について検討する。
圧縮されたデータにのみ依存する最適化問題を定式化し、元の行列に近似した非負の分解を復元する。
定義した問題を様々なアルゴリズムで解くことができ、特に、圧縮された問題に対する一般的な乗法更新手法のバリエーションについて論じる。
実世界のアプリケーションにおいて,我々のアプローチの成功を実証し,その性能を実証する。
We propose a flexible and theoretically supported framework for scalable nonnegative matrix factorization. The goal is to find nonnegative low-rank components directly from compressed measurements, accessing the original data only once or twice. We consider compression through randomized sketching methods that can be adapted to the data, or can be oblivious. We formulate optimization problems that only depend on the compressed data, but which can recover a nonnegative factorization which closely approximates the original matrix. The defined problems can be approached with a variety of algorithms, and in particular, we discuss variations of the popular multiplicative updates method for these compressed problems. We demonstrate the success of our approaches empirically and validate their performance in real-world applications. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 分散一般化直交制約を用いた最適化のための二重追跡法
A Double Tracking Method for Optimization with Decentralized Generalized Orthogonality Constraints ( http://arxiv.org/abs/2409.04998v1 ) ライセンス: Link先を確認 | Lei Wang, Nachuan Xiao, Xin Liu, | (参考訳) 本稿では、対象関数と制約の両方が分散構造を示す一般化直交制約を用いた分散最適化問題を考察する。
このような最適化問題は、実用上はユビキタスだが、分散制約の存在下では既存のアルゴリズムでは未解決のままである。
この問題に対処するため、最近提案された制約解消演算子を利用して、元の問題を制約なしのペナルティモデルに変換する。
しかし、この変換は、結果として生じるペナルティ関数における分離性の本質的な性質を損なうため、既存のアルゴリズムを用いて解決することは不可能である。
我々は、目的関数の勾配と制約写像のヤコビアンを同時に追跡する新しいアルゴリズムを導入することで、この難しさを克服する。
グローバル収束保証は、イテレーションの複雑さによって厳格に確立される。
提案アルゴリズムの有効性と効率を実証するために, 合成データセットと実世界のデータセットの両方に数値的な結果を示す。
In this paper, we consider the decentralized optimization problems with generalized orthogonality constraints, where both the objective function and the constraint exhibit a distributed structure. Such optimization problems, albeit ubiquitous in practical applications, remain unsolvable by existing algorithms in the presence of distributed constraints. To address this issue, we convert the original problem into an unconstrained penalty model by resorting to the recently proposed constraint-dissolving operator. However, this transformation compromises the essential property of separability in the resulting penalty function, rendering it impossible to employ existing algorithms to solve. We overcome this difficulty by introducing a novel algorithm that tracks the gradient of the objective function and the Jacobian of the constraint mapping simultaneously. The global convergence guarantee is rigorously established with an iteration complexity. To substantiate the effectiveness and efficiency of our proposed algorithm, we present numerical results on both synthetic and real-world datasets. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# マルチモーダル条件適応による視覚的グラウンドディング
Visual Grounding with Multi-modal Conditional Adaptation ( http://arxiv.org/abs/2409.04999v1 ) ライセンス: Link先を確認 | Ruilin Yao, Shengwu Xiong, Yichen Zhao, Yi Rong, | (参考訳) ビジュアルグラウンド(Visual Grounding)は、自然言語で指定されたオブジェクトを特定するタスクである。
既存のメソッドはこのタスクに取り組むためにジェネリックオブジェクト検出フレームワークを拡張する。
彼らは通常、独立した視覚的およびテキスト的エンコーダを使用して視覚的特徴とテキスト的特徴を別々に抽出し、最終的な予測のためにこれらの特徴をマルチモーダルデコーダに融合する。
しかし、視覚的な接地は独特な課題を呈している。
しばしば、同じ画像内で異なるテキスト記述を持つオブジェクトを配置する。
既存の手法では、独立視覚エンコーダが同じ画像に対して同一の視覚的特徴を生成し、検出性能を制限しているため、この課題に対処する。
近年のいくつかのアプローチでは、この問題に対処するために様々な言語誘導型ビジュアルエンコーダを提案するが、それらは主にテキスト情報にのみ依存し、洗練された設計を必要とする。
本稿では,多モード条件適応(MMCA)を導入し,視覚エンコーダが重みを適応的に更新し,テキスト関連領域に焦点を向ける。
具体的には、まず異なるモーダルからの情報を統合し、マルチモーダル埋め込みを得る。
次に,重み付け係数の集合を用いて,重み付け行列を再編成し,視覚的接地モデルの視覚的エンコーダに適用する。
広く使われている4つのデータセットに対する大規模な実験は、MMCAが大幅な改善と最先端の結果を達成していることを示している。
アブレーション実験により, 本手法の軽量化と効率性をさらに実証した。
私たちのソースコードは、https://github.com/Mr-Bigworth/MMCA.comで公開されています。
Visual grounding is the task of locating objects specified by natural language expressions. Existing methods extend generic object detection frameworks to tackle this task. They typically extract visual and textual features separately using independent visual and textual encoders, then fuse these features in a multi-modal decoder for final prediction. However, visual grounding presents unique challenges. It often involves locating objects with different text descriptions within the same image. Existing methods struggle with this task because the independent visual encoder produces identical visual features for the same image, limiting detection performance. Some recently approaches propose various language-guided visual encoders to address this issue, but they mostly rely solely on textual information and require sophisticated designs. In this paper, we introduce Multi-modal Conditional Adaptation (MMCA), which enables the visual encoder to adaptively update weights, directing its focus towards text-relevant regions. Specifically, we first integrate information from different modalities to obtain multi-modal embeddings. Then we utilize a set of weighting coefficients, which generated from the multimodal embeddings, to reorganize the weight update matrices and apply them to the visual encoder of the visual grounding model. Extensive experiments on four widely used datasets demonstrate that MMCA achieves significant improvements and state-of-the-art results. Ablation experiments further demonstrate the lightweight and efficiency of our method. Our source code is available at: https://github.com/Mr-Bigworth/MMCA. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# スピン軌道結合型磁気双極子電池
Magnetic Dipolar Quantum Battery with Spin-Orbit Coupling ( http://arxiv.org/abs/2409.05000v1 ) ライセンス: Link先を確認 | Asad Ali, Samira Elghaayda, Saif Al-Kuwari, M. I. Hussain, M. T. Rahim, Hashir Kuniyil, Tim Byrnes, James Q. Quach, Mostafa Mansour, Saeed Haddadi, | (参考訳) 本稿では,ゼーマン分割,DM相互作用,KSEA交換相互作用に影響された磁気双極子系について検討する。
我々は、リンドブラッドマスター方程式の解法とギブズ状態の評価により、コヒーレンス、量子不協和、収束の$l_1$-normのような量子資源に対する劣化ノイズと熱平衡の影響を分析する。
ゼエマン分裂の増大は, 脱落条件および熱平衡条件下での量子資源の減少を示唆する。
しかし、このシステムのハミルトニアンを用いてQBを実現すると、ゼーマン分割は巡回充電時のエルゴトロピー、瞬時パワー、キャパシティ、量子コヒーレンスといったパフォーマンス指標を増大させる。
我々は,この軸方向パラメータは,不整合性エルゴトロピーの概念を導入し,その真の起源を理解する必要性を強調するとともに,不整合性エルゴトロピーが増大し続けるような飽和点に達することで,QB性能を向上させることを観察した。
KSEA相互作用とロンボリックパラメータの両方は、排他的および熱平衡状態にわたる量子資源を一貫して強化し、QB性能を向上させる。
DM相互作用はQBメトリクスを改善し、ギブス状態の温度変化に対して量子資源を遮蔽するが、強調するダイナミクスの間は無関心である。
我々の研究は、量子コヒーレンスを伴わないエルゴトロピーの強化、量子コヒーレンスよりもQBキャパシティの優先的な役割、量子コヒーレンスが存在するにもかかわらず、非作業抽出の現象など、複雑な傾向を明らかにする。
これらの知見は将来の磁気双極子QBの研究の基盤となり、非単体充電プロセス、環境効果、実践的実装を強調している。
NMRプラットフォームはこのようなQBをシミュレーションするための有望なテストベッドになり得ることを示す。
We investigate a magnetic dipolar system influenced by Zeeman splitting, DM interaction, and KSEA exchange interaction, with an initial focus on quantum resource dynamics and a final application in modeling a quantum battery (QB). We analyze the effects of dephasing noise and thermal equilibrium on quantum resources, such as the $l_1$-norm of coherence, quantum discord, and concurrence, by solving the Lindblad master equation and evaluating the Gibbs state. Our findings indicate that increased Zeeman splitting diminishes quantum resources under dephasing and thermal equilibrium conditions. However, when we use the Hamiltonian of this system to realize our QB, Zeeman splitting boosts performance metrics such as ergotropy, instantaneous power, capacity, and quantum coherence during cyclic charging. We observe that the axial parameter improves QB performance, with coherence reaching a saturation point, beyond which ergotropy continues to rise, introducing the concept of incoherent ergotropy and highlighting the need to understand its true origin. Both KSEA interaction and the rhombic parameter consistently enhance quantum resources across the dephasing and thermal equilibrium regimes, and thus improve QB performance. The DM interaction improves QB metrics and shields quantum resources against temperature variations in the Gibbs state but remains insensitive during dephasing dynamics. Our work uncovers complex trends, including ergotropy enhancement without quantum coherence, the preferential role of QB capacity over quantum coherence, and the phenomenon of no-work extraction despite the presence of quantum coherence. These findings facilitate a robust foundation for future research on magnetic dipolar QBs, emphasizing non-unitary charging processes, environmental effects, and practical implementations. We show that the NMR platform could be a promising testbed for simulating such QBs. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# マルチプラン探索とフィードバック駆動リファインメントによるコード生成のためのペアプログラミングフレームワーク
A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement ( http://arxiv.org/abs/2409.05001v1 ) ライセンス: Link先を確認 | Huan Zhang, Wei Cheng, Yuhan Wu, Wei Hu, | (参考訳) 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
従来の研究はLPMを改良し、技法やコードの改良を推進したが、厳密な解法計画のために複雑なプログラミング問題に苦しんだ。
本稿では,ペアプログラミングを実践して,新しいLLMベースのコード生成フレームワークであるPairCoderを提案する。
PairCoderは2つの共同LLMエージェント、すなわち、高レベルの計画のためのナビゲータエージェントと、特定の実装のためのドライバエージェントを組み込んでいる。
Navigatorは、有望なソリューション計画の提案、現在の最適計画の選択、実行フィードバックに基づいた次のイテレーションラウンドの指示を担当している。
ドライバは、Navigatorの指示に従って、初期コード生成、コードテスト、改善を行う。
このインターリーブで反復的なワークフローには、ペアプログラマのコラボレーションを模倣したマルチプラン探索とフィードバックベースの改善が含まれている。
各種コード生成ベンチマークにおいて,PairCoderをオープンソースLLMとクローズドソースLLMの両方で評価する。
大規模な実験結果からPairCoderの精度が向上し,12.00%~162.43%の相対パス@1の改善を実現した。
Large language models (LLMs) have achieved impressive performance on code generation. Although prior studies enhanced LLMs with prompting techniques and code refinement, they still struggle with complex programming problems due to rigid solution plans. In this paper, we draw on pair programming practices to propose PairCoder, a novel LLM-based framework for code generation. PairCoder incorporates two collaborative LLM agents, namely a Navigator agent for high-level planning and a Driver agent for specific implementation. The Navigator is responsible for proposing promising solution plans, selecting the current optimal plan, and directing the next iteration round based on execution feedback. The Driver follows the guidance of Navigator to undertake initial code generation, code testing, and refinement. This interleaved and iterative workflow involves multi-plan exploration and feedback-based refinement, which mimics the collaboration of pair programmers. We evaluate PairCoder with both open-source and closed-source LLMs on various code generation benchmarks. Extensive experimental results demonstrate the superior accuracy of PairCoder, achieving relative pass@1 improvements of 12.00%-162.43% compared to prompting LLMs directly. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 中国語ビデオにおけるパロライズとコンデデント言語:マルチモーダルデータセットと検出器
Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector ( http://arxiv.org/abs/2409.05005v1 ) ライセンス: Link先を確認 | Hongbo Wang, Junyu Lu, Yan Han, Liang Yang, Hongfei Lin, | (参考訳) Patronizing and Condescending Language (PCL)は、脆弱なグループをターゲットにした差別的な有害なスピーチの一種であり、オンラインとオフラインの両方の安全性を脅かす。
有害な音声研究は主にヘイトスピーチのような過剰な毒性に焦点を当てているが、PCLの形でのマイクロアグレッションは未解明のままである。
さらに、支配的な集団の差別的な表情と脆弱なコミュニティに対する態度は、口頭で考えるよりも影響が大きいが、これらのフレームの特徴は見過ごされがちである。
本稿では,Blibili の 715 の注釈付きビデオと高品質な PCL 顔フレームからなる PCLMM データセットを紹介する。
また,PCL認識のための表情検出モジュールを備えたMultiPCL検出器を提案する。
本研究は, 有害音声領域における微小加速度検出の進展に重要な貢献をしている。
Patronizing and Condescending Language (PCL) is a form of discriminatory toxic speech targeting vulnerable groups, threatening both online and offline safety. While toxic speech research has mainly focused on overt toxicity, such as hate speech, microaggressions in the form of PCL remain underexplored. Additionally, dominant groups' discriminatory facial expressions and attitudes toward vulnerable communities can be more impactful than verbal cues, yet these frame features are often overlooked. In this paper, we introduce the PCLMM dataset, the first Chinese multimodal dataset for PCL, consisting of 715 annotated videos from Bilibili, with high-quality PCL facial frame spans. We also propose the MultiPCL detector, featuring a facial expression detection module for PCL recognition, demonstrating the effectiveness of modality complementarity in this challenging task. Our work makes an important contribution to advancing microaggression detection within the domain of toxic speech. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# マルチモーダル感情分析のためのオーディオガイド融合技術
Audio-Guided Fusion Techniques for Multimodal Emotion Analysis ( http://arxiv.org/abs/2409.05007v1 ) ライセンス: Link先を確認 | Pujin Shi, Fei Gao, | (参考訳) 本稿では,MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
まず、感情分類タスクにおける特徴抽出器の性能を高めるために、ラベル付きデータを用いてビデオとテキストの特徴抽出器、特にCLIP-vit-largeとBaichuan-13Bを微調整した。
このアプローチは、ビデオで伝えられた元の感情情報を効果的に保存する。
第2に,Hubert-largeの堅牢性を活用し,チャネル間情報とチャネル内情報の両方を融合させる上で,優れた効果を示すAudio-Guided Transformer (AGT) 融合機構を提案する。
第3に、モデルの精度を高めるために、高信頼なラベル付きデータを擬似ラベルとして利用することにより、自己教師付き学習を反復的に適用する。
最後に、ブラックボックス探索により、トレーニングセットとテストセットの間に不均衡なデータ分布が発見された。
そこで我々は,事前知識に基づく投票方式を採用した。
その結果、我々の戦略の有効性が示され、最終的にMER-SEMIトラックで3位になった。
In this paper, we propose a solution for the semi-supervised learning track (MER-SEMI) in MER2024. First, in order to enhance the performance of the feature extractor on sentiment classification tasks,we fine-tuned video and text feature extractors, specifically CLIP-vit-large and Baichuan-13B, using labeled data. This approach effectively preserves the original emotional information conveyed in the videos. Second, we propose an Audio-Guided Transformer (AGT) fusion mechanism, which leverages the robustness of Hubert-large, showing superior effectiveness in fusing both inter-channel and intra-channel information. Third, To enhance the accuracy of the model, we iteratively apply self-supervised learning by using high-confidence unlabeled data as pseudo-labels. Finally, through black-box probing, we discovered an imbalanced data distribution between the training and test sets. Therefore, We adopt a prior-knowledge-based voting mechanism. The results demonstrate the effectiveness of our strategy, ultimately earning us third place in the MER-SEMI track. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# ソフトウェアアーティファクト(SLSA)のサプライチェーンレベルへの挑戦
Unraveling Challenges with Supply-Chain Levels for Software Artifacts (SLSA) for Securing the Software Supply Chain ( http://arxiv.org/abs/2409.05014v1 ) ライセンス: Link先を確認 | Mahzabin Tamanna, Sivana Hamer, Mindy Tran, Sascha Fahl, Yasemin Acar, Laurie Williams, | (参考訳) 2023年、Sonatypeは、大規模なビルドインフラストラクチャー攻撃を含むソフトウェアサプライチェーン攻撃が200\%増加したことを報告した。
ソフトウェアサプライチェーンを確保するために、実践者は、ソフトウェアアーティファクトのサプライチェーンレベル(SLSA)のようなセキュリティフレームワークのガイダンスに従うことができる。
しかし、最近の調査や業界サミットでは、SLSAの採用が普及しているにもかかわらず、SLSAの採用は広まっていないことが示されている。
この研究の目的は、フレームワークの作者や実践者が、GitHubでSLSAに関連する問題に関する質的研究を通じて、ソフトウェアアーティファクトのサプライチェーンレベル(SLSA)の採用と開発を改善するのを支援することである。
私たちは233のGitHubリポジトリから抽出された1,523のSLSA関連問題を解析した。
我々は、SLSAを採用する際の課題とこれらの課題を克服するための戦略を探るため、LDA(Latent Dirichlet Allocation)の教師なし機械学習アルゴリズムを活用し、トピック誘導のテーマ分析を行った。
4つの重要な課題と5つの採用戦略を特定しました。
報告された2つの主な課題は、複雑な実装と不明瞭なコミュニケーションであり、多様なエコシステムにわたるSLSAプロセスの実装と理解の難しさを強調している。
提案されている戦略には、生成プロセスの合理化、SLSA検証プロセスの改善、具体的で詳細なドキュメントの提供が含まれる。
以上の結果から,いくつかの戦略が複数の課題を緩和し,今後の研究とツール強化の必要性が示唆された。
In 2023, Sonatype reported a 200\% increase in software supply chain attacks, including major build infrastructure attacks. To secure the software supply chain, practitioners can follow security framework guidance like the Supply-chain Levels for Software Artifacts (SLSA). However, recent surveys and industry summits have shown that despite growing interest, the adoption of SLSA is not widespread. To understand adoption challenges, \textit{the goal of this study is to aid framework authors and practitioners in improving the adoption and development of Supply-Chain Levels for Software Artifacts (SLSA) through a qualitative study of SLSA-related issues on GitHub}. We analyzed 1,523 SLSA-related issues extracted from 233 GitHub repositories. We conducted a topic-guided thematic analysis, leveraging the Latent Dirichlet Allocation (LDA) unsupervised machine learning algorithm, to explore the challenges of adopting SLSA and the strategies for overcoming these challenges. We identified four significant challenges and five suggested adoption strategies. The two main challenges reported are complex implementation and unclear communication, highlighting the difficulties in implementing and understanding the SLSA process across diverse ecosystems. The suggested strategies include streamlining provenance generation processes, improving the SLSA verification process, and providing specific and detailed documentation. Our findings indicate that some strategies can help mitigate multiple challenges, and some challenges need future research and tool enhancement. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 統一外資員確保・要求戦略
Unified External Stakeholder Engagement and Requirements Strategy ( http://arxiv.org/abs/2409.05019v1 ) ライセンス: Link先を確認 | Ahmed Abdulaziz Alnhari, Rizwan Qureshi, | (参考訳) ステークホルダーの重要性はプロジェクトによって異なるので、ステークホルダーのニーズを理解することはプロジェクトの成功に不可欠です。
本研究では,プロジェクトライフサイクル全体を通じて,利害関係者の早期識別と継続的な関与のための枠組みを提案する。
このフレームワークは、ステークホルダーのコミュニケーションにおける共通の組織的失敗に対処し、プロジェクトの遅延とキャンセルにつながる。
影響と関心によってステークホルダを分類し、明確なコミュニケーションチャネルを確立し、定期的にフィードバックループを実装することで、このフレームワークは、ステークホルダーの効果的な関与を保証する。
このアプローチは、必要なプロジェクト調整を可能にし、IT専門家の調査によって検証された長期的な関係を構築します。
あらゆる段階でステークホルダーを戦略的に獲得することは誤解やプロジェクトのリスクを最小限にし、より良いプロジェクト管理とライフサイクルの結果に寄与します。
Understanding stakeholder needs is essential for project success, as stakeholder importance varies across projects. This study proposes a framework for early stakeholder identification and continuous engagement throughout the project lifecycle. The framework addresses common organizational failures in stakeholder communication that lead to project delays and cancellations. By classifying stakeholders by influence and interest, establishing clear communication channels, and implementing regular feedback loops, the framework ensures effective stakeholder involvement. This approach allows for necessary project adjustments and builds long-term relationships, validated by a survey of IT professionals. Engaging stakeholders strategically at all stages minimizes misunderstandings and project risks, contributing to better project management and lifecycle outcomes. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 視覚融合攻撃: ニューラルネットワーク翻訳に対する攻撃的・頑健な敵対的テキストの促進
Vision-fused Attack: Advancing Aggressive and Stealthy Adversarial Text against Neural Machine Translation ( http://arxiv.org/abs/2409.05021v1 ) ライセンス: Link先を確認 | Yanni Xue, Haojie Hao, Jiakai Wang, Qiang Sheng, Renshuai Tao, Yu Liang, Pu Feng, Xianglong Liu, | (参考訳) ニューラルネットワーク翻訳(NMT)モデルは私たちの日常生活で成功する一方で、敵の攻撃に対する脆弱性を示す。
有害であるにもかかわらず、これらの攻撃はNMTモデルの解釈と強化の利点も提供し、研究の注目を集めた。
しかし,既存の対人攻撃研究は,言語の範囲にのみ焦点をあてているため,攻撃能力と人間の知覚能力の両方において不十分である。
本稿では、より攻撃的でステルス的な強力な敵対的テキストを取得するために、新しい視覚融合攻撃(VFA)フレームワークを提案する。
攻撃能力に関して、我々は、限られたセマンティック・ソリューション・スペースを拡大するために、視覚統合されたソリューション・スペース拡張戦略を設計し、より高い攻撃能力を持つ敵候補を探索することを可能にする。
そこで本研究では,人間の文字読解機構を整列させるために,認識に拘束されたテキスト選択戦略を提案する。
したがって、最終的に選択された敵対的文章は、より欺くことができる。
LLaMAやGPT-3.5のような大規模言語モデル(LLM)を含む様々なモデルに対する大規模な実験は、VFAが大きなマージン(ASR/SSIMでは最大81%/14%改善)で比較を上回っていることを強く支持している。
While neural machine translation (NMT) models achieve success in our daily lives, they show vulnerability to adversarial attacks. Despite being harmful, these attacks also offer benefits for interpreting and enhancing NMT models, thus drawing increased research attention. However, existing studies on adversarial attacks are insufficient in both attacking ability and human imperceptibility due to their sole focus on the scope of language. This paper proposes a novel vision-fused attack (VFA) framework to acquire powerful adversarial text, i.e., more aggressive and stealthy. Regarding the attacking ability, we design the vision-merged solution space enhancement strategy to enlarge the limited semantic solution space, which enables us to search for adversarial candidates with higher attacking ability. For human imperceptibility, we propose the perception-retained adversarial text selection strategy to align the human text-reading mechanism. Thus, the finally selected adversarial text could be more deceptive. Extensive experiments on various models, including large language models (LLMs) like LLaMA and GPT-3.5, strongly support that VFA outperforms the comparisons by large margins (up to 81%/14% improvements on ASR/SSIM). | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 多次元埋め込みを用いた適応ロバスト注意による逐次レコメンデーション
Sequential Recommendation via Adaptive Robust Attention with Multi-dimensional Embeddings ( http://arxiv.org/abs/2409.05022v1 ) ライセンス: Link先を確認 | Linsey Pang, Amir Hossein Raffiee, Wei Liu, Keld Lundgaard, | (参考訳) 逐次レコメンデーションモデルは自己認識機構を用いて最先端のパフォーマンスを達成した。
その後、アイテムIDと位置埋め込みのみを用いることで、次の項目を予測する際にかなりの精度が向上することが判明した。
近年の文献では、ユーザの多様な行動パターンを捉えるために、時間的コンテキストカーネルを組み込んだ多次元カーネルが大幅に性能改善をもたらすことが報告されている。
本研究では,レイヤワイドノイズインジェクション(LNI)正則化を用いたミックスアテンション機構を導入することにより,シーケンシャルレコメンダモデルの堅牢性と一般化をさらに改善する。
提案モデルについて,適応的ロバストシーケンシャルレコメンデーションフレームワーク (ADRRec) として言及し,本モデルが既存の自己意識アーキテクチャより優れていることを示す。
Sequential recommendation models have achieved state-of-the-art performance using self-attention mechanism. It has since been found that moving beyond only using item ID and positional embeddings leads to a significant accuracy boost when predicting the next item. In recent literature, it was reported that a multi-dimensional kernel embedding with temporal contextual kernels to capture users' diverse behavioral patterns results in a substantial performance improvement. In this study, we further improve the sequential recommender model's robustness and generalization by introducing a mix-attention mechanism with a layer-wise noise injection (LNI) regularization. We refer to our proposed model as adaptive robust sequential recommendation framework (ADRRec), and demonstrate through extensive experiments that our model outperforms existing self-attention architectures. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# 新たな停止時間解析による非凸最適化のためのAdaGradの漸近的・非漸近的収束解析
Asymptotic and Non-Asymptotic Convergence Analysis of AdaGrad for Non-Convex Optimization via Novel Stopping Time-based Analysis ( http://arxiv.org/abs/2409.05023v1 ) ライセンス: Link先を確認 | Ruinan Jin, Xiaoyu Wang, Baoxiang Wang, | (参考訳) アダプティブ・オプティマイザは、反復的な勾配に基づいて学習率を動的に調整する、ディープラーニングの強力なツールとして登場した。
これらの適応的手法は、確率勾配降下(SGD)よりも優れた、様々な深層学習タスクに大きく成功している。
しかし、AdaGradは土台適応最適化器であるが、その理論解析は非凸最適化における漸近収束率と非漸近収束率に対処するには不十分である。
本研究の目的は,AdaGradの総合的な分析と全体像を提供することである。
まず,AdaGradの標準バージョンに対する安定性を確立するために,確率論的理論から新しい停止時間手法を導入する。
さらに、漸近収束の2つの形式、ほぼ確実かつ平均二乗を導出する。
さらに,予測における平均二乗勾配によって測定された近近近近近近近近近近近近近近近近近近収束速度を,軽度仮定の下では,既存の高確率結果よりも希に探索され,強固であることを示す。
この研究で開発された技術は、他の適応確率的アルゴリズムの将来の研究には、潜在的に無関心である。
Adaptive optimizers have emerged as powerful tools in deep learning, dynamically adjusting the learning rate based on iterative gradients. These adaptive methods have significantly succeeded in various deep learning tasks, outperforming stochastic gradient descent (SGD). However, although AdaGrad is a cornerstone adaptive optimizer, its theoretical analysis is inadequate in addressing asymptotic convergence and non-asymptotic convergence rates on non-convex optimization. This study aims to provide a comprehensive analysis and complete picture of AdaGrad. We first introduce a novel stopping time technique from probabilistic theory to establish stability for the norm version of AdaGrad under milder conditions. We further derive two forms of asymptotic convergence: almost sure and mean-square. Furthermore, we demonstrate the near-optimal non-asymptotic convergence rate measured by the average-squared gradients in expectation, which is rarely explored and stronger than the existing high-probability results, under the mild assumptions. The techniques developed in this work are potentially independent of interest for future research on other adaptive stochastic algorithms. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# ノイズラベルを用いた医用画像分割のためのディープセルフクリーニング
Deep Self-cleansing for Medical Image Segmentation with Noisy Labels ( http://arxiv.org/abs/2409.05024v1 ) ライセンス: Link先を確認 | Jiahua Dong, Yue Zhang, Qiuli Wang, Ruofeng Tong, Shihong Ying, Shaolin Gong, Xuanpu Zhang, Lanfen Lin, Yen-Wei Chen, | (参考訳) 医用画像のセグメンテーションは、疾患の診断と手術計画を支援する医療画像の分野で重要である。
確立されたセグメンテーション手法の多くは教師付きディープラーニングに依存しており、クリーンで正確なラベルは監督に不可欠であり、モデルの性能に大きな影響を及ぼす。
しかし、手動でデライニングされたラベルは、しばしばノイズを含む。例えば、ラベルの欠如や境界のデライニングは、ネットワークがターゲット特性を正しくモデル化することを妨げる。
本稿では,学習段階におけるノイズを除去しながら,クリーンなラベルを保存できるディープ・セルフクリーン化・セグメンテーション・フレームワークを提案する。
そこで我々は,ノイズラベルとクリーンラベルを区別するガウス混合モデルに基づくラベルフィルタリングモジュールを考案した。
さらに,特定ノイズサンプルに対して擬似低雑音ラベルを生成するラベル浄化モジュールを開発した。
保存されたクリーンラベルと擬似ラベルは、ネットワークを監督するために共同で使用される。
本手法は, 臨床肝腫瘍データセットと心臓診断データセットに基づいて, ノイズラベルからの干渉を効果的に抑制し, セグメンテーション性能を著しく向上させることができる。
Medical image segmentation is crucial in the field of medical imaging, aiding in disease diagnosis and surgical planning. Most established segmentation methods rely on supervised deep learning, in which clean and precise labels are essential for supervision and significantly impact the performance of models. However, manually delineated labels often contain noise, such as missing labels and inaccurate boundary delineation, which can hinder networks from correctly modeling target characteristics. In this paper, we propose a deep self-cleansing segmentation framework that can preserve clean labels while cleansing noisy ones in the training phase. To achieve this, we devise a gaussian mixture model-based label filtering module that distinguishes noisy labels from clean labels. Additionally, we develop a label cleansing module to generate pseudo low-noise labels for identified noisy samples. The preserved clean labels and pseudo-labels are then used jointly to supervise the network. Validated on a clinical liver tumor dataset and a public cardiac diagnosis dataset, our method can effectively suppress the interference from noisy labels and achieve prominent segmentation performance. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# GUIテストマイグレーションのためのLLMによる抽象化と拡張
LLM-based Abstraction and Concretization for GUI Test Migration ( http://arxiv.org/abs/2409.05028v1 ) ライセンス: Link先を確認 | Yakun Zhang, Chen Liu, Xiaofei Xie, Yun Lin, Jin Song Dong, Dan Hao, Lu Zhang, | (参考訳) GUIテストマイグレーションは、ターゲットアプリの特定の機能をテストするために、イベントとアサーションを備えたテストケースを生成することを目的としている。
既存のマイグレーションアプローチは通常、ウィジェットをソースアプリからターゲットアプリにマップするウィジェットマッピングパラダイムに重点を置いている。
しかし、異なるアプリが同じ機能を異なる方法で実装する可能性があるため、ダイレクトマッピングは不完全あるいはバグの多いテストケースをもたらす可能性があるため、ターゲット機能のテストの有効性と実用性に大きな影響を及ぼす。
本稿では,まず対象機能に対するテストロジックを抽象化し,このロジックを用いて具体的なGUIテストケースを生成する,新しいマイグレーションパラダイム(抽象-拡張パラダイム)を提案する。
さらに、このパラダイムに基づいてGUIテストケースを移行する最初のアプローチであるMACdroidを紹介します。
具体的には、同じ機能をターゲットにしたソースアプリからソーステストケースを利用して、その機能のための一般的なテストロジックを抽出する抽象化手法を提案する。
そこで,本研究では,汎用テストロジックを用いてGUIテストケース(イベントやアサーションを含む)をターゲットアプリに生成する際にLCMを誘導する手法を提案する。
MACdroidを2つの広く使われているデータセット(31のアプリ、34の機能、123のテストケースを含む)で評価した。
FrUITeRデータセットでは、MACdroidが生成したテストケースがターゲット機能の64%をテストし、ベースラインを191%改善した。
Linデータセットでは、MACdroidがターゲット機能の75%をテストし、ベースラインを42%上回った。
これらの結果はGUIテストマイグレーションにおけるMACdroidの有効性を裏付けるものである。
GUI test migration aims to produce test cases with events and assertions to test specific functionalities of a target app. Existing migration approaches typically focus on the widget-mapping paradigm that maps widgets from source apps to target apps. However, since different apps may implement the same functionality in different ways, direct mapping may result in incomplete or buggy test cases, thus significantly impacting the effectiveness of testing target functionality and the practical applicability. In this paper, we propose a new migration paradigm (i.e., abstraction-concretization paradigm) that first abstracts the test logic for the target functionality and then utilizes this logic to generate the concrete GUI test case. Furthermore, we introduce MACdroid, the first approach that migrates GUI test cases based on this paradigm. Specifically, we propose an abstraction technique that utilizes source test cases from source apps targeting the same functionality to extract a general test logic for that functionality. Then, we propose a concretization technique that utilizes the general test logic to guide an LLM in generating the corresponding GUI test case (including events and assertions) for the target app. We evaluate MACdroid on two widely-used datasets (including 31 apps, 34 functionalities, and 123 test cases). On the FrUITeR dataset, the test cases generated by MACdroid successfully test 64% of the target functionalities, improving the baselines by 191%. On the Lin dataset, MACdroid successfully tests 75% of the target functionalities, outperforming the baselines by 42%. These results underscore the effectiveness of MACdroid in GUI test migration. | 翻訳日:2024-09-10 19:40:09 公開日:2024-09-08 |
# ニューラルネットワークの安定性,一貫性,収束性に関するいくつかの結果:非IIDデータ,高次元設定,物理インフォームドニューラルネットワークの考察
Some Results on Neural Network Stability, Consistency, and Convergence: Insights into Non-IID Data, High-Dimensional Settings, and Physics-Informed Neural Networks ( http://arxiv.org/abs/2409.05030v1 ) ライセンス: Link先を確認 | Ronald Katende, Henry Kasumba, Godwin Kakuba, John M. Mango, | (参考訳) 本稿では,機械学習における重要な課題,特に非IIDデータに基づくニューラルネットワークの安定性,一貫性,収束性,分布シフト,高次元設定について論じる。
非凸条件下での動的学習率を持つニューラルネットワークの均一安定性に関する新しい理論的結果を提供する。
さらに,非ユークリッド空間におけるフェデレート学習モデルの整合性境界を確立し,分布シフトと曲率効果を考慮に入れた。
物理インフォームドニューラルネットワーク(PINN)では、雑音環境下での部分微分方程式(PDE)を解くための安定性、一貫性、収束保証を導出する。
これらの結果は、複雑で非理想的な条件下でのモデル行動理解において大きなギャップを埋め、より堅牢で信頼性の高い機械学習アプリケーションへの道を開く。
This paper addresses critical challenges in machine learning, particularly the stability, consistency, and convergence of neural networks under non-IID data, distribution shifts, and high-dimensional settings. We provide new theoretical results on uniform stability for neural networks with dynamic learning rates in non-convex settings. Further, we establish consistency bounds for federated learning models in non-Euclidean spaces, accounting for distribution shifts and curvature effects. For Physics-Informed Neural Networks (PINNs), we derive stability, consistency, and convergence guarantees for solving Partial Differential Equations (PDEs) in noisy environments. These results fill significant gaps in understanding model behavior in complex, non-ideal conditions, paving the way for more robust and reliable machine learning applications. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 音声スポーフィングとディープフェイク検出のためのWavLMバックエンド探索
Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection ( http://arxiv.org/abs/2409.05032v1 ) ライセンス: Link先を確認 | Theophile Stourbe, Victor Miara, Theo Lepage, Reda Dehak, | (参考訳) 本稿では,ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - Open Conditionについて述べる。
近年,大規模自己教師型モデルが音声認識(ASR)やその他の音声処理タスクの標準となっている。
そこで我々は,事前学習したWavLMをフロントエンドモデルとして利用し,その表現を異なるバックエンド技術でプールする。
完全なフレームワークは、クローズ条件と同様に、チャレンジのトレーニング済みデータセットのみを使用して微調整される。
さらに、MUSANノイズとRIRデータセットを用いて、ノイズと残響を追加することで、データ拡張を採用する。
また,提案手法の性能向上のためにコーデック拡張実験を行った。
最終的に、スコアキャリブレーションとシステム融合のためにBosarisツールキットを使用し、より優れたCllrスコアを得る。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
This paper describes our submitted systems to the ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - Open Condition, which consists of a stand-alone speech deepfake (bonafide vs spoof) detection task. Recently, large-scale self-supervised models become a standard in Automatic Speech Recognition (ASR) and other speech processing tasks. Thus, we leverage a pre-trained WavLM as a front-end model and pool its representations with different back-end techniques. The complete framework is fine-tuned using only the trained dataset of the challenge, similar to the close condition. Besides, we adopt data-augmentation by adding noise and reverberation using MUSAN noise and RIR datasets. We also experiment with codec augmentations to increase the performance of our method. Ultimately, we use the Bosaris toolkit for score calibration and system fusion to get better Cllr scores. Our fused system achieves 0.0937 minDCF, 3.42% EER, 0.1927 Cllr, and 0.1375 actDCF. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# リコメンダシステムの拡散モデルに関する調査研究
A Survey on Diffusion Models for Recommender Systems ( http://arxiv.org/abs/2409.05033v1 ) ライセンス: Link先を確認 | Jianghao Lin, Jiaqi Liu, Jiachen Zhu, Yunjia Xi, Chengkai Liu, Yangtian Zhang, Yong Yu, Weinan Zhang, | (参考訳) 従来のレコメンデーション技術はここ数十年で大きな進歩を遂げてきたが、いまだに、不十分な協調信号、弱い潜在表現、ノイズの多いデータなどの要因によって引き起こされる、限定的な一般化性能に悩まされている。
これに対し拡散モデル (DM) は, 強靭な生成能力, 固形理論的基礎, 訓練安定性の向上などにより, 推薦システムに対する有望な解決策として現れてきた。
そこで本論文では,提案する拡散モデルに関する総合的な調査を行い,実世界のレコメンデータシステムにおけるパイプライン全体の観点から鳥の目視図を作成する。
既存の研究成果を,(1)データエンジニアリングとエンコーディングのための拡散,(2)データ拡張と表現強調に焦点を当てた拡散,(2)レコメンダモデルとしての拡散,(2)ユーザの嗜好やランク項目を直接推定するための拡散モデルを用いた拡散,(3)コンテンツ提示のための拡散,(3)ファッションや広告の創造といったパーソナライズされたコンテンツを生成するための拡散モデル,の3つの主要な領域に分類する。
我々の分類学は、複雑なデータ分布を捕捉し、ユーザの好みと密接に一致した高品質で多様なサンプルを生成する上で、拡散モデルのユニークな長所を強調している。
また, 適応拡散モデルの中核的な特徴を要約し, さらに今後の探究の要点を明らかにし, 拡散モデルの革新的応用を通じて, 推奨システムを推し進めようとする研究者や実践者にとってのロードマップの確立に寄与する。
拡散モデルに基づくレコメンデータシステムのリサーチコミュニティをさらに促進するために、この上昇する方向 https://github.com/CHIANGEL/Awesome-Diffusion-for-RecSys で、論文やその他の関連リソースのためのGitHubリポジトリを積極的に維持しています。
While traditional recommendation techniques have made significant strides in the past decades, they still suffer from limited generalization performance caused by factors like inadequate collaborative signals, weak latent representations, and noisy data. In response, diffusion models (DMs) have emerged as promising solutions for recommender systems due to their robust generative capabilities, solid theoretical foundations, and improved training stability. To this end, in this paper, we present the first comprehensive survey on diffusion models for recommendation, and draw a bird's-eye view from the perspective of the whole pipeline in real-world recommender systems. We systematically categorize existing research works into three primary domains: (1) diffusion for data engineering & encoding, focusing on data augmentation and representation enhancement; (2) diffusion as recommender models, employing diffusion models to directly estimate user preferences and rank items; and (3) diffusion for content presentation, utilizing diffusion models to generate personalized content such as fashion and advertisement creatives. Our taxonomy highlights the unique strengths of diffusion models in capturing complex data distributions and generating high-quality, diverse samples that closely align with user preferences. We also summarize the core characteristics of the adapting diffusion models for recommendation, and further identify key areas for future exploration, which helps establish a roadmap for researchers and practitioners seeking to advance recommender systems through the innovative application of diffusion models. To further facilitate the research community of recommender systems based on diffusion models, we actively maintain a GitHub repository for papers and other related resources in this rising direction https://github.com/CHIANGEL/Awesome-Diffusion-for-RecSys. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 領域一般化異常音検出のための深部ジェネリック表現
Deep Generic Representations for Domain-Generalized Anomalous Sound Detection ( http://arxiv.org/abs/2409.05035v1 ) ライセンス: Link先を確認 | Phurich Saengthong, Takahiro Shinozaki, | (参考訳) 信頼性のある異常音検出(ASD)システムの開発には、雑音に対する堅牢性、領域シフトへの適応、限られた訓練データによる効果的な性能が必要である。
現在のリード手法は、各ターゲットマシンタイプごとに広範囲なラベル付きデータを使用して、OE(Outlier-Exposure)技術を用いて特徴抽出器を訓練するが、ターゲットドメインでのそれらのパフォーマンスは依然として準最適である。
本稿では,ドメイン一般化型ASDのためのkNNと組み合わされた,堅牢で大規模な事前学習型特徴抽出器の汎用的特徴表現を,微調整を必要とせず利用した \textit{GenRep} を提案する。
MemMixupは、最も近いソースサンプルを使用してターゲットメモリバンクを拡張するシンプルなアプローチで、ソースとターゲットドメインの不均衡に対処するために、ドメインの正規化技術と組み合わせている。
textit{GenRep}は、DCASE2023T2 Evalセットで73.79\%のオフィシャルスコアを持つラベル付きデータを必要とせずに、最高のOEベースのアプローチを上回り、限られたデータシナリオ下で堅牢性を示す。
コードはオープンソースで公開されている。
Developing a reliable anomalous sound detection (ASD) system requires robustness to noise, adaptation to domain shifts, and effective performance with limited training data. Current leading methods rely on extensive labeled data for each target machine type to train feature extractors using Outlier-Exposure (OE) techniques, yet their performance on the target domain remains sub-optimal. In this paper, we present \textit{GenRep}, which utilizes generic feature representations from a robust, large-scale pre-trained feature extractor combined with kNN for domain-generalized ASD, without the need for fine-tuning. \textit{GenRep} incorporates MemMixup, a simple approach for augmenting the target memory bank using nearest source samples, paired with a domain normalization technique to address the imbalance between source and target domains. \textit{GenRep} outperforms the best OE-based approach without a need for labeled data with an Official Score of 73.79\% on the DCASE2023T2 Eval set and demonstrates robustness under limited data scenarios. The code is available open-source. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 多レベル平衡最適化を用いた教師なしマルチモーダル3次元医用画像登録
Unsupervised Multimodal 3D Medical Image Registration with Multilevel Correlation Balanced Optimization ( http://arxiv.org/abs/2409.05040v1 ) ライセンス: Link先を確認 | Jiazheng Wang, Xiang Chen, Yuxi Zhang, Min Liu, Yaonan Wang, Hang Zhang, | (参考訳) 多モーダル画像登録に基づく手術ナビゲーションは,術中における標的領域の相対的な位置を重要な解剖学的構造に示すことにより,外科医に術中指導を提供する上で重要な役割を担っている。
しかし, 術中の組織変位と除去による術中画像の変形とマルチモーダル画像の違いにより, 術中および術中マルチモーダル画像の有効登録は大きな課題に直面した。
Learn2Reg 2024のマルチモーダル画像登録問題に対処するために,MCBO(Multilevel correlation balanced optimization)に基づく教師なしマルチモーダル医用画像登録手法を設計した。
まず、モダリティ独立近所記述子に基づいて各モダリティの特徴を抽出し、特徴空間にマルチモーダル画像をマッピングする。
第二に,多段階のピラミッド融合最適化機構は,重み付き相関解析と重み付き結合凸最適化により,大域的最適化と変形場の局所的詳細補完を実現するように設計されている。
異なるモダリティの術前医療画像に対して、異なるモダリティ間の有効情報のアライメントと積み重ねは、変形場間の最大融合によって達成される。
本稿では,Learner2Reg 2024におけるReMIND2Regタスクに着目し,その汎用性を検証するため,COMULIS3DCLEMタスクでテストした。
その結果,本手法は両課題の検証において第2位となった。
Surgical navigation based on multimodal image registration has played a significant role in providing intraoperative guidance to surgeons by showing the relative position of the target area to critical anatomical structures during surgery. However, due to the differences between multimodal images and intraoperative image deformation caused by tissue displacement and removal during the surgery, effective registration of preoperative and intraoperative multimodal images faces significant challenges. To address the multimodal image registration challenges in Learn2Reg 2024, an unsupervised multimodal medical image registration method based on multilevel correlation balanced optimization (MCBO) is designed to solve these problems. First, the features of each modality are extracted based on the modality independent neighborhood descriptor, and the multimodal images is mapped to the feature space. Second, a multilevel pyramidal fusion optimization mechanism is designed to achieve global optimization and local detail complementation of the deformation field through dense correlation analysis and weight-balanced coupled convex optimization for input features at different scales. For preoperative medical images in different modalities, the alignment and stacking of valid information between different modalities is achieved by the maximum fusion between deformation fields. Our method focuses on the ReMIND2Reg task in Learn2Reg 2024, and to verify the generality of the method, we also tested it on the COMULIS3DCLEM task. Based on the results, our method achieved second place in the validation of both two tasks. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 大規模言語モデルを用いたセキュリティイベントログからのテンプレート検出
Using Large Language Models for Template Detection from Security Event Logs ( http://arxiv.org/abs/2409.05045v1 ) ライセンス: Link先を確認 | Risto Vaarandi, Hayretdin Bahsi, | (参考訳) 現代のITシステムやコンピュータネットワークでは、リアルタイムおよびオフラインのイベントログ分析がサイバーセキュリティ監視の重要な部分である。
特に、サイバー攻撃のタイムリーな検出や、過去のセキュリティインシデントの分析におけるセキュリティ専門家の支援には、イベントログ分析技術が不可欠である。
非構造化のテキストイベントログから行パターンやテンプレートを検出することは、検出されたテンプレートがイベントログ内のイベントタイプを表現し、ダウンストリームのオンラインまたはオフラインのセキュリティ監視タスクのためのログを作成するため、イベントログ分析の重要なタスクとして特定されている。
過去20年間、多くのテンプレートマイニングアルゴリズムが提案されてきた。
しかし、多くの提案アルゴリズムは従来のデータマイニング技術に依存しており、LLM(Large Language Models)の使用は今のところあまり注目されていない。
また, LLMを利用するほとんどのアプローチが監督されており, 教師なし LLM ベースのテンプレートマイニングは未調査領域として残されている。
本論文は、この研究ギャップに対処し、構造化されていないセキュリティイベントログからのテンプレートの教師なし検出におけるLLMの適用について検討する。
In modern IT systems and computer networks, real-time and offline event log analysis is a crucial part of cyber security monitoring. In particular, event log analysis techniques are essential for the timely detection of cyber attacks and for assisting security experts with the analysis of past security incidents. The detection of line patterns or templates from unstructured textual event logs has been identified as an important task of event log analysis since detected templates represent event types in the event log and prepare the logs for downstream online or offline security monitoring tasks. During the last two decades, a number of template mining algorithms have been proposed. However, many proposed algorithms rely on traditional data mining techniques, and the usage of Large Language Models (LLMs) has received less attention so far. Also, most approaches that harness LLMs are supervised, and unsupervised LLM-based template mining remains an understudied area. The current paper addresses this research gap and investigates the application of LLMs for unsupervised detection of templates from unstructured security event logs. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 加齢黄斑変性モデルマウスにおける網膜下病変重症度に関連する鍵遺伝子の機械学習による予測
Machine Learning-Based Prediction of Key Genes Correlated to the Subretinal Lesion Severity in a Mouse Model of Age-Related Macular Degeneration ( http://arxiv.org/abs/2409.05047v1 ) ライセンス: Link先を確認 | Kuan Yan, Yue Zeng, Dai Shi, Ting Zhang, Dmytro Matsypura, Mark C. Gillies, Ling Zhu, Junbin Gao, | (参考訳) 加齢関連黄斑変性症(AMD)は、高齢者の視力障害の主要な原因であり、視力や生活の質に深刻な影響を及ぼす。
AMDの理解の進歩にもかかわらず、網膜下傷(線維症)の重症度を誘導する分子的要因は解離性であり、効果的な治療法の開発を妨げている。
本研究は, 病変の重症度に強く相関するキー遺伝子を予測し, 網膜下線維症を予防するための治療標的を同定するための機械学習ベースのフレームワークを提案する。
JR5558マウスの病原性網膜からのRNAシークエンシング(RNA-seq)データセットを用いて、経路に基づく次元減少と遺伝子に基づく特徴拡張を含む、新規で特異的な特徴工学手法を開発し、予測精度を高めた。
RidgeとElasticNetの回帰モデルを利用して2つの反復実験を行い、生物学的関連性と遺伝子の影響を評価した。
その結果、いくつかの重要な遺伝子の生物学的意義を強調し、新規な治療標的の同定におけるフレームワークの有効性を実証した。
重要な発見は、薬物発見の進歩とAMDの治療戦略の改善に有用な知見を提供するとともに、網膜下病変発生の基盤となる遺伝子機構を標的として、患者の成果を向上する可能性がある。
Age-related macular degeneration (AMD) is a major cause of blindness in older adults, severely affecting vision and quality of life. Despite advances in understanding AMD, the molecular factors driving the severity of subretinal scarring (fibrosis) remain elusive, hampering the development of effective therapies. This study introduces a machine learning-based framework to predict key genes that are strongly correlated with lesion severity and to identify potential therapeutic targets to prevent subretinal fibrosis in AMD. Using an original RNA sequencing (RNA-seq) dataset from the diseased retinas of JR5558 mice, we developed a novel and specific feature engineering technique, including pathway-based dimensionality reduction and gene-based feature expansion, to enhance prediction accuracy. Two iterative experiments were conducted by leveraging Ridge and ElasticNet regression models to assess biological relevance and gene impact. The results highlight the biological significance of several key genes and demonstrate the framework's effectiveness in identifying novel therapeutic targets. The key findings provide valuable insights for advancing drug discovery efforts and improving treatment strategies for AMD, with the potential to enhance patient outcomes by targeting the underlying genetic mechanisms of subretinal lesion development. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# ソフトウェア工学における大規模言語モデル導入における文化的価値の役割の検討
Investigating the Role of Cultural Values in Adopting Large Language Models for Software Engineering ( http://arxiv.org/abs/2409.05055v1 ) ライセンス: Link先を確認 | Stefano Lambiase, Gemma Catolino, Fabio Palomba, Filomena Ferrucci, Daniel Russo, | (参考訳) 社会技術的活動として、ソフトウェア開発は人々と技術の密接な相互接続を伴う。
このプロセスへのLLM(Large Language Models)の統合は、ソフトウェア開発の社会技術的性質を実証している。
LLMは開発プロセスに影響を及ぼすが、ソフトウェア開発は基本的に人間中心であり、この採用における人的要因の調査が必要である。
そこで本研究では,ソフトウェア開発におけるLLMの導入に影響を及ぼす要因について考察し,専門家の文化的価値観の役割に着目した。
統一技術受容・利用理論(UTAUT2)とホフステデの文化的側面に導かれ、文化価値はUTAUT2フレームワーク内の関係を緩やかにしていると仮定した。
188人のソフトウェアエンジニアから得られた部分最小二乗-構造方程式モデリングとデータから,LCM導入の主な要因は習慣とパフォーマンスの期待度であることがわかった。
これらの結果は、LCMがパフォーマンスと効率をどのように向上させるかを強調することで、文化の違いにかかわらず、組織は彼らの利用を促進することができることを示唆している。
実践的なステップとしては、LLMのメリットを示すトレーニングプログラムの提供、定期的な使用を支援する環境の構築、LLMの使用によるパフォーマンス改善の継続的な追跡と共有などがある。
As a socio-technical activity, software development involves the close interconnection of people and technology. The integration of Large Language Models (LLMs) into this process exemplifies the socio-technical nature of software development. Although LLMs influence the development process, software development remains fundamentally human-centric, necessitating an investigation of the human factors in this adoption. Thus, with this study we explore the factors influencing the adoption of LLMs in software development, focusing on the role of professionals' cultural values. Guided by the Unified Theory of Acceptance and Use of Technology (UTAUT2) and Hofstede's cultural dimensions, we hypothesized that cultural values moderate the relationships within the UTAUT2 framework. Using Partial Least Squares-Structural Equation Modelling and data from 188 software engineers, we found that habit and performance expectancy are the primary drivers of LLM adoption, while cultural values do not significantly moderate this process. These findings suggest that, by highlighting how LLMs can boost performance and efficiency, organizations can encourage their use, no matter the cultural differences. Practical steps include offering training programs to demonstrate LLM benefits, creating a supportive environment for regular use, and continuously tracking and sharing performance improvements from using LLMs. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# パーセルロッカーの動的需要管理
Dynamic Demand Management for Parcel Lockers ( http://arxiv.org/abs/2409.05061v1 ) ライセンス: Link先を確認 | Daniela Sailer, Robert Klein, Claudius Steinhardt, | (参考訳) より持続的で費用効率のよいラストマイルを追求する中で、パーセルロッカーは、パーセル配達の現場で確固たる足場を築き上げてきた。
その可能性を完全に活用し、同時に顧客満足度を確保するために、ロッカーの限られた容量の管理を成功させることが不可欠である。
将来のデリバリ要求とピックアップ時間がプロバイダの観点から確率的であるため、これは難しいことです。
そこで本研究では,プライオリティによって重み付けされたサービス要求数の最大化を目標として,受信した顧客に対して,ロッカーが利用可能な配送オプションとして提供されるかどうかを動的に制御することを提案する。
さらに、デリバリに予定されるパーセルを割り当てる必要があるため、第2のタイプの決定を必要とする、さまざまなコンパートメントサイズを考慮に入れています。
この問題を無限水平逐次決定問題として定式化し、次元の呪いによって正確な方法が難解であることが見いだされる。
そこで我々は,逐次決定分析と強化学習に根ざした複数のアルゴリズム手法,すなわちコスト関数近似とオフラインで訓練されたパラメトリック値関数近似を,オンラインロールアウトと合わせて編成するソリューションフレームワークを開発した。
これらのテクニックを組み合わせるための革新的なアプローチは、この2つの意思決定タイプ間の強い相互関係に対処する上で有効です。
一般的な方法論的貢献として、我々は値関数の構造を強制する経験リプレイの修正版を用いて、値関数近似のトレーニングを強化する。
本手法は筋電図のベンチマークを13.7%上回り、業界に触発された政策を12.6%上回る結果となった。
In pursuit of a more sustainable and cost-efficient last mile, parcel lockers have gained a firm foothold in the parcel delivery landscape. To fully exploit their potential and simultaneously ensure customer satisfaction, successful management of the locker's limited capacity is crucial. This is challenging as future delivery requests and pickup times are stochastic from the provider's perspective. In response, we propose to dynamically control whether the locker is presented as an available delivery option to each incoming customer with the goal of maximizing the number of served requests weighted by their priority. Additionally, we take different compartment sizes into account, which entails a second type of decision as parcels scheduled for delivery must be allocated. We formalize the problem as an infinite-horizon sequential decision problem and find that exact methods are intractable due to the curses of dimensionality. In light of this, we develop a solution framework that orchestrates multiple algorithmic techniques rooted in Sequential Decision Analytics and Reinforcement Learning, namely cost function approximation and an offline trained parametric value function approximation together with a truncated online rollout. Our innovative approach to combine these techniques enables us to address the strong interrelations between the two decision types. As a general methodological contribution, we enhance the training of our value function approximation with a modified version of experience replay that enforces structure in the value function. Our computational study shows that our method outperforms a myopic benchmark by 13.7% and an industry-inspired policy by 12.6%. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# ロバストポイントクラウド登録のための視線制約
Sight View Constraint for Robust Point Cloud Registration ( http://arxiv.org/abs/2409.05065v1 ) ライセンス: Link先を確認 | Yaojie Zhang, Weijun Wang, Tianlun Huang, Zhiyong Wang, Wei Feng, | (参考訳) 部分的ポイントクラウド登録(部分的PCR)は、特に低い重複率を扱う場合、依然として難しい課題である。
フル・トゥ・フル・レジストメント・タスクと比較して、部分PCRの目的はまだ明確に定義されておらず、真の変換を確実に特定できる指標が存在しないことが分かる。
我々はこれを部分PCRタスクにおける最も根本的な課題とみなしている。
本稿では、最適な変換を直接求める代わりに、不正確な変換を確定的に識別し、既存のPCR法の堅牢性を高めるために、新規で一般的なSVC(Sight View Constraint)を提案する。
大規模な実験は、屋内および屋外の両方でSVCの有効性を検証する。
挑戦的な3DLoMatchデータセットでは、登録リコールが78\%から82\%に増加し、最先端の結果が得られます。
本研究は、部分PCRにおける決定バージョン問題の重要性を強調し、部分PCR問題に対する新たな洞察を提供する可能性がある。
Partial to Partial Point Cloud Registration (partial PCR) remains a challenging task, particularly when dealing with a low overlap rate. In comparison to the full-to-full registration task, we find that the objective of partial PCR is still not well-defined, indicating no metric can reliably identify the true transformation. We identify this as the most fundamental challenge in partial PCR tasks. In this paper, instead of directly seeking the optimal transformation, we propose a novel and general Sight View Constraint (SVC) to conclusively identify incorrect transformations, thereby enhancing the robustness of existing PCR methods. Extensive experiments validate the effectiveness of SVC on both indoor and outdoor scenes. On the challenging 3DLoMatch dataset, our approach increases the registration recall from 78\% to 82\%, achieving the state-of-the-art result. This research also highlights the significance of the decision version problem of partial PCR, which has the potential to provide novel insights into the partial PCR problem. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 分散型カーネルリッジ回帰のためのLepskii原理
Lepskii Principle for Distributed Kernel Ridge Regression ( http://arxiv.org/abs/2409.05070v1 ) ライセンス: Link先を確認 | Shao-Bo Lin, | (参考訳) ローカルデータを通信しないパラメータ選択は、分散学習において非常に困難であり、分散的に格納されたデータに対処する理論解析とそれの実践的応用の矛盾を排除している。
最近開発されたLepskii原則とカーネル学習のための非プライバシ通信プロトコルにより、分散カーネルリッジレグレッション(DKRR)を装備するLepskii原則を提案し、その結果、二重重み付け平均合成スキームを用いてLepskii原則(略してLep-AdaDKRR)を用いた適応DKRRを開発する。
我々はLep-AdaDKRRの最適学習率を推定し、Lep-AdaDKRRが回帰関数の正則性、実効次元減衰率、および一般化の異なる指標に適応することに成功することを示す。
Parameter selection without communicating local data is quite challenging in distributed learning, exhibing an inconsistency between theoretical analysis and practical application of it in tackling distributively stored data. Motivated by the recently developed Lepskii principle and non-privacy communication protocol for kernel learning, we propose a Lepskii principle to equip distributed kernel ridge regression (DKRR) and consequently develop an adaptive DKRR with Lepskii principle (Lep-AdaDKRR for short) by using a double weighted averaging synthesization scheme. We deduce optimal learning rates for Lep-AdaDKRR and theoretically show that Lep-AdaDKRR succeeds in adapting to the regularity of regression functions, effective dimension decaying rate of kernels and different metrics of generalization, which fills the gap of the mentioned inconsistency between theory and application. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 帯域フィードバックによるクラスタリングと分散マッチングのための一般的なフレームワーク
A General Framework for Clustering and Distribution Matching with Bandit Feedback ( http://arxiv.org/abs/2409.05072v1 ) ライセンス: Link先を確認 | Recep Can Yavas, Yuqi Huang, Vincent Y. F. Tan, Jonathan Scarlett, | (参考訳) 我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
我々は、$K$アームのサブセットを$M$グループに分割する$K$アームバンドモデルを考える。
各群の中で、各アームに関連するランダム変数は有限アルファベット上の同じ分布に従う。
各タイミングで、意思決定者は腕を引っ張り、その腕に関連するランダムな変数からその結果を観察する。
その後のアームプルは、アームプルの歴史と結果に依存する。
意思決定者は腕の分布や根底にある仕切りについて知識を持っていない。
課題は、平均で最小のアームプル数で、事前決定された値$\delta$を超えないエラー確率で腕の分割を学習するオンラインアルゴリズムを考案することである。
既存のいくつかの問題は、M$のアーム対、奇妙なアーム識別、M$のK$のクラスタリングなど、私たちの一般的なフレームワークに該当します。
誤り確率が$\delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
さらに,Track-and-Stop法とFrank-Wolfe法に基づく計算効率のよいオンラインアルゴリズムを開発した。
我々の洗練された分析は、アルゴリズムの平均的なアームプル数が、$\delta$が消えるにつれて、基本的限界に収束する速度に縛られる新しい現象も明らかにしている。
We develop a general framework for clustering and distribution matching problems with bandit feedback. We consider a $K$-armed bandit model where some subset of $K$ arms is partitioned into $M$ groups. Within each group, the random variable associated to each arm follows the same distribution on a finite alphabet. At each time step, the decision maker pulls an arm and observes its outcome from the random variable associated to that arm. Subsequent arm pulls depend on the history of arm pulls and their outcomes. The decision maker has no knowledge of the distributions of the arms or the underlying partitions. The task is to devise an online algorithm to learn the underlying partition of arms with the least number of arm pulls on average and with an error probability not exceeding a pre-determined value $\delta$. Several existing problems fall under our general framework, including finding $M$ pairs of arms, odd arm identification, and $M$-ary clustering of $K$ arms belong to our general framework. We derive a non-asymptotic lower bound on the average number of arm pulls for any online algorithm with an error probability not exceeding $\delta$. Furthermore, we develop a computationally-efficient online algorithm based on the Track-and-Stop method and Frank--Wolfe algorithm, and show that the average number of arm pulls of our algorithm asymptotically matches that of the lower bound. Our refined analysis also uncovers a novel bound on the speed at which the average number of arm pulls of our algorithm converges to the fundamental limit as $\delta$ vanishes. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# マイクロキャビティ集積のためのレーザー3次元小型モノリシックリニアポールトラップによるイオントラッピング
Ion Trapping with a Laser-written 3D Miniaturized Monolithic Linear Paul Trap for Microcavity Integration ( http://arxiv.org/abs/2409.05075v1 ) ライセンス: Link先を確認 | Soon Teh, Ezra Kassa, Shaobo Gao, Shuma Oya, Hiroki Takahashi, | (参考訳) イオントラップの小型化と電極の正確な配置は、効率的なイオン-キャビティカップリングを容易にするために微小キャビティの統合に必要である。
我々は,金でコーティングした溶融シリカを用いた小型モノリシックイオントラップを,高い開口率で提案する。
溶融シリカのブロックからトラップ構造を抽出するために、選択的レーザーエッチングと呼ばれるレーザ書き込み方法を用いる。
完全なモノリシックな構造は、ファブリケーション後のアライメントを不要にする。
トレンチはこの構造に統合され、モノリシックデバイス上の様々な電極は、蒸発性コーティングによって金属化後に電気的に分離される。
トラップの設計と製造の詳細と,イオンのトラップとトラップのキャラシゼーションの成功例について述べる。
The miniaturization of ion trap and the precise placement of its electrodes are necessary for the integration of a microcavity to facilitate efficient ion-cavity coupling. We present a miniature monolithic ion trap made of gold-coated fused silica with high numerical aperture access. A laser writing method referred to as selective laser etching is employed to extract a trap structure from a block of fused silica. The fully monolithic structure eliminates the need for any post-fabrication alignment. Trenches are integrated into this structure such that the various electrodes on the monolithic device remain electrically isolated following their metalization via evaporative coating. We give details of the trap design and production, along with the demonstration of successful trapping of ions and characerization of the trap. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# PIP:無関係プローブ質問の注意パターンを用いた大規模視線モデルにおける逆例の検出
PIP: Detecting Adversarial Examples in Large Vision-Language Models via Attention Patterns of Irrelevant Probe Questions ( http://arxiv.org/abs/2409.05076v1 ) ライセンス: Link先を確認 | Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Yu Wang, | (参考訳) LVLM(Large Vision-Language Models)はその強力なマルチモーダル能力を実証している。
しかし、敵はよく設計された敵の例を用いて、LVLMの堅牢性問題を引き起こすことができるため、深刻な安全上の問題にも直面している。
したがって、LVLMは不適切な応答を防止するために、敵のサンプルを検出するツールを緊急に必要としている。
本研究では,LVLMがプローブ質問を提示した場合に,クリーンな画像に対して定期的に注意パターンを示すことを最初に発見する。
本稿では, ランダムに選択された無関係なプローブ質問(例えば, 「時計はあるのか?」など)の注意パターンを利用して, 敵の例とクリーンな例とを区別する, PIP と呼ばれる非従来的手法を提案する。
テスト対象のイメージとそれに対応する質問に関係なく、PIPはテスト対象のイメージとプローブ質問の1つの追加推論を実行し、敵のサンプルの検出を成功させるだけでよい。
ブラックボックス攻撃やオープンデータセットシナリオの下でも、私たちのPIPは単純なSVMと組み合わせて、98%以上のリコールと90%以上の精度を実現しています。
我々のPIPは、単純な無関係なプローブ質問を通じてLVLMに対する敵攻撃を検出し、LVLM内の深い理解とイントロスペクションに光を当てる最初の試みである。
コードはhttps://github.com/btzyd/pip.comで公開されている。
Large Vision-Language Models (LVLMs) have demonstrated their powerful multimodal capabilities. However, they also face serious safety problems, as adversaries can induce robustness issues in LVLMs through the use of well-designed adversarial examples. Therefore, LVLMs are in urgent need of detection tools for adversarial examples to prevent incorrect responses. In this work, we first discover that LVLMs exhibit regular attention patterns for clean images when presented with probe questions. We propose an unconventional method named PIP, which utilizes the attention patterns of one randomly selected irrelevant probe question (e.g., "Is there a clock?") to distinguish adversarial examples from clean examples. Regardless of the image to be tested and its corresponding question, PIP only needs to perform one additional inference of the image to be tested and the probe question, and then achieves successful detection of adversarial examples. Even under black-box attacks and open dataset scenarios, our PIP, coupled with a simple SVM, still achieves more than 98% recall and a precision of over 90%. Our PIP is the first attempt to detect adversarial attacks on LVLMs via simple irrelevant probe questions, shedding light on deeper understanding and introspection within LVLMs. The code is available at https://github.com/btzyd/pip. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# 計算から消費へ:SEDシステムのためのニューラルネットワークのトレーニングとテストのためのコンピュータエネルギーリンクを探る
From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems ( http://arxiv.org/abs/2409.05080v1 ) ライセンス: Link先を確認 | Constance Douwes, Romain Serizel, | (参考訳) 機械学習モデルの大規模な使用、特にニューラルネットワークは、その環境への影響について深刻な懸念を提起している。
実際、ここ数年で、これらのシステムのトレーニングとデプロイに関連するコンピューティングコストが急増しています。
したがって、これまでは主に性能に重点を置いてきたモデルの評価にそれらをよりうまく組み込むためには、彼らのエネルギー要求を理解することが不可欠である。
本稿では,音声タグ付けタスクを例として,音声イベント検出システムの主要なコンポーネントであるニューラルネットワークアーキテクチャについて検討する。
我々は、小規模から大規模アーキテクチャの訓練および試験のためのエネルギー消費を測定し、エネルギー消費、浮動小数点演算数、パラメータ数、GPU/メモリ利用率の複雑な関係を確立する。
The massive use of machine learning models, particularly neural networks, has raised serious concerns about their environmental impact. Indeed, over the last few years we have seen an explosion in the computing costs associated with training and deploying these systems. It is, therefore, crucial to understand their energy requirements in order to better integrate them into the evaluation of models, which has so far focused mainly on performance. In this paper, we study several neural network architectures that are key components of sound event detection systems, using an audio tagging task as an example. We measure the energy consumption for training and testing small to large architectures and establish complex relationships between the energy consumption, the number of floating-point operations, the number of parameters, and the GPU/memory utilization. | 翻訳日:2024-09-10 19:30:04 公開日:2024-09-08 |
# デジタル時代の進歩の限界
The limits of progress in the digital era ( http://arxiv.org/abs/2409.05082v1 ) ライセンス: Link先を確認 | Joaquin Luque, | (参考訳) 進歩の概念は、科学、技術、経済、社会における活動を明確に表している。
これは、研究者としての日々の活動の駆動ベクトル(おそらくメインベクター)である。
InThisGenイニシアチブは、バークレー大学のキャンパスのあちこちで誇らしげに展示され、そのヘッドラインのレムマ(1世代で何が変わるのか?
しかし、進歩という概念には2つの大きな懸念が浮かび上がっている。
まず第一に、進歩とは何らかの前進を意味します。
しかし、ルート内での道のりを決めることは、明確な、あるいは暗黙的に目標を個人として、社会として定義していることを明確に示しています。
つまり、進歩の概念には根底にある値のセットがあります。
さらに、科学研究における概念パラダイム(そしておそらく我々の時代の精神全体)は、ある種の無限の進歩を仮定している。
多くの技術革新とその後の社会への影響が、ラディテスから生態学運動への抵抗を見出したことは事実である。
しかし、過去150年間(私たちの大学時代)は、知識、富、福祉の膨大な増加を目の当たりにしてきた。
このコントリビューションでは、材料、科学知識、技術ノウハウの限界に対処しながら、これらの境界について議論する。
私たちは主に、デジタル時代の重要な側面であるソフトウェア設計における技術知識の限界に焦点を当てます。
論文で論じる主なテーマは、技術的な知識には固有の限界があり、進歩の概念を考慮に入れるべきである。
The concept of progress clearly percolates the activities in science, technology, economy and society. It is a driving vector (probably the main vector) of our daily activity as researchers. The InThisGen initiative, proudly displayed in places across the University of Berkeley campus, and its headline lemma (what can we change in a single generation?) are clear exponents of the underlying assumption that progress is not only possible but also desirable. But about the concept of progress two major concerns arise. First of all, progress means some kind of going forward, that is a direction in a journey. But deciding the way in the route clearly implies that we are explicit or implicitly defining the goals, as individuals and as society. That is, the concept of progress has a set of underlying values. Additionally, the conceptual paradigm in scientific research (and probably in the whole spirit of our times) it is assuming some kind of endless progress. It is true that many technological innovations and their subsequent impact on society have found resistance, from Luddites to ecologist movements. But the last 150 years (the age of our university) have been witness of an enormous and general increase in knowledge, wealth and welfare, showing how progress can be sustained in the long-term and positively influence the human beings and the society. In this contribution will try to discuss these bounds, addressing the limits of materials, scientific knowledge and technological know-how. We will mainly focus on the limitations in technological knowledge in the software design, a key aspect of the digital era. Our main thesis, which will be addressed through the paper, is that there are intrinsic limits to technological knowledge and the concept of progress should take them into account. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 形状演算子の局所推定に基づく適応$k$-nearest近傍分類器
Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator ( http://arxiv.org/abs/2409.05084v1 ) ライセンス: Link先を確認 | Alexandre Luís Magalhães Levada, Frank Nielsen, Michel Ferreira Cardia Haddad, | (参考訳) k$-nearest neighbor(k$-NN)アルゴリズムは、非パラメトリック分類の最も一般的な方法の1つである。
しかし、関連する制限は、隣接する$k$の定義に関係している。
このパラメータは、バイアス分散トレードオフ、決定境界の滑らかさ、雑音に対する堅牢性、クラス不均衡処理など、分類器のいくつかの特性に直接的な影響を与える。
本稿では,局所曲率をサンプルで探索し,局所曲率を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
理論的には、曲率の低い点はより大きな近傍(局所的には接空間は基礎的なデータ形状をよく近似する)を持つが、高い曲率を持つ点はより小さい近傍(局所的には接空間はゆるやかな近似)を持つことができる。
局所共分散行列および局所ヘッセン行列を用いて局所形状演算子への近似を計算することにより局所ガウス曲率を推定する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と別の適応$k$-NNアルゴリズムと比較して、バランスの取れた精度が優れていることが示されている。
このことは、トレーニングデータのサンプル数が限られている場合に特に顕著であり、kK$-NNが多くの関連するケースを考慮して、少ないデータでより差別的な関数を学習できることを示唆している。
The $k$-nearest neighbor ($k$-NN) algorithm is one of the most popular methods for nonparametric classification. However, a relevant limitation concerns the definition of the number of neighbors $k$. This parameter exerts a direct impact on several properties of the classifier, such as the bias-variance tradeoff, smoothness of decision boundaries, robustness to noise, and class imbalance handling. In the present paper, we introduce a new adaptive $k$-nearest neighbours ($kK$-NN) algorithm that explores the local curvature at a sample to adaptively defining the neighborhood size. The rationale is that points with low curvature could have larger neighborhoods (locally, the tangent space approximates well the underlying data shape), whereas points with high curvature could have smaller neighborhoods (locally, the tangent space is a loose approximation). We estimate the local Gaussian curvature by computing an approximation to the local shape operator in terms of the local covariance matrix as well as the local Hessian matrix. Results on many real-world datasets indicate that the new $kK$-NN algorithm yields superior balanced accuracy compared to the established $k$-NN method and also another adaptive $k$-NN algorithm. This is particularly evident when the number of samples in the training data is limited, suggesting that the $kK$-NN is capable of learning more discriminant functions with less data considering many relevant cases. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# ビデオを用いた痛覚評価のためのマスク付きオートエンコーダを用いた変圧器
Transformer with Leveraged Masked Autoencoder for video-based Pain Assessment ( http://arxiv.org/abs/2409.05088v1 ) ライセンス: Link先を確認 | Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim, | (参考訳) 正確な痛み評価は、効果的な診断と治療のために医療において重要であるが、自己申告に依存した従来の方法は、患者が痛みを伝達できないために不十分である。
Cutting-edge AIは、顔画像データを使用して、痛み認識における臨床医を支援することを約束している。
本稿では,トランスフォーマーを用いたディープラーニングモデル内での顔画像解析を用いて,痛みの認識を向上させる。
強力なMasked AutoencoderとTransformersベースの分類器を組み合わせることで,表現とマイクロ表現の両方を通じて痛みレベルインジケータを効果的にキャプチャする。
我々はAI4Painデータセットで実験を行い、包括的で客観的な革新的な医療ソリューションの道を開く有望な結果を得た。
Accurate pain assessment is crucial in healthcare for effective diagnosis and treatment; however, traditional methods relying on self-reporting are inadequate for populations unable to communicate their pain. Cutting-edge AI is promising for supporting clinicians in pain recognition using facial video data. In this paper, we enhance pain recognition by employing facial video analysis within a Transformer-based deep learning model. By combining a powerful Masked Autoencoder with a Transformers-based classifier, our model effectively captures pain level indicators through both expressions and micro-expressions. We conducted our experiment on the AI4Pain dataset, which produced promising results that pave the way for innovative healthcare solutions that are both comprehensive and objective. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 音声からの動的聴取ヘッドモデリングのためのWaveNetの活用
Leveraging WaveNet for Dynamic Listening Head Modeling from Speech ( http://arxiv.org/abs/2409.05089v1 ) ライセンス: Link先を確認 | Minh-Duc Nguyen, Hyung-Jeong Yang, Seung-Won Kim, Ji-Eun Shin, Soo-Hyung Kim, | (参考訳) 対面会話中のリスナーからの対話的コミュニケーションフィードバックをシミュレートすることを目的としたリスナー顔応答の作成。
我々のゴールは、WaveNetとLong短期記憶ネットワークを組み合わせたシーケンス・ツー・シーケンス・モデルにより、1つの話者に忠実に応答するリスナーの頭部を再生することである。
提案手法は,聴取者のフィードバックの微妙なニュアンスを捉え,適切な態度や視点を表現しながら,個々の聴取者のアイデンティティを確実に保持することに焦点を当てる。
実験の結果,本手法はViCoベンチマークデータセットのベースラインモデルを上回ることがわかった。
The creation of listener facial responses aims to simulate interactive communication feedback from a listener during a face-to-face conversation. Our goal is to generate believable videos of listeners' heads that respond authentically to a single speaker by a sequence-to-sequence model with an combination of WaveNet and Long short-term memory network. Our approach focuses on capturing the subtle nuances of listener feedback, ensuring the preservation of individual listener identity while expressing appropriate attitudes and viewpoints. Experiment results show that our method surpasses the baseline models on ViCo benchmark Dataset. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# Cadenzaの最初の課題:聴覚障害のあるリスナーのための音楽改善のための機械学習コンペティションの利用
The first Cadenza challenges: using machine learning competitions to improve music for listeners with a hearing loss ( http://arxiv.org/abs/2409.05095v1 ) ライセンス: Link先を確認 | Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister, Jon P. Barker, Trevor J. Cox, Bruno Fazenda, Jennifer Firth, Simone Graetzer, Alinka Greasley, Rebecca R. Vos, William M. Whitmer, | (参考訳) 音楽を聴くことは難聴者にとって問題であり、補聴器は普遍的な解決策ではないことがよく理解されている。
機械学習はどのようにしてこの問題に対処できるのか?
本稿では,聴力障害のある者を対象とした,機械学習による音楽の音質向上のためのオープンチャレンジ手法の最初の応用について述べる。
最初の挑戦はスタンドアローンの競技会(CAD1)であり、9人が参加していた。
2回目は2024年のICASSPグランドチャレンジ(ICASSP24)で17人が出場した。
ミックス中の楽器の個人化されたリバランスを可能にするために、ポップ/ロック音楽のデミックスとリミックスに関する課題に加えて、聴力閾値の上昇を補正するための増幅も行われた。
ソフトウェアベースラインは、最先端のデミックスアルゴリズムであるHybrid DemucsとOpen-Unmixの2つをベースに構築された。
客観的指標HAAQI(Hearing-Aid Audio Quality Index)を用いてシステム評価を行った。
CAD1では改善の余地が不十分であったため、参加者は最高のベースラインで改善しなかった。
その結果、ICASSP24では、スピーカー再生を用いることでシナリオをより困難にし、リミックス前に特定の利得を適用できた。
これにより、このシナリオは補聴器を通して聴くのに役立つ。
9人のエントリーがICASSP24ベースラインよりも成績が良かった。
ほとんどの参加者はハイブリッドデミューズとNAL-R増幅の洗練されたバージョンを使用していた。
最高スコアシステムは、いくつかのデミックスアルゴリズムの出力をアンサンブルアプローチで組み合わせた。
これらの課題は、将来の研究のためのオープンなベンチマークであり、ソフトウェアとデータは無償で利用可能である。
It is well established that listening to music is an issue for those with hearing loss, and hearing aids are not a universal solution. How can machine learning be used to address this? This paper details the first application of the open challenge methodology to use machine learning to improve audio quality of music for those with hearing loss. The first challenge was a stand-alone competition (CAD1) and had 9 entrants. The second was an 2024 ICASSP grand challenge (ICASSP24) and attracted 17 entrants. The challenge tasks concerned demixing and remixing pop/rock music to allow a personalised rebalancing of the instruments in the mix, along with amplification to correct for raised hearing thresholds. The software baselines provided for entrants to build upon used two state-of-the-art demix algorithms: Hybrid Demucs and Open-Unmix. Evaluation of systems was done using the objective metric HAAQI, the Hearing-Aid Audio Quality Index. No entrants improved on the best baseline in CAD1 because there was insufficient room for improvement. Consequently, for ICASSP24 the scenario was made more difficult by using loudspeaker reproduction and specified gains to be applied before remixing. This also made the scenario more useful for listening through hearing aids. 9 entrants scored better than the the best ICASSP24 baseline. Most entrants used a refined version of Hybrid Demucs and NAL-R amplification. The highest scoring system combined the outputs of several demixing algorithms in an ensemble approach. These challenges are now open benchmarks for future research with the software and data being freely available. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# モノのインターネットトラフィック分類のための時間分散特徴学習
Time-Distributed Feature Learning for Internet of Things Network Traffic Classification ( http://arxiv.org/abs/2409.05096v1 ) ライセンス: Link先を確認 | Yoga Suhas Kuruba Manjunath, Sihao Zhao, Xiao-Ping Zhang, Lian Zhao, | (参考訳) 従来のCoS(Class-of-Service)分類器を含むNTC(Deep Learning-based Network Traffic Classification)技術は、QoS(Quality of Service)とIoT(Internet of Things)ネットワークのための無線リソース管理を支援する一般的なツールである。
全体的時間的特徴は、パケット内、パケット間、フロー間の相互、内部、疑似の時間的特徴から成り、問題のクラスに依存しないネットワークサービスの最大情報を提供する。
現在のソリューションの従来の時空間機能は、パケットとフローの間の空間情報と時間情報のみを抽出し、パケット内の情報を無視し、IoTトラフィックのためのフローを無視する。
そこで本研究では,NTCの精度を最大化するために,時間分散特徴学習を用いた深層学習に基づくNTCのための,効率的で包括的特徴抽出手法を提案する。
深層学習層に時間分散ラッパーを適用して,擬似時間的特徴と時空間的特徴を抽出する。
擬時相の特徴は、深層学習においてブラックボックスがそれらを抽出するため、数学的に複雑である。
しかし,これらは時間分散ラッパーのため時間的特徴であり,擬似時間的特徴と呼ぶ。
本手法は時間的全体像の学習に有効であるため,従来法とCoS NTCの両方に拡張することができる。
提案手法は, 擬似時間的特徴と時空間的特徴がNTCの頑健性と性能を著しく向上させることを示す。
実世界の異なるデータセットに基づいて理論的および実験的に解を解析する。
実験結果から, 時間的時間分散特徴学習法は平均13.5%の精度で, 従来のCoS分類法よりも精度が高いことがわかった。
Deep learning-based network traffic classification (NTC) techniques, including conventional and class-of-service (CoS) classifiers, are a popular tool that aids in the quality of service (QoS) and radio resource management for the Internet of Things (IoT) network. Holistic temporal features consist of inter-, intra-, and pseudo-temporal features within packets, between packets, and among flows, providing the maximum information on network services without depending on defined classes in a problem. Conventional spatio-temporal features in the current solutions extract only space and time information between packets and flows, ignoring the information within packets and flow for IoT traffic. Therefore, we propose a new, efficient, holistic feature extraction method for deep-learning-based NTC using time-distributed feature learning to maximize the accuracy of the NTC. We apply a time-distributed wrapper on deep-learning layers to help extract pseudo-temporal features and spatio-temporal features. Pseudo-temporal features are mathematically complex to explain since, in deep learning, a black box extracts them. However, the features are temporal because of the time-distributed wrapper; therefore, we call them pseudo-temporal features. Since our method is efficient in learning holistic-temporal features, we can extend our method to both conventional and CoS NTC. Our solution proves that pseudo-temporal and spatial-temporal features can significantly improve the robustness and performance of any NTC. We analyze the solution theoretically and experimentally on different real-world datasets. The experimental results show that the holistic-temporal time-distributed feature learning method, on average, is 13.5% more accurate than the state-of-the-art conventional and CoS classifiers. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# DreamMapping:変動分布マッピングによる高忠実テキスト・ツー・3D生成
DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping ( http://arxiv.org/abs/2409.05099v1 ) ライセンス: Link先を確認 | Zeyu Cai, Duotun Wang, Yixun Liang, Zhijing Shao, Ying-Cong Chen, Xiaohang Zhan, Zeyu Wang, | (参考訳) SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
しかし、過飽和色や過度な滑らかさなどの欠点がしばしば現れる。
本稿では、SDSの徹底的な解析を行い、その定式化を洗練し、コア設計はレンダリング画像の分布をモデル化することであることを示す。
この知見に従えば,拡散ベース生成の劣化事例としてレンダリングされた画像について,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) と呼ばれる新しい戦略を導入する。
この特別な設計は、拡散U-ネットにおけるジャコビアンの計算をスキップすることで、変動分布の効率的な訓練を可能にする。
また, 蒸留精度を向上させるため, 時間ステップ依存性の分散係数アニール (DCA) も導入した。
VDMとDCAを活用することで、3D表現としてガウススプラッティングを使用し、テキストから3D生成フレームワークを構築する。
大規模な実験と評価は、最適化効率で高忠実で現実的な資産を生成するためのVDMとDCAの能力を示す。
Score Distillation Sampling (SDS) has emerged as a prevalent technique for text-to-3D generation, enabling 3D content creation by distilling view-dependent information from text-to-2D guidance. However, they frequently exhibit shortcomings such as over-saturated color and excess smoothness. In this paper, we conduct a thorough analysis of SDS and refine its formulation, finding that the core design is to model the distribution of rendered images. Following this insight, we introduce a novel strategy called Variational Distribution Mapping (VDM), which expedites the distribution modeling process by regarding the rendered images as instances of degradation from diffusion-based generation. This special design enables the efficient training of variational distribution by skipping the calculations of the Jacobians in the diffusion U-Net. We also introduce timestep-dependent Distribution Coefficient Annealing (DCA) to further improve distilling precision. Leveraging VDM and DCA, we use Gaussian Splatting as the 3D representation and build a text-to-3D generation framework. Extensive experiments and evaluations demonstrate the capability of VDM and DCA to generate high-fidelity and realistic assets with optimization efficiency. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# MaxCutPool: グラフニューラルネットワークにおけるプールのための識別可能な特徴認識Maxcut
MaxCutPool: differentiable feature-aware Maxcut for pooling in graph neural networks ( http://arxiv.org/abs/2409.05100v1 ) ライセンス: Link先を確認 | Carlo Abate, Filippo Maria Bianchi, | (参考訳) 本稿では,ノードやエッジに関連付けられた特徴を持つグラフである,属性付きグラフの \texttt{MAXCUT} を計算するための新しい手法を提案する。
我々のアプローチは、基礎となるグラフトポロジに対して堅牢であり、完全に微分可能であるので、他の目的とともに \texttt{MAXCUT} を共同で最適化するソリューションを見つけることができる。
得られた‘texttt{MAXCUT}パーティションに基づいて,グラフニューラルネットワークの階層的なグラフプーリング層を実装した。
We propose a novel approach to compute the \texttt{MAXCUT} in attributed graphs, \textit{i.e.}, graphs with features associated with nodes and edges. Our approach is robust to the underlying graph topology and is fully differentiable, making it possible to find solutions that jointly optimize the \texttt{MAXCUT} along with other objectives. Based on the obtained \texttt{MAXCUT} partition, we implement a hierarchical graph pooling layer for Graph Neural Networks, which is sparse, differentiable, and particularly suitable for downstream tasks on heterophilic graphs. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 継続的統合の実践をモニタリングする必要性について-実証的研究
On the Need to Monitor Continuous Integration Practices -- An Empirical Study ( http://arxiv.org/abs/2409.05101v1 ) ライセンス: Link先を確認 | Jadson Santos, Daniel Alencar da Costa, Shane McIntosh, Uirá Kulesza, | (参考訳) 継続的統合(CI)は、ソフトウェア開発を強化するために広く採用されているプラクティスの集合を含んでいる。
しかしながら、開発者がCIプラクティスを適切に監視できないという兆候もある。
そこで本稿では,CIプラクティスの監視に関する開発者の認識について検討する。
これを実現するために、私たちはまずドキュメント分析を実施し、開発プロセス中に開発者が生成したプルリクエストコメントのモニタリングを実践する開発者のニーズを評価する。
その後、121のオープンソースプロジェクトの開発者を対象に調査を行い、プロジェクトにおける7つのCIプラクティスの監視の重要性に対する認識を調査します。
最後に、既存のCIサービスでサポートされているモニタリング機能の範囲を理解するために、第2のドキュメント分析を実行することで、調査から生まれたテーマを三角化します。
私たちの重要な発見は以下のとおりである。
1) 開発プロセスにおいて最も頻繁に言及されるCIプラクティスは、'`Test Coverage' (> 80\%) であり、'`Build Health' と '``Time to Fix a Broken Build''' は、CIプラクティスを監視するための注目すべき機会である。
2) 開発者はすべてのCIプラクティスを適切に監視せず、追加プラクティスの監視に関心を示す。
現在最も人気のあるCIサービスは、CIプラクティスの監視に限定的なネイティブサポートを提供しており、サードパーティツールを使用する必要がある。
結果として、CIプラクティスの監視は、CIサービスと開発者の両方が見落としていることが多い、と結論付けました。
CIサービスと連携してサードパーティツールを使用することは困難であり、冗長なプラクティスを監視しながら、CIプラクティスの監視を完全にサポートしていない。
したがって、CIサービスはCIプラクティスの監視を実装する必要がある。
Continuous Integration (CI) encompasses a set of widely adopted practices that enhance software development. However, there are indications that developers may not adequately monitor CI practices. Hence, this paper explores developers' perceptions regarding the monitoring CI practices. To achieve this, we first perform a Document Analysis to assess developers' expressed need for practice monitoring in pull requests comments generated by developers during the development process. After that, we conduct a survey among developers from 121 open-source projects to understand perception of the significance of monitoring seven CI practices in their projects. Finally, we triangulate the emergent themes from our survey by performing a second Document Analysis to understand the extent of monitoring features supported by existing CI services. Our key findings indicate that: 1) the most frequently mentioned CI practice during the development process is ``Test Coverage'' (> 80\%), while ``Build Health'' and ``Time to Fix a Broken Build'' present notable opportunities for monitoring CI practices; 2) developers do not adequately monitor all CI practices and express interest in monitoring additional practices; and 3) the most popular CI services currently offer limited native support for monitoring CI practices, requiring the use of third-party tools. Our results lead us to conclude that monitoring CI practices is often overlooked by both CI services and developers. Using third-party tools in conjunction with CI services is challenging, they monitor some redundant practices and still falls short of fully supporting CI practices monitoring. Therefore, CI services should implement CI practices monitoring, which would facilitate and encourage developers to monitor them. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# EdaCSC:中国語スペル訂正のための2つの簡易データ拡張手法
EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction ( http://arxiv.org/abs/2409.05105v1 ) ライセンス: Link先を確認 | Lei Sheng, Shuai-Shuai Xu, | (参考訳) Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
現在のCSCモデルはピニインやグリフの機能を統合しており、大きな進歩を見せているものの、複数の型を含む文を扱う際には依然として課題に直面しており、現実のシナリオでは過度に訂正される可能性がある。
既存のモデル中心のアプローチとは対照的に,これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
その後、最適なモデルを選択するために異なるトレーニングプロセスを採用する。
SIGHANベンチマークを用いた実験により,SIGHAN15テストセットの最先端性能を達成し,既存モデルよりもアプローチの優位性を実証した。
Chinese Spelling Correction (CSC) aims to detect and correct spelling errors in Chinese sentences caused by phonetic or visual similarities. While current CSC models integrate pinyin or glyph features and have shown significant progress,they still face challenges when dealing with sentences containing multiple typos and are susceptible to overcorrection in real-world scenarios. In contrast to existing model-centric approaches, we propose two data augmentation methods to address these limitations. Firstly, we augment the dataset by either splitting long sentences into shorter ones or reducing typos in sentences with multiple typos. Subsequently, we employ different training processes to select the optimal model. Experimental evaluations on the SIGHAN benchmarks demonstrate the superiority of our approach over most existing models, achieving state-of-the-art performance on the SIGHAN15 test set. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 2光ラビスタークモデルにおける量子絡み合い
Quantum Entanglement in Two-Photon Rabi Stark Model ( http://arxiv.org/abs/2409.05108v1 ) ライセンス: Link先を確認 | Zakaria Boutakka, Zoubida Sakhi, Mohamed Bennai, | (参考訳) 本研究は、2光子ラビスタークモデルについて、異なるスタークカップリング強度値の影響下での結合強度の関数として検討する。
ここでは、量子共役体結合強度の関数として \textit{2pRSM} のスペクトル崩壊を数値的に検討し、さらなる物理的洞察を得る。
また、システムの基底状態における非古典性の研究を目的としたウィグナー関数の可視化を行う。
最後に、スターク結合強度の異なる比について、フォン・ノイマンエントロピーによる量子エンタングルメントを測定する。
この研究は、量子エンタングルメントを決定するスターク結合強度が果たす役割の理解を深める。
In this is work, an investigation on the two-photon Rabi Stark model as a function of the coupling strength under the effect of different Stark coupling strength values is treated. Here, we numerically explore the spectral collapse of the \textit{2pRSM} as a function of the qubit-cavity field coupling strength to gain further physical insights. Also, the visualization of Wigner function in purpose to study the non-classicality in ground-state of the system. At the last, we measure the quantum entanglement via von Neumann Entropy for different ratios of the Stark coupling strength. This work deepens the understanding of the role played by the Stark coupling strength determining the quantum entanglement. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# Bose-Hubbard ladderにおける創発的相互作用によるトポロジー
Emergent interaction-induced topology in Bose-Hubbard ladders ( http://arxiv.org/abs/2409.05109v1 ) ライセンス: Link先を確認 | David Wellnitz, Gustavo A. Domínguez-Castro, Thomas Bilitewski, Monika Aidelsburger, Ana Maria Rey, Luis Santos, | (参考訳) 強いオンサイト接触相互作用を持つ2脚のはしごでホッピングするボゾン原子の量子多体ダイナミクスについて検討した。
相互作用のない基礎モデルでは、トポロジカルな状態しか持たないにもかかわらず、原子が他のすべてのラング、シンロン欠陥、すなわち1つの原子しか持たないラングで停滞したパターンで準備されている場合、創発的なトポロジカルモデルにより局所化可能であることを観察する。
この創発的なトポロジカルな局在は、2つの隣り合う鎖と弱い希望リンク(Su-Schrieffer-Heeger 鎖)が交互に形成する実効格子におけるゼロエネルギーエッジモードの形成と、欠陥位置で界面を形成する逆のスタガーリングから生じる。
我々の発見は、複雑なハミルトン工学を必要とせずに、非自明なトポロジカルな振る舞いを動的に生成する機会を開く。
We investigate the quantum many-body dynamics of bosonic atoms hopping in a two-leg ladder with strong on-site contact interactions. We observe that when the atoms are prepared in a staggered pattern with pairs of atoms on every other rung, singlon defects, i.e.~rungs with only one atom, can localize due to an emergent topological model, even though the underlying model in the absence of interactions admits only topologically trivial states. This emergent topological localization results from the formation of a zero-energy edge mode in an effective lattice formed by two adjacent chains with alternating strong and weak hoping links (Su-Schrieffer-Heeger chains) and opposite staggering which interface at the defect position. Our findings open the opportunity to dynamically generate non-trivial topological behaviors without the need for complex Hamiltonian engineering. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 拡張一般化不確実性原理、リウヴィルの定理と状態密度:スナイダー・デ・シッターとヤン模型
Extended Generalized Uncertainty Principles, Liouville theorem and density of states: Snyder-De Sitter and Yang models ( http://arxiv.org/abs/2409.05110v1 ) ライセンス: Link先を確認 | A. Pachoł, | (参考訳) 量子力学的位相空間の修正は、ハイゼンベルクの不確実性原理の変化をもたらし、これらは、それぞれ小さな距離と大きな距離で量子重力効果を導入する一般化不確実性原理(英語版)(GUP)または拡張不確実性原理(英語版)(EUP)をもたらす。
GUPとEUPの組み合わせ、拡張一般化不確実性原理(EGUPまたはGEUP)は、座標とモータの両方に非可換性を導入することでこれらの修正をさらに一般化する。
本稿では、非相対論的量子力学の枠組みにおける統計物理学および状態密度におけるEGUPのLiouville定理への影響について検討する。
Snyder-de Sitter モデルと Yang モデルの場合、重み付き不変位相空間体積要素が発見され、EGUP が状態の密度をどう変え、物理的(熱力学的)性質に影響を及ぼすかを示す。
Modifications in quantum mechanical phase space lead to changes in the Heisenberg uncertainty principle, these can result in the Generalized Uncertainty Principle (GUP) or the Extended Uncertainty Principle (EUP), which introduce quantum gravitational effects at small and large distances, respectively. A combination of GUP and EUP, the Extended Generalized Uncertainty Principle (EGUP or GEUP), further generalizes these modifications by incorporating noncommutativity in both coordinates and momenta. This paper examines the impact of EGUP on the Liouville theorem in statistical physics and density of states within non-relativistic quantum mechanics framework. We find a weighted invariant phase space volume element in the cases of Snyder-de Sitter and Yang models, presenting how EGUP alters the density of states, potentially affecting physical (thermodynamical) properties. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 二重ラゲール・ガウス空洞における2つの回転鏡のYIG球面の存在下でのガウス幾何学的不協和、絡み合い、EPR-操舵
Gaussian geometric discord, entanglement and EPR-steering of two rotational mirrors in a double Laguerre-Gaussian cavity optomechanics in the presence of YIG sphere ( http://arxiv.org/abs/2409.05111v1 ) ライセンス: Link先を確認 | Noura Chabar, M'bark Amghar, S. K. Singh, Mohamed Amazioug, | (参考訳) EPRステアリングは非古典的相関であり、絡み合いとベル非局所性に中間的な性質を示し、量子通信と計算のための貴重な資源を提供する。
本研究では,2つの空間分離型回転鏡(Rms)の定常ガウス量子ステアリング,エンタングルメント,ガウス幾何学的不協和性について,Double-Laguerre-Gaussianキャビティ(DLGC)で検討する理論スキームを提案する。
各空洞はLaguerre-Gaussian(LG)ビームによって導出され、2つの空洞の交差点にYIG(Yetrium Iron Garnet sphere)が注入される。
ガウスの量子ステアリングを用いて、Rm間のステアビリティを特徴づける。
対数的負の測度は、絡み合いの量を定量化するために用いられる。
ガウス幾何学的不協和(GGD)測度を用いて、Rm間のすべての非古典的相関を定量化する。
以上の結果から,LGキャビティモードの温度,マグノンモード周波数,軌道角運動量(OAM),マグノンモードとキャビティモードの結合,Rmsの質量,それぞれが${\rm Rm_1-Rm_2}$エンタングルメントの確立において異なる役割を担っていることが示唆された。
環境温度(300K)下での2つのRmの絡み合いを特徴付ける。
定常エンタングルメントは、Rms周波数と光子-マグノン結合の値を調整することで最適である。
サーマルエフェクト下では固定的絡み合いが脆弱であることを示す。
さらに、GGDは熱雑音に対して強い弾力性を示し、Rmsの質量を増やすことでさらに高めることができる。
実験的に到達可能なパラメータと角周波数の調整された比で、一方方向と両側方向の操舵を両立させる。
最後に,本実験に基づいて提案手法の実現可能性について考察する。
EPR steering is a nonclassical correlation that exhibits properties intermediate to entanglement and Bell nonlocality, providing a valuable resource for quantum communication and computation. In this work, we propose a theoretical scheme to investigate stationary gaussian quantum steering, entanglement and Gaussian geometric discord of two spatially separated rotating mirrors (Rms) in a double-Laguerre-Gaussian cavity (DLGC). Each cavity is derived by Laguerre-Gaussian (LG) beam, and a Yttrium Iron Garnet sphere (YIG) is injected in the intersection of the two cavities. We employ Gaussian quantum steering to characterize the steerability between the Rms. The logarithmic negativity measure is used to quantify the amount of entanglement. We quantify all nonclassical correlations between the Rms by harnessing the Gaussian geometric discord (GGD) measure. Our results indicate that various physical parameters, including the temperature, detuning of the magnon mode frequency, orbital angular momentum (OAM) of the LG cavity modes, the coupling between magnon and cavity mode, the mass of the Rms, each play distinct roles in establishing ${\rm Rm_1-Rm_2}$ entanglement. We characterize the entanglement of the two Rms under ambient temperature (300 K). Stationary entanglement is optimal by adjusting the values of Rms frequency and photon-magnon coupling. We show that the stationary entanglement is fragile under thermal effects. Besides, the GGD demonstrates strong resilience to thermal noise, and this can be further enhanced by increasing the mass of the Rms. Under experimentally accessible parameters and with adjusted ratio between the angular frequencies, we achieve both one-way and two-way steering. Finally, we address the feasibility of our proposal based on the present experiments. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# WaterSeeker: 大規模文書におけるウォーターマーク付きセグメントの効率的な検出
WaterSeeker: Efficient Detection of Watermarked Segments in Large Documents ( http://arxiv.org/abs/2409.05112v1 ) ライセンス: Link先を確認 | Leyi Pan, Aiwei Liu, Yijian Lu, Zitian Gao, Yichen Di, Lijie Wen, Irwin King, Philip S. Yu, | (参考訳) 大規模言語モデル(LLM)のための透かしアルゴリズムは,LLM生成テキストの検出において高い精度を実現している。
しかし、既存の手法では、LLMが大きな文書の小さな部分しか生成しない現実のシナリオを見越して、完全にウォーターマークされたテキストと非ウォーターマークされたテキストを区別することに重点を置いている。
このシナリオでは、時間の複雑さと検出パフォーマンスのバランスが大きな課題となる。
本稿では,自然文中の透かしを効率的に検出し,発見するための新しい手法であるWaterSeekerを提案する。
まず,疑わしい透かし領域を予め特定するために,効率的な異常抽出法を適用した。
その後、局所的なトラバーサルを行い、より正確な検証のためにフルテキスト検出を行う。
理論的解析と実験結果から,WaterSeekerは検出精度と計算効率のバランスが優れていることが示された。
さらに、WaterSeekerのローカライズ機能は、解釈可能なAI検出システムの開発をサポートする。
この研究は、透かし付きセグメント検出における新たな方向性を開拓し、より信頼性の高いAI生成コンテンツ識別を促進する。
Watermarking algorithms for large language models (LLMs) have attained high accuracy in detecting LLM-generated text. However, existing methods primarily focus on distinguishing fully watermarked text from non-watermarked text, overlooking real-world scenarios where LLMs generate only small sections within large documents. In this scenario, balancing time complexity and detection performance poses significant challenges. This paper presents WaterSeeker, a novel approach to efficiently detect and locate watermarked segments amid extensive natural text. It first applies an efficient anomaly extraction method to preliminarily locate suspicious watermarked regions. Following this, it conducts a local traversal and performs full-text detection for more precise verification. Theoretical analysis and experimental results demonstrate that WaterSeeker achieves a superior balance between detection accuracy and computational efficiency. Moreover, WaterSeeker's localization ability supports the development of interpretable AI detection systems. This work pioneers a new direction in watermarked segment detection, facilitating more reliable AI-generated content identification. | 翻訳日:2024-09-10 19:20:20 公開日:2024-09-08 |
# 2オクターブの帯域にパルスレベルの周波数可変を有する超伝導回路におけるオンデマンド単一マイクロ波光子源
On-demand single microwave photon source in a superconducting circuit with pulse-level frequency tunability over two octaves of bandwidth ( http://arxiv.org/abs/2409.05117v1 ) ライセンス: Link先を確認 | Samarth Hawaldar, Siddhi Satish Khaire, Per Delsing, Baladitya Suri, | (参考訳) 本稿では,超伝導回路において単一マイクロ波光子を生成する新しい方法を提案する。
制御パラメータを高速に網羅してLandau-Zener遷移を用いることで、要求に応じて純粋な単一マイクロ波光子を発生させ、大きな周波数帯域で調整できることを理論的に示す。
本研究では,2オクターブ以上の光子の周波数のパルスレベル制御を実現するプロトコルを考案した。
さらに、電荷と束束量子ビットアーキテクチャの両方で放射される光子の生成効率、チューニング性、純度、線幅を理論的に推定する。
また、デバイスを実現するために、これらのアーキテクチャーに対して最適なデバイスパラメータの推定を行う。
In this article, we propose a new method of generating single microwave photons in superconducting circuits. We theoretically show that pure single microwave photons can be generated on demand and tuned over a large frequency band by making use of Landau-Zener transitions under a rapid sweep of a control parameter. We devise a protocol that enables pulse-level control of the frequency of the emitted photon over two octaves, without requiring extensive calibration. Additionally, we make theoretical estimates of the generation efficiency, tunability, purity, and linewidth of the photons emitted using this method for both charge and flux qubit-based architectures. We also provide estimates of optimal device parameters for these architectures in order to realize the device. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# PMT:半監督医用画像セグメンテーションのための時間整合性を探るプログレッシブ平均教師
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2409.05122v1 ) ライセンス: Link先を確認 | Ning Gao, Sanping Zhou, Le Wang, Nanning Zheng, | (参考訳) 半教師付き学習は、医用画像セグメンテーションの分野で広く採用されている技術である。
既存の研究は、一貫性の制約の構築や、高品質な監視信号を提供するための擬似ラベルの生成に重点を置いている。
本稿では,医用画像のセグメンテーションのために,PMT(Progressive Mean Teachers)と呼ばれるシンプルな半教師付き学習フレームワークを提案する。
具体的には,PMTは標準的な平均教師を用いて現状の整合性を解析し,協調学習に2組のMTアーキテクチャを用いる。
MTアーキテクチャの2つのセットは、イテレーションの違いによって生成されたパフォーマンスギャップによって確立された安定したモデルの多様性を維持するために、長期にわたって個別に更新される。
さらに、差分駆動アライメント正規化器を用いて、遅延モデルのアライメントと先行モデルの表現能力を高速化する。
さらに、モデルの性能評価や、モデルが協調訓練のために高性能に動作しているときに出力される高忠実度擬似ラベルの選択に、単純で効果的な擬似ラベルフィルタリングアルゴリズムを用いる。
CTとMRIの2つの異なるモードのデータセットに対する実験結果から,本手法は様々な次元にわたる最先端の医用画像セグメンテーション手法よりも優れていることが示された。
コードはhttps://github.com/Axi404/PMT.comで入手できる。
Semi-supervised learning has emerged as a widely adopted technique in the field of medical image segmentation. The existing works either focuses on the construction of consistency constraints or the generation of pseudo labels to provide high-quality supervisory signals, whose main challenge mainly comes from how to keep the continuous improvement of model capabilities. In this paper, we propose a simple yet effective semi-supervised learning framework, termed Progressive Mean Teachers (PMT), for medical image segmentation, whose goal is to generate high-fidelity pseudo labels by learning robust and diverse features in the training process. Specifically, our PMT employs a standard mean teacher to penalize the consistency of the current state and utilizes two sets of MT architectures for co-training. The two sets of MT architectures are individually updated for prolonged periods to maintain stable model diversity established through performance gaps generated by iteration differences. Additionally, a difference-driven alignment regularizer is employed to expedite the alignment of lagging models with the representation capabilities of leading models. Furthermore, a simple yet effective pseudo-label filtering algorithm is employed for facile evaluation of models and selection of high-fidelity pseudo-labels outputted when models are operating at high performance for co-training purposes. Experimental results on two datasets with different modalities, i.e., CT and MRI, demonstrate that our method outperforms the state-of-the-art medical image segmentation approaches across various dimensions. The code is available at https://github.com/Axi404/PMT. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# 線形イオントラップに微小光学キャビティを一体化する方法-誘電体とトラップ対称性の遮蔽
How to integrate a miniature optical cavity in a linear ion trap: shielding dielectrics and trap symmetry ( http://arxiv.org/abs/2409.05123v1 ) ライセンス: Link先を確認 | Ezra Kassa, Shaobo Gao, Soon Teh, Dyon van Dinter, Hiroki Takahashi, | (参考訳) 量子システムをスケールアップする1つの方法はモジュラーアプローチを採用することである。
イオントラップアーキテクチャでは、独立した線形イオントラップ間の効率的なフォトニックインターフェースにより、そのような拡張が可能となる。
これにより、モード体積が小さい光学キャビティを利用でき、イオンからの光子放出確率を高めることができる。
ミニチュアファイバーベースのファブリペロキャビティは、単一のイオンを保持する3次元ポールトラップに統合されているが、光学キャビティと複数のイオンを保持することができる線形トラップとの効率的な界面は、まだ解明されていない。
これは、イオントラップ間の光学的界面と、イオン鎖内の運動結合の利点を組み合わせるための障壁となる。
本稿では, 簡易な導電性繊維の遮蔽効果と誘電体による運動加熱の悪影響を低減できることを示す。
また、導電シールドは、イオントラップにおける従来の無線周波数(rf)駆動と互換性がないが、相反する2つのrf信号を使用することで、この問題を解決できることを明らかにした。
さらに、線形トラップの翻訳対称性を乱す素子を組み込む際に電極の対称性が果たす役割を解析的に解明する。
その結果、表面トラップなどの線形イオントラップの二次元実装は、幾何学対称性の欠如による遮蔽された小型光学キャビティの統合には本質的に適していないことがわかった。
解析により得られた知見に基づいて, 線形イオントラップに組み込むべき必須成分と設計戦略を同定し, 小型光キャビティの集積を成功させる。
One method of scaling up quantum systems is to adopt a modular approach. In the ion trap architecture, an efficient photonic interface between independent linear ion traps would allow for such expansion. To this end, an optical cavity with a small mode volume can be utilised to enhance the photon emission probability from the ion. Miniature fibre-based Fabry-Perot cavities have been integrated into three-dimensional Paul traps that hold a single ion, whereas an efficient interface between an optical cavity and a linear trap that can keep multiple ions has remained elusive. This presents a barrier for combining the benefits of the motional coupling in a chain of ions with optical interface between ion traps. In this paper, we show that simple electrically conductive shielding of the fibres could provide substantial advantage in mitigating the adverse effects of stray charges and motional heating by dielectrics. We also reveal that the conductive shields are not compatible with the conventional radio frequency (rf) drive in ion traps but using two rf signals with opposite phases can solve this issue. Furthermore the role played by the symmetry of the electrodes when incorporating an element that disrupts the translational symmetry of a linear trap is elucidated analytically. As a result it is realized that two-dimensional implementation of a linear ion trap such as a surface trap is inherently not suitable for integrating a shielded miniature optical cavity due to the lack of geometrical symmetry. Based on the insights obtained through the analysis, we identify essential components and a design strategy that should be incorporated in a linear ion trap for successful integration of a miniature optical cavity. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# 単一分子振動周波発生における光子アンチバンチング
Photon Antibunching in Single-Molecule Vibrational Sum-Frequency Generation ( http://arxiv.org/abs/2409.05124v1 ) ライセンス: Link先を確認 | Fatemeh Moradi Kalarde, Carlos Sanchez Munoz, Johannes Feist, Christophe Galland, | (参考訳) サム周波数発生(SFG)は、電磁信号のコヒーレントなアップコンバージョンを可能にし、分子の中赤外振動分光法に応用できる。
最近の実験的、理論的研究により、プラズモンナノキャビティは、その深いサブ波長モードの体積を持つため、単一分子から振動SFG信号を得ることができることが示されている。
本稿では、現実的なパラメータの下で逆変換された中赤外場の2次コヒーレンス(g^{(2)}(0)$)の度合いを計算し、個々の分子の振動モードを特徴づける非調和ポテンシャルについて考察する。
一方、量子応用に必要な中赤外光源の2次コヒーレンスを維持するために、デバイスが動作すべき状態について述べる。
一方, 非調和分子ポテンシャルは, コヒーレント, ポアソン分散中赤外, 可視ドライブ下でのアップコンバート光子の反バンチングに繋がる可能性が示唆された。
そこで本研究では, 強い光物質結合を必要とせず, 共鳴的かつパラメトリック的に駆動される分子の「振動遮断」を活用することにより, 輝度と波長の異なる新しい単一光子の源となる経路を開拓した。
Sum-frequency generation (SFG) allows for coherent upconversion of an electromagnetic signal and has applications in mid-infrared vibrational spectroscopy of molecules. Recent experimental and theoretical studies have shown that plasmonic nanocavities, with their deep sub-wavelength mode volumes, may allow to obtain vibrational SFG signals from a single molecule. In this article, we compute the degree of second order coherence ($g^{(2)}(0)$) of the upconverted mid-infrared field under realistic parameters and accounting for the anharmonic potential that characterizes vibrational modes of individual molecules. On the one hand, we delineate the regime in which the device should operate in order to preserve the second-order coherence of the mid-infrared source, as required in quantum applications. On the other hand, we show that an anharmonic molecular potential can lead to antibunching of the upconverted photons under coherent, Poisson-distributed mid-infrared and visible drives. Our results therefore open a path toward a new kind of bright and tunable source of indistinguishable single photons by leveraging ``vibrational blockade'' in a resonantly and parametrically driven molecule, without the need for strong light-matter coupling. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# PdfTable: ディープラーニングによるテーブル抽出のための統一ツールキット
PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction ( http://arxiv.org/abs/2409.05125v1 ) ライセンス: Link先を確認 | Lei Sheng, Shuai-Shuai Xu, | (参考訳) 現在、大量の文書データが構造化されていない形式で存在し、PDFファイルや画像を含む。
これらの文書から情報を抽出することは、様々なテーブルスタイル、複雑な形式、および異なる言語を含めることによる、非常に困難な課題を提示する。
Camelot、Plumb a PDF (pdfnumber)、Paddle Paddle Structure V2 (PP-StructureV2) などのオープンソースのツールキットがPDFや画像からのテーブル抽出を容易にするために開発された。
しかし、それぞれのツールキットには制限がある。
Camelotとpdfnumberは、デジタルPDFからのみテーブルを抽出することができ、画像ベースのPDFや画像を扱うことはできない。
一方、PP-StructureV2は画像から画像ベースのPDFとテーブルを包括的に抽出することができる。
それでも、有線テーブルや無線テーブル、デジタルPDF、画像ベースのPDFなど、多様なアプリケーションシナリオを区別する能力は欠如している。
これらの問題に対処するため、私たちはPDFテーブル抽出(PdfTable)ツールキットを導入しました。
このツールキットは、テーブル認識モデル7つ、光学文字認識(OCR)認識ツール4つ、レイアウト解析モデル3つを含む、多数のオープンソースモデルを統合する。
PdfTableはPDFテーブル抽出プロセスを洗練することによって、様々なアプリケーションシナリオにまたがる適応性を実現する。
我々は,PdfTableツールキットの有効性を,自己ラベル付き有線テーブルデータセットと,オープンソースワイヤレスのPubTabNetによる検証により検証する。
PdfTableのコードはGithubで入手できる。
Currently, a substantial volume of document data exists in an unstructured format, encompassing Portable Document Format (PDF) files and images. Extracting information from these documents presents formidable challenges due to diverse table styles, complex forms, and the inclusion of different languages. Several open-source toolkits, such as Camelot, Plumb a PDF (pdfnumber), and Paddle Paddle Structure V2 (PP-StructureV2), have been developed to facilitate table extraction from PDFs or images. However, each toolkit has its limitations. Camelot and pdfnumber can solely extract tables from digital PDFs and cannot handle image-based PDFs and pictures. On the other hand, PP-StructureV2 can comprehensively extract image-based PDFs and tables from pictures. Nevertheless, it lacks the ability to differentiate between diverse application scenarios, such as wired tables and wireless tables, digital PDFs, and image-based PDFs. To address these issues, we have introduced the PDF table extraction (PdfTable) toolkit. This toolkit integrates numerous open-source models, including seven table recognition models, four Optical character recognition (OCR) recognition tools, and three layout analysis models. By refining the PDF table extraction process, PdfTable achieves adaptability across various application scenarios. We substantiate the efficacy of the PdfTable toolkit through verification on a self-labeled wired table dataset and the open-source wireless Publicly Table Reconition Dataset (PubTabNet). The PdfTable code will available on Github: https://github.com/CycloneBoy/pdf_table. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# ストラグルからシンプルへ - Javaにおける暗号化のための使いやすくセキュアなAPI
From Struggle to Simplicity with a Usable and Secure API for Encryption in Java ( http://arxiv.org/abs/2409.05128v1 ) ライセンス: Link先を確認 | Ehsan Firouzi, Ammar Mansuri, Mohammad Ghafari, Maziar Kaveh, | (参考訳) 暗号の誤用は野生で多い。
暗号化APIは開発者にとっては使いづらいが、静的解析ツールはすべての誤用を検出するわけではない。
私たちはJava開発者のための暗号化タスクを合理化するAPIであるSafEncryptを開発しました。
ネイティブのJava Cryptography Architecture上に構築されており、暗号化の複雑さや誤った低レベルの詳細から開発者を保護する。
実験の結果、SafEncryptは様々なレベルの経験を持つ開発者にとって適していることがわかった。
Cryptography misuses are prevalent in the wild. Crypto APIs are hard to use for developers, and static analysis tools do not detect every misuse. We developed SafEncrypt, an API that streamlines encryption tasks for Java developers. It is built on top of the native Java Cryptography Architecture, and it shields developers from crypto complexities and erroneous low-level details. Experiments showed that SafEncrypt is suitable for developers with varying levels of experience. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# 新規プレプロシークエンシング法とアンサンブル法によるヘイトコンテンツ検出
Hate Content Detection via Novel Pre-Processing Sequencing and Ensemble Methods ( http://arxiv.org/abs/2409.05134v1 ) ライセンス: Link先を確認 | Anusha Chhabra, Dinesh Kumar Vishwakarma, | (参考訳) ソーシャルメディア、特にTwitterは、トロールやヘイトスピーチといったインシデントが大幅に増加した。
したがって、ヘイトスピーチを特定することが時間の必要性である。
本稿では,ウェブ上のヘイトコンテンツを抑制するための計算フレームワークを提案する。
具体的には、ヘイトコンテンツ識別のためのテキスト前処理操作のシーケンス変更の影響について、前処理アプローチの徹底的な研究を行った。
Support Vector Machine、Random Forest、Decision Tree、Logistic Regression、K-Neighborといった一般的な分類手法で実装された、最高のパフォーマンスの事前処理シーケンスは、パフォーマンスを大幅に向上させる。
さらに、最高の前処理シーケンスは、バッグング、ブースティング、スタックングなどの異なるアンサンブルメソッドと組み合わせて、パフォーマンスをさらに向上するために使用される。
3つの公開ベンチマークデータセット(WZ-LS、DT、FOUNTA)を用いて、ヘイトスピーチ識別のための提案手法の評価を行った。
提案手法は95.14%の最大精度を達成し、アンサンブル分類器とともに独自の前処理手法の有効性を強調した。
Social media, particularly Twitter, has seen a significant increase in incidents like trolling and hate speech. Thus, identifying hate speech is the need of the hour. This paper introduces a computational framework to curb the hate content on the web. Specifically, this study presents an exhaustive study of pre-processing approaches by studying the impact of changing the sequence of text pre-processing operations for the identification of hate content. The best-performing pre-processing sequence, when implemented with popular classification approaches like Support Vector Machine, Random Forest, Decision Tree, Logistic Regression and K-Neighbor provides a considerable boost in performance. Additionally, the best pre-processing sequence is used in conjunction with different ensemble methods, such as bagging, boosting and stacking to improve the performance further. Three publicly available benchmark datasets (WZ-LS, DT, and FOUNTA), were used to evaluate the proposed approach for hate speech identification. The proposed approach achieves a maximum accuracy of 95.14% highlighting the effectiveness of the unique pre-processing approach along with an ensemble classifier. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# 多線形カーネル回帰とマニフォールド学習によるグラフ内の時間変化エッジフローの計算
Imputation of Time-varying Edge Flows in Graphs by Multilinear Kernel Regression and Manifold Learning ( http://arxiv.org/abs/2409.05135v1 ) ライセンス: Link先を確認 | Duc Thien Nguyen, Konstantinos Slavakis, Dimitris Pados, | (参考訳) 本稿では、最近開発されたマルチ線形カーネル回帰と、多様体学習(MultiL-KRIM)による計算のフレームワークを拡張して、グラフ内の時間変化エッジフローをインプットする。
MultiL-KRIM はグラフトポロジーを組み込むために単純な複素引数とホッジ・ラプラシアンを用いており、再現カーネルヒルベルト空間 (RKHS) に埋め込まれた滑らかな多様体の周りの点クラウドとしてモデル化された特徴の中で潜在幾何学をモデル化するために、多様体学習の議論を利用する。
滑らかな多様体への接空間の概念に従うと、線形近似パッチは、点-クラウド近似に協調フィルタリングのフレーバーを加えるために用いられる。
行列因数分解とともに、MultiL-KRIMは次元の減少に影響を与え、トレーニングデータや追加情報なしで効率的な計算を可能にする。
実ネットワーク時間変化エッジフローの数値実験は、いくつかの最先端スキームに対するMultiL-KRIMの顕著な改善を示している。
This paper extends the recently developed framework of multilinear kernel regression and imputation via manifold learning (MultiL-KRIM) to impute time-varying edge flows in a graph. MultiL-KRIM uses simplicial-complex arguments and Hodge Laplacians to incorporate the graph topology, and exploits manifold-learning arguments to identify latent geometries within features which are modeled as a point-cloud around a smooth manifold embedded in a reproducing kernel Hilbert space (RKHS). Following the concept of tangent spaces to smooth manifolds, linear approximating patches are used to add a collaborative-filtering flavor to the point-cloud approximations. Together with matrix factorizations, MultiL-KRIM effects dimensionality reduction, and enables efficient computations, without any training data or additional information. Numerical tests on real-network time-varying edge flows demonstrate noticeable improvements of MultiL-KRIM over several state-of-the-art schemes. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# MHS-STMA:スケーラブルトランスフォーマーに基づくマルチレベルアテンションフレームワークによるマルチモーダルヘイト音声検出
MHS-STMA: Multimodal Hate Speech Detection via Scalable Transformer-Based Multilevel Attention Framework ( http://arxiv.org/abs/2409.05136v1 ) ライセンス: Link先を確認 | Anusha Chhabra, Dinesh Kumar Vishwakarma, | (参考訳) ソーシャルメディアは人々の生活に大きな影響を与えている。
ソーシャルメディア上でのヘイトスピーチは、近年、社会で最も深刻な問題の一つとして浮上している。
テキストと画像は、記事内に分散された2種類のマルチモーダルデータである。
ユニモーダル分析は、以前のアプローチの主要な重点となっている。
さらに、マルチモーダル分析を行う際、研究者は各モーダルに付随する特徴を保存することを無視する。
本稿では,トランスフォーマーに基づくマルチレベルアテンション(STMA)と呼ばれるマルチモーダルヘイトコンテンツ検出のためのスケーラブルなアーキテクチャを提案する。
このアーキテクチャは、注意に基づくディープラーニング機構、視覚注意機構エンコーダ、キャプション注意機構エンコーダの3つの主要な部分で構成されている。
ヘイトコンテンツを特定するために、各コンポーネントは様々な注意プロセスを使用し、マルチモーダルデータをユニークに処理する。
ヘイトフルミーム、MultiOff、MMHS150Kの3つのヘイトスピーチデータセットに対する複数の評価基準を用いて、提案されたアーキテクチャの有効性を検証する。
その結果、3つのデータセットすべてにおいて、提案された戦略はベースラインアプローチよりも優れたパフォーマンスを示している。
Social media has a significant impact on people's lives. Hate speech on social media has emerged as one of society's most serious issues recently. Text and pictures are two forms of multimodal data distributed within articles. Unimodal analysis has been the primary emphasis of earlier approaches. Additionally, when doing multimodal analysis, researchers neglect to preserve the distinctive qualities associated with each modality. The present article suggests a scalable architecture for multimodal hate content detection called transformer-based multilevel attention (STMA) to address these shortcomings. This architecture consists of three main parts: a combined attention-based deep learning mechanism, a vision attention mechanism encoder, and a caption attention-mechanism encoder. To identify hate content, each component uses various attention processes and uniquely handles multimodal data. Several studies employing multiple assessment criteria on three hate speech datasets: Hateful memes, MultiOff, and MMHS150K, validate the suggested architecture's efficacy. The outcomes demonstrate that on all three datasets, the suggested strategy performs better than the baseline approaches. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# READoc: リアルなドキュメント構造化抽出のための統一ベンチマーク
READoc: A Unified Benchmark for Realistic Document Structured Extraction ( http://arxiv.org/abs/2409.05137v1 ) ライセンス: Link先を確認 | Zichao Li, Aizier Abulaiti, Yaojie Lu, Xuanang Chen, Jia Zheng, Hongyu Lin, Xianpei Han, Le Sun, | (参考訳) 文書構造化抽出(DSE)は、生文書から構造化コンテンツを抽出することを目的としている。
多くのDSEシステムの出現にもかかわらず、それらの統合された評価は依然として不十分であり、この分野の進歩を著しく妨げている。
この問題は、断片化と局所化の特性を示す既存のベンチマークパラダイムに大きく起因している。
これらの制約に対処し、DSEシステムの徹底的な評価を行うために、DSEを非構造化PDFを意味的にリッチなMarkdownに変換する現実的なタスクとして定義するREADocという新しいベンチマークを導入する。
READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。
さらに, 標準化, セグメンテーション, Scoringモジュールを含むDSE評価S$^3$uiteを開発し, 最先端DSE手法の統一評価を行う。
パイプラインツールや専門的なビジュアルモデル,一般的なVLMなどを評価することで,現在の作業と統合された現実的なDSE目標とのギャップを初めて認識する。
私たちは、READocがDSEにおける将来の研究を触媒し、より包括的で実用的なソリューションを育むことを期待しています。
Document Structured Extraction (DSE) aims to extract structured content from raw documents. Despite the emergence of numerous DSE systems, their unified evaluation remains inadequate, significantly hindering the field's advancement. This problem is largely attributed to existing benchmark paradigms, which exhibit fragmented and localized characteristics. To address these limitations and offer a thorough evaluation of DSE systems, we introduce a novel benchmark named READoc, which defines DSE as a realistic task of converting unstructured PDFs into semantically rich Markdown. The READoc dataset is derived from 2,233 diverse and real-world documents from arXiv and GitHub. In addition, we develop a DSE Evaluation S$^3$uite comprising Standardization, Segmentation and Scoring modules, to conduct a unified evaluation of state-of-the-art DSE approaches. By evaluating a range of pipeline tools, expert visual models, and general VLMs, we identify the gap between current work and the unified, realistic DSE objective for the first time. We aspire that READoc will catalyze future research in DSE, fostering more comprehensive and practical solutions. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# テンソルタッカー補完における微量ノルム最小化の再検討:直列学習アプローチ
Revisiting Trace Norm Minimization for Tensor Tucker Completion: A Direct Multilinear Rank Learning Approach ( http://arxiv.org/abs/2409.05139v1 ) ライセンス: Link先を確認 | Xueke Tong, Hanchen Zhu, Lei Cheng, Yik-Chung Wu, | (参考訳) Tuckerフォーマットを使用してテンソルデータを効率的に表現するためには、モデルがオーバーフレキシブルで過度に適合しないよう、マルチリニアランクを最小限に抑えることが重要なタスクである。
テンソルにおけるランク最小化ツールの欠如により、既存の研究は、テンソルデータから展開された行列の標準最小化をトレースするために、タッカー多重線型ランク最小化を結び付けている。
これらの定式化はテンソルと行列の低次元構造を同定する共通の目的を生かそうとしているが、この論文はタッカー完備化における既存のトレースノルムに基づく定式化が多重線型階数最小化において非効率であることを明らかにする。
さらに、テンソルデータから展開される行列ではなく、等価表現の係数行列にトレースノルム最小化を適用するタッカー形式の新しい解釈を提案する。
新たに確立された問題定式化に基づいて、固定点反復アルゴリズムを提案し、その収束性を証明した。
提案アルゴリズムは,既存のトレースノルムに基づくタッカー補完法と比較して,多線形階数学習およびテンソル信号の回復精度において著しく向上した性能を示すことを示す。
To efficiently express tensor data using the Tucker format, a critical task is to minimize the multilinear rank such that the model would not be over-flexible and lead to overfitting. Due to the lack of rank minimization tools in tensor, existing works connect Tucker multilinear rank minimization to trace norm minimization of matrices unfolded from the tensor data. While these formulations try to exploit the common aim of identifying the low-dimensional structure of the tensor and matrix, this paper reveals that existing trace norm-based formulations in Tucker completion are inefficient in multilinear rank minimization. We further propose a new interpretation of Tucker format such that trace norm minimization is applied to the factor matrices of the equivalent representation, rather than some matrices unfolded from tensor data. Based on the newly established problem formulation, a fixed point iteration algorithm is proposed, and its convergence is proved. Numerical results are presented to show that the proposed algorithm exhibits significant improved performance in terms of multilinear rank learning and consequently tensor signal recovery accuracy, compared to existing trace norm based Tucker completion methods. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# TanDepth:UAVにおけるメートル法単眼深度推定にグローバルDEMを活用する
TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs ( http://arxiv.org/abs/2409.05142v1 ) ライセンス: Link先を確認 | Horatiu Florea, Sergiu Nedevschi, | (参考訳) 航空シーン理解システムは、厳密なペイロード制限に直面しており、自然に不適切な問題であるシーン幾何学をモデル化するためには、しばしば単眼深度推定に頼らなければならない。
さらに,学習に基づく手法が必要とする正確な真理データを取得することは,航空領域における重要な課題を提起する。
自己監督的なアプローチは、この問題を回避できる。
同様に、ゼロショットの一般化に向けた良い進歩をもたらす近年の教師付き解も、相対的な深さ値のみを与える。
本研究は, モデルが生成するモデルの種類に関係なく, 相対推定値から計量深度値を求める, 実用的なオンラインスケール回復手法であるTanDepthを提示する。
本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)からの疎度測定を,外生・内生情報を用いてカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
実世界の様々な場面において,UAVに適応した代替スケーリング手法と比較して評価・比較を行った。
この領域のデータの可用性が限られていることを考慮し、一般的なUAVidデータセットへの包括的で奥行きを重視した拡張を構築しリリースし、さらなる研究を行う。
Aerial scene understanding systems face stringent payload restrictions and must often rely on monocular depth estimation for modelling scene geometry, which is an inherently ill-posed problem. Moreover, obtaining accurate ground truth data required by learning-based methods raises significant additional challenges in the aerial domain. Self-supervised approaches can bypass this problem, at the cost of providing only up-to-scale results. Similarly, recent supervised solutions which make good progress towards zero-shot generalization also provide only relative depth values. This work presents TanDepth, a practical, online scale recovery method for obtaining metric depth results from relative estimations at inference-time, irrespective of the type of model generating them. Tailored for Unmanned Aerial Vehicle (UAV) applications, our method leverages sparse measurements from Global Digital Elevation Models (GDEM) by projecting them to the camera view using extrinsic and intrinsic information. An adaptation to the Cloth Simulation Filter is presented, which allows selecting ground points from the estimated depth map to then correlate with the projected reference points. We evaluate and compare our method against alternate scaling methods adapted for UAVs, on a variety of real-world scenes. Considering the limited availability of data for this domain, we construct and release a comprehensive, depth-focused extension to the popular UAVid dataset to further research. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# QuantFactor ReINFORCE: 可変結合型ReINFORCEを用いた定常定式アルファ因子のマイニング
QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE ( http://arxiv.org/abs/2409.05144v1 ) ライセンス: Link先を確認 | Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang, | (参考訳) アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。
深層学習に基づくアルファファクターマイニング手法は強力であることが示されているが、解釈可能性に欠けており、リスクに敏感な現実市場では受け入れられない。
公式形式のアルファ因子はより解釈可能であり、市場参加者に好まれる一方、探索空間は複雑で強力な爆発的手法が求められている。
近年, 深層強化学習を用いた定式的アルファ因子の生成に期待できる枠組みが提案され, 学術・産業ともに急速に研究が進められている。
本稿は, 当初採用されていた政策学習手法であるPPOは, アルファファクタマイニングの文脈においていくつかの重要な問題に直面しており, 公式の探索空間を探索する上では有効ではない,と論じる。
本稿では、よく知られたREINFORCEアルゴリズムに基づく新しい強化学習を提案する。
基礎となる状態遷移関数がディラック分布に従属していることを考えると、このフレームワーク内のマルコフ決定過程は環境変動が最小であり、REINFORCEアルゴリズムはPPOよりも適切である。
新しい専用ベースラインは、理論上苦しむREINFORCEの高分散を減少させるように設計されている。
さらに、市場ボラティリティの変化に適応できる安定したアルファ因子の生成を促進するための報酬形成機構として、情報比を導入している。
種々の実資産データに対する実験的評価から,提案アルゴリズムは,提案アルゴリズムの資産収益との相関関係を3.83%向上し,理論的な結果によく合致する最新のアルファファクターマイニング法と比較して,余剰利益を得る能力が強いことが示唆された。
The goal of alpha factor mining is to discover indicative signals of investment opportunities from the historical financial market data of assets. Deep learning based alpha factor mining methods have shown to be powerful, which, however, lack of the interpretability, making them unacceptable in the risk-sensitive real markets. Alpha factors in formulaic forms are more interpretable and therefore favored by market participants, while the search space is complex and powerful explorative methods are urged. Recently, a promising framework is proposed for generating formulaic alpha factors using deep reinforcement learning, and quickly gained research focuses from both academia and industries. This paper first argues that the originally employed policy training method, i.e., Proximal Policy Optimization (PPO), faces several important issues in the context of alpha factors mining, making it ineffective to explore the search space of the formula. Herein, a novel reinforcement learning based on the well-known REINFORCE algorithm is proposed. Given that the underlying state transition function adheres to the Dirac distribution, the Markov Decision Process within this framework exhibit minimal environmental variability, making REINFORCE algorithm more appropriate than PPO. A new dedicated baseline is designed to theoretically reduce the commonly suffered high variance of REINFORCE. Moreover, the information ratio is introduced as a reward shaping mechanism to encourage the generation of steady alpha factors that can better adapt to changes in market volatility. Experimental evaluations on various real assets data show that the proposed algorithm can increase the correlation with asset returns by 3.83%, and a stronger ability to obtain excess returns compared to the latest alpha factors mining methods, which meets the theoretical results well. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# より優れたスペイン語感情認識:ディープスペクトル音声分析への注意を喚起する
Better Spanish Emotion Recognition In-the-wild: Bringing Attention to Deep Spectrum Voice Analysis ( http://arxiv.org/abs/2409.05148v1 ) ライセンス: Link先を確認 | Elena Ortega-Beltrán, Josep Cabacas-Maso, Ismael Benito-Altamirano, Carles Ventura, | (参考訳) 新たな社会的援助ロボットを作成するコンテキスト内では、ロボットがユーザーの感情状態に適応できるようにするため、感情認識が重要な発達要因となっている。
本研究では、ELRA-S0329とEmoMatch SpanishDBという2つの音声記録スペイン語データセットの分析に焦点を当てた。
具体的には,パラ言語,e。
~g。
メッセージに沿い、意味を明確にする声の特徴。
我々は,音声トラックの視覚的表現を抽出し,事前学習したCNNモデルに供給するDeepSpectrum法を提案する。
分類タスクでは、DeepSpectrumはSupport Vector Classifier --DS-SVC-またはFully-Connected Deep-learning Classifier --DS-FC-とペアリングされることが多い。
DS-SVCおよびDS-FCアーキテクチャの結果を,ELRA-S0329およびEmoMatch SpanishDBの最先端(SOTA)と比較した。
さらに,注意機構,すなわちDS-AMに基づく独自の分類器を提案する。
DS-AMモデルはデータセットとSOTA DeepSpectrumアーキテクチャのSOTAモデルよりも優れています。
最後に、DS-AMモデルを1つのデータセットでトレーニングし、もう1つのデータセットでテストしました。
Within the context of creating new Socially Assistive Robots, emotion recognition has become a key development factor, as it allows the robot to adapt to the user's emotional state in the wild. In this work, we focused on the analysis of two voice recording Spanish datasets: ELRA-S0329 and EmoMatchSpanishDB. Specifically, we centered our work in the paralanguage, e.~g. the vocal characteristics that go along with the message and clarifies the meaning. We proposed the use of the DeepSpectrum method, which consists of extracting a visual representation of the audio tracks and feeding them to a pretrained CNN model. For the classification task, DeepSpectrum is often paired with a Support Vector Classifier --DS-SVC--, or a Fully-Connected deep-learning classifier --DS-FC--. We compared the results of the DS-SVC and DS-FC architectures with the state-of-the-art (SOTA) for ELRA-S0329 and EmoMatchSpanishDB. Moreover, we proposed our own classifier based upon Attention Mechanisms, namely DS-AM. We trained all models against both datasets, and we found that our DS-AM model outperforms the SOTA models for the datasets and the SOTA DeepSpectrum architectures. Finally, we trained our DS-AM model in one dataset and tested it in the other, to simulate real-world conditions on how biased is the model to the dataset. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# 超音波:時間対応とメッシュ変形を用いた3次元メッシュ列の時空間幾何圧縮
Ultron: Enabling Temporal Geometry Compression of 3D Mesh Sequences using Temporal Correspondence and Mesh Deformation ( http://arxiv.org/abs/2409.05151v1 ) ライセンス: Link先を確認 | Haichao Zhu, | (参考訳) コンピュータビジョンの進歩により、動的3次元再構成技術は大きな進歩を遂げ、様々な分野に応用されている。
しかし、これらの技術は大量の3Dデータシーケンスを生成し、効率的なストレージと送信方法を必要とする。
既存の3Dモデル圧縮手法は主に静的モデルに焦点を当て、フレーム間情報を考慮せず、データサイズを減らす能力を制限する。
時間メッシュ圧縮は、あまり注目されていないが、すべての入力メッシュが同じトポロジを持つ必要があることが多い。
本研究では,時間的対応とメッシュ変形を用いた任意のトポロジでメッシュ列を圧縮する方法を提案する。
この方法は連続するフレーム間の時間的対応を確立し、変形モデルを適用してメッシュを一方のフレームからその後のフレームに変換し、品質が許容しきい値に達した場合、元のメッシュを変形したメッシュに置き換える。
大規模実験により, 圧縮性能の観点から, この手法が最先端の性能を達成できることが実証された。
本論文は,メッシュ間の時間的対応を確立する幾何学的・運動的モデル,時間的メッシュ列のメッシュ品質評価,エントロピーに基づく符号化とコーナーテーブルに基づくメッシュ列の圧縮手法,提案手法の有効性を示す広範な実験を含む。
すべてのコードはhttps://github.com/lszhuhaichao/ultron.comでオープンソース化される。
With the advancement of computer vision, dynamic 3D reconstruction techniques have seen significant progress and found applications in various fields. However, these techniques generate large amounts of 3D data sequences, necessitating efficient storage and transmission methods. Existing 3D model compression methods primarily focus on static models and do not consider inter-frame information, limiting their ability to reduce data size. Temporal mesh compression, which has received less attention, often requires all input meshes to have the same topology, a condition rarely met in real-world applications. This research proposes a method to compress mesh sequences with arbitrary topology using temporal correspondence and mesh deformation. The method establishes temporal correspondence between consecutive frames, applies a deformation model to transform the mesh from one frame to subsequent frames, and replaces the original meshes with deformed ones if the quality meets a tolerance threshold. Extensive experiments demonstrate that this method can achieve state-of-the-art performance in terms of compression performance. The contributions of this paper include a geometry and motion-based model for establishing temporal correspondence between meshes, a mesh quality assessment for temporal mesh sequences, an entropy-based encoding and corner table-based method for compressing mesh sequences, and extensive experiments showing the effectiveness of the proposed method. All the code will be open-sourced at https://github.com/lszhuhaichao/ultron. | 翻訳日:2024-09-10 19:06:48 公開日:2024-09-08 |
# OneGen: LLMの効率的なワンパス統一生成と検索
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs ( http://arxiv.org/abs/2409.05152v1 ) ライセンス: Link先を確認 | Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang, | (参考訳) 近年のLarge Language Models (LLMs)の進歩により、様々なNLPタスクの生成能力が大幅に向上したにもかかわらず、LLMは検索タスクを直接処理する際の制限に直面している。
しかし、多くの実用的なアプリケーションでは、検索と生成の両方をシームレスに統合する必要がある。
本稿では, 生成と検索の両方を必要とするタスクにおけるLLMの性能向上を目的とした, 新規かつ効率的なOne-pass Generation and Search framework(OneGen)を提案する。
提案フレームワークは, 自己回帰的に生成された検索トークンを組み込むことにより, 従来の個別の学習手法を橋渡しする。
これにより、単一のLLMが両方のタスクを統一されたフォワードパスで同時に処理できる。
RAGとEntity Linkingという2つの異なる種類の複合タスクについて実験を行い、トレーニングと推論におけるOneGenのプラグ可能性、有効性、効率性を検証する。
さらに,本研究の結果は,LLMの生成能力を維持しつつ,検索性能を向上することを示す。
私たちの知る限りでは、OneGen は LLM が生成中にベクトル検索を行うことができる最初の方法です。
Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# ロボットによる高層建築物外壁の遠隔制御塗装システム
A Remote Control Painting System for Exterior Walls of High-Rise Buildings through Robotic System ( http://arxiv.org/abs/2409.05153v1 ) ライセンス: Link先を確認 | Diganta Das, Dipanjali Kundu, Anichur Rahman, Muaz Rahman, Sadia Sazzad, | (参考訳) 高層ビルの外観画は難しい作業です。
我々の国や世界の他の国では、この作業は手作業で行われており、労働者にとって危険であり、命が危うくなります。
研究者や業界の専門家は、高層建築壁の外装塗装のための、自動でロボット的なソリューションを見つけようとしている。
本稿では,この問題に対する解決策を提案する。
建築壁の外装を自動塗装するプロトタイプを設計・実装する。
試作機では4方向(上向きと左向き)で動かせるスプレー機構が導入された。
全ての動作はマイクロコントローラ操作のサーボモーターによって達成される。
さらに、これらのコンポーネントは、将来、提案された遠隔制御システムをロボットシステムにアップグレードするスコープを作成する。
提示されたシステムでは、すべての操作はスマートフォンインターフェースからリモートで制御される。
Bluetoothは遠隔通信に使われている。
提案システムは,職場の安全を向上し,生産性を向上させることが期待されている。
Exterior painting of high-rise buildings is a challenging task. In our country, as well as in other countries of the world, this task is accomplished manually, which is risky and life-threatening for the workers. Researchers and industry experts are trying to find an automatic and robotic solution for the exterior painting of high-rise building walls. In this paper, we propose a solution to this problem. We design and implement a prototype for automatically painting the building walls' exteriors. A spray mechanism was introduced in the prototype that can move in four different directions (up-down and left-right). All the movements are achieved by using microcontroller-operated servo motors. Further, these components create a scope to upgrade the proposed remote-controlled system to a robotic system in the future. In the presented system, all the operations are controlled remotely from a smartphone interface. Bluetooth technology is used for remote communications. It is expected that the suggested system will improve productivity with better workplace safety. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 特定ビット共有のための絡み合った状態を用いた多人数半量子秘密共有プロトコル
A Novel Efficient Multiparty Semi-Quantum Secret Sharing Protocol Using Entangled States for Sharing Specific Bits ( http://arxiv.org/abs/2409.05154v1 ) ライセンス: Link先を確認 | Mustapha Anis Younes, Sofia Zebboudj, Abdelhakim Gharbi, | (参考訳) 近年、Younesらは、Tian et al の 3 パーティプロトコル \cite{Tian2021} を一般化し、複数の参加者に対応可能な効率的なマルチパーティの半量子秘密共有(SQSS)方式を提案している。
このスキームは、高いキュービット効率や秘密のディーラーであるアリスがメッセージの内容を制御するなど、元の利点を保っている。
しかし、He et al \cite{He2024} は、Tian et al のプロトコルの脆弱性を二重 CNOT 攻撃 (DCNA) に特定した。
これに応えて、Heらはこの問題に対処するための改善されたプロトコルを提案した。
これらの改善にもかかわらず、それらのプロトコルは2つの参加者に限られており、主に双方向通信方式であり、光子数分割器(PNS)や波長フィルタ(WF)のような高価な量子デバイスがなければ、トロイの木馬の攻撃を完全に防ぐことはできない。
これらの問題に対処するため,ベル状態とアダマール演算の量子特性を用いた新しい多人数SQSS方式を開発し,盗聴者を検出する。
この新たなスキームは、DCNA、インターセプト-レスポンス攻撃、および集団攻撃に対して安全である。
完全に一方的な通信方式を採用しており、高価な量子装置を使わずにトロイの木馬の攻撃を完全に防ぎ、半量子環境の本来の意図と一致している。
この新しいプロトコルはクビット効率も向上し、Aliceが特定のシークレットを共有することを可能にする。
Recently, Younes et al. proposed an efficient multi-party semi-quantum secret sharing (SQSS) scheme that generalizes Tian et al.'s three-party protocol \cite{Tian2021} to accommodate multiple participants. This scheme retains the original advantages, such as high qubit efficiency and allowing the secret dealer, Alice, to control the message content. However, He et al. \cite{He2024} identified a vulnerability in Tian et al.'s protocol to the double CNOT attack (DCNA), which also affects the generalized scheme. In response, He et al. proposed an improved protocol to address this issue. Despite these improvements, their protocol is limited to two participants and remains a primarily two-way communication scheme, which does not fully prevent the Trojan horse attack without expensive quantum devices such as photon number splitters (PNS) and wavelength filters (WF). To address these issues, this paper develops a novel multi-party SQSS scheme using the quantum property between Bell states and the Hadamard operation to detect eavesdroppers. This new scheme is secure against the DCNA, intercept-resend attack, and collective attack. It employs a fully one-way communication scheme, entirely preventing the Trojan horse attack without costly quantum devices, aligning with the semi-quantum environment's original intent. This new protocol also offers better qubit efficiency and allows Alice to share specific secrets. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# データセットにおける画像色整合性:Smooth-TPS3D法
Image color consistency in datasets: the Smooth-TPS3D method ( http://arxiv.org/abs/2409.05159v1 ) ライセンス: Link先を確認 | Ismael Benito-Altamirano, David Martínez-Carpena, Hanna Lizarzaburu-Aguilar, Carles Ventura, Cristian Fàbrega, Joan Daniel Prades, | (参考訳) 画像の色の一貫性は、データセットを作成する際のデジタル画像の一貫性の鍵となる問題である。
そこで本研究では,カラーチャート(Macbeth ColorChecker)や他の機械可読パターンと組み合わせて,改良された3次元薄膜スプライン(TPS3D)色補正法を提案し,後処理により画像の整合性を実現する。
また,提案手法を従来の実装と比較し,GehlerのColorCheckerデータセットに基づく拡張データセットを用いて,従来報告されていた代替手法と比較した。
ベンチマークには、修正済みのイメージが地味なイメージにどのように似ているか、そしてこれらの実装がどれだけ速くなっているかが含まれている。
その結果,TPS3Dは画像の整合性を達成するのに最適な候補であることがわかった。
さらに,Smooth-TPS3D法は,従来手法と同等の結果を示し,前手法が1%未満の未条件シナリオの11~15%を削減した。
また,Smooth-TPS法は従来の手法よりも20%高速であることを示す。
最後に,異なる手法が品質,補正精度,計算負荷の相違にどのように影響するかを論じる。
Image color consistency is the key problem in digital imaging consistency when creating datasets. Here, we propose an improved 3D Thin-Plate Splines (TPS3D) color correction method to be used, in conjunction with color charts (i.e. Macbeth ColorChecker) or other machine-readable patterns, to achieve image consistency by post-processing. Also, we benchmark our method against its former implementation and the alternative methods reported to date with an augmented dataset based on the Gehler's ColorChecker dataset. Benchmark includes how corrected images resemble the ground-truth images and how fast these implementations are. Results demonstrate that the TPS3D is the best candidate to achieve image consistency. Furthermore, our Smooth-TPS3D method shows equivalent results compared to the original method and reduced the 11-15% of ill-conditioned scenarios which the previous method failed to less than 1%. Moreover, we demonstrate that the Smooth-TPS method is 20% faster than the original method. Finally, we discuss how different methods offer different compromises between quality, correction accuracy and computational load. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 依存誤差を持つ大規模回帰モデルの推論
Inference for Large Scale Regression Models with Dependent Errors ( http://arxiv.org/abs/2409.05160v1 ) ライセンス: Link先を確認 | Lionel Voirol, Haotian Xu, Yuming Zhang, Luca Insolia, Roberto Molinari, Stéphane Guerrier, | (参考訳) データサイズとストレージコストの指数的な増加は、データサイエンスコミュニティに大きな課題をもたらし、そのようなデータ上で学習方法を実行するソリューションを必要としている。
機械学習は、ビッグデータ設定において予測精度を達成するためにスケールしてきたが、統計的推測と不確実性定量化ツールはまだ遅れている。
優先順位科学分野は、回帰のような統計的手法で研究される現象を理解するために膨大なデータを収集する。
この設定では、回帰パラメータ推定は効率的な計算手順の恩恵を受けることができるが、主な課題は複雑な共分散構造を持つエラープロセスパラメータの計算である。
これらの構造の同定と推定は推論に不可欠であり、ガウス過程を用いた機械学習における不確実性定量化にしばしば用いられる。
しかし、データスケールが大きくなるにつれて、これらの構造を推定することは重荷になり、出力の信頼性を損なう近似が必要となる。
これらの近似は、長距離依存や欠落データのような複雑さがある場合、さらに信頼性が低い。
この研究は、遅延依存構造や欠落データのようなデータ複雑度の存在下で確率的プロセスを用いて線形モデルに対する推論を推定し、提供するための、高度にスケーラブルで安定で統計的に有効な手法であるGMWMXを用いた一般化ウェーブレットモーメントの統計的性質を定義し、証明する。
地球科学と広範なシミュレーションの応用例は、GMWMXの利点を浮き彫りにしている。
The exponential growth in data sizes and storage costs has brought considerable challenges to the data science community, requiring solutions to run learning methods on such data. While machine learning has scaled to achieve predictive accuracy in big data settings, statistical inference and uncertainty quantification tools are still lagging. Priority scientific fields collect vast data to understand phenomena typically studied with statistical methods like regression. In this setting, regression parameter estimation can benefit from efficient computational procedures, but the main challenge lies in computing error process parameters with complex covariance structures. Identifying and estimating these structures is essential for inference and often used for uncertainty quantification in machine learning with Gaussian Processes. However, estimating these structures becomes burdensome as data scales, requiring approximations that compromise the reliability of outputs. These approximations are even more unreliable when complexities like long-range dependencies or missing data are present. This work defines and proves the statistical properties of the Generalized Method of Wavelet Moments with Exogenous variables (GMWMX), a highly scalable, stable, and statistically valid method for estimating and delivering inference for linear models using stochastic processes in the presence of data complexities like latent dependence structures and missing data. Applied examples from Earth Sciences and extensive simulations highlight the advantages of the GMWMX. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# OODオブジェクト検出器は基礎モデルから学ぶことができるか?
Can OOD Object Detectors Learn from Foundation Models? ( http://arxiv.org/abs/2409.05162v1 ) ライセンス: Link先を確認 | Jiahui Liu, Xin Wen, Shizhen Zhao, Yingxian Chen, Xiaojuan Qi, | (参考訳) アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
安定拡散のようなテキストから画像への生成モデルの最近の進歩に触発されて、大規模オープンセットデータに基づいて訓練された生成モデルの可能性を調べ、OODサンプルを合成し、OODオブジェクトの検出を向上させる。
SyncOODは,テキストから画像への生成モデルから意味のあるOODデータを自動的に抽出する,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
これにより、既成のファンデーションモデル内にカプセル化されたオープンワールドの知識へのモデルアクセスが提供される。
次に、合成OODサンプルを使用して、軽量でプラグアンドプレイのOOD検出器のトレーニングを増強し、分散内(ID)/OOD決定境界を効果的に最適化する。
複数のベンチマークにわたる大規模な実験により、SyncOODは既存の手法を著しく上回り、最小限の合成データ使用量で新しい最先端の性能を確立した。
Out-of-distribution (OOD) object detection is a challenging task due to the absence of open-set OOD data. Inspired by recent advancements in text-to-image generative models, such as Stable Diffusion, we study the potential of generative models trained on large-scale open-set data to synthesize OOD samples, thereby enhancing OOD object detection. We introduce SyncOOD, a simple data curation method that capitalizes on the capabilities of large foundation models to automatically extract meaningful OOD data from text-to-image generative models. This offers the model access to open-world knowledge encapsulated within off-the-shelf foundation models. The synthetic OOD samples are then employed to augment the training of a lightweight, plug-and-play OOD detector, thus effectively optimizing the in-distribution (ID)/OOD decision boundaries. Extensive experiments across multiple benchmarks demonstrate that SyncOOD significantly outperforms existing methods, establishing new state-of-the-art performance with minimal synthetic data usage. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# CD-NGP:動的シーンのための高速でスケーラブルな連続表現
CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes ( http://arxiv.org/abs/2409.05166v1 ) ライセンス: Link先を確認 | Zhenhuan Liu, Shuai Liu, Zhiwei Ning, Jie Yang, Wei Liu, | (参考訳) 動的シーンにおける3次元再構成と新しいビュー合成のための高速でスケーラブルな表現であるCD-NGPを提案する。
連続学習にインスパイアされた本手法は,まず入力ビデオを複数のチャンクに分割し,次にモデルのチャンクをチャンクで訓練し,最後に,第1枝とその後の枝の特徴を融合させる。
DyNeRFデータセットを用いた実験により、提案した新しい表現は、メモリ消費、モデルサイズ、トレーニング速度、レンダリング品質との大きなバランスに達することが示された。
具体的には、オフライン方式よりもトレーニングメモリ(<14$GB)を85\%以上消費し、他のオンライン方式に比べてストリーミング帯域(<0.4$MB/frame)を大幅に削減する必要がある。
We present CD-NGP, which is a fast and scalable representation for 3D reconstruction and novel view synthesis in dynamic scenes. Inspired by continual learning, our method first segments input videos into multiple chunks, followed by training the model chunk by chunk, and finally, fuses features of the first branch and subsequent branches. Experiments on the prevailing DyNeRF dataset demonstrate that our proposed novel representation reaches a great balance between memory consumption, model size, training speed, and rendering quality. Specifically, our method consumes $85\%$ less training memory ($<14$GB) than offline methods and requires significantly lower streaming bandwidth ($<0.4$MB/frame) than other online alternatives. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# メッシュを用いたサブグラフ幾何学的深層学習による多結晶塑性の学習
Learning polycrystal plasticity using mesh-based subgraph geometric deep learning ( http://arxiv.org/abs/2409.05169v1 ) ライセンス: Link先を確認 | Hanfeng Zhai, | (参考訳) 金属の多結晶塑性は非線形挙動とひずみ硬化により特徴づけられ、数値モデルが計算集約化される。
有限要素法(FEM)シミュレーションから多結晶塑性を代理するグラフニューラルネットワーク(GNN)を用いる。
本稿では,FEMメッシュセル間の結節ひずみと縁距離を符号化し,それらを集約して埋め込みを得る新しいメッセージパスGNNを提案し,そのデコード埋め込みと結節ひずみを結合してグラフノード上の応力テンソルを予測する。
FEMメッシュグラフから生成されたサブグラフに基づいてGNNをトレーニングし、メッシュセルをノードに変換し、隣接するセル間でエッジを生成する。
GNNは72グラフでトレーニングされ、18グラフでテストされている。
トレーニングされたGNNを周期性多結晶体に適用し、ひずみ勾配塑性理論に基づいて応力-ひずみマップを学習する。
GNNはFEMグラフに基づいて正確にトレーニングされ、トレーニングセットとテストセットの両方に対して$R^2$は0.993である。
提案したGNN可塑性構成モデルは,ランダムに選択された試験多結晶上でのベンチマークFEM法と比較して150倍以上の速度を向上する。
また、トレーニングされたGNNを30個の未確認FEMシミュレーションに適用し、総合的なR^2$ 0.992でGNNを一般化する。
ポリ結晶中のvon Mises応力分布の解析は、GNNモデルが低誤差で正確に応力分布を学習していることを示している。
トレーニング、テスト、不明なデータセット間のエラー分布を比較することで、提案したモデルが過度に適合せず、トレーニングデータを超えて一般化できないと推定できる。
この研究は、多結晶塑性モデリングにおいて、グラフをサロゲートとして用いるための道を開くことが期待されている。
Polycrystal plasticity in metals is characterized by nonlinear behavior and strain hardening, making numerical models computationally intensive. We employ Graph Neural Network (GNN) to surrogate polycrystal plasticity from finite element method (FEM) simulations. We present a novel message-passing GNN that encodes nodal strain and edge distances between FEM mesh cells, aggregates them to obtain embeddings, and combines the decoded embeddings with the nodal strains to predict stress tensors on graph nodes. We demonstrate training GNN based on subgraphs generated from FEM mesh-graphs, in which the mesh cells are converted to nodes and edges are created between adjacent cells. The GNN is trained on 72 graphs and tested on 18 graphs. We apply the trained GNN to periodic polycrystals and learn the stress-strain maps based on strain-gradient plasticity theory. The GNN is accurately trained based on FEM graphs, in which the $R^2$ for both training and testing sets are 0.993. The proposed GNN plasticity constitutive model speeds up more than 150 times compared with the benchmark FEM method on randomly selected test polycrystals. We also apply the trained GNN to 30 unseen FEM simulations and the GNN generalizes well with an overall $R^2$ of 0.992. Analysis of the von Mises stress distributions in polycrystals shows that the GNN model accurately learns the stress distribution with low error. By comparing the error distribution across training, testing, and unseen datasets, we can deduce that the proposed model does not overfit and generalizes well beyond the training data. This work is expected to pave the way for using graphs as surrogates in polycrystal plasticity modeling. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# グラフィクス生成の観点からの菌類形態シミュレーションと動的光含有の探索
Exploring Fungal Morphology Simulation and Dynamic Light Containment from a Graphics Generation Perspective ( http://arxiv.org/abs/2409.05171v1 ) ライセンス: Link先を確認 | Kexin Wang, Ivy He, Jinke Li, Ali Asadipour, Yitong Sun, | (参考訳) 菌類シミュレーションと制御はバイオアーツの創出において重要な技術であると考えられている。
しかし、信頼できる菌類シミュレーションのためのコーディングアルゴリズムは、アーティストにとって大きな課題となっている。
本研究は菌類形態学シミュレーションを二次元グラフィック時系列生成問題に近似する。
ゼロコード型ニューラルネットワーク駆動セルオートマトンを提案する。
真菌の拡散パターンは、イメージセグメンテーションモデルと時系列予測モデルを通じて学習され、ニューラルネットワーク細胞のトレーニングを監督し、実際の拡散行動の再現を可能にする。
さらに,レーザーによる菌類境界の動的包接化を実装した。
オートマトンと同期して、真菌は実際に設計された複雑な形へと拡散する。
Fungal simulation and control are considered crucial techniques in Bio-Art creation. However, coding algorithms for reliable fungal simulations have posed significant challenges for artists. This study equates fungal morphology simulation to a two-dimensional graphic time-series generation problem. We propose a zero-coding, neural network-driven cellular automaton. Fungal spread patterns are learned through an image segmentation model and a time-series prediction model, which then supervise the training of neural network cells, enabling them to replicate real-world spreading behaviors. We further implemented dynamic containment of fungal boundaries with lasers. Synchronized with the automaton, the fungus successfully spreads into pre-designed complex shapes in reality. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 効率的な植物病予測のための高度な機械学習フレームワーク
Advanced Machine Learning Framework for Efficient Plant Disease Prediction ( http://arxiv.org/abs/2409.05174v1 ) ライセンス: Link先を確認 | Aswath Muthuselvam, S. Sowdeshwar, M. Saravanan, Satheesh K. Perepu, | (参考訳) 近年,多くのスマート農業プラットフォームにおいて,機械学習(ML)メソッドが重要なコンポーネントとして組み込まれている。
本稿では,農家が一般からの援助を受けることのできるスマート農業プラットフォームを構築するための,高度なML手法の新たな組み合わせについて検討する。
具体的には、農家が地域社会の問題解決に役立てられる植物病の理解を、農家が容易に支援できる方法に焦点をあてる。
本システムでは, 被影響画像から植物の病原体を同定する深層学習技術を用いて, 初期識別子として機能する。
さらに、自然言語処理技術は、ユーザコミュニティが投稿したソリューションのランク付けに使用される。
本稿では,農家間の適切なコミュニケーションを確立するために,人気のあるソーシャルメディアプラットフォームであるTwitter上にメッセージチャネルを構築した。
ソリューションの効果は他の様々なパラメータによって異なるため、概念ドリフトアプローチの利用を拡張して、良い解決策を考え出し、農家に提案する。
提案したフレームワークをベンチマークデータセット上でテストし,正確で信頼性の高い結果を得た。
Recently, Machine Learning (ML) methods are built-in as an important component in many smart agriculture platforms. In this paper, we explore the new combination of advanced ML methods for creating a smart agriculture platform where farmers could reach out for assistance from the public, or a closed circle of experts. Specifically, we focus on an easy way to assist the farmers in understanding plant diseases where the farmers can get help to solve the issues from the members of the community. The proposed system utilizes deep learning techniques for identifying the disease of the plant from the affected image, which acts as an initial identifier. Further, Natural Language Processing techniques are employed for ranking the solutions posted by the user community. In this paper, a message channel is built on top of Twitter, a popular social media platform to establish proper communication among farmers. Since the effect of the solutions can differ based on various other parameters, we extend the use of the concept drift approach and come up with a good solution and propose it to the farmer. We tested the proposed framework on the benchmark dataset, and it produces accurate and reliable results. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# Webアプリケーションコード生成におけるベンチマークフロンティア言語モデルからの洞察
Insights from Benchmarking Frontier Language Models on Web App Code Generation ( http://arxiv.org/abs/2409.05177v1 ) ライセンス: Link先を確認 | Yi Cui, | (参考訳) 本稿では,LLMのWebアプリケーションコード生成能力を評価するためのテストスイートであるWebApp1Kベンチマークにおいて,16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。
結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
コード行(LOC)と障害分布を解析することにより、正しいコードを書くことは間違ったコードを生成するよりも複雑であることがわかった。
さらに、プロンプトエンジニアリングは、特定のケースを超えてエラーを減らすのに限られた有効性を示している。
これらの結果から,LLM符号化のさらなる進歩はモデルの信頼性と誤りの最小化に重きを置くことが示唆された。
This paper presents insights from evaluating 16 frontier large language models (LLMs) on the WebApp1K benchmark, a test suite designed to assess the ability of LLMs to generate web application code. The results reveal that while all models possess similar underlying knowledge, their performance is differentiated by the frequency of mistakes they make. By analyzing lines of code (LOC) and failure distributions, we find that writing correct code is more complex than generating incorrect code. Furthermore, prompt engineering shows limited efficacy in reducing errors beyond specific cases. These findings suggest that further advancements in coding LLM should emphasize on model reliability and mistake minimization. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 非定常設定のためのスライディング・ウィンドウトンプソンサンプリング
Sliding-Window Thompson Sampling for Non-Stationary Settings ( http://arxiv.org/abs/2409.05181v1 ) ライセンス: Link先を確認 | Marco Fiandri, Alberto Maria Metelli, Francesco Trovò, | (参考訳) $\textit{Restless Bandits}$は、政策立案者による行動とは独立して報酬が時間とともに進化するシーケンシャルな意思決定問題を記述する。
従来のBanditアルゴリズムは、基礎となる環境が変化しているときにフェールすることが示されており、より困難なシナリオに対処するためには、特別に構築されたアルゴリズムが必要であることが明確に示されている。
本稿では,Thompson-Samplingにインスパイアされたアルゴリズム,すなわち$\texttt{BETA-SWTS}$と$\textt{$\gamma$-SWGTS}$を解析し,設定の非定常性によって与えられる追加の複雑さに直面する。
最後に、一般的な定式化から、最も一般的な非定常的な設定の2つの後悔を推測する: $\textit{Abruptly Changing}$と$\textit{Smoothly Changing}$環境。
$\textit{Restless Bandits}$ describe sequential decision-making problems in which the rewards evolve with time independently from the actions taken by the policy-maker. It has been shown that classical Bandit algorithms fail when the underlying environment is changing, making clear that in order to tackle more challenging scenarios specifically crafted algorithms are needed. In this paper, extending and correcting the work by \cite{trovo2020sliding}, we analyze two Thompson-Sampling inspired algorithms, namely $\texttt{BETA-SWTS}$ and $\texttt{$\gamma$-SWGTS}$, introduced to face the additional complexity given by the non-stationary nature of the settings; in particular we derive a general formulation for the regret in $\textit{any}$ arbitrary restless environment for both Bernoulli and Subgaussian rewards, and, through the introduction of new quantities, we delve in what contribution lays the deeper foundations of the error made by the algorithms. Finally, we infer from the general formulation the regret for two of the most common non-stationary settings: the $\textit{Abruptly Changing}$ and the $\textit{Smoothly Changing}$ environments. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 量子信号処理による汎用パリティ測定と高効率多成分猫状態生成
Generalized Parity Measurements and Efficient Large Multi-component Cat State Preparation with Quantum Signal Processing ( http://arxiv.org/abs/2409.05186v1 ) ライセンス: Link先を確認 | Sina Zeytinoglu, | (参考訳) 一般化パリティ測定は、非自明な量子状態の作成と誤り訂正符号の誤りの検出に役立っている。
本稿では,量子信号処理に基づく効率的で堅牢なパリティ測定の提案について述べる。
最も重要なことに、測定量子ビットと測定系の間の一対一のカップリング相互作用によって生じる進化へのアクセスを考えると、所望の測定は相互作用速度によってのみ決定される一定時間で行うことができる。
提案した一般化パリティ測定は超伝導空洞量子力学の設定において高忠実度多成分猫状態の効率的な調製に利用できる。
我々は,現実的なシステムパラメータを用いた数値シミュレーションにより,状態準備プロトコルをベンチマークする。
400ドルの光子を持つ20成分の猫状態は、キャビティ崩壊と非線形クビット-キャビティ結合率によって、成功確率$>2\%$とフィデリティ$\approx 90\%$で作成できることを示す。
本結果は,多数の励起からなる有用な非古典的状態の幅広い実現の道を開くものである。
Generalized parity measurements are instrumental for the preparation of non-trivial quantum states and the detection of errors in error correction codes. Here, we detail a proposal for efficient and robust generalized parity measurements based on Quantum Signal Processing. Most strikingly, given access to an evolution generated by a one-to-all coupling interaction Hamiltonian between a measurement qubit and the measured system, the desired measurement can be implemented in constant time determined only by the interaction rate. The proposed generalized parity measurement can be used to efficiently prepare high-fidelity multi-component cat states in the setting of superconducting cavity quantum electrodynamics. We benchmark the state-preparation protocol through numerical simulations with realistic system parameters. We show that a 20-component cat state with $400$ photons can be prepared with success probability $>2\%$ and a fidelity $\approx 90\%$ limited by the cavity decay and nonlinear qubit-cavity coupling rates. Our results pave the way for the realization of a wide range of useful non-classical states consisting of a large number of excitations. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 微量測定による物質の量子位相の分類
Learning to Classify Quantum Phases of Matter with a Few Measurements ( http://arxiv.org/abs/2409.05188v1 ) ライセンス: Link先を確認 | Mehran Khosrojerdi, Jason L. Pereira, Alessandro Cuccoli, Leonardo Banchi, | (参考訳) 相図の一部のみが予め知られている場合, 物質の量子相を0温度で同定する。
教師付き学習手法に従えば、未知の領域でも位相を分類できる観測可能な構造を構築するために、これまでの知識をいかに活用するかを示す。
テンソルネットワーク, カーネル手法, 一般化境界, 量子アルゴリズム, シャドウ推定器などの古典的および量子的手法を組み合わせることで, 新たな基底状態の証明が多項式数で得られることを示す。
我々の研究の重要な応用は、量子シミュレーター(例えば、コールド原子実験)で得られた物質相の分類であり、複雑な多粒子系の基底状態を効率的に生成し、簡単な測定(例えば、単一量子ビット測定)を施すことができるが、普遍的なゲートセットの実行は不可能である。
We study the identification of quantum phases of matter, at zero temperature, when only part of the phase diagram is known in advance. Following a supervised learning approach, we show how to use our previous knowledge to construct an observable capable of classifying the phase even in the unknown region. By using a combination of classical and quantum techniques, such as tensor networks, kernel methods, generalization bounds, quantum algorithms, and shadow estimators, we show that, in some cases, the certification of new ground states can be obtained with a polynomial number of measurements. An important application of our findings is the classification of the phases of matter obtained in quantum simulators, e.g., cold atom experiments, capable of efficiently preparing ground states of complex many-particle systems and applying simple measurements, e.g., single qubit measurements, but unable to perform a universal set of gates. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# 幾何学的グラフニューラルネットワークの一般化
Generalization of Geometric Graph Neural Networks ( http://arxiv.org/abs/2409.05191v1 ) ライセンス: Link先を確認 | Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, | (参考訳) 本稿では,幾何グラフニューラルネットワーク(GNN)の一般化能力について検討する。
埋め込み多様体上の無作為なサンプル点の有限集合からなる幾何学グラフ上のGNNについて、位相情報をキャプチャした。
我々は、このGNNの最適経験リスクと最適統計リスクの間の一般化ギャップを証明し、これは、多様体からサンプリングされた点の数で減少し、基礎となる多様体の次元で増加する。
この一般化ギャップは、サンプリングされた点の集合上のグラフ上で訓練されたGNNが、同じ基礎多様体から構築された他の見えないグラフを処理するために利用されることを保証している。
最も重要な観察は、前の結果のようにグラフのサイズに制限されるのではなく、1つの大きなグラフで一般化能力を実現することができることである。
一般化ギャップは、サンプルグラフ上のGNNの非漸近収束結果に基づいて、基礎となる多様体ニューラルネットワーク(MNN)に導出される。
我々は、ArxivデータセットとCoraデータセットの両方の実験により、この理論的結果を検証する。
In this paper, we study the generalization capabilities of geometric graph neural networks (GNNs). We consider GNNs over a geometric graph constructed from a finite set of randomly sampled points over an embedded manifold with topological information captured. We prove a generalization gap between the optimal empirical risk and the optimal statistical risk of this GNN, which decreases with the number of sampled points from the manifold and increases with the dimension of the underlying manifold. This generalization gap ensures that the GNN trained on a graph on a set of sampled points can be utilized to process other unseen graphs constructed from the same underlying manifold. The most important observation is that the generalization capability can be realized with one large graph instead of being limited to the size of the graph as in previous results. The generalization gap is derived based on the non-asymptotic convergence result of a GNN on the sampled graph to the underlying manifold neural networks (MNNs). We verify this theoretical result with experiments on both Arxiv dataset and Cora dataset. | 翻訳日:2024-09-10 17:08:26 公開日:2024-09-08 |
# ベルウェザートレーディング:市場の将来物価変動予測に影響を及ぼす取引の特徴
Bellwether Trades: Characteristics of Trades influential in Predicting Future Price Movements in Markets ( http://arxiv.org/abs/2409.05192v1 ) ライセンス: Link先を確認 | Tejas Ramdas, Martin T. Wells, | (参考訳) 本研究では,重要な情報を含む取引の特徴を識別するために,強力な非線形機械学習手法を活用する。
まず、将来の市場の動きを正確に予測する上で、最適化されたニューラルネットワーク予測器の有効性を示す。
次に、この成功したニューラルネットワーク予測器から得られる情報を用いて、最適化されたニューラルネットワークの将来の価格変動予測に最も影響した各データポイント(トレーディングウィンドウ)内の個々の取引をピンポイントする。
このアプローチは、さまざまなサイズの取引、会場、取引コンテキスト、時間とともに提供される情報コンテンツにおける異質性に関する重要な洞察を明らかにするのに役立ちます。
In this study, we leverage powerful non-linear machine learning methods to identify the characteristics of trades that contain valuable information. First, we demonstrate the effectiveness of our optimized neural network predictor in accurately predicting future market movements. Then, we utilize the information from this successful neural network predictor to pinpoint the individual trades within each data point (trading window) that had the most impact on the optimized neural network's prediction of future price movements. This approach helps us uncover important insights about the heterogeneity in information content provided by trades of different sizes, venues, trading contexts, and over time. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# マルチホップ推論における難読化要因:大規模言語モデルは注意深い読者か?
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? ( http://arxiv.org/abs/2409.05197v1 ) ライセンス: Link先を確認 | Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler, | (参考訳) State-of-the-art Large Language Models (LLMs) は、理解を読み取ること、高度な数学や推論のスキルから科学的知識を持つことまで、様々な能力で知られている。
本稿では,複数のテキストソースからの情報を識別し,統合する機能であるマルチホップ推論機能に着目した。
既存のマルチホップ推論ベンチマークにおいて、モデルが推論要求を回避できるような簡単なキューが存在するという懸念を踏まえて、LSMがそのような簡易なキューを利用する傾向にあるかどうかを考察する。
マルチホップ推論(multi-hop reasoning)の要件を実際に回避する証拠は見出されているが,従来のPLMよりも微妙な方法で実施されている。
この発見に動機づけられた我々は、プラウプブルなマルチホップ推論連鎖を生成することで、最終的には誤った答えをもたらす、挑戦的なマルチホップ推論ベンチマークを提案する。
我々は,複数のオープンかつプロプライエタリなLCMを評価し,それらのマルチホップ推論性能に影響を及ぼすことを示した。
我々はより深い分析を行い、LLMは誤解を招く語彙的手がかりを無視する傾向があるが、誤解を招く推論経路は確かに重大な課題であることを示す。
State-of-the-art Large Language Models (LLMs) are accredited with an increasing number of different capabilities, ranging from reading comprehension, over advanced mathematical and reasoning skills to possessing scientific knowledge. In this paper we focus on their multi-hop reasoning capability: the ability to identify and integrate information from multiple textual sources. Given the concerns with the presence of simplifying cues in existing multi-hop reasoning benchmarks, which allow models to circumvent the reasoning requirement, we set out to investigate, whether LLMs are prone to exploiting such simplifying cues. We find evidence that they indeed circumvent the requirement to perform multi-hop reasoning, but they do so in more subtle ways than what was reported about their fine-tuned pre-trained language model (PLM) predecessors. Motivated by this finding, we propose a challenging multi-hop reasoning benchmark, by generating seemingly plausible multi-hop reasoning chains, which ultimately lead to incorrect answers. We evaluate multiple open and proprietary state-of-the-art LLMs, and find that their performance to perform multi-hop reasoning is affected, as indicated by up to 45% relative decrease in F1 score when presented with such seemingly plausible alternatives. We conduct a deeper analysis and find evidence that while LLMs tend to ignore misleading lexical cues, misleading reasoning paths indeed present a significant challenge. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# ルールと事例のラベル付けによる対話型機械教育
Interactive Machine Teaching by Labeling Rules and Instances ( http://arxiv.org/abs/2409.05199v1 ) ライセンス: Link先を確認 | Giannis Karamanolakis, Daniel Hsu, Luis Gravano, | (参考訳) 弱教師付き学習は、専門家が設計したラベル付けルールを使用することで、データのラベル付けコストを削減することを目的としている。
しかし、既存の手法では、専門家が単一のショットで効果的なルールを設計する必要がある。
したがって、専門家がルールを書くのに限られた時間を費やすべきか、アクティブな学習を通じてインスタンスラベルを提供するべきかは、まだ明らかな疑問である。
本稿では,専門家の限られた時間を利用して効果的な監督を行う方法について検討する。
まず、ルール作成のための実践的ガイドラインを開発するために、既存の専門家が設計したルールの多様なコレクションを探索的に分析し、データセットのカバレッジよりもルール精度が重要であることを確認する。
第二に、ルール作成とアクティブラーニングによる個別のインスタンスラベリングを比較し、どちらも6つのデータセットにまたがる重要性を実証する。
第3に、豊かなパターン(例えば、言語モデルを促すことによって)に基づいて候補ルールを自動的に抽出し、候補ルールと個々のインスタンスの両方に専門家のフィードバックを求めることによって効率を向上する対話型学習フレームワーク、InterVALを提案する。
6つのデータセットにまたがって、InterVALは、最先端の教師付きアプローチをF1で7%上回っている。
さらに、既存のアクティブラーニングメソッドが100のクエリと一致できないF1値に到達するには、専門家のフィードバックに10のクエリが必要である。
Weakly supervised learning aims to reduce the cost of labeling data by using expert-designed labeling rules. However, existing methods require experts to design effective rules in a single shot, which is difficult in the absence of proper guidance and tooling. Therefore, it is still an open question whether experts should spend their limited time writing rules or instead providing instance labels via active learning. In this paper, we investigate how to exploit an expert's limited time to create effective supervision. First, to develop practical guidelines for rule creation, we conduct an exploratory analysis of diverse collections of existing expert-designed rules and find that rule precision is more important than coverage across datasets. Second, we compare rule creation to individual instance labeling via active learning and demonstrate the importance of both across 6 datasets. Third, we propose an interactive learning framework, INTERVAL, that achieves efficiency by automatically extracting candidate rules based on rich patterns (e.g., by prompting a language model), and effectiveness by soliciting expert feedback on both candidate rules and individual instances. Across 6 datasets, INTERVAL outperforms state-of-the-art weakly supervised approaches by 7% in F1. Furthermore, it requires as few as 10 queries for expert feedback to reach F1 values that existing active learning methods cannot match even with 100 queries. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# Lung-DETR:Sparse Lung Nodule Anomaly Detectionのための変形可能な検出変換器
Lung-DETR: Deformable Detection Transformer for Sparse Lung Nodule Anomaly Detection ( http://arxiv.org/abs/2409.05200v1 ) ライセンス: Link先を確認 | Hooman Ramezani, Dionne Aleman, Daniel Létourneau, | (参考訳) CTスキャン画像の正確な肺結節検出は,結節の希少な発生と他の解剖学的構造との類似性から,現実の環境では困難である。
典型的な陽性例では、nodules は 3% のCTスライスに出現し、検出が複雑である。
この問題に対処するため、我々は、主に通常のデータセットにおける希少な結節発生をターゲットとして、異常検出タスクとして問題を再構成した。
本稿では、カスタムデータ前処理とデフォルマブル検出変換器(Deformable-DETR)を利用した新しいソリューションを提案する。
7.5mmの最大強度投影(MIP)を用いて、隣接する肺スライスを単一の画像に組み合わせ、スライス数を減らし、結節間隔を小さくする。
これにより空間的コンテキストが向上し、結節と複雑な血管構造や気管支細管などの他の構造とのより良い分化が可能になる。
Deformable-DETRはnodulesを検出するために使用され、不均衡なデータセットをよりよく扱うためにカスタムの焦点損失関数を使用する。
実際の臨床データを反映した肺結節の少ないデータセット上で、F1スコア94.2%(リコール95.2%、精度93.3%)のLUNA16データセット上で、最先端のパフォーマンスを達成する。
Accurate lung nodule detection for computed tomography (CT) scan imagery is challenging in real-world settings due to the sparse occurrence of nodules and similarity to other anatomical structures. In a typical positive case, nodules may appear in as few as 3% of CT slices, complicating detection. To address this, we reframe the problem as an anomaly detection task, targeting rare nodule occurrences in a predominantly normal dataset. We introduce a novel solution leveraging custom data preprocessing and Deformable Detection Transformer (Deformable- DETR). A 7.5mm Maximum Intensity Projection (MIP) is utilized to combine adjacent lung slices into single images, reducing the slice count and decreasing nodule sparsity. This enhances spatial context, allowing for better differentiation between nodules and other structures such as complex vascular structures and bronchioles. Deformable-DETR is employed to detect nodules, with a custom focal loss function to better handle the imbalanced dataset. Our model achieves state-of-the-art performance on the LUNA16 dataset with an F1 score of 94.2% (95.2% recall, 93.3% precision) on a dataset sparsely populated with lung nodules that is reflective of real-world clinical data. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# Mixup AugmentationとBeyondに関する調査
A Survey on Mixup Augmentations and Beyond ( http://arxiv.org/abs/2409.05202v1 ) ライセンス: Link先を確認 | Xin Jin, Hongyu Zhu, Siyuan Li, Zedong Wang, Zicheng Liu, Chang Yu, Huafeng Qin, Stan Z. Li, | (参考訳) ディープニューラルネットワークは過去10年で驚くべきブレークスルーを達成したため、大量のラベル付きデータが利用できない場合の正規化技術として、データ拡張が注目を集めている。
既存の拡張の中で、選択したサンプルと対応するラベルを凸的に組み合わせたミックスアップと関連するデータ混合手法が広く採用されている。
本調査では, 基礎混合法とその応用について概観する。
最初に、モジュールを含む統一フレームワークとしてミックスアップ拡張を使用したトレーニングパイプラインについて詳しく説明します。
改訂されたフレームワークは、様々なミックスアップメソッドを含み、直感的な操作手順を提供することができる。
そこで我々は,視線下流タスクへのミックスアップ拡張の適用,様々なデータモダリティ,およびミックスアップのいくつかの解析および定理について,系統的に検討した。
一方、ミックスアップ研究の現状と限界を結論し、効果的かつ効率的なミックスアップ強化に向けたさらなる取り組みを指摘する。
この調査は、ミックスアップ手法の最先端を研究者に提供し、ミックスアップ分野におけるいくつかの洞察とガイダンスの役割を提供する。
この調査のオンラインプロジェクトは、 \url{https://github.com/Westlake-AI/Awesome-Mixup}で公開されている。
As Deep Neural Networks have achieved thrilling breakthroughs in the past decade, data augmentations have garnered increasing attention as regularization techniques when massive labeled data are unavailable. Among existing augmentations, Mixup and relevant data-mixing methods that convexly combine selected samples and the corresponding labels are widely adopted because they yield high performances by generating data-dependent virtual data while easily migrating to various domains. This survey presents a comprehensive review of foundational mixup methods and their applications. We first elaborate on the training pipeline with mixup augmentations as a unified framework containing modules. A reformulated framework could contain various mixup methods and give intuitive operational procedures. Then, we systematically investigate the applications of mixup augmentations on vision downstream tasks, various data modalities, and some analysis \& theorems of mixup. Meanwhile, we conclude the current status and limitations of mixup research and point out further work for effective and efficient mixup augmentations. This survey can provide researchers with the current state of the art in mixup methods and provide some insights and guidance roles in the mixup arena. An online project with this survey is available at \url{https://github.com/Westlake-AI/Awesome-Mixup}. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 回転のない効率的な同型暗号化畳み込みニューラルネットワーク
Efficient Homomorphically Encrypted Convolutional Neural Network Without Rotation ( http://arxiv.org/abs/2409.05205v1 ) ライセンス: Link先を確認 | Sajjad Akherati, Xinmiao Zhang, | (参考訳) プライバシー保護ニューラルネットワーク(NN)推論は、暗号文上で直接計算を行うことができる同型暗号化(HE)を利用することで実現できる。
人気のあるHEスキームは大きな多項式環上に構築される。
畳み込み層(Conv)と完全連結層(FC)の同時乗算を可能にするため、複数の入力データを同じ多項式の係数にマッピングする。
しかし、積の和を計算したり、異なるチャネルの出力を同じ多項式に組み込むには、暗号文の回転が必要である。
暗号文の回転は、暗号文の乗算よりもはるかに複雑であり、HE評価されたConv層とFC層のレイテンシの大部分に寄与する。
本稿では, HE方式の安全性に影響を与えることなく, 暗号文の回転を除去する新しいサーバ・クライアント共同計算手法と, フィルタ係数パッキング方式を提案する。
また,提案手法は,必要な係数乗算数とサーバとクライアント間の通信コストを大幅に削減する。
CIFAR-10/100データセット上の様々なプレーン20分類器に対して、我々の設計は、クライアントとサーバ間の通信コストを、最高の事前設計と比較して15.5%削減し、ConvおよびFC層の実行時間を50%削減する。
Privacy-preserving neural network (NN) inference can be achieved by utilizing homomorphic encryption (HE), which allows computations to be directly carried out over ciphertexts. Popular HE schemes are built over large polynomial rings. To allow simultaneous multiplications in the convolutional (Conv) and fully-connected (FC) layers, multiple input data are mapped to coefficients in the same polynomial, so are the weights of NNs. However, ciphertext rotations are necessary to compute the sums of products and/or incorporate the outputs of different channels into the same polynomials. Ciphertext rotations have much higher complexity than ciphertext multiplications and contribute to the majority of the latency of HE-evaluated Conv and FC layers. This paper proposes a novel reformulated server-client joint computation procedure and a new filter coefficient packing scheme to eliminate ciphertext rotations without affecting the security of the HE scheme. Our proposed scheme also leads to substantial reductions on the number of coefficient multiplications needed and the communication cost between the server and client. For various plain-20 classifiers over the CIFAR-10/100 datasets, our design reduces the running time of the Conv and FC layers by 15.5% and the communication cost between client and server by more than 50%, compared to the best prior design. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# SEF:ニューラルネットワークにおける誤差関数のシフトによる予測間隔の計算方法
SEF: A Method for Computing Prediction Intervals by Shifting the Error Function in Neural Networks ( http://arxiv.org/abs/2409.05206v1 ) ライセンス: Link先を確認 | E. V. Aretos, D. G. Sotiropoulos, | (参考訳) 今日の時代には、ニューラルネットワーク(NN)は、ロボット工学、医学、工学など、さまざまな科学分野に適用されている。
しかし、ニューラルネットワーク自体の予測には、決定が下される前に常に考慮しなければならない不確実性の程度が含まれている。
そのため、多くの研究者は、ニューラルネットワークの予測の不確実性を定量化する様々な方法の開発に注力してきた。
これらの手法のいくつかは、要求されたターゲット値に対するニューラルネットワークを介して予測間隔(PI)を生成することに基づいている。
本稿では,このカテゴリに属する新しい手法としてSEF(Shifting the Error Function)法を提案する。
提案手法では,1つのニューラルネットワークを3回トレーニングすることで,与えられた問題に対して対応する上境界と下限とを推定する。
この手法の重要な側面は、初期ネットワークの推定値からパラメータを計算し、他の2つのネットワークの損失関数に統合することである。
この革新的なプロセスは、PIを効果的に生成し、不確実性定量化のための堅牢で効率的な技術をもたらす。
本手法の有効性を評価するため,SEF法,PI3NN法,PIVEN法の比較を行った。
In today's era, Neural Networks (NN) are applied in various scientific fields such as robotics, medicine, engineering, etc. However, the predictions of neural networks themselves contain a degree of uncertainty that must always be taken into account before any decision is made. This is why many researchers have focused on developing different ways to quantify the uncertainty of neural network predictions. Some of these methods are based on generating prediction intervals (PI) via neural networks for the requested target values. The SEF (Shifting the Error Function) method presented in this paper is a new method that belongs to this category of methods. The proposed approach involves training a single neural network three times, thus generating an estimate along with the corresponding upper and lower bounds for a given problem. A pivotal aspect of the method is the calculation of a parameter from the initial network's estimates, which is then integrated into the loss functions of the other two networks. This innovative process effectively produces PIs, resulting in a robust and efficient technique for uncertainty quantification. To evaluate the effectiveness of our method, a comparison in terms of successful PI generation between the SEF, PI3NN and PIVEN methods was made using two synthetic datasets. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# hls4mlの物理応用のためのFPGAの低レイテンシトランスフォーマー推論
Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml ( http://arxiv.org/abs/2409.05207v1 ) ライセンス: Link先を確認 | Zhixing Jiang, Dennis Yin, Yihui Chen, Elham E Khoda, Scott Hauck, Shih-Chieh Hsu, Ekaterina Govorkova, Philip Harris, Vladimir Loncar, Eric A. Moreno, | (参考訳) 本研究では, hls4ml を用いたフィールドプログラミング可能なゲートアレー (FPGA) におけるトランスフォーマアーキテクチャの効率的な実装を提案する。
マルチヘッドアテンション、ソフトマックス、正規化層の実装戦略を実証し、3つの異なるモデルを評価する。
VU13P FPGAチップへのデプロイメントは2us未満のレイテンシを実現し、リアルタイムアプリケーションの可能性を示した。
HLS4MLとTensorFlowで構築されたトランスフォーマーモデルとの互換性により、この作業のスケーラビリティと適用性はさらに向上する。
インデックス用語:FPGA、機械学習、トランスフォーマー、高エネルギー物理学、LIGO
This study presents an efficient implementation of transformer architectures in Field-Programmable Gate Arrays(FPGAs) using hls4ml. We demonstrate the strategy for implementing the multi-head attention, softmax, and normalization layer and evaluate three distinct models. Their deployment on VU13P FPGA chip achieved latency less than 2us, demonstrating the potential for real-time applications. HLS4ML compatibility with any TensorFlow-built transformer model further enhances the scalability and applicability of this work. Index Terms: FPGAs, machine learning, transformers, high energy physics, LIGO | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 影響に基づく属性を操作できる
Influence-based Attributions can be Manipulated ( http://arxiv.org/abs/2409.05208v1 ) ライセンス: Link先を確認 | Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri, | (参考訳) インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。
本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを検討する。
これは本当に可能であり、後方フレンドリーな実装で効率的な攻撃を提供する。
我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。
Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influencebased attributions and investigate whether these attributions can be systematically tampered by an adversary. We show that this is indeed possible and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions under adversarial circumstances. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# ICML Topological Deep Learning Challenge 2024: Beyond the Graph Domain
ICML Topological Deep Learning Challenge 2024: Beyond the Graph Domain ( http://arxiv.org/abs/2409.05211v1 ) ライセンス: Link先を確認 | Guillermo Bernárdez, Lev Telyatnikov, Marco Montagna, Federica Baccini, Mathilde Papillon, Miquel Ferriol-Galmés, Mustafa Hajij, Theodore Papamarkou, Maria Sofia Bucarelli, Olga Zaghen, Johan Mathe, Audun Myers, Scott Mahan, Hansen Lillemark, Sharvaree Vadgama, Erik Bekkers, Tim Doster, Tegan Emerson, Henry Kvinge, Katrina Agate, Nesreen K Ahmed, Pengfei Bai, Michael Banf, Claudio Battiloro, Maxim Beketov, Paul Bogdan, Martin Carrasco, Andrea Cavallo, Yun Young Choi, George Dasoulas, Matouš Elphick, Giordan Escalona, Dominik Filipiak, Halley Fritze, Thomas Gebhart, Manel Gil-Sorribes, Salvish Goomanee, Victor Guallar, Liliya Imasheva, Andrei Irimia, Hongwei Jin, Graham Johnson, Nikos Kanakaris, Boshko Koloski, Veljko Kovač, Manuel Lecha, Minho Lee, Pierrick Leroy, Theodore Long, German Magai, Alvaro Martinez, Marissa Masden, Sebastian Mežnar, Bertran Miquel-Oliver, Alexis Molina, Alexander Nikitin, Marco Nurisso, Matt Piekenbrock, Yu Qin, Patryk Rygiel, Alessandro Salatiello, Max Schattauer, Pavel Snopov, Julian Suk, Valentina Sánchez, Mauricio Tec, Francesco Vaccarino, Jonas Verhellen, Frederic Wantiez, Alexander Weers, Patrik Zajec, Blaž Škrlj, Nina Miolane, | (参考訳) 本稿では,ICML 2024 ELLIS Workshop on Geometry-grounded Representation Learning and Generative Modeling (GRaM) のICML Topological Deep Learning Challengeの第2版について述べる。
この課題は、トポロジカルディープラーニング(TDL)と他の構造化データセット(例えば、ポイントクラウド、グラフ)のギャップを埋めるために、異なる離散トポロジカルドメインでデータを表現するという問題に焦点を当てた。
具体的には、参加者はトポロジカルリフト、すなわち、異なるデータ構造とトポロジカルドメイン間のマッピング(ハイパーグラフ、simplicial/cell/combinatorial complex)の設計と実装を依頼された。
この挑戦は全ての要求を満たす52の応募を受けた。
本稿では,課題のメインスコープを紹介し,主な成果と調査結果を要約する。
This paper describes the 2nd edition of the ICML Topological Deep Learning Challenge that was hosted within the ICML 2024 ELLIS Workshop on Geometry-grounded Representation Learning and Generative Modeling (GRaM). The challenge focused on the problem of representing data in different discrete topological domains in order to bridge the gap between Topological Deep Learning (TDL) and other types of structured datasets (e.g. point clouds, graphs). Specifically, participants were asked to design and implement topological liftings, i.e. mappings between different data structures and topological domains --like hypergraphs, or simplicial/cell/combinatorial complexes. The challenge received 52 submissions satisfying all the requirements. This paper introduces the main scope of the challenge, and summarizes the main results and findings. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# クラス不均衡と公平性のための合成語彙データ生成 : 比較研究
Synthetic Tabular Data Generation for Class Imbalance and Fairness: A Comparative Study ( http://arxiv.org/abs/2409.05215v1 ) ライセンス: Link先を確認 | Emmanouil Panagiotou, Arjun Roy, Eirini Ntoutsi, | (参考訳) データ駆動型であるため、機械学習(ML)モデルは、特にクラスとグループの不均衡が一般的である分類問題において、データから受け継がれたバイアスの影響を受けやすい。
クラス不均衡(分類対象)とグループ不均衡(性や人種のような保護された属性)はMLの有用性と公平性を損なう可能性がある。
クラスとグループの不均衡は、現実の表のデータセットによく一致するが、限定的な手法はこのシナリオに対処する。
ほとんどの手法では補間のようなオーバーサンプリング技術を用いて不均衡を緩和するが、最近の合成表データ生成の進歩は期待できるが、この目的のために十分な探索がなされていない。
そこで本稿では,合成表データ生成のための最先端モデルと様々なサンプリング戦略を用いて,クラスとグループの不均衡に対処するための比較分析を行う。
4つのデータセットに対する実験の結果は、バイアス緩和のための生成モデルの有効性を示し、この方向のさらなる探索の機会を生み出した。
Due to their data-driven nature, Machine Learning (ML) models are susceptible to bias inherited from data, especially in classification problems where class and group imbalances are prevalent. Class imbalance (in the classification target) and group imbalance (in protected attributes like sex or race) can undermine both ML utility and fairness. Although class and group imbalances commonly coincide in real-world tabular datasets, limited methods address this scenario. While most methods use oversampling techniques, like interpolation, to mitigate imbalances, recent advancements in synthetic tabular data generation offer promise but have not been adequately explored for this purpose. To this end, this paper conducts a comparative analysis to address class and group imbalances using state-of-the-art models for synthetic tabular data generation and various sampling strategies. Experimental results on four datasets, demonstrate the effectiveness of generative models for bias mitigation, creating opportunities for further exploration in this direction. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 微調整多言語ニューラルネットワーク翻訳における固有言語固有の部分空間の探索
Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine Translation ( http://arxiv.org/abs/2409.05224v1 ) ライセンス: Link先を確認 | Zhe Cao, Zhi Qu, Hidetaka Kamigaito, Taro Watanabe, | (参考訳) 多言語ニューラルマシン翻訳モデルは、数百の言語を同時に微調整する。
しかし、完全なパラメータのみを微調整することは、言語間の負の相互作用を引き起こす可能性がある。
本研究では,言語固有の部分空間において,パラメータのごく一部で言語を微調整できることを実証する。
そこで本研究では,言語固有のサブスペースを分離するために,言語固有のLoRAを提案する。
さらに、アーキテクチャ学習手法を提案し、微調整中に段階的な微調整スケジュールを導入し、各言語に対する最適設定と最小限固有の部分空間を徹底的に探索し、軽量で効果的な微調整手順を実現する。
FLORES-101の12言語サブセットと30言語サブセットの実験結果は、我々の手法が最大2.25spBLEUスコアのフルパラメータ微調整を上回るだけでなく、トレーニング可能なパラメータを高低リソース言語で0.4\%、低リソース言語で1.6\%に削減することを示している。
Multilingual neural machine translation models support fine-tuning hundreds of languages simultaneously. However, fine-tuning on full parameters solely is inefficient potentially leading to negative interactions among languages. In this work, we demonstrate that the fine-tuning for a language occurs in its intrinsic language-specific subspace with a tiny fraction of entire parameters. Thus, we propose language-specific LoRA to isolate intrinsic language-specific subspaces. Furthermore, we propose architecture learning techniques and introduce a gradual pruning schedule during fine-tuning to exhaustively explore the optimal setting and the minimal intrinsic subspaces for each language, resulting in a lightweight yet effective fine-tuning procedure. The experimental results on a 12-language subset and a 30-language subset of FLORES-101 show that our methods not only outperform full-parameter fine-tuning up to 2.25 spBLEU scores but also reduce trainable parameters to $0.4\%$ for high and medium-resource languages and $1.6\%$ for low-resource ones. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 肝硬変の検出精度向上のための2つの拡張法の比較検討
Comparison of Two Augmentation Methods in Improving Detection Accuracy of Hemarthrosis ( http://arxiv.org/abs/2409.05225v1 ) ライセンス: Link先を確認 | Qianyu Fan, Pascal N. Tyrrell, | (参考訳) コンピュータ能力の増大に伴い、血液が正常に凝固できないまれな疾患である血友病のような医学的診断や検査に役立てるために、医療画像の機械学習モデルが導入された。
血友病を検知するボトルネックの1つは、アルゴリズムをトレーニングして精度を高めるデータがないことである。
そこで本研究では,データ合成による拡張データの導入や,従来の拡張技術がモデルの精度を向上し,疾患の診断に役立てるかどうかを検討した。
本研究では,VGG-16により超音波画像の特徴を抽出し,実画像,合成画像,拡張画像(Real vs. Real, Syn, Real vs. Different Batches of Syn, Real vs. Augmentation Techniques)の異なる分布の抽出特徴に基づくコサイン類似度尺度を用いて類似度を比較した。
EffientNet-B4を用いて2つの拡張手法で「血」画像を認識するモデルテスト性能について検討した。
さらに、勾配重み付きクラスアクティベーションマッピング(Grad-CAM)の可視化により、精度の低下などの予期せぬ結果を解釈した。
合成画像と実画像は高い類似度を示しておらず、平均類似度スコアは0.4737である。
合成バッチ1データセットと水平フリップによる画像は、オリジナルの画像とよりよく似ている。
古典的な拡張技術とデータ合成はモデルの精度を向上させることができ、従来の拡張技術によるデータは合成データよりも優れたパフォーマンスを持つ。
さらに、Grad-CAMのヒートマップでは、精度の低下はドメインの変化によるものであることが判明した。
全体として、データ合成と従来の拡張技術という2つの拡張法が、希少な疾患の診断に役立てるために、精度をある程度向上させることが判明した。
With the increase of computing power, machine learning models in medical imaging have been introduced to help in rending medical diagnosis and inspection, like hemophilia, a rare disorder in which blood cannot clot normally. Often, one of the bottlenecks of detecting hemophilia is the lack of data available to train the algorithm to increase the accuracy. As a possible solution, this research investigated whether introducing augmented data by data synthesis or traditional augmentation techniques can improve model accuracy, helping to diagnose the diseases. To tackle this research, features of ultrasound images were extracted by the pre-trained VGG-16, and similarities were compared by cosine similarity measure based on extracted features in different distributions among real images, synthetic images, and augmentation images (Real vs. Real, Syn vs. Syn, Real vs. Different Batches of Syn, Real vs. Augmentation Techniques). Model testing performance was investigated using EffientNet-B4 to recognize "blood" images with two augmentation methods. In addition, a gradient-weighted class activation mapping (Grad-CAM) visualization was used to interpret the unexpected results like loss of accuracy. Synthetic and real images do not show high similarity, with a mean similarity score of 0.4737. Synthetic batch 1 dataset and images by horizontal flip are more similar to the original images. Classic augmentation techniques and data synthesis can improve model accuracy, and data by traditional augmentation techniques have a better performance than synthetic data. In addition, the Grad-CAM heatmap figured out the loss of accuracy is due to a shift in the domain. Overall, this research found that two augmentation methods, data synthesis and traditional augmentation techniques, both can improve accuracy to a certain extent to help to diagnose rare diseases. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# BBS:Deep Learning Accelerationのための双方向ビットレベルスポーザリティ
BBS: Bi-directional Bit-level Sparsity for Deep Learning Acceleration ( http://arxiv.org/abs/2409.05227v1 ) ライセンス: Link先を確認 | Yuzong Chen, Jian Meng, Jae-sun Seo, Mohamed S. Abdelfattah, | (参考訳) ビットレベルのスパーシリティ法は非効率なゼロビット演算をスキップし、通常はビットシリアル深層学習アクセラレーターに適用される。
量子化やプルーニングといった他のディープニューラルネットワーク(DNN)効率手法と直交し互換性があるため、ビットレベルでのこのような空間性は特に興味深い。
本研究では,新しいアルゴリズムによるビットプレーニング,平均化,圧縮手法,および協調設計による効率的なビットシリアルハードウェアアクセラレーションにより,ビットレベル空間の実用性と効率を向上する。
アルゴリズム面では、双方向ビット空間(BBS)を導入する。
BBSの鍵となる洞察は、0ビットまたは1ビットのプルークに対称的な方法でビット間隔を利用することができることである。
これによりビットシリアルコンピューティングの負荷バランスが大幅に改善され、スパーシリティのレベルが50%を超えることが保証される。
BBS上では、再学習を必要とせず、量子化されたDNNにシームレスに適用できる2つのビットレベルバイナリ・プルーニング法を提案する。
バイナリプルーニングと新しいテンソル符号化スキームを組み合わせることで、BBSは計算をスキップし、双方向スパースビット列に関連するメモリフットプリントを削減できる。
ハードウェア面では、高速なPE設計でDNNを低オーバーヘッドで高速化するビットシリアルアーキテクチャであるBitVertによるBBSの可能性を示し、提案したバイナリプルーニングを活用する。
1) 平均1.66$\times$モデルサイズを0.5%の精度で削減し, (2) 最大3.03$\times$スピードアップと2.44$\times$エネルギー節約を実現した。
Bit-level sparsity methods skip ineffectual zero-bit operations and are typically applicable within bit-serial deep learning accelerators. This type of sparsity at the bit-level is especially interesting because it is both orthogonal and compatible with other deep neural network (DNN) efficiency methods such as quantization and pruning. In this work, we improve the practicality and efficiency of bitlevel sparsity through a novel algorithmic bit-pruning, averaging, and compression method, and a co-designed efficient bit-serial hardware accelerator. On the algorithmic side, we introduce bidirectional bit sparsity (BBS). The key insight of BBS is that we can leverage bit sparsity in a symmetrical way to prune either zero-bits or one-bits. This significantly improves the load balance of bit-serial computing and guarantees the level of sparsity to be more than 50%. On top of BBS, we further propose two bit-level binary pruning methods that require no retraining, and can be seamlessly applied to quantized DNNs. Combining binary pruning with a new tensor encoding scheme, BBS can both skip computation and reduce the memory footprint associated with bi-directional sparse bit columns. On the hardware side, we demonstrate the potential of BBS through BitVert, a bitserial architecture with an efficient PE design to accelerate DNNs with low overhead, exploiting our proposed binary pruning. Evaluation on seven representative DNN models shows that our approach achieves: (1) on average 1.66$\times$ reduction in model sizewith negligible accuracy loss of < 0.5%; (2) up to 3.03$\times$ speedupand 2.44$\times$ energy saving compared to prior DNN accelerators. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 標準データセットを用いた低計算ビデオ合成フレームワーク
A Low-Computational Video Synopsis Framework with a Standard Dataset ( http://arxiv.org/abs/2409.05230v1 ) ライセンス: Link先を確認 | Ramtin Malekpour, M. Mehrdad Morsali, Hoda Mohammadzade, | (参考訳) ビデオ合成は、監視ビデオの凝縮に有効な方法である。
このテクニックは、オブジェクトの検出と追跡から始まり、続いてオブジェクトチューブを生成する。
これらの管は配列で構成され、それぞれが一意な物体の時系列的に順序付けられた有界箱を含む。
凝縮されたビデオを生成するために、最初のステップでは、各フレーム内の非重複オブジェクトの数を最大化するために、オブジェクトチューブを再構成する。
そして、これらのチューブを、ソースビデオから抽出した背景画像に縫合する。
ビデオ合成タスクの標準データセットの欠如は、異なるビデオ合成モデルの比較を妨げる。
本稿では,ビデオ合成タスクに特化して設計されたSynoClipという標準データセットを導入することで,この問題に対処する。
SynoClipには、さまざまなモデルを直接的かつ効果的に評価するために必要なすべての機能が含まれている。
さらに、この研究は、計算コストの低いFGSと呼ばれるビデオ合成モデルを導入している。
モデルは、どんなオブジェクトも空のフレームを識別する空のオブジェクト検出器を含み、ディープオブジェクト検出器の効率的な利用を容易にする。
さらに,合成ビデオ中の管間の関係を維持するために,管群化アルゴリズムを提案する。
これに続いて、各管の開始時刻を効率よく決定するグリーディ管再構成アルゴリズムが用いられる。
最後に、提案したモデルについて、提案したデータセットを用いて評価する。
ソースコード、微調整されたオブジェクト検出モデル、チュートリアルはhttps://github.com/Ramtin-ma/VideoSynopsis-FGSで公開されている。
Video synopsis is an efficient method for condensing surveillance videos. This technique begins with the detection and tracking of objects, followed by the creation of object tubes. These tubes consist of sequences, each containing chronologically ordered bounding boxes of a unique object. To generate a condensed video, the first step involves rearranging the object tubes to maximize the number of non-overlapping objects in each frame. Then, these tubes are stitched to a background image extracted from the source video. The lack of a standard dataset for the video synopsis task hinders the comparison of different video synopsis models. This paper addresses this issue by introducing a standard dataset, called SynoClip, designed specifically for the video synopsis task. SynoClip includes all the necessary features needed to evaluate various models directly and effectively. Additionally, this work introduces a video synopsis model, called FGS, with low computational cost. The model includes an empty-frame object detector to identify frames empty of any objects, facilitating efficient utilization of the deep object detector. Moreover, a tube grouping algorithm is proposed to maintain relationships among tubes in the synthesized video. This is followed by a greedy tube rearrangement algorithm, which efficiently determines the start time of each tube. Finally, the proposed model is evaluated using the proposed dataset. The source code, fine-tuned object detection model, and tutorials are available at https://github.com/Ramtin-ma/VideoSynopsis-FGS. | 翻訳日:2024-09-10 16:58:34 公開日:2024-09-08 |
# 超伝導体における近接効果による準粒子緩和
Enhanced Quasiparticle Relaxation in a Superconductor via the Proximity Effect ( http://arxiv.org/abs/2409.05233v1 ) ライセンス: Link先を確認 | Kevin M. Ryan, Venkat Chandrasekhar, | (参考訳) 純超伝導体の準粒子緩和は、材料中の固有非弾性散乱速度によって決定されると考えられている。
特定の応用、すなわち超伝導量子ビットと回路では、過剰な準粒子は熱平衡レベルをはるかに超える密度に存在し、脱落とエネルギー損失につながる可能性がある。
準粒子の寿命が短い超伝導体を設計するために,超伝導体の準粒子輸送に対する近接層の影響を検討する。
超伝導体における準粒子の緩和速度は,Cu/Al二層配線の準粒子電荷不均衡の低減により著しく向上することが確認された。
この効果のメカニズムは、クリーン超伝導体と不規則な正常金属からなる慎重に選択された近接二層膜を用いて、クォービットの準粒子中毒を防止するのに有用である。
Quasiparticle relaxation in pure superconductors is thought to be determined by the intrinsic inelastic scattering rate in the material. In certain applications, i.e. superconducting qubits and circuits, excess quasiparticles exist at densities far beyond the thermal equilibrium level, potentially leading to dephasing and energy loss. In order to engineer superconductors with shorter overall quasiparticle lifetimes, we consider the impact of a proximity layer on the transport of quasiparticles in a superconductor. We find that a normal metal layer can be used to significantly increase the relaxation rate of quasiparticles in a superconductor, as seen by a large reduction in the quasiparticle charge imbalance in a fully proximitized Cu/Al bilayer wire. The mechanism for this effect may be useful for preventing quasiparticle poisoning of qubits using carefully chosen proximity bilayers consisting of clean superconductors and disordered normal metals. | 翻訳日:2024-09-10 16:22:23 公開日:2024-09-08 |
# メカニックサロゲートモデリング応用のためのアンコレッド構成によるベイズニューラルネットワークの先駆的機能強化
Empowering Bayesian Neural Networks with Functional Priors through Anchored Ensembling for Mechanics Surrogate Modeling Applications ( http://arxiv.org/abs/2409.05234v1 ) ライセンス: Link先を確認 | Javad Ghorbanian, Nicholas Casaprima, Audrey Olivier, | (参考訳) 近年、ニューラルネットワーク(NN)は、力学および材料モデリング応用におけるモデリングタスクの代理として人気が高まっている。
従来のNNは、入力出力マッピングを学習するためにデータのみに依存する決定論的関数であるが、ベイジアンフレームワーク内でのNNトレーニングは、トレーニングデータの欠如から生じる特にてんかんの不確実性を定量化し、ベイジアンの事前知識を統合することができる。
しかし、NNパラメータ空間の高次元性と非物理性、およびパラメータ(NN重み)と予測出力の間の複雑な関係は、事前の設計と後部推論の両方を困難にしている。
本稿では,関数空間で利用できる事前情報を,例えば低忠実度モデルから統合できるアンカー型アンサンブルに基づく新しいBNNトレーニング手法を提案する。
アンカーリング方式は, NNパラメータ間の低ランク相関を利用して, 事前学習から関数前の実現まで学習する。
また,既存のBNN実装では無視されることが多いNN重み間の相関が,関数空間とパラメータ空間の事前知識を適切に伝達する上で重要であることを示す。
BNNアルゴリズムの性能は, 補間と外挿の両方の設定において, アルゴリズムの挙動を説明するために, 1次元の小さな例で検討した。
次に、マルチインプット・アウトプット・マテリアル・サロゲート・モデリングの例で徹底的な評価を行い、不確実性推定の精度と品質の両面からアルゴリズムの能力を、分配データとアウト・オブ・ディストリビューションデータの両方に対して示す。
In recent years, neural networks (NNs) have become increasingly popular for surrogate modeling tasks in mechanics and materials modeling applications. While traditional NNs are deterministic functions that rely solely on data to learn the input--output mapping, casting NN training within a Bayesian framework allows to quantify uncertainties, in particular epistemic uncertainties that arise from lack of training data, and to integrate a priori knowledge via the Bayesian prior. However, the high dimensionality and non-physicality of the NN parameter space, and the complex relationship between parameters (NN weights) and predicted outputs, renders both prior design and posterior inference challenging. In this work we present a novel BNN training scheme based on anchored ensembling that can integrate a priori information available in the function space, from e.g. low-fidelity models. The anchoring scheme makes use of low-rank correlations between NN parameters, learnt from pre-training to realizations of the functional prior. We also perform a study to demonstrate how correlations between NN weights, which are often neglected in existing BNN implementations, is critical to appropriately transfer knowledge between the function-space and parameter-space priors. Performance of our novel BNN algorithm is first studied on a small 1D example to illustrate the algorithm's behavior in both interpolation and extrapolation settings. Then, a thorough assessment is performed on a multi--input--output materials surrogate modeling example, where we demonstrate the algorithm's capabilities both in terms of accuracy and quality of the uncertainty estimation, for both in-distribution and out-of-distribution data. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# FedFT:周波数空間変換によるフェデレーション学習におけるコミュニケーション性能の向上
FedFT: Improving Communication Performance for Federated Learning with Frequency Space Transformation ( http://arxiv.org/abs/2409.05242v1 ) ライセンス: Link先を確認 | Chamath Palihawadana, Nirmalie Wiratunga, Anjana Wijekoon, Harsha Kalutarage, | (参考訳) コミュニケーション効率は, クライアントとサーバ間のモデルパラメータの効率的な圧縮, 分散, 集約技術の開発に重点を置いている。
特に分散システムでは,計算コストと通信効率のバランスをとることが重要である。
しかし、既存のメソッドは特定のアプリケーションに制約されることが多く、一般化しにくい。
本稿ではFedFT(Federated frequency-space transformation, 周波数空間変換)を提案する。
FedFTは離散コサイン変換(DCT)を用いて周波数空間のモデルパラメータを表現し、効率的な圧縮と通信オーバーヘッドの低減を実現している。
FedFTは、既存のFL方法論やニューラルアーキテクチャと互換性があり、その線形性は、フェデレーションアグリゲーション中の多重変換の必要性を排除している。
この方法論は分散ソリューションにとって不可欠であり、これらの環境に固有のデータプライバシ、相互運用性、エネルギー効率といった重要な課題に対処する。
我々は,FedAvg,FedProx,FedSimの3つの最先端FLベースラインとの比較研究を用いて,FedFT手法の4つのデータセット上での一般性を示す。
その結果,周波数空間における通信ラウンド間のモデルパラメータの差を表すためにFedFTを用いることで,周波数空間におけるモデル全体の表現に比べて,よりコンパクトな表現が得られることがわかった。
これにより通信オーバーヘッドが削減され、精度は同等に保たれ、場合によっては改善される。
この削減は、データセットによって、クライアント毎の5%から30%の範囲で可能であることを示唆しています。
Communication efficiency is a widely recognised research problem in Federated Learning (FL), with recent work focused on developing techniques for efficient compression, distribution and aggregation of model parameters between clients and the server. Particularly within distributed systems, it is important to balance the need for computational cost and communication efficiency. However, existing methods are often constrained to specific applications and are less generalisable. In this paper, we introduce FedFT (federated frequency-space transformation), a simple yet effective methodology for communicating model parameters in a FL setting. FedFT uses Discrete Cosine Transform (DCT) to represent model parameters in frequency space, enabling efficient compression and reducing communication overhead. FedFT is compatible with various existing FL methodologies and neural architectures, and its linear property eliminates the need for multiple transformations during federated aggregation. This methodology is vital for distributed solutions, tackling essential challenges like data privacy, interoperability, and energy efficiency inherent to these environments. We demonstrate the generalisability of the FedFT methodology on four datasets using comparative studies with three state-of-the-art FL baselines (FedAvg, FedProx, FedSim). Our results demonstrate that using FedFT to represent the differences in model parameters between communication rounds in frequency space results in a more compact representation compared to representing the entire model in frequency space. This leads to a reduction in communication overhead, while keeping accuracy levels comparable and in some cases even improving it. Our results suggest that this reduction can range from 5% to 30% per client, depending on dataset. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# 会話における感情認識のためのマンバ強調テキスト・ビデオアライメントネットワーク
Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations ( http://arxiv.org/abs/2409.05243v1 ) ライセンス: Link先を確認 | Xinran Li, Xiaomao Fan, Qingyang Wu, Xiaojiang Peng, Ye Li, | (参考訳) 会話における感情認識(英語: Emotion Recognition in Conversations、ERC)は、会話を通して話者が表現する感情を正確に識別し分類することを目的とした多モーダル相互作用研究において重要な分野である。
従来のERCのアプローチは、テキスト、オーディオ、視覚データなど、その有効性に制限を課すことに大きく依存している。
これらの手法は2つの大きな課題に直面する。
1)マルチモーダル情報の一貫性。
様々なモダリティを統合する前に、異なるソースからのデータが整列され、一貫性があることを保証することが不可欠である。
2)文脈情報取得。
マルチモーダルな特徴をうまく融合させるには、特に感情が時間とともに変化し発展する可能性のある長い対話において、進化する感情のトーンを鋭く理解する必要がある。
これらの制約に対処するため,ERCタスクのための新しいMamba-enhanced Text-Audio-Videoアライメントネットワーク(MaTAV)を提案する。
MaTAVは、異なるモダリティ間の整合性を確保するためにユニモーダル機能を整列させ、コンテキストのマルチモーダル情報をよりよくキャプチャするために長い入力シーケンスを処理するという利点がある。
MELDとIEMOCAPデータセットに関する広範な実験により、MATAVはERCタスクにおける既存の最先端メソッドを大きなマージンで大幅に上回っていることが示された。
Emotion Recognition in Conversations (ERCs) is a vital area within multimodal interaction research, dedicated to accurately identifying and classifying the emotions expressed by speakers throughout a conversation. Traditional ERC approaches predominantly rely on unimodal cues\-such as text, audio, or visual data\-leading to limitations in their effectiveness. These methods encounter two significant challenges: 1) Consistency in multimodal information. Before integrating various modalities, it is crucial to ensure that the data from different sources is aligned and coherent. 2) Contextual information capture. Successfully fusing multimodal features requires a keen understanding of the evolving emotional tone, especially in lengthy dialogues where emotions may shift and develop over time. To address these limitations, we propose a novel Mamba-enhanced Text-Audio-Video alignment network (MaTAV) for the ERC task. MaTAV is with the advantages of aligning unimodal features to ensure consistency across different modalities and handling long input sequences to better capture contextual multimodal information. The extensive experiments on the MELD and IEMOCAP datasets demonstrate that MaTAV significantly outperforms existing state-of-the-art methods on the ERC task with a big margin. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# 分散量子コンピューティングのための分散量子エラー補正に向けて
Towards Distributed Quantum Error Correction for Distributed Quantum Computing ( http://arxiv.org/abs/2409.05244v1 ) ライセンス: Link先を確認 | Shahram Babaie, Chunming Qiao, | (参考訳) 量子コンピューティングを有望な技術とする量子コンピューティングは、古典的計算が非効率な複雑なシナリオに対して決定論的アプローチではなく確率論的手法を利用することができる。
どちらの問題にも対処するため,3つの量子処理ユニット(QPU)にまたがる3つの物理量子ビットを用いて論理量子ビットを形成する,新しい量子ビットベースの分散量子誤差補正(DQEC)アーキテクチャを提案する。
本稿では,3つのQPUが協調して1ビットフリップと位相フリップの誤差を適切に解決できる量子状態を生成する方法について述べる。
提案したアーキテクチャでは、論理量子ビットを形成するために必要な量子ビットの数を減らすことで、各QPUの物理量子ビット数は、各論理量子ビットに対して3つの物理量子ビットを割り当てる場合よりも、より論理量子ビットに対応することができる。
提案アーキテクチャの機能的正しさは,Qiskitツールと安定化器ジェネレータを用いて評価する。
さらに,入力および出力量子状態の忠実度,提案設計の複雑さ,および提案アーキテクチャの誤り確率と正しさの依存性を分析し,その妥当性を検証した。
Quantum computing as a promising technology can utilize stochastic solutions instead of deterministic approaches for complicated scenarios for which classical computing is inefficient, provided that both the concerns of the error-prone nature of qubits and the limitation of the number of qubits are addressed carefully. In order to address both concerns, a new qubit-based Distributed Quantum Error Correction (DQEC) architecture is proposed in which three physical qubits residing on three Quantum Processing Units (QPU) are used to form a logical qubit. This paper illustrates how three QPUs collaboratively generate a joint quantum state in which single bit-flip and phase-flip errors can be properly resolved. By reducing the number of qubits required to form a logical qubit in the proposed architecture, each QPU with its limited number of physical qubits can accommodate more logical qubits than when it has to devote its three physical qubits for each logical qubit. The functional correctness of the proposed architecture is evaluated through the Qiskit tool and stabilizer generators. Moreover, the fidelity of input and output quantum states, the complexity of the proposed designs, and the dependency between error probability and correctness of the proposed architecture are analyzed to prove its effectiveness. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# 大規模多言語言語モデルに対する社会的責任のあるデータ
Socially Responsible Data for Large Multilingual Language Models ( http://arxiv.org/abs/2409.05247v1 ) ライセンス: Link先を確認 | Andrew Smart, Ben Hutchinson, Lameck Mbangula Amugongo, Suzanne Dikker, Alex Zito, Amber Ebinama, Zara Wudiri, Ding Wang, Erin van Liemt, João Sedoc, Seyi Olojo, Stanley Uwakwe, Edem Wornyo, Sonja Schmer-Galunder, Jamila Smith-Loud, | (参考訳) 大規模言語モデル(LLM)は、過去3年間に急速にサイズと明らかな能力を高めてきたが、そのトレーニングデータは主に英語のテキストである。
多言語 LLM への関心が高まっており、歴史的にデジタル領域で表現されていない多くの言語を含むグローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
これらの言語は「低リソース言語」あるいは「ロングテール言語」と呼ばれており、LLMの性能は概して貧弱である。
LLMをより多くの言語に拡張することは、コミュニティ間のコミュニケーションや言語保存の支援など、多くの潜在的な利益をもたらす可能性があるが、これらの言語上のデータ収集が抽出的でなく、過去の搾取的慣行を再現していないことを確実にするためには、大きな注意が必要である。
以前に植民された人々、先住民族、非西洋言語によって話される言語からデータを集めることは、社会政治学や倫理学といった複雑な問題、例えば同意、文化の安全、データの主権に関する疑問を提起する。
さらに、言語的な複雑さと文化的ニュアンスはしばしばLLMで失われる。
本稿は,近年の学問と我々の研究に基づいて,社会・文化的・倫理的考察と,質的研究,地域連携,参加型デザインアプローチを通じてそれらを緩和する可能性について概説する。
我々は,グローバル・ノース以外での表現不足言語コミュニティの言語データ収集において,考慮すべき12の勧告を提示する。
Large Language Models (LLMs) have rapidly increased in size and apparent capabilities in the last three years, but their training data is largely English text. There is growing interest in multilingual LLMs, and various efforts are striving for models to accommodate languages of communities outside of the Global North, which include many languages that have been historically underrepresented in digital realms. These languages have been coined as "low resource languages" or "long-tail languages", and LLMs performance on these languages is generally poor. While expanding the use of LLMs to more languages may bring many potential benefits, such as assisting cross-community communication and language preservation, great care must be taken to ensure that data collection on these languages is not extractive and that it does not reproduce exploitative practices of the past. Collecting data from languages spoken by previously colonized people, indigenous people, and non-Western languages raises many complex sociopolitical and ethical questions, e.g., around consent, cultural safety, and data sovereignty. Furthermore, linguistic complexity and cultural nuances are often lost in LLMs. This position paper builds on recent scholarship, and our own work, and outlines several relevant social, cultural, and ethical considerations and potential ways to mitigate them through qualitative research, community partnerships, and participatory design approaches. We provide twelve recommendations for consideration when collecting language data on underrepresented language communities outside of the Global North. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# NetDPSyn: 差分プライバシーの下でネットワークトレースを合成する
NetDPSyn: Synthesizing Network Traces under Differential Privacy ( http://arxiv.org/abs/2409.05249v1 ) ライセンス: Link先を確認 | Danyu Sun, Joann Qiongna Chen, Chen Gong, Tianhao Wang, Zhou Li, | (参考訳) ネットワーク計測研究におけるネットワークトレースの利用がますます広まり、ネットワークトレースからのプライバシリークに関する懸念が大衆の注目を集めている。
ネットワークトレースを保護するため、研究者は生データの本質的特性を保持するトレース合成を提案した。
しかし、以前の研究では、生成モデルによる合成トレースがリンケージ攻撃下で脆弱であることも示していた。
本稿では,プライバシ保証の下で高忠実度ネットワークトレースを合成する最初のシステムであるNetDPSynを紹介する。
NetDPSynは、差分プライバシー(DP)フレームワークをコアとして構築されている。
3つのフローと2つのパケットデータセットで実施された実験は、NetDPSynが異常検出などの下流タスクにおいて、はるかに優れたデータユーティリティを実現することを示している。
NetDPSynは、データ合成における他の方法よりも2.5倍高速である。
As the utilization of network traces for the network measurement research becomes increasingly prevalent, concerns regarding privacy leakage from network traces have garnered the public's attention. To safeguard network traces, researchers have proposed the trace synthesis that retains the essential properties of the raw data. However, previous works also show that synthesis traces with generative models are vulnerable under linkage attacks. This paper introduces NetDPSyn, the first system to synthesize high-fidelity network traces under privacy guarantees. NetDPSyn is built with the Differential Privacy (DP) framework as its core, which is significantly different from prior works that apply DP when training the generative model. The experiments conducted on three flow and two packet datasets indicate that NetDPSyn achieves much better data utility in downstream tasks like anomaly detection. NetDPSyn is also 2.5 times faster than the other methods on average in data synthesis. | 翻訳日:2024-09-10 16:22:22 公開日:2024-09-08 |
# アクティブサンプリングによる個人化フェデレーション学習
Personalized Federated Learning via Active Sampling ( http://arxiv.org/abs/2409.02064v2 ) ライセンス: Link先を確認 | Alexander Jung, Yasmin SarcheshmehPour, Amirhossein Mohammadi, | (参考訳) 例えば、スマートフォンやウェアラブルを備えた人間を表現できるデータジェネレータの集合を考える。
私たちは、小さなローカルデータセットのみを提供する場合でも、各データジェネレータに対してパーソナライズされた(あるいは調整された)モデルをトレーニングしたいと考えています。
利用可能なローカルデータセットは、高次元モデル(ディープニューラルネットワークなど)を効果的にトレーニングするのに十分な統計的パワーを提供できない可能性がある。
可能な解決策のひとつは、類似したデータジェネレータを特定して、ローカルデータセットをプールして、十分な大規模なトレーニングセットを取得することだ。
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は, アクティブサンプリング法とよく似ているが, 生データの交換は不要である。
実際,本手法は局所的なデータセットを用いて勾配ステップの効果を評価することにより,データジェネレータの関連性を評価する。
この評価は、生データを共有せずに、プライバシーに優しい方法で行うことができる。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
Consider a collection of data generators which could represent, e.g., humans equipped with a smart-phone or wearables. We want to train a personalized (or tailored) model for each data generator even if they provide only small local datasets. The available local datasets might fail to provide sufficient statistical power to train high-dimensional models (such as deep neural networks) effectively. One possible solution is to identify similar data generators and pool their local datasets to obtain a sufficiently large training set. This paper proposes a novel method for sequentially identifying similar (or relevant) data generators. Our method is similar in spirit to active sampling methods but does not require exchange of raw data. Indeed, our method evaluates the relevance of a data generator by evaluating the effect of a gradient step using its local dataset. This evaluation can be performed in a privacy-friendly fashion without sharing raw data. We extend this method to non-parametric models by a suitable generalization of the gradient step to update a hypothesis using the local dataset provided by a data generator. | 翻訳日:2024-09-10 13:26:07 公開日:2024-09-08 |
# Jäger:電話コールのトレースバックを自動化
Jäger: Automated Telephone Call Traceback ( http://arxiv.org/abs/2409.02839v2 ) ライセンス: Link先を確認 | David Adei, Varun Madathil, Sathvik Prasad, Bradley Reaves, Alessandra Scafuro, | (参考訳) 詐欺や不正なテレマーケティングを促進する無言電話は、ネットワークユーザーやそれを告発する規制当局を圧倒し続けている。
電話乱用を訴追する最初のステップは、発信元を特定するトレースバックだ。
この基本的な調査作業には1回の呼び出しに何時間もの手作業が必要になります。
本稿では,分散セキュアコールトレースバックシステムであるJ\"agerを紹介する。
コールパーティのプライバシを暗号化的に保存し、ピアやコールボリュームなどのキャリアのトレードシークレットを保護し、バルク分析の脅威を制限する。
セキュアなトレースバックの定義と要件を確立し、証人暗号、不明瞭な擬似ランダム関数、グループシグネチャを使用して、これらの要件を満たす一連のプロトコルを開発します。
ユニバーサルコンポジビリティフレームワークにおいて,これらのプロトコルをセキュアに証明する。
次に、J\"agerは1コールあたりの計算コストと帯域幅コストが低く、これらのコストは呼び出し量とともに線形にスケールすることを示した。
J\"ager"は、オペレーターに最小限のコストで電話不正調査に革命をもたらす、効率的でセキュアでプライバシー保護システムを提供する。
Unsolicited telephone calls that facilitate fraud or unlawful telemarketing continue to overwhelm network users and the regulators who prosecute them. The first step in prosecuting phone abuse is traceback -- identifying the call originator. This fundamental investigative task currently requires hours of manual effort per call. In this paper, we introduce J\"ager, a distributed secure call traceback system. J\"ager can trace a call in a few seconds, even with partial deployment, while cryptographically preserving the privacy of call parties, carrier trade secrets like peers and call volume, and limiting the threat of bulk analysis. We establish definitions and requirements of secure traceback, then develop a suite of protocols that meet these requirements using witness encryption, oblivious pseudorandom functions, and group signatures. We prove these protocols secure in the universal composibility framework. We then demonstrate that J\"ager has low compute and bandwidth costs per call, and these costs scale linearly with call volume. J\"ager provides an efficient, secure, privacy-preserving system to revolutionize telephone abuse investigation with minimal costs to operators. | 翻訳日:2024-09-10 13:26:07 公開日:2024-09-08 |
# SpinMultiNet: マルチタスク学習によるスピン自由度を考慮したニューラルネットワークの可能性
SpinMultiNet: Neural Network Potential Incorporating Spin Degrees of Freedom with Multi-Task Learning ( http://arxiv.org/abs/2409.03253v2 ) ライセンス: Link先を確認 | Koki Ueno, Satoru Ohuchi, Kazuhide Ichikawa, Kei Amii, Kensuke Wakasugi, | (参考訳) ニューラルネットワークポテンシャル(NNP)は密度汎関数理論(DFT)計算の高速化手法として注目されている。
しかしながら、従来のNPモデルは一般にスピン自由度を含まないため、スピン状態が遷移金属酸化物などの物質特性に重要な影響を及ぼすシステムに適用性を制限する。
本研究では、マルチタスク学習を通じてスピン自由度を統合する新しいNNPモデルであるSpinMultiNetを紹介する。
SpinMultiNetはDFT計算から得られた正しいスピン値に頼ることなく正確な予測を行う。
代わりに、最初のスピン推定を入力として利用し、マルチタスク学習を利用してスピン潜在表現を最適化し、$E(3)$と時間反転等式の両方を維持している。
遷移金属酸化物のデータセット上での検証は、SpinMultiNetの高い予測精度を示す。
このモデルは、超交換相互作用から生じる安定なスピン配置のエネルギー秩序を再現し、岩塩構造の六面体歪みを正確に捉える。
これらの結果は、スピン自由度を考慮した材料シミュレーションの新たな可能性の道を開くものであり、磁気材料を含む様々な材料システムの大規模シミュレーションに将来的な応用が期待できる。
Neural Network Potentials (NNPs) have attracted significant attention as a method for accelerating density functional theory (DFT) calculations. However, conventional NNP models typically do not incorporate spin degrees of freedom, limiting their applicability to systems where spin states critically influence material properties, such as transition metal oxides. This study introduces SpinMultiNet, a novel NNP model that integrates spin degrees of freedom through multi-task learning. SpinMultiNet achieves accurate predictions without relying on correct spin values obtained from DFT calculations. Instead, it utilizes initial spin estimates as input and leverages multi-task learning to optimize the spin latent representation while maintaining both $E(3)$ and time-reversal equivariance. Validation on a dataset of transition metal oxides demonstrates the high predictive accuracy of SpinMultiNet. The model successfully reproduces the energy ordering of stable spin configurations originating from superexchange interactions and accurately captures the rhombohedral distortion of the rocksalt structure. These results pave the way for new possibilities in materials simulations that consider spin degrees of freedom, promising future applications in large-scale simulations of various material systems, including magnetic materials. | 翻訳日:2024-09-10 13:26:06 公開日:2024-09-08 |
# 超音波エコーによる屋内シーン深度マップの推定
Estimating Indoor Scene Depth Maps from Ultrasonic Echoes ( http://arxiv.org/abs/2409.03336v2 ) ライセンス: Link先を確認 | Junpei Honma, Akisato Kimura, Go Irie, | (参考訳) 屋内シーンの3次元幾何学的構造を測定するには専用の深度センサーが必要であるが、必ずしも利用できない。
エコーに基づく深度推定は、最近、有望な代替ソリューションとして研究されている。
過去の研究はすべて、可聴域におけるエコーの使用を前提としている。
しかし、1つの大きな問題は、可聴エコーが静かな空間や、可聴音の生成が禁止されている他の状況では使用できないことである。
本稿では,難聴エコーを用いたエコーに基づく深度推定について考察する。
超音波は理論上高い測定精度を提供するが、ノイズに敏感で減衰しにくいため、超音波を用いた場合の実際の深さ推定精度は未定である。
まず、音源の周波数を高周波帯域に制限した場合の深さ推定精度について検討し、周波数を超音波範囲に制限した場合の精度が低下することを確認した。
そこで本研究では,訓練中のみの補助データとして可聴エコーを用いた超音波エコーによる深度推定の精度を向上させるための新しい深度学習法を提案する。
パブリックデータセットによる実験結果から,提案手法は推定精度を向上することが示された。
Measuring 3D geometric structures of indoor scenes requires dedicated depth sensors, which are not always available. Echo-based depth estimation has recently been studied as a promising alternative solution. All previous studies have assumed the use of echoes in the audible range. However, one major problem is that audible echoes cannot be used in quiet spaces or other situations where producing audible sounds is prohibited. In this paper, we consider echo-based depth estimation using inaudible ultrasonic echoes. While ultrasonic waves provide high measurement accuracy in theory, the actual depth estimation accuracy when ultrasonic echoes are used has remained unclear, due to its disadvantage of being sensitive to noise and susceptible to attenuation. We first investigate the depth estimation accuracy when the frequency of the sound source is restricted to the high-frequency band, and found that the accuracy decreased when the frequency was limited to ultrasonic ranges. Based on this observation, we propose a novel deep learning method to improve the accuracy of ultrasonic echo-based depth estimation by using audible echoes as auxiliary data only during training. Experimental results with a public dataset demonstrate that our method improves the estimation accuracy. | 翻訳日:2024-09-10 13:26:06 公開日:2024-09-08 |