このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240513となっている論文です。

PDF登録状況(公開日: 20240513)

TitleAuthorsAbstract論文公表日・翻訳日
# 多分野工学教育における認知多様性、動機づけ、満足度、学業成績の神経誘発関係の理論的研究

Theorizing neuro-induced relationships between cognitive diversity, motivation, grit and academic performance in multidisciplinary engineering education context ( http://arxiv.org/abs/2407.17584v1 )

ライセンス: Link先を確認
Duy Duong-Tran, Siqing Wei, Li Shen, (参考訳) 今日では、エンジニアは、しばしば複雑で、最も重要なことは、1つのエンジニアリング分野に徹底的に分割できない、先例のない多くの課題に取り組む必要がある。 言い換えれば、ほとんどのエンジニアリング問題は、多分野のアプローチで解決する必要がある。 しかし、従来のエンジニアリングプログラムは、伝統的でニッチなエンジニアリングの規律に特化された教育的アプローチを採用しており、これらのプログラムは通常、高度に専門化されたエンジニアリングのトレーニングと資格を持つインストラクターによって設計され、教えられるため、業界のニーズから逸脱する傾向にある。 ギャップを減らすために、より多くの学際的な工学プログラムは、すべての工学繊維を体系的に拡張し、工学教室で混在する最適の伝統教育に挑戦する。 そこで本研究では,学習者の認知的違いと,学習者の知識獲得過程にどのような影響を及ぼすかの,神経誘発的結合を仮定した。 本研究は,多学際工学教育の文脈における神経誘発リンケージを整理し,この概念的枠組みの意義を具現化するための教育的アプローチを提案する。 私たちの研究は、脳指紋という革新的な概念に基づいて、学習者中心の多学際工学教育の鍵となる要素を理論化するためのパイオニアモデルとして役立ちます。

Nowadays, engineers need to tackle many unprecedented challenges that are often complex, and, most importantly, cannot be exhaustively compartmentalized into a single engineering discipline. In other words, most engineering problems need to be solved from a multidisciplinary approach. However, conventional engineering programs usually adopt pedagogical approaches specifically tailored to traditional, niched engineering disciplines, which become increasingly deviated from the industry needs as those programs are typically designed and taught by instructors with highly specialized engineering training and credentials. To reduce the gap, more multidisciplinary engineering programs emerge by systematically stretching across all engineering fibers, and challenge the sub-optimal traditional pedagogy crowded in engineering classrooms. To further advance future-oriented pedagogy, in this work, we hypothesized neuro-induced linkages between how cognitively different learners are and how the linkages would affect learners in the knowledge acquisition process. We situate the neuro-induced linkages in the context of multidisciplinary engineering education and propose possible pedagogical approaches to actualize the implications of this conceptual framework. Our study, based on the innovative concept of brain fingerprint, would serve as a pioneer model to theorize key components of learner-centered multidisciplinary engineering pedagogy which centers on the key question: how do we motivate engineering students of different backgrounds from a neuro-inspired perspective?
翻訳日:2024-08-05 01:45:45 公開日:2024-05-13
# LiDARを用いたオブジェクト検出ネットワークを用いた高能率4次元レーダデータ自動ラベル法

Efficient 4D Radar Data Auto-labeling Method using LiDAR-based Object Detection Network ( http://arxiv.org/abs/2407.04709v1 )

ライセンス: Link先を確認
Min-Hyeok Sun, Dong-Hee Paek, Seung-Hyun Song, Seung-Hyun Kong, (参考訳) 4次元レーダーの強度に着目し, 悪天候下でのロバストな3次元物体検出ネットワークの研究が注目されている。 このようなネットワークをトレーニングするためには、大量の4Dレーダデータと地上の真理ラベルを含むデータセットが不可欠である。 しかし、既存の4Dレーダーデータセット(例えばK-Radar)には十分なセンサーデータとラベルが欠けており、この研究領域の進歩を妨げる。 さらに、4Dレーダデータセットを拡大するには、時間と費用のかかる手動ラベリングプロセスが必要になる。 これらの問題に対処するために,K-Radarデータセットにおける4次元レーダテンソル(4DRT)の自動ラベリング手法を提案する。 提案手法は,LiDAR点雲 (LPC) を用いたオブジェクト検出ネットワーク (LODN) を訓練する。 訓練されたLODNは、人間の介入なしにK-Radarの列車データセットの地上の真理ラベル(オートラベル、AL)を自動的に生成する。 生成されたALは、4Dレーダーによる物体検出ネットワーク(4DRODN)、Radar Tensor Network with Height(RTNH)のトレーニングに使用される。 実験の結果,ALsでトレーニングしたRTNHは,手動で注釈付き真実ラベルをトレーニングしたオリジナルのRTNHと類似した検出性能を達成し,提案手法の有効性を検証した。 関連するすべてのコードは、次のGitHubプロジェクトですぐに利用可能になる。

Focusing on the strength of 4D (4-Dimensional) radar, research about robust 3D object detection networks in adverse weather conditions has gained attention. To train such networks, datasets that contain large amounts of 4D radar data and ground truth labels are essential. However, the existing 4D radar datasets (e.g., K-Radar) lack sufficient sensor data and labels, which hinders the advancement in this research domain. Furthermore, enlarging the 4D radar datasets requires a time-consuming and expensive manual labeling process. To address these issues, we propose the auto-labeling method of 4D radar tensor (4DRT) in the K-Radar dataset. The proposed method initially trains a LiDAR-based object detection network (LODN) using calibrated LiDAR point cloud (LPC). The trained LODN then automatically generates ground truth labels (i.e., auto-labels, ALs) of the K-Radar train dataset without human intervention. The generated ALs are used to train the 4D radar-based object detection network (4DRODN), Radar Tensor Network with Height (RTNH). The experimental results demonstrate that RTNH trained with ALs has achieved a similar detection performance to the original RTNH which is trained with manually annotated ground truth labels, thereby verifying the effectiveness of the proposed auto-labeling method. All relevant codes will be soon available at the following GitHub project: https://github.com/kaist-avelab/K-Radar
翻訳日:2024-07-22 16:25:52 公開日:2024-05-13
# ビジュアル評価AI: 概念に基づく説明とエビデンス重みを備えた仮説駆動型ツール

Visual Evaluative AI: A Hypothesis-Driven Tool with Concept-Based Explanations and Weight of Evidence ( http://arxiv.org/abs/2407.04710v1 )

ライセンス: Link先を確認
Thao Le, Tim Miller, Ruihan Zhang, Liz Sonenberg, Ronal Singh, (参考訳) 本稿では,ある仮説に対する画像データから肯定的かつ否定的な証拠を提供する意思決定支援である視覚評価AIを提案する。 このツールは、画像中の高レベルな人間の概念を見つけ、意思決定プロセスにおける各仮説のウェイト・オブ・エビデンス(WoE)を生成する。 皮膚がん領域にこのツールを適用して評価し,皮膚内視鏡像をアップロードし,仮説を選定し,提示された証拠を評価して判断するWebベースのアプリケーションを構築した。 さらに、異なる概念に基づく説明手法における視覚評価AIの有効性を示す。

This paper presents Visual Evaluative AI, a decision aid that provides positive and negative evidence from image data for a given hypothesis. This tool finds high-level human concepts in an image and generates the Weight of Evidence (WoE) for each hypothesis in the decision-making process. We apply and evaluate this tool in the skin cancer domain by building a web-based application that allows users to upload a dermatoscopic image, select a hypothesis and analyse their decisions by evaluating the provided evidence. Further, we demonstrate the effectiveness of Visual Evaluative AI on different concept-based explanation approaches.
翻訳日:2024-07-22 16:25:52 公開日:2024-05-13
# マニフォールド対応変圧器によるニューラルガーメントダイナミクス

Neural Garment Dynamics via Manifold-Aware Transformers ( http://arxiv.org/abs/2407.06101v1 )

ライセンス: Link先を確認
Peizhuo Li, Tuanfeng Y. Wang, Timur Levent Kesdogan, Duygu Ceylan, Olga Sorkine-Hornung, (参考訳) データ駆動と学習に基づく動的衣服のモデリングソリューションは、特にデジタル人間の文脈において、大きく進歩している。 しかし、既存のアプローチは、固定されたパラメトリックの人体モデルに関する衣服のモデリングに重点を置いており、訓練中に見られた衣服の幾何学に限られている。 本研究では, 衣服の局所的相互作用を利用して, 衣服の動態をモデル化する。 具体的には、身体が動くと局所的な衣服と体の衝突を検出し、衣服の変形を駆動する。 我々のアプローチの核となるのはメッシュ非依存の衣服表現と多様体対応トランスフォーマーネットワーク設計であり、この手法が組み合わさって見えない衣服や身体の幾何学を一般化することを可能にする。 本研究は,多様な衣服の種類や動作順序に対するアプローチを評価し,最先端技術に対する質的かつ定量的な結果を提供する。

Data driven and learning based solutions for modeling dynamic garments have significantly advanced, especially in the context of digital humans. However, existing approaches often focus on modeling garments with respect to a fixed parametric human body model and are limited to garment geometries that were seen during training. In this work, we take a different approach and model the dynamics of a garment by exploiting its local interactions with the underlying human body. Specifically, as the body moves, we detect local garment-body collisions, which drive the deformation of the garment. At the core of our approach is a mesh-agnostic garment representation and a manifold-aware transformer network design, which together enable our method to generalize to unseen garment and body geometries. We evaluate our approach on a wide variety of garment types and motion sequences and provide competitive qualitative and quantitative results with respect to the state of the art.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-13
# 多ビット超電導回路の電磁モデルの構築と特性評価

Efficiently Building and Characterizing Electromagnetic Models of Multi-Qubit Superconducting Circuits ( http://arxiv.org/abs/2406.04351v1 )

ライセンス: Link先を確認
Fadi Wassaf, (参考訳) 超伝導量子コンピュータをよりよく活用するために、スケーリングの取り組みが中心的な関心事となっている。 これらの取り組みは、これらの回路の複雑さの増大によってさらに悪化した。 追加された複雑さは寄生的結合と共振を導入し、これらのデバイス全体のパフォーマンスとスケーラビリティを阻害する可能性がある。 マルチビット回路に対応するマルチポートインピーダンス関数のモデル化とキャラクタリゼーションについて検討する。 ベクトルフィッティング法と有理インピーダンス関数を相互接続する新しい手法を組み合わせることにより、電磁シミュレーションを用いて、マルチキュービット回路のハミルトニアンを効率的に構築することができる。 また,本手法は,積層素子と分散素子の両方を含む回路にも適用可能である。 構成されたハミルトニアンは、インピーダンス関数によって記述される回路内のすべての相互作用を説明できる。 次に,有効クビット結合率,状態依存型共振モードの分散シフト,およびクビット緩和時間を推定できる特性評価法を提案する。

In an attempt to better leverage superconducting quantum computers, scaling efforts have become the central concern. These efforts have been further exacerbated by the increased complexity of these circuits. The added complexity can introduce parasitic couplings and resonances, which may hinder the overall performance and scalability of these devices. We explore a method of modeling and characterization based on multiport impedance functions that correspond to multi-qubit circuits. By combining vector fitting techniques with a novel method for interconnecting rational impedance functions, we are able to efficiently construct Hamiltonians for multi-qubit circuits using electromagnetic simulations. Our methods can also be applied to circuits that contain both lumped and distributed element components. The constructed Hamiltonians account for all the interactions within a circuit that are described by the impedance function. We then present characterization methods that allow us to estimate effective qubit coupling rates, state-dependent dispersive shifts of resonant modes, and qubit relaxation times.
翻訳日:2024-07-01 08:10:07 公開日:2024-05-13
# Dense Retrievalを用いた多言語エンティティリンク

Multilingual Entity Linking Using Dense Retrieval ( http://arxiv.org/abs/2406.16892v1 )

ライセンス: Link先を確認
Dominik Farhan, (参考訳) エンティティリンク(EL)は、テキスト参照を対応するエンティティに接続する計算プロセスである。 自然言語処理の多くの分野と同様に、ELフィールドはディープラーニングの恩恵を受けており、大幅なパフォーマンス向上につながっている。 しかし、今日のアプローチは、様々なデータソースを訓練し、頼りにし、再現性を複雑にしている。 この論文では、高速にトレーニングできる複数のシステムを開発し、大きなGPUクラスタを使わずに競合するエンティティリンクを実現することを実証する。 さらに、公開データセットをトレーニングし、再現性とアクセシビリティを確保します。 我々のモデルは9つの言語で評価され、その強みを正確に概観する。 さらに,両エンコーダ訓練用ハイパーパラメータの詳細な解析を行い,その情報選択の指導を行う。 全体として、我々の研究は、複数の言語で動作する競争力のあるニューラルネットワークベースのELシステムを構築することは、限られたリソースでも可能であることを示し、ELをより親しみやすいものにしている。

Entity linking (EL) is the computational process of connecting textual mentions to corresponding entities. Like many areas of natural language processing, the EL field has greatly benefited from deep learning, leading to significant performance improvements. However, present-day approaches are expensive to train and rely on diverse data sources, complicating their reproducibility. In this thesis, we develop multiple systems that are fast to train, demonstrating that competitive entity linking can be achieved without a large GPU cluster. Moreover, we train on a publicly available dataset, ensuring reproducibility and accessibility. Our models are evaluated for 9 languages giving an accurate overview of their strengths. Furthermore, we offer a~detailed analysis of bi-encoder training hyperparameters, a popular approach in EL, to guide their informed selection. Overall, our work shows that building competitive neural network based EL systems that operate in multiple languages is possible even with limited resources, thus making EL more approachable.
翻訳日:2024-07-01 06:41:31 公開日:2024-05-13
# CataLM: 大規模言語モデルによる触媒設計の強化

CataLM: Empowering Catalyst Design Through Large Language Models ( http://arxiv.org/abs/2405.17440v1 )

ライセンス: Link先を確認
Ludi Wang, Xueqing Chen, Yi Du, Yuanchun Zhou, Yang Gao, Wenjuan Cui, (参考訳) 触媒学の分野は、持続可能な発展の軌跡を形成する上で最重要であり、触媒設計において人工知能(AI)を活用するための集中的な研究努力を促している。 現在、オープンソースの大規模言語モデル(LLM)の微調整は、生物学や医療など、さまざまな領域で大きなブレークスルーをもたらしている。 これらの進歩からインスピレーションを得て,電気触媒材料の領域に合わせた大規模言語モデルであるCataLM Cata}lytic Language Modelを紹介した。 触媒知識の探索と設計において, CataLM は人間とAIの協調を促進する重要な可能性を示している。 私たちの知る限りでは、CataLMは触媒ドメインに特化したLLMの先駆的な存在であり、触媒発見と開発のための新しい道を提供する。

The field of catalysis holds paramount importance in shaping the trajectory of sustainable development, prompting intensive research efforts to leverage artificial intelligence (AI) in catalyst design. Presently, the fine-tuning of open-source large language models (LLMs) has yielded significant breakthroughs across various domains such as biology and healthcare. Drawing inspiration from these advancements, we introduce CataLM Cata}lytic Language Model), a large language model tailored to the domain of electrocatalytic materials. Our findings demonstrate that CataLM exhibits remarkable potential for facilitating human-AI collaboration in catalyst knowledge exploration and design. To the best of our knowledge, CataLM stands as the pioneering LLM dedicated to the catalyst domain, offering novel avenues for catalyst discovery and development.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-13
# 固定予算設定における計算的ブラックボックス最適化のためのアルゴリズム選択におけるアルゴリズムポートフォリオの構成について

On Constructing Algorithm Portfolios in Algorithm Selection for Computationally Expensive Black-box Optimization in the Fixed-budget Setting ( http://arxiv.org/abs/2405.10976v1 )

ライセンス: Link先を確認
Takushi Yoshikawa, Ryoji Tanabe, (参考訳) 機能ベースのオフラインアルゴリズムの選択は、ブラックボックス最適化問題を含む幅広い最適化問題において、その有効性を示している。 アルゴリズム選択システムは、事前に定義されたオプティマイザのセットであるアルゴリズムポートフォリオから最も有望なオプティマイザを選択する。 したがって、アルゴリズムの選択には、互いに補完する効率的なオプティマイザからなる、よく構築されたアルゴリズムポートフォリオが必要である。 固定目標設定の工法はよく研究されているが,固定予算設定の工法はあまり注目されていない。 ここでは、固定予算設定は一般に、関数評価の予算が小さい計算コストの高い最適化に使用される。 この文脈では、まず、以前の研究では実験装置の望ましくない性質が指摘されている。 そこで本研究では,アルゴリズムポートフォリオ構築におけるサンプリングフェーズにおける関数評価の回数を考慮することの重要性を論じる。 その結果,提案手法により構築されたアルゴリズムのポートフォリオは,従来の手法よりも大幅に向上していることがわかった。

Feature-based offline algorithm selection has shown its effectiveness in a wide range of optimization problems, including the black-box optimization problem. An algorithm selection system selects the most promising optimizer from an algorithm portfolio, which is a set of pre-defined optimizers. Thus, algorithm selection requires a well-constructed algorithm portfolio consisting of efficient optimizers complementary to each other. Although construction methods for the fixed-target setting have been well studied, those for the fixed-budget setting have received less attention. Here, the fixed-budget setting is generally used for computationally expensive optimization, where a budget of function evaluations is small. In this context, first, this paper points out some undesirable properties of experimental setups in previous studies. Then, this paper argues the importance of considering the number of function evaluations used in the sampling phase when constructing algorithm portfolios, whereas the previous studies ignored that. The results show that algorithm portfolios constructed by our approach perform significantly better than those by the previous approach.
翻訳日:2024-05-27 03:08:05 公開日:2024-05-13
# 自動FAQ生成

Auto FAQ Generation ( http://arxiv.org/abs/2405.13006v1 )

ライセンス: Link先を確認
Anjaneya Teja Kalvakolanu, NagaSai Chandra, Michael Fekadu, (参考訳) FAQ文書は、質問応答ペアという形で重要な情報を提供するために、テキスト文書やウェブサイトで一般的に使用される。 我々は、ある文書からの有能な文が、読者からの集合されたFAQに対する回答をフロアする良い代名詞として機能していると仮定する。 本研究では,スタンフォード大学哲学百科事典から抽出した文書から,有能な質問とそれに対応する回答を抽出するFAQ文書を生成するシステムを提案する。 既存のテキスト要約、テキストランクアルゴリズムによる文章ランキング、質問生成ツールを用いて、質問と回答の初期セットを作成します。 最後に、不正な質問をフィルタリングするためにヒューリスティックスを適用します。 人間の評価を用いて、生成した質問を文法上で評価し、質問が意味のあるものかどうか、質問の答えが要約された文脈内に存在するかどうかを評価する。 平均して、回答者は質問の71%が意味のあるものだと考えた。

FAQ documents are commonly used with text documents and websites to provide important information in the form of question answer pairs to either aid in reading comprehension or provide a shortcut to the key ideas. We suppose that salient sentences from a given document serve as a good proxy fro the answers to an aggregated set of FAQs from readers. We propose a system for generating FAQ documents that extract the salient questions and their corresponding answers from sizeable text documents scraped from the Stanford Encyclopedia of Philosophy. We use existing text summarization, sentence ranking via the Text rank algorithm, and question-generation tools to create an initial set of questions and answers. Finally, we apply some heuristics to filter out invalid questions. We use human evaluation to rate the generated questions on grammar, whether the question is meaningful, and whether the question's answerability is present within a summarized context. On average, participants thought 71 percent of the questions were meaningful.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# カテゴリー記述を用いた大規模言語モデルによるニュースレコメンデーション

News Recommendation with Category Description by a Large Language Model ( http://arxiv.org/abs/2405.13007v1 )

ライセンス: Link先を確認
Yuki Yada, Hayato Yamana, (参考訳) パーソナライズされたニュースレコメンデーションは、ユーザーが大量のオンラインコンテンツから自分の興味に合ったニュース記事を見つけるのを助けるために、オンラインニュースプラットフォームにとって不可欠である。 テキスト、カテゴリ、画像などの適切なエンコードされたコンテンツ機能は、レコメンデーションに不可欠である。 これらの特徴の中で、テレビゴールドグローブ、金融不動産、ニュース政治といったニュースカテゴリーは、ニュースコンテンツを理解する上で重要な役割を担い、カテゴリの記述を強化することを促す。 本稿では,手作業やドメイン固有の知識を使わずに,大規模言語モデル(LLM)を用いて情報カテゴリー記述を自動的に生成し,それを追加情報としてレコメンデーションモデルに組み込む手法を提案する。 MINDデータセットを用いた総合的な実験評価において,本手法は,NAML,NRMS,NPAなどの最先端コンテンツベースレコメンデーションモデルに対して,LLMが生成するカテゴリ記述を含まないベースラインアプローチと比較して,AUCの最大5.8%の改善を実現した。 これらの結果は,我々のアプローチの有効性を検証した。 コードはhttps://github.com/yamanalab/gpt-augmented-news-recommendationで公開されている。

Personalized news recommendations are essential for online news platforms to assist users in discovering news articles that match their interests from a vast amount of online content. Appropriately encoded content features, such as text, categories, and images, are essential for recommendations. Among these features, news categories, such as tv-golden-globe, finance-real-estate, and news-politics, play an important role in understanding news content, inspiring us to enhance the categories' descriptions. In this paper, we propose a novel method that automatically generates informative category descriptions using a large language model (LLM) without manual effort or domain-specific knowledge and incorporates them into recommendation models as additional information. In our comprehensive experimental evaluations using the MIND dataset, our method successfully achieved 5.8% improvement at most in AUC compared with baseline approaches without the LLM's generated category descriptions for the state-of-the-art content-based recommendation models including NAML, NRMS, and NPA. These results validate the effectiveness of our approach. The code is available at https://github.com/yamanalab/gpt-augmented-news-recommendation.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# Dense Passage Retrieval を用いた制御トークン

Control Token with Dense Passage Retrieval ( http://arxiv.org/abs/2405.13008v1 )

ライセンス: Link先を確認
Juhwan Lee, Jisu Kim, (参考訳) 本研究では,大規模言語モデル(LLM)における幻覚問題に対処する。 我々は、関連する情報を適切な回答を得るためのプロンプトに埋め込む手法であるRetrieval-Augmented Generation (RAG) (Lewis et al , 2020) を採用した。 しかし、RAGは正しい情報を取得する際にも固有の問題に直面した。 そこで我々は、Dense Passage Retrieval(DPR)モデル(Karpukhin et al , 2020)を用いて、ユーザクエリに関連するドメイン固有のドキュメントを取得する。 それにもかかわらず、DPRモデルは文書検索の精度に欠けていた。 制御トークンを組み込んでDPRモデルを強化し,標準DPRモデルよりも優れた性能を実現し,Top-1精度が13%向上し,Top-20精度が4%向上した。

This study addresses the hallucination problem in large language models (LLMs). We adopted Retrieval-Augmented Generation(RAG) (Lewis et al., 2020), a technique that involves embedding relevant information in the prompt to obtain accurate answers. However, RAG also faced inherent issues in retrieving correct information. To address this, we employed the Dense Passage Retrieval(DPR) (Karpukhin et al., 2020) model for fetching domain-specific documents related to user queries. Despite this, the DPR model still lacked accuracy in document retrieval. We enhanced the DPR model by incorporating control tokens, achieving significantly superior performance over the standard DPR model, with a 13% improvement in Top-1 accuracy and a 4% improvement in Top-20 accuracy.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# メタレフレクション:過去の反射を用いた言語エージェントの学習指導

METAREFLECTION: Learning Instructions for Language Agents using Past Reflections ( http://arxiv.org/abs/2405.13009v1 )

ライセンス: Link先を確認
Priyanshu Gupta, Shashank Kirtania, Ananya Singha, Sumit Gulwani, Arjun Radhakrishna, Sherry Shi, Gustavo Soares, (参考訳) LLM(Large Language Models)の人気にもかかわらず、LLMが特定のタスクを実行するための特別なプロンプトを作成することは、依然として難しい。 ユーザは、意図したタスクを達成するために、LLMベースのエージェントと複数の会話を交互に行うことが多い。 近年の研究では、言語フィードバックは、モデルによって生成された自己回帰の形で、これらの会話の間に強化として機能し、より迅速に望ましい結果に収束することができることが示されている。 これらの知見に触発されて,訓練期間中に収集した個別の自己回帰から,特定のドメインに対する一般的なプロンプト命令を学習する新しいテクニックであるMETAREFLECTIONを紹介した。 本稿では,インフラストラクチャ・アズ・コード (IAC) の脆弱性検出とREACTとCOTを用いた質問応答 (QA) の2つの領域で評価する。 その結果,METARELECTION は GPT-4 を16.82%(IAC),31.33%(COT),15.42%(REACT)で上回った。

Despite the popularity of Large Language Models (LLMs), crafting specific prompts for LLMs to perform particular tasks remains challenging. Users often engage in multiple conversational turns with an LLM-based agent to accomplish their intended task. Recent studies have demonstrated that linguistic feedback, in the form of self-reflections generated by the model, can work as reinforcement during these conversations, thus enabling quicker convergence to the desired outcome. Motivated by these findings, we introduce METAREFLECTION, a novel technique that learns general prompt instructions for a specific domain from individual self-reflections gathered during a training phase. We evaluate our technique in two domains: Infrastructure as Code (IAC) vulnerability detection and question-answering (QA) using REACT and COT. Our results demonstrate a notable improvement, with METARELECTION outperforming GPT-4 by 16.82% (IAC), 31.33% (COT), and 15.42% (REACT), underscoring the potential of METAREFLECTION as a viable method for enhancing the efficiency of LLMs.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# UCCIX:Irish-eXcellence Large Language Model

UCCIX: Irish-eXcellence Large Language Model ( http://arxiv.org/abs/2405.13010v1 )

ライセンス: Link先を確認
Khanh-Tung Tran, Barry O'Sullivan, Hoang D. Nguyen, (参考訳) LLM(Large Language Models)の開発は主に高リソース言語に重点を置いており、アイルランド語のような低リソース言語は限られた表現しか残っていない。 この研究は、UCCIXというオープンソースのアイルランドのLLMの開発における先駆的な取り組みを提示している。 超低リソース言語に特化して適応するLLMの事前学習を継続する新しいフレームワークを提案し、スケーリング法則に従ってLLMのトレーニングに要するテキストデータのごく一部しか必要としない。 Llama 2-13Bに基づく我々のモデルは、アイルランド語のタスクにおいて最大12%のパフォーマンス向上を達成し、我々のアプローチの有効性と効率を示す。 また、IrishQAや質問回答データセット、MT-benchのIrishバージョンなど、包括的なアイルランドのベンチマークデータセットにもコントリビュートしています。 これらのデータセットは厳密な評価を可能にし、アイルランドのLLMシステムにおける将来の研究を促進する。 我々の研究は、アイルランドの言語、知識、文化をデジタル時代に保存し、促進することを目的としており、他の先住民言語にLLMを適用するための枠組みを提供する。

The development of Large Language Models (LLMs) has predominantly focused on high-resource languages, leaving extremely low-resource languages like Irish with limited representation. This work presents UCCIX, a pioneering effort on the development of an open-source Irish-based LLM. We propose a novel framework for continued pre-training of LLMs specifically adapted for extremely low-resource languages, requiring only a fraction of the textual data typically needed for training LLMs according to scaling laws. Our model, based on Llama 2-13B, outperforms much larger models on Irish language tasks with up to 12% performance improvement, showcasing the effectiveness and efficiency of our approach. We also contribute comprehensive Irish benchmarking datasets, including IrishQA, a question-answering dataset, and Irish version of MT-bench. These datasets enable rigorous evaluation and facilitate future research in Irish LLM systems. Our work aims to preserve and promote the Irish language, knowledge, and culture of Ireland in the digital era while providing a framework for adapting LLMs to other indigenous languages.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# アイデンティティグループのための新しい名前付きエンティティ認識システムによるソーシャルメディアコメントの公開

Unveiling Social Media Comments with a Novel Named Entity Recognition System for Identity Groups ( http://arxiv.org/abs/2405.13011v1 )

ライセンス: Link先を確認
Andrés Carvallo, Tamara Quiroga, Carlos Aspillaga, Marcelo Mendoza, (参考訳) 文明化されたユーザーはソーシャルメディアを利用して日常的な出来事を知らせ、議論する一方で、憎しみはこれらのプラットフォームを集団や個人を攻撃するための肥大した基盤として捉えている。 この現象に対抗するための一般的なアプローチは、有害な言語を特定することによってそのような攻撃を検出することである。 効果的なプラットフォーム対策は、ハザードを報告し、ネットワークアクセスをブロックすることを目的としている。 この文脈では、ヘイトスピーチ検出手法を用いることで、人間が手動で分析することは不可能な大量のテキストの中で、これらの攻撃を識別するのに役立つ。 本研究では,テキスト分類器をベースとした一般的なヘイトスピーチ検出手法を拡張し,識別グループのための名前付きエンティティ認識(NER)システムを開発した。 これを実現するために、従来のNERを拡張して識別グループを認識できるデータセットを作成しました。 その結果、このツールは、文が攻撃を含むかどうかを検知するだけでなく、上記のグループに対応する文トークンをタグ付けする。 その結果、このモデルは平均的なf1スコアが0.75の集団を識別する上で競争力を発揮しており、他のアイデンティティグループと比較すると、f1スコアが0.80の民族性攻撃の特定に優れていたことが示唆された。 さらに、性的指向と性別に関するマイノリティクラスに優れた一般化能力を示し、それぞれ0.77と0.72のf1スコアを達成した。 ソーシャルメディアに関するケーススタディで,Facebookのコメントを注釈付けし,IDグループに言及するニュースに関連するコメントと比較し,ツールの有用性を検証した。 ケーススタディでは、記録された攻撃の種類の違いを明らかにし、分析されたニュース記事のカテゴリに関連する名前付きエンティティを効果的に検出する。 エンティティはカテゴリ内で正確にタグ付けされ、カテゴリ間のタグ付けには無視できるエラー率がある。

While civilized users employ social media to stay informed and discuss daily occurrences, haters perceive these platforms as fertile ground for attacking groups and individuals. The prevailing approach to counter this phenomenon involves detecting such attacks by identifying toxic language. Effective platform measures aim to report haters and block their network access. In this context, employing hate speech detection methods aids in identifying these attacks amidst vast volumes of text, which are impossible for humans to analyze manually. In our study, we expand upon the usual hate speech detection methods, typically based on text classifiers, to develop a Named Entity Recognition (NER) System for Identity Groups. To achieve this, we created a dataset that allows extending a conventional NER to recognize identity groups. Consequently, our tool not only detects whether a sentence contains an attack but also tags the sentence tokens corresponding to the mentioned group. Results indicate that the model performs competitively in identifying groups with an average f1-score of 0.75, outperforming in identifying ethnicity attack spans with an f1-score of 0.80 compared to other identity groups. Moreover, the tool shows an outstanding generalization capability to minority classes concerning sexual orientation and gender, achieving an f1-score of 0.77 and 0.72, respectively. We tested the utility of our tool in a case study on social media, annotating and comparing comments from Facebook related to news mentioning identity groups. The case study reveals differences in the types of attacks recorded, effectively detecting named entities related to the categories of the analyzed news articles. Entities are accurately tagged within their categories, with a negligible error rate for inter-category tagging.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# 人間と大言語モデルにおける多様性の創造性

Divergent Creativity in Humans and Large Language Models ( http://arxiv.org/abs/2405.13012v1 )

ライセンス: Link先を確認
Antoine Bellemare-Pepin, François Lespinasse, Philipp Thölke, Yann Harel, Kory Mathewson, Jay A. Olson, Yoshua Bengio, Karim Jerbi, (参考訳) 最近のLLM(Large Language Models)の能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。 このアイデアは興奮と不安の混合を引き起こした。 しかし、この言説に欠けている重要な点は、特に人間の散発的思考と比較して、LLMの創造性を体系的に評価することである。 このギャップを埋めるために、創造科学の最近の進歩を活用して、最先端のLCMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。 LLMは、分岐関連や創造的執筆といった特定の創造的タスクにおいて、人間の能力を上回ることができることを示す証拠が発見された。 我々の量的ベンチマークフレームワークは、より創造的なLCMを開発するための新しい道を開くが、人工的に生成できるものに比べて、人間の創発的思考プロセスを構成する特徴的な要素についてよりきめ細やかな問い合わせを奨励する。

The recent surge in the capabilities of Large Language Models (LLMs) has led to claims that they are approaching a level of creativity akin to human capabilities. This idea has sparked a blend of excitement and apprehension. However, a critical piece that has been missing in this discourse is a systematic evaluation of LLM creativity, particularly in comparison to human divergent thinking. To bridge this gap, we leverage recent advances in creativity science to build a framework for in-depth analysis of divergent creativity in both state-of-the-art LLMs and a substantial dataset of 100,000 humans. We found evidence suggesting that LLMs can indeed surpass human capabilities in specific creative tasks such as divergent association and creative writing. Our quantitative benchmarking framework opens up new paths for the development of more creative LLMs, but it also encourages more granular inquiries into the distinctive elements that constitute human inventive thought processes, compared to those that can be artificially generated.
翻訳日:2024-05-27 02:58:21 公開日:2024-05-13
# インテリジェント・ニューラル・インタフェース:ニューロテクノロジーの新たな時代

Intelligent Neural Interfaces: An Emerging Era in Neurotechnology ( http://arxiv.org/abs/2405.10780v1 )

ライセンス: Link先を確認
Mahsa Shoaran, Uisub Shin, MohammadAli Shaeri, (参考訳) 神経デバイスにスマートアルゴリズムを統合することは、様々な脳障害にとって大きなチャンスとなる。 本稿では,組込み可能なデバイスやウェアラブルデバイスに組込み信号処理を施した3種類の知的神経義肢の開発における最新の進歩を概説する。 以下を含む。 1)閉ループ症状追跡と応答性刺激のための神経インタフェース 2 精神疾患等の新興ネットワーク関連疾患に対する神経インタフェース、及び 3)麻痺後の運動回復のための知的BMI SoC

Integrating smart algorithms on neural devices presents significant opportunities for various brain disorders. In this paper, we review the latest advancements in the development of three categories of intelligent neural prostheses featuring embedded signal processing on the implantable or wearable device. These include: 1) Neural interfaces for closed-loop symptom tracking and responsive stimulation; 2) Neural interfaces for emerging network-related conditions, such as psychiatric disorders; and 3) Intelligent BMI SoCs for movement recovery following paralysis.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-13
# VQDNA:多種ゲノム配列モデリングのためのベクトル量子化のパワーを開放する

VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling ( http://arxiv.org/abs/2405.10812v1 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Di Wu, Cheng Tan, Jiangbin Zheng, Yufei Huang, Stan Z. Li, (参考訳) 自然言語モデルと同様に、教師なし配列モデリングによってゲノム内の根底にある複雑さを捉えるために、事前訓練されたゲノム言語モデルが提案されている。 生物学の研究者や実践者にとって欠かせない道具となっている。 しかし、これらのモデルで使用される \textit{hand-crafted} トークン化ポリシーは、ゲノムデータの限られた語彙から最も差別的なパターンを符号化するものではない。 本稿では,ゲノムボキャブラリ学習の観点から,ゲノムのトークン化を改良する汎用フレームワークであるVQDNAを紹介する。 ベクトル量子化されたコードブックを『textit{learnable} vocabulary』として活用することにより、VQDNAはゲノムを『textit{pattern-aware} 埋め込み』にエンドツーエンドで適応的にトークン化することができる。 その限界をさらに推し進めるために、階層的残留量子化(HRQ)を提案する。 32のゲノムデータセットに対する大規模な実験は、既存のゲノム言語モデルと比較してVQDNAの優位性と好ましいパラメータ効率を示す。 特に、SARS-CoV-2変異の実験的解析は、学習されたHRQ語彙の微細なパターン認識と生物学的意義を明らかにし、ゲノム学の幅広い応用の可能性を強調している。

Similar to natural language models, pre-trained genome language models are proposed to capture the underlying intricacies within genomes with unsupervised sequence modeling. They have become essential tools for researchers and practitioners in biology. However, the \textit{hand-crafted} tokenization policies used in these models may not encode the most discriminative patterns from the limited vocabulary of genomic data. In this paper, we introduce VQDNA, a general-purpose framework that renovates genome tokenization from the perspective of genome vocabulary learning. By leveraging vector-quantized codebook as \textit{learnable} vocabulary, VQDNA can adaptively tokenize genomes into \textit{pattern-aware} embeddings in an end-to-end manner. To further push its limits, we propose Hierarchical Residual Quantization (HRQ), where varying scales of codebooks are designed in a hierarchy to enrich the genome vocabulary in a coarse-to-fine manner. Extensive experiments on 32 genome datasets demonstrate VQDNA's superiority and favorable parameter efficiency compared to existing genome language models. Notably, empirical analysis of SARS-CoV-2 mutations reveals the fine-grained pattern awareness and biological significance of learned HRQ vocabulary, highlighting its untapped potential for broader applications in genomics.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-13
# 添加物製造のためのデジタル双極子モデリングを可能にするディープニューラル演算子

Deep Neural Operator Enabled Digital Twin Modeling for Additive Manufacturing ( http://arxiv.org/abs/2405.09572v1 )

ライセンス: Link先を確認
Ning Liu, Xuxiao Li, Manoj R. Rajanna, Edward W. Reutzel, Brady Sawyer, Prahalada Rao, Jim Lua, Nam Phan, Yue Yu, (参考訳) 物理モデル、データ駆動モデル、機械学習(ML)が有効になったデジタルツイン(DT)は、現実世界の物理プロセスの仮想ツインとして振る舞う。 レーザー粉層融合(L-PBF)をベースとした添加物製造(AM)において、DTは、溶融プールの現在および将来の状態と、入力されたレーザパラメータに対応する欠陥を予測し、その場でのセンサーデータを同化して進化させ、欠陥形成を緩和するためにレーザパラメータを最適化する。 本稿では,L-PBFプロセスの閉ループフィードバック制御のためのDTのディープ・ニューラル演算子を用いた計算フレームワークを提案する。 これは、融解プール状態を正確に表現するための高忠実度計算モデルを構築し、融解プール溶液場を近似する効率的な代理モデルを構築し、次いで、計算された融解プールシミュレーションから情報を抽出し、さらに関心の欠陥量(例えば、表面粗さ)と相関させることができる物理ベースの手順を作成することで達成される。 特に、高忠実度物理モデルから生成されたデータを活用し、フーリエニューラル演算子(FNO)ベースのMLモデルを訓練し、入力レーザパラメータと溶融プールの対応する全温度場との関係を効果的に学習する。 その後、溶融プール次元やピーク温度などの物理インフォームド変数の集合を抽出し、その結果の欠陥を計算する。 その後、レーザ入力を制御する最適化アルゴリズムが実行され、欠陥を最小限に抑える。 一方、構築されたDTは、オフラインの微調整とオンラインの材料キャリブレーションによって、物理的双生児とともに進化することができる。 最後に、不確実性定量化のために確率的フレームワークが採用されている。 開発したDTは、AMプロセスのガイドと高品質製造の促進を目的としている。

A digital twin (DT), with the components of a physics-based model, a data-driven model, and a machine learning (ML) enabled efficient surrogate, behaves as a virtual twin of the real-world physical process. In terms of Laser Powder Bed Fusion (L-PBF) based additive manufacturing (AM), a DT can predict the current and future states of the melt pool and the resulting defects corresponding to the input laser parameters, evolve itself by assimilating in-situ sensor data, and optimize the laser parameters to mitigate defect formation. In this paper, we present a deep neural operator enabled computational framework of the DT for closed-loop feedback control of the L-PBF process. This is accomplished by building a high-fidelity computational model to accurately represent the melt pool states, an efficient surrogate model to approximate the melt pool solution field, followed by an physics-based procedure to extract information from the computed melt pool simulation that can further be correlated to the defect quantities of interest (e.g., surface roughness). In particular, we leverage the data generated from the high-fidelity physics-based model and train a series of Fourier neural operator (FNO) based ML models to effectively learn the relation between the input laser parameters and the corresponding full temperature field of the melt pool. Subsequently, a set of physics-informed variables such as the melt pool dimensions and the peak temperature can be extracted to compute the resulting defects. An optimization algorithm is then exercised to control laser input and minimize defects. On the other hand, the constructed DT can also evolve with the physical twin via offline finetuning and online material calibration. Finally, a probabilistic framework is adopted for uncertainty quantification. The developed DT is envisioned to guide the AM process and facilitate high-quality manufacturing.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-13
# タングル : 経験科学における人工知能の構造的アプローチ(その1)

Tangles: a structural approach to artificial intelligence in the empirical sciences (Part I) ( http://arxiv.org/abs/2006.01830v2 )

ライセンス: Link先を確認
Reinhard Diestel, (参考訳) 従来のクラスタリングは、特定の品質を共有するオブジェクトのグループを特定します。 タングルは、しばしば一緒に起こる品質の群を識別する。 これにより、行動、政治的見解、テキスト、ウイルスのタイプを発見し、関連づけ、構造化することができる。 望めば、従来のクラスタリングのための新しいメソッドとしてtangleを使用することもできる。 それらは、特にファジィクラスタに適した、正確で定量的なパラダイムを提供する。 上記4巻のうちの1巻目である。 この本はグラフトライアングルから一般化されたトライアングルの概念と理論の数学以外の応用について、グラフマイナー理論から知っている。

Traditional clustering identifies groups of objects that share certain qualities. Tangles do the converse: they identify groups of qualities that often occur together. They can thereby discover, relate, and structure types: of behaviour, political views, texts, or viruses. If desired, tangles can also be used as a new method for traditional clustering. They offer a precise, quantitative paradigm suited particularly to fuzzy clusters, since they do not require any assignment of objects to the clusters which these collectively form. This is the first of four parts of a book with the above title. The book explores applications outside mathematics of the notion and theory of tangles generalised from the graph tangles know from graph minor theory.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-13
# バイビューデータにおけるクロスコレクティブな特徴群の探索

Finding Groups of Cross-Correlated Features in Bi-View Data ( http://arxiv.org/abs/2009.05079v4 )

ライセンス: Link先を確認
Miheer Dewaskar, John Palowitch, Mark He, Michael I. Love, Andrew B. Nobel, (参考訳) 2つの(またはそれ以上の)タイプの測定が共通のサンプルセットから得られるデータセットは、多くの科学的応用に現れる。 このようなデータの探索分析における一般的な問題は、強く関連付けられた異なるデータ型の特徴のグループを特定することである。 双加群 (bimodule) は、2つのデータ型から得られる特徴集合の対 (A,B) であり、A と B の特徴の間の集合の相互相関は大きい。 双加群 (A, B) が安定であれば、A が B の特徴と有意な集合相関を持つ特徴の集合と一致する。 本稿では, 安定な双加群を特定するために, 反復テストに基づく双加群探索法(BSP)を提案する。 クロスコラージュな特徴を検出する既存の方法と比較して、BSPは偽の発見を制限しつつ、十分な信号で真の双加群を回復する最良の方法であった。 さらに,BSPをGTExコンソーシアムのデータを用いた量的特性ローチ(eQTL)解析問題に適用した。 BSPは数千のSNP遺伝子バイモジュールを同定した。 検出されたSNP遺伝子対の多くは標準のeQTL法で同定されたが、発見されたバイモジュールは生物学的に有意義で、さらなる科学的研究に値するように見えるゲノムサブネットを明らかにした。

Datasets in which measurements of two (or more) types are obtained from a common set of samples arise in many scientific applications. A common problem in the exploratory analysis of such data is to identify groups of features of different data types that are strongly associated. A bimodule is a pair (A,B) of feature sets from two data types such that the aggregate cross-correlation between the features in A and those in B is large. A bimodule (A,B) is stable if A coincides with the set of features that have significant aggregate correlation with the features in B, and vice-versa. This paper proposes an iterative-testing based bimodule search procedure (BSP) to identify stable bimodules. Compared to existing methods for detecting cross-correlated features, BSP was the best at recovering true bimodules with sufficient signal, while limiting the false discoveries. In addition, we applied BSP to the problem of expression quantitative trait loci (eQTL) analysis using data from the GTEx consortium. BSP identified several thousand SNP-gene bimodules. While many of the individual SNP-gene pairs appearing in the discovered bimodules were identified by standard eQTL methods, the discovered bimodules revealed genomic subnetworks that appeared to be biologically meaningful and worthy of further scientific investigation.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-13
# 創造性と機械学習: 調査

Creativity and Machine Learning: A Survey ( http://arxiv.org/abs/2104.02726v6 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 機械学習とクリエイティビティの分野への関心が高まっている。 本稿では,計算創造性理論の歴史と現状,鍵となる機械学習技術(生成的深層学習を含む),およびそれに対応する自動評価手法について概説する。 この分野における重要な貢献について批判的な議論を行った後、この分野における現在の研究課題と新たな機会について概説する。

There is a growing interest in the area of machine learning and creativity. This survey presents an overview of the history and the state of the art of computational creativity theories, key machine learning techniques (including generative deep learning), and corresponding automatic evaluation methods. After presenting a critical discussion of the key contributions in this area, we outline the current research challenges and emerging opportunities in this field.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-13
# LENAS:3次元放射線治療線量予測のための学習型ニューラルネットワーク探索とアンサンブル

LENAS: Learning-based Neural Architecture Search and Ensemble for 3D Radiotherapy Dose Prediction ( http://arxiv.org/abs/2106.06733v4 )

ライセンス: Link先を確認
Yi Lin, Yanfei Liu, Hao Chen, Xin Yang, Kai Ma, Yefeng Zheng, Kwang-Ting Cheng, (参考訳) 放射線治療計画では、正常な組織を分散させながら標的の投与量のバランスをとる必要があるため、複雑なプロセスである。 計画プロセスの合理化と品質向上のために,知識ベース計画(KBP)の需要が高まっている。 アンサンブル学習は様々なディープラーニングタスクにおいて印象的な能力を示しており、KBPの性能向上に大きな可能性を秘めている。 しかし,アンサンブル学習の有効性は,基礎学習者の多様性と個人的精度に大きく依存する。 さらに、モデルアンサンブルの複雑さは、推論中に複数のモデルを維持する必要があり、計算コストとストレージオーバーヘッドが増加するため、大きな懸念事項である。 本研究では,3次元放射線照射量予測のための知識蒸留とニューラルネットワーク検索を統合した,学習に基づく新しいアンサンブル手法 LENAS を提案する。 当社のアプローチは、巨大なアーキテクチャ空間から各ブロックを徹底的に検索して、有望なパフォーマンスと大きな多様性を示す複数のアーキテクチャを識別することから始まります。 モデルアンサンブルによってもたらされる複雑さを軽減するため,教師-学生パラダイムを採用し,複数の学習ネットワークからの多様な出力を教師信号として活用し,学生ネットワークのトレーニングを指導する。 さらに,高レベルのセマンティック情報を保存するために,学生ネットワークを最適化するハイブリッドロスを設計し,教師ネットワークに埋め込まれた知識を復元する。 提案手法はOpenKBPとAIMISの2つの公開データセットで評価されている。 実験結果から,本手法の有効性を実証し,その有効性を実証した。

Radiation therapy treatment planning requires balancing the delivery of the target dose while sparing normal tissues, making it a complex process. To streamline the planning process and enhance its quality, there is a growing demand for knowledge-based planning (KBP). Ensemble learning has shown impressive power in various deep learning tasks, and it has great potential to improve the performance of KBP. However, the effectiveness of ensemble learning heavily depends on the diversity and individual accuracy of the base learners. Moreover, the complexity of model ensembles is a major concern, as it requires maintaining multiple models during inference, leading to increased computational cost and storage overhead. In this study, we propose a novel learning-based ensemble approach named LENAS, which integrates neural architecture search with knowledge distillation for 3D radiotherapy dose prediction. Our approach starts by exhaustively searching each block from an enormous architecture space to identify multiple architectures that exhibit promising performance and significant diversity. To mitigate the complexity introduced by the model ensemble, we adopt the teacher-student paradigm, leveraging the diverse outputs from multiple learned networks as supervisory signals to guide the training of the student network. Furthermore, to preserve high-level semantic information, we design a hybrid-loss to optimize the student network, enabling it to recover the knowledge embedded within the teacher networks. The proposed method has been evaluated on two public datasets, OpenKBP and AIMIS. Extensive experimental results demonstrate the effectiveness of our method and its superior performance to the state-of-the-art methods.
翻訳日:2024-05-15 20:27:15 公開日:2024-05-13
# 幾何学的位相とサニャック効果:基礎的側面とセンシング応用

Geometric phases and the Sagnac effect: Foundational aspects and sensing applications ( http://arxiv.org/abs/2110.05824v2 )

ライセンス: Link先を確認
Ismael L. Paiva, Rain Lenny, Eliahu Cohen, (参考訳) 幾何学相は、量子科学とテクノロジーの多くの分野で重要な役割を担っている。 本稿では, 量子幾何学相の基本的側面と古典幾何学相との関係について概説する。 Aharonov--Bohm と Sagnac の影響がこの文脈にどのように当てはまるかが議論される。 さらに、ジャイロスコープや重力波検出器のような重力センシングに特に重点を置いて、後者の技術応用の簡潔な概要を述べる。

Geometric phase is a key player in many areas of quantum science and technology. In this review article, several foundational aspects of quantum geometric phases and their relations to classical geometric phases are outlined. How the Aharonov--Bohm and Sagnac effects fit into this context is then discussed. Moreover, a concise overview of technological applications of the latter, with special emphasis on gravitational sensing, like in gyroscopes and gravitational wave detectors is presented.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-13
# 純状態に対するサンプル最適古典的影

Sample-optimal classical shadows for pure states ( http://arxiv.org/abs/2211.11810v2 )

ライセンス: Link先を確認
Daniel Grier, Hakop Pashayan, Luke Schaeffer, (参考訳) 我々は、結合測定と独立測定の両方の設定において、純粋な状態に対する古典的なシャドウタスクを考察する。 このタスクは未知の純粋な状態のコピーを$\rho$で数回測定して古典的な記述を学習し、後に観測可能な値の期待値を推測するのに十分である。 具体的には、加算誤差$\epsilon$ provided $\mathrm{Tr}(O^2)\leq B$ と $\lVert O \rVert = 1$ で、任意のエルミート観測可能な $O$ を近似する。 ここでは、$\rho$のサンプルである$\tilde{\Theta}(\sqrt{B}\epsilon^{-1} + \epsilon^{-2})が必要であり、高い確率で成功するには十分であることを示す。 上界は、この問題で知られている以前の最良のサンプル複雑性の二次的な改善である。 下限については、ボトルネックは状態の学習速度ではなく、観測可能な推定のために$\rho$の古典的な記述がどれだけ圧縮できるかが分かる。 独立測定では、$\mathcal O(\sqrt{Bd} \epsilon^{-1} + \epsilon^{-2})$ sufficeを示す。 特にこれは、混合状態に最適なサンプル最適化であるHuang, Kueng, Preskillのランダムなクリフォード測定アルゴリズムが純粋な状態には最適でないことを意味する。 興味深いことに、我々の結果は同じランダムなクリフォード測定も使用していますが、異なる推定器を使用します。

We consider the classical shadows task for pure states in the setting of both joint and independent measurements. The task is to measure few copies of an unknown pure state $\rho$ in order to learn a classical description which suffices to later estimate expectation values of observables. Specifically, the goal is to approximate $\mathrm{Tr}(O \rho)$ for any Hermitian observable $O$ to within additive error $\epsilon$ provided $\mathrm{Tr}(O^2)\leq B$ and $\lVert O \rVert = 1$. Our main result applies to the joint measurement setting, where we show $\tilde{\Theta}(\sqrt{B}\epsilon^{-1} + \epsilon^{-2})$ samples of $\rho$ are necessary and sufficient to succeed with high probability. The upper bound is a quadratic improvement on the previous best sample complexity known for this problem. For the lower bound, we see that the bottleneck is not how fast we can learn the state but rather how much any classical description of $\rho$ can be compressed for observable estimation. In the independent measurement setting, we show that $\mathcal O(\sqrt{Bd} \epsilon^{-1} + \epsilon^{-2})$ samples suffice. Notably, this implies that the random Clifford measurements algorithm of Huang, Kueng, and Preskill, which is sample-optimal for mixed states, is not optimal for pure states. Interestingly, our result also uses the same random Clifford measurements but employs a different estimator.
翻訳日:2024-05-15 20:19:44 公開日:2024-05-13
# 言語モデルのクロスオーバー: わずかなショットプロンプトによる変化

Language Model Crossover: Variation through Few-Shot Prompting ( http://arxiv.org/abs/2302.12170v3 )

ライセンス: Link先を確認
Elliot Meyerson, Mark J. Nelson, Herbie Bradley, Adam Gaier, Arash Moradi, Amy K. Hoover, Joel Lehman, (参考訳) 本稿では,言語モデルが進化的クロスオーバーに類似した知的変動演算子を自然に実現できるという知見を追求する。 特に、十分なスケールの言語モデルは、文脈内学習、すなわち、少数の入力パターン間の関連から学習し、そのような関連を組み込んだアウトプットを生成することができる(" few-shot prompting"とも呼ばれる)。 この能力は、単純だが強力な変動演算子、すなわち、いくつかのテキストベースのジェノタイプ(コード、平文文、方程式など)を持つ言語モデルを誘導し、対応する出力をそれらのジェノタイプの子孫として解析するために利用することができる。 このような言語モデルのクロスオーバー(実装が簡単で、多くの異なるオープンソース言語モデルを利用することができる)の約束は、意味的にリッチなテキスト表現(ドメイン固有の微調整がほとんどない)を進化させるシンプルなメカニズムを可能にし、言語モデルの現在の進歩から自然に恩恵を受けることである。 本稿では、バイナリビット文字列、文、方程式、テキスト・ツー・イメージプロンプト、Pythonコードの進化を通じて、言語モデルのクロスオーバーの汎用性を明らかにする。 結論として、言語モデルのクロスオーバーは、テキストとして表現可能なゲノムを進化させるための有望な方法である。

This paper pursues the insight that language models naturally enable an intelligent variation operator similar in spirit to evolutionary crossover. In particular, language models of sufficient scale demonstrate in-context learning, i.e. they can learn from associations between a small number of input patterns to generate outputs incorporating such associations (also called few-shot prompting). This ability can be leveraged to form a simple but powerful variation operator, i.e. to prompt a language model with a few text-based genotypes (such as code, plain-text sentences, or equations), and to parse its corresponding output as those genotypes' offspring. The promise of such language model crossover (which is simple to implement and can leverage many different open-source language models) is that it enables a simple mechanism to evolve semantically-rich text representations (with few domain-specific tweaks), and naturally benefits from current progress in language models. Experiments in this paper highlight the versatility of language-model crossover, through evolving binary bit-strings, sentences, equations, text-to-image prompts, and Python code. The conclusion is that language model crossover is a promising method for evolving genomes representable as text.
翻訳日:2024-05-15 20:09:59 公開日:2024-05-13
# 予後不良肺癌の総合的生存予測のための深層学習アプローチ

A Deep Learning Approach for Overall Survival Prediction in Lung Cancer with Missing Values ( http://arxiv.org/abs/2307.11465v4 )

ライセンス: Link先を確認
Camillo Maria Caruso, Valerio Guarrasi, Sara Ramella, Paolo Soda, (参考訳) 肺がん研究の分野では、特に総合生存(OS)の分析において、人工知能(AI)は特定の目的において重要な役割を担っている。 医療領域における欠落データの一般的な問題を考えると、私たちの主な目的は、この欠落したデータを動的に処理できるAIモデルを開発することです。 さらに、我々は、すべてのアクセス可能なデータを活用し、興味のない出来事を経験した無検閲の患者と、そうでない検閲された患者の両方を効果的に分析することを目的としている。 これらの目的の実現を通じて,本モデルは非小細胞肺癌(NSCLC)患者に対してOSの正確な予測を提供することを目標とし,これらの課題を克服する。 我々は,NSCLCの文脈における生存分析の新たなアプローチを提案する。この手法はトランスフォーマーアーキテクチャの強みを利用して,計算戦略を必要とせず,利用可能な特徴のみを考慮に入れている。 より具体的には、このモデルは、機能埋め込みとマスクされた自己注意を適用して、欠落したデータを隠蔽し、利用可能なデータを完全に活用することによって、トランスフォーマーアーキテクチャを表層データにカスタマイズする。 アドホックデザインによるOSの損失を利用することで、検閲された患者と無検閲の患者の両方、そして時間の経過とともにリスクの変化を考慮できる。 提案手法を,様々な計算手法と組み合わせた生存分析のための最先端モデルと比較した。 C-インデックスの時間依存性変種であるCt-index(71.97, 77.58, 80.72)を1ヶ月, 1年, 2年の時間単位で取得し, 計算方法によらず, C-indexの時間依存性の異なるCt-index(71.97, 77.58, 80.72)を経年的に評価した。

In the field of lung cancer research, particularly in the analysis of overall survival (OS), artificial intelligence (AI) serves crucial roles with specific aims. Given the prevalent issue of missing data in the medical domain, our primary objective is to develop an AI model capable of dynamically handling this missing data. Additionally, we aim to leverage all accessible data, effectively analyzing both uncensored patients who have experienced the event of interest and censored patients who have not, by embedding a specialized technique within our AI model, not commonly utilized in other AI tasks. Through the realization of these objectives, our model aims to provide precise OS predictions for non-small cell lung cancer (NSCLC) patients, thus overcoming these significant challenges. We present a novel approach to survival analysis with missing values in the context of NSCLC, which exploits the strengths of the transformer architecture to account only for available features without requiring any imputation strategy. More specifically, this model tailors the transformer architecture to tabular data by adapting its feature embedding and masked self-attention to mask missing data and fully exploit the available ones. By making use of ad-hoc designed losses for OS, it is able to account for both censored and uncensored patients, as well as changes in risks over time. We compared our method with state-of-the-art models for survival analysis coupled with different imputation strategies. We evaluated the results obtained over a period of 6 years using different time granularities obtaining a Ct-index, a time-dependent variant of the C-index, of 71.97, 77.58 and 80.72 for time units of 1 month, 1 year and 2 years, respectively, outperforming all state-of-the-art methods regardless of the imputation method used.
翻訳日:2024-05-15 20:00:15 公開日:2024-05-13
# 構造認識グループフェアネスによるフェデレーショングラフニューラルネットワークの取得

Equipping Federated Graph Neural Networks with Structure-aware Group Fairness ( http://arxiv.org/abs/2310.12350v3 )

ライセンス: Link先を確認
Nan Cui, Xiuling Wang, Wendy Hui Wang, Violet Chen, Yue Ning, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまな分野のグラフデータ処理や分析タスクに広く利用されている。 集中的なグラフデータのトレーニングは、プライバシー上の懸念と規制上の制約のため、実現不可能である。 このように、フェデレートラーニング(FL)は、分散ラーニングパラダイムにおいて、この課題に対処するためのトレンドソリューションとなる。 しかし、GNNはトレーニングデータから歴史的バイアスを継承し、差別的予測につながる可能性があるため、ローカルモデルのバイアスは分散環境でグローバルモデルに容易に伝播することができる。 これは、フェデレートされたGNNのバイアスを軽減する上で、新たな課題となる。 この課題に対処するために、Fair Federated Graph Neural Networkである$\text{F}^2$GNNを提案する。 データと学習アルゴリズムの両方からバイアスを発生させることができるため、$\text{F}^2$GNNは、フェデレートされた設定の下で両方のバイアスを緩和することを目的としている。 まず、トレーニンググラフにおけるデータバイアスと、トレーニングされたGNNモデルの統計的公正度メトリクスの関連性に関する理論的知見を提供する。 理論的解析に基づいて、クライアント側のローカルモデルのグループフェアネスを高めるフェアネス対応ローカルモデル更新スキームと、アグリゲーションプロセスにおいてローカルモデルのデータのバイアスとフェアネスを考慮に入れたフェアネス対応グローバルモデル更新スキームの2つの主要なコンポーネントを含む、$\text{F}^2$GNNを設計する。 我々は, $\text{F}^2$GNNを実験的に, 多数のベースライン法に対して評価し, フェアネスとモデル精度の両面で, それらのベースラインよりも優れていることを示した。

Graph Neural Networks (GNNs) have been widely used for various types of graph data processing and analytical tasks in different domains. Training GNNs over centralized graph data can be infeasible due to privacy concerns and regulatory restrictions. Thus, federated learning (FL) becomes a trending solution to address this challenge in a distributed learning paradigm. However, as GNNs may inherit historical bias from training data and lead to discriminatory predictions, the bias of local models can be easily propagated to the global model in distributed settings. This poses a new challenge in mitigating bias in federated GNNs. To address this challenge, we propose $\text{F}^2$GNN, a Fair Federated Graph Neural Network, that enhances group fairness of federated GNNs. As bias can be sourced from both data and learning algorithms, $\text{F}^2$GNN aims to mitigate both types of bias under federated settings. First, we provide theoretical insights on the connection between data bias in a training graph and statistical fairness metrics of the trained GNN models. Based on the theoretical analysis, we design $\text{F}^2$GNN which contains two key components: a fairness-aware local model update scheme that enhances group fairness of the local models on the client side, and a fairness-weighted global model update scheme that takes both data bias and fairness metrics of local models into consideration in the aggregation process. We evaluate $\text{F}^2$GNN empirically versus a number of baseline methods, and demonstrate that $\text{F}^2$GNN outperforms these baselines in terms of both fairness and model accuracy.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-13
# AlpaCare:医学応用のための指導訓練型大規模言語モデル

AlpaCare:Instruction-tuned Large Language Models for Medical Application ( http://arxiv.org/abs/2310.14558v3 )

ライセンス: Link先を確認
Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold, (参考訳) インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と多様な人的ニーズの整合に不可欠であり,医学的応用に大きな可能性を示している。 しかし、従来の研究は主に、ベンチマークやタスク範囲の狭い生物医学的データセットを微調整し、その結果、医学的な指導・追跡能力と一般化性に対する効果を著しく制限した。 このギャップを埋めるため,GPT-4 と ChatGPT を用いた多種多様な医学 IFT データセット MedInstruct-52k の作成を提案する。 次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。 AlpaCareは、以前の医療用LLMよりも小さなドメイン固有のデータセットを使用しているが、医療応用において優れたパフォーマンスを示すだけでなく、医療用フリーフォームの命令評価において、最高基準よりも38.1%の絶対的なゲインを持つだけでなく、複数の一般的なドメインベンチマークで平均6.7%の絶対的なゲインを達成する。 人間の評価はさらに、AlpaCareは正確性と有用性の両方の観点から、最高のベースラインを一貫して上回っていることを示している。 データ、モデル、コードベースへの公開アクセスはhttps://github.com/XZhang97666/AlpaCare.comで提供しています。

Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-13
# 部分形状対応と関数写像について

On Partial Shape Correspondence and Functional Maps ( http://arxiv.org/abs/2310.14692v2 )

ライセンス: Link先を確認
Amit Bracha, Thomas Dagès, Ron Kimmel, (参考訳) 整合した形状を部品に扱いながら、関数マップと呼ばれるツールをしばしば適用します。 この考え方は、最小二乗問題を解くことによって、整合が代数的に実行されるような「連続」空間に形状マッチング問題を変換することである。 ここでは、このような定式化は、この分野では人気があるが、部分性を呼び出すと推定された一致に誤差を導入することを論じる。 このようなエラーは高度な特徴抽出ネットワークでも避けられず、形状部分性の増大とともにエスカレートし、そのようなシステムの学習能力に悪影響を及ぼすことを示すことができる。 これらの制限を回避するために,部分的な形状マッチングのための新しいアプローチを提案する。 関数写像の研究により,関数写像中間空間の必要性を回避し,特徴マッチングによって部分形状と完全形状の直接対応を確立する新しい手法が得られた。 距離空間間のグロモフ距離は、損失関数の最初の部分を構成することにつながる。 正規化には、写像の領域保存性に基づく項と、関数写像に頼らないような緩和されたバージョンという2つのオプションを使う。 提案手法は、SHREC'16データセットにおいて、部分的な形状マッチングのための既存の教師なし手法よりも優れた性能を示す。 特に、SHREC'16 HOLESベンチマークにおける最先端の結果は、教師付き手法よりも優れている。 パート・ツー・フル形状対応のための新しいデータセット PFAUST に適用した場合の教師なし手法の利点を実証する。

While dealing with matching shapes to their parts, we often apply a tool known as functional maps. The idea is to translate the shape matching problem into ``convenient'' spaces by which matching is performed algebraically by solving a least squares problem. Here, we argue that such formulations, though popular in this field, introduce errors in the estimated match when partiality is invoked. Such errors are unavoidable even for advanced feature extraction networks, and they can be shown to escalate with increasing degrees of shape partiality, adversely affecting the learning capability of such systems. To circumvent these limitations, we propose a novel approach for partial shape matching. Our study of functional maps led us to a novel method that establishes direct correspondence between partial and full shapes through feature matching bypassing the need for functional map intermediate spaces. The Gromov distance between metric spaces leads to the construction of the first part of our loss functions. For regularization we use two options: a term based on the area preserving property of the mapping, and a relaxed version that avoids the need to resort to functional maps. The proposed approach shows superior performance on the SHREC'16 dataset, outperforming existing unsupervised methods for partial shape matching. Notably, it achieves state-of-the-art results on the SHREC'16 HOLES benchmark, superior also compared to supervised methods. We demonstrate the benefits of the proposed unsupervised method when applied to a new dataset PFAUST for part-to-full shape correspondence
翻訳日:2024-05-15 19:40:47 公開日:2024-05-13
# SONIC: Pose Supervised Learning を用いたソナー画像の対応

SONIC: Sonar Image Correspondence using Pose Supervised Learning for Imaging Sonars ( http://arxiv.org/abs/2310.15023v2 )

ライセンス: Link先を確認
Samiran Gode, Akshay Hinduja, Michael Kaess, (参考訳) 本稿では,学習特徴を用いたソナー画像対応のための新しい手法により,水中SLAMのデータアソシエーションの課題に対処する。 我々は,視点変化に耐えられる頑健な特徴対応を実現するために設計されたポーズ制御ネットワークであるSONIC(SONar Image Cor correspondingence)を紹介する。 水中環境の固有の複雑さは、動的かつしばしば制限された視界条件に起因し、視界を数メートルに制限し、しばしば特徴のない拡張を行う。 これにより、ほとんどのオープンウォーターアプリケーションシナリオでは、カメラベースのシステムが最適ではない。 これにより、知覚センサの好適な選択としてマルチビーム撮像ソナーが出現する。 しかし、彼らも制限がないわけではない。 ソナー画像は、カメラに比べて長距離視界が優れているが、その測定は様々な視点から異なるように見える。 この固有の可変性は、特に機能ベースのメソッドにおいて、データアソシエーションにおいて重大な課題をもたらす。 提案手法は,より正確なループ閉鎖制約とソナーに基づく位置認識を実現するための,ソナー画像の対応生成において,非常に優れた性能を示す。 コードだけでなく、シミュレートされた実世界のデータセットも公開され、この分野におけるさらなる開発が促進される。

In this paper, we address the challenging problem of data association for underwater SLAM through a novel method for sonar image correspondence using learned features. We introduce SONIC (SONar Image Correspondence), a pose-supervised network designed to yield robust feature correspondence capable of withstanding viewpoint variations. The inherent complexity of the underwater environment stems from the dynamic and frequently limited visibility conditions, restricting vision to a few meters of often featureless expanses. This makes camera-based systems suboptimal in most open water application scenarios. Consequently, multibeam imaging sonars emerge as the preferred choice for perception sensors. However, they too are not without their limitations. While imaging sonars offer superior long-range visibility compared to cameras, their measurements can appear different from varying viewpoints. This inherent variability presents formidable challenges in data association, particularly for feature-based methods. Our method demonstrates significantly better performance in generating correspondences for sonar images which will pave the way for more accurate loop closure constraints and sonar-based place recognition. Code as well as simulated and real-world datasets will be made public to facilitate further development in the field.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-13
# グラフニューラルネットワークを用いた一次元プラズマモデルのダイナミクスの学習

Learning the dynamics of a one-dimensional plasma model with graph neural networks ( http://arxiv.org/abs/2310.17646v3 )

ライセンス: Link先を確認
Diogo D Carvalho, Diogo R Ferreira, Luis O Silva, (参考訳) 本稿では,プラズマ物理動力学シミュレータをグラフニューラルネットワークを用いたシミュレータで完全に置き換える可能性について検討する。 我々は、メッセージパス更新機構と従来の物理ソルバ更新の類似性、および、既知の物理プリエントをグラフ構築と更新に強制する可能性を考慮して、このクラスのサロゲートモデルに焦点を当てる。 本研究では,同時代のプラズマシミュレーションコードの前身である1次元プラズマモデルのプラズマ動力学を学習し,プラズマ熱化,熱平衡の静電ゆらぎ,高速シートの抗力,ランダウ減衰など,広く知られたプラズマ過程を復元することを示す。 本研究は, 実時間, 保存法則, キー物理量の時間的変化の観点から, 元のプラズマモデルと性能を比較した。 モデルの限界を提示し、運動プラズマの高次元代理モデルの可能性について論じる。

We explore the possibility of fully replacing a plasma physics kinetic simulator with a graph neural network-based simulator. We focus on this class of surrogate models given the similarity between their message-passing update mechanism and the traditional physics solver update, and the possibility of enforcing known physical priors into the graph construction and update. We show that our model learns the kinetic plasma dynamics of the one-dimensional plasma model, a predecessor of contemporary kinetic plasma simulation codes, and recovers a wide range of well-known kinetic plasma processes, including plasma thermalization, electrostatic fluctuations about thermal equilibrium, and the drag on a fast sheet and Landau damping. We compare the performance against the original plasma model in terms of run-time, conservation laws, and temporal evolution of key physical quantities. The limitations of the model are presented and possible directions for higher-dimensional surrogate models for kinetic plasmas are discussed.
翻訳日:2024-05-15 19:40:47 公開日:2024-05-13
# 動的葉を持つ時空量子力学と古典力学

Spacetime quantum and classical mechanics with dynamical foliation ( http://arxiv.org/abs/2311.06486v2 )

ライセンス: Link先を確認
N. L. Diaz, J. M. Matera, R. Rossignoli, (参考訳) 古典物理学の伝統的な位相空間は、空間と時間が異なる扱いをしており、この違いは場の理論や量子力学(QM)へと引き継がれている。 本稿では、位相空間を2つの主拡大によって拡張する。 まず、ルジャンドル変換の時間選択を動的変数に促進する。 第二に、物質場のポアソン括弧を時空対称形式に拡張する。 続く「時相空間」は、相対論的場の理論に対するハミルトン方程式の明示的な共変版を得るために用いられる。 形式主義の正準的な量子化は、場が時空の可換関係を満足し、葉は量子的であることを示す。 このアプローチでは、古典的作用は作用素に昇格し、物質分離分割における非分離性を通して明示的な共分散を保持する。 新しい非因果的枠組み(異なる時間における場が独立である)と従来のQMとの対応性を確立する問題は、時空への空間的相関の一般化によって解決される。 この一般化では、ハミルトニアンは作用に置き換わり、従来の粒子はオフシェル粒子に置き換わる。 葉の定量化を行うと、前の写像は葉の固有状態の条件付けによって、ページ・アンド・ウーターズ機構と類似して復元される。 また、与えられた理論の因果構造が、システムと環境の間の量子的相関から現れる対応を解釈する。 このアイデアは一般的な量子系を包含し、密度行列を空間と時間の両方で相関子の情報を含む作用素に一般化することができる。

The conventional phase space of classical physics treats space and time differently, and this difference carries over to field theories and quantum mechanics (QM). In this paper, the phase space is enhanced through two main extensions. First, we promote the time choice of the Legendre transform to a dynamical variable. Second, we extend the Poisson brackets of matter fields to a spacetime symmetric form. The ensuing "spacetime phase space" is employed to obtain an explicitly covariant version of Hamilton equations for relativistic field theories. A canonical-like quantization of the formalism is then presented in which the fields satisfy spacetime commutation relations and the foliation is quantum. In this approach, the classical action is also promoted to an operator and retains explicit covariance through its non-separability in the matter-foliation partition. The problem of establishing a correspondence between the new noncausal framework (where fields at different times are independent) and conventional QM is solved through a generalization of spacelike correlators to spacetime. In this generalization, the Hamiltonian is replaced by the action, and conventional particles by off-shell particles. When the foliation is quantized, the previous map is recovered by conditioning on foliation eigenstates, in analogy with the Page and Wootters mechanism. We also provide an interpretation of the correspondence in which the causal structure of a given theory emerges from the quantum correlations between the system and an environment. This idea holds for general quantum systems and allows one to generalize the density matrix to an operator containing the information of correlators both in space and time.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-13
# 現代の機械学習のさらなる進歩 - 過度パラメータ化が最適であり、オーバーフィッティングが最適である場合

More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory ( http://arxiv.org/abs/2311.14646v3 )

ライセンス: Link先を確認
James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin, (参考訳) 巨大なニューラルネットワークの時代において、より良いという哲学によって経験的な進歩が導かれてきた。 最近のディープラーニングの実践は、より大きなモデルサイズ、より多くのデータ、より多くの計算(トレーニング損失の低減)がパフォーマンスを改善することを繰り返し発見している。 本稿では、これらの3つの特性が、トレーニングされた最後の層のみを持つ浅層ネットワークに相当するモデルのランダムな特徴(RF)回帰を保っていることを示すことによって、これらの経験的観測を理論的に裏付ける。 具体的には,尾根のペナルティが最適に調整された場合,RF劣化の試験リスクは特徴数と試料数の両方で単調に低下することを示す。 特に、これは無限幅のRFアーキテクチャが任意の有限幅のアーキテクチャよりも好ましいことを意味する。 次に, パワーロー固有構造を特徴とする多種多様なタスクに対して, ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられ, ほぼ最適性能は, テストエラーよりもはるかに小さい場合にのみ達成可能であることを示す。 実世界のデータに基づいて、畳み込みニューラルタンジェントカーネルを用いた標準的なコンピュータビジョンタスクが明らかにこのクラスに該当することを実証的に見出した。 まとめると、我々の結果は、ランダムな特徴モデルにおける過度なパラメータ化、過度な適合、およびより多くのデータの利点について、シンプルで検証可能な物語を語る。

In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-13
# PT対称量子系の分類に向けて:散逸ダイナミクスからトポロジーとワームホールへ

Toward a classification of PT-symmetric quantum systems: From dissipative dynamics to topology and wormholes ( http://arxiv.org/abs/2311.15677v2 )

ライセンス: Link先を確認
Antonio M. García-García, Lucas Sá, Jacobus J. M. Verbaarschot, Can Yin, (参考訳) 多体非エルミートパリティ時間(PT)対称量子系の研究は、量子光学や連続監視された力学から量子重力におけるユークリッドワームホールや散逸性量子カオスまでの研究領域における関係から、多くの関心を集めている。 非エルミート系の対称性分類は38の普遍性類に導かれるが、ある条件下では、PT対称系は24の普遍性類に分類されることを示す。 それらのうち14種をSYK(Sachdev-Ye-Kitaev)モデルで同定し,正確な対角化手法を用いてスペクトル分析による分類を確認した。 興味深いことに、AIII$_\nu$, BDI$^\dagger_\nu$, BDI$_{++\nu}$, CI$_{--\nu}$の4つの普遍クラスにおいて、SYKハミルトニアンがいくつかのブロックが長方形であるブロック構造を持つ基底を同定する。 この特徴が,Aクラス,AIクラス,BDIクラス,CIクラスに対するエルミート確率行列理論の予測に準じる,$\nu$ robustly \emph{real} 固有値の存在を解析的に示す。 我々は最近この$\nu$が位相不変量であることを発見したので、これらのクラスは位相不変量である。 対照的に、非位相的実固有値はエルミート統計と非エルミート統計の交叉を示す。 リンドブラディアン力学の場合と同様に、普遍性クラスの減少は、理論の特定の分野におけるクラマーズ・デジェネシーの欠如のような予期せぬ結果をもたらす。 分類スキームの別の新しい特徴は、PT対称ハミルトニアンの異なるセクターは異なる対称性を持つ可能性があることである。

Studies of many-body non-Hermitian parity-time (PT)-symmetric quantum systems are attracting a lot of interest due to their relevance in research areas ranging from quantum optics and continuously monitored dynamics to Euclidean wormholes in quantum gravity and dissipative quantum chaos. While a symmetry classification of non-Hermitian systems leads to 38 universality classes, we show that, under certain conditions, PT-symmetric systems are grouped into 24 universality classes. We identify 14 of them in a coupled two-site Sachdev-Ye-Kitaev (SYK) model and confirm the classification by spectral analysis using exact diagonalization techniques. Intriguingly, in 4 of these 14 universality classes, AIII$_\nu$, BDI$^\dagger_\nu$, BDI$_{++\nu}$, and CI$_{--\nu}$, we identify a basis in which the SYK Hamiltonian has a block structure in which some blocks are rectangular, with $\nu \in \mathbb{N}$ the difference between the number of rows and columns. We show analytically that this feature leads to the existence of $\nu$ robust purely \emph{real} eigenvalues, whose level statistics follow the predictions of Hermitian random matrix theory for classes A, AI, BDI, and CI, respectively. We have recently found that this $\nu$ is a topological invariant, so these classes are topological. By contrast, nontopological real eigenvalues display a crossover between Hermitian and non-Hermitian level statistics. Similarly to the case of Lindbladian dynamics, the reduction of universality classes leads to unexpected results, such as the absence of Kramers degeneracy in a given sector of the theory. Another novel feature of the classification scheme is that different sectors of the PT-symmetric Hamiltonian may have different symmetries.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-13
# バイオメディカル知識を用いた大規模言語モデルのためのグラフ最適化プロンプト生成

Biomedical knowledge graph-optimized prompt generation for large language models ( http://arxiv.org/abs/2311.17330v2 )

ライセンス: Link先を確認
Karthik Soman, Peter W Rose, John H Morris, Rabia E Akbas, Brett Smith, Braian Peetoom, Catalina Villouta-Reyes, Gabriel Cerono, Yongmei Shi, Angela Rizk-Jackson, Sharat Israni, Charlotte A Nelson, Sui Huang, Sergio E Baranzini, (参考訳) 大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。 事前トレーニングやドメイン固有の微調整といったソリューションは、計算オーバーヘッドを大幅に増加させ、さらなるドメインの専門知識を必要とします。 本稿では, Llama-2-13b, GPT-3.5-Turbo, GPT-4 などの LLM を用いた大規模バイオメディカル KG (SPOKE) を利用したトークン最適化・ロバストな知識グラフベースの検索用拡張生成(KG-RAG) フレームワークを導入し, 確立された知識に根ざした有意義なバイオメディカルテキストを生成する。 既存の知識グラフのためのRAG手法と比較して,提案手法はコンテキスト抽出に最小限のグラフスキーマを用い,コンテキスト抽出に埋め込み手法を用いる。 文脈抽出におけるこの最適化は、精度を損なうことなくトークン消費を50%以上削減し、プロプライエタリなLCM上でコスト効率が高く堅牢なRAG実装を実現する。 KG-RAGは、確立された知識に根ざした応答を発生させ、その主張を裏付ける正確な証明と統計的証拠(可能であれば)を伴って、多様な生物医学的プロンプトにわたるLCMの性能を一貫して強化した。 生物医学的真偽と多重選択質問(MCQ)のような、人間のキュレートされたデータセットのさらなるベンチマークでは、挑戦的なMCQデータセット上でのLlama-2モデルのパフォーマンスが71%向上し、ドメイン固有の質問に対して少ないパラメータでオープンソースモデルを強化できるフレームワークの能力が実証された。 さらに、KG-RAGはGPT-3.5やGPT-4といった独自のGPTモデルの性能を高めた。 まとめると、提案フレームワークはトークン最適化方式でKGとLLMの明示的で暗黙的な知識を組み合わせることで、汎用LLMのコスト効率の高いドメイン固有問題への適応性を高める。

Large Language Models (LLMs) are being adopted at an unprecedented rate, yet still face challenges in knowledge-intensive domains like biomedicine. Solutions such as pre-training and domain-specific fine-tuning add substantial computational overhead, requiring further domain expertise. Here, we introduce a token-optimized and robust Knowledge Graph-based Retrieval Augmented Generation (KG-RAG) framework by leveraging a massive biomedical KG (SPOKE) with LLMs such as Llama-2-13b, GPT-3.5-Turbo and GPT-4, to generate meaningful biomedical text rooted in established knowledge. Compared to the existing RAG technique for Knowledge Graphs, the proposed method utilizes minimal graph schema for context extraction and uses embedding methods for context pruning. This optimization in context extraction results in more than 50% reduction in token consumption without compromising the accuracy, making a cost-effective and robust RAG implementation on proprietary LLMs. KG-RAG consistently enhanced the performance of LLMs across diverse biomedical prompts by generating responses rooted in established knowledge, accompanied by accurate provenance and statistical evidence (if available) to substantiate the claims. Further benchmarking on human curated datasets, such as biomedical true/false and multiple-choice questions (MCQ), showed a remarkable 71% boost in the performance of the Llama-2 model on the challenging MCQ dataset, demonstrating the framework's capacity to empower open-source models with fewer parameters for domain specific questions. Furthermore, KG-RAG enhanced the performance of proprietary GPT models, such as GPT-3.5 and GPT-4. In summary, the proposed framework combines explicit and implicit knowledge of KG and LLM in a token optimized fashion, thus enhancing the adaptability of general-purpose LLMs to tackle domain-specific questions in a cost-effective fashion.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-13
# 極端エッジ計算デバイスにおけるコンバータに基づく音声認識

Conformer-Based Speech Recognition On Extreme Edge-Computing Devices ( http://arxiv.org/abs/2312.10359v3 )

ライセンス: Link先を確認
Mingbin Xu, Alex Jin, Sicheng Wang, Mu Su, Tim Ng, Henry Mason, Shiyi Han, Zhihong Lei, Yaqiao Deng, Zhen Huang, Mahesh Krishnamoorthy, (参考訳) 今日のデバイスでは、ますます強力な計算能力とリソースによって、従来の計算集約型自動音声認識(ASR)は、ユーザのプライバシをより保護するために、クラウドからデバイスへと移行してきた。 しかし、スマートフォン、スマートウェアラブル、その他のスマートホームオートメーションデバイスなど、リソースに制約のあるデバイスに対して、オンデバイスASRを実装することは依然として困難である。 本稿では,モデルアーキテクチャの適応,ニューラルネットワークグラフ変換,数値最適化により,高度なコンバータベースのエンドツーエンドストリーミングASRシステムを,精度の低下を伴わずに資源制約のあるデバイスに適合させる手法を提案する。 スマートウェアラブルにおけるリアルタイム(0.19 RTF)音声認識よりも5.26倍高速で、エネルギー消費を最小化し、最先端の精度を達成する。 提案手法は,他のトランスフォーマーベースのサーバフリーAIアプリケーションに適用可能である。 さらに、任意の浮動小数点精度を用いて任意のLpノルムにおける層正規化を数値的に安定化する最適な事前正規化器に関する完全な理論を提供する。

With increasingly more powerful compute capabilities and resources in today's devices, traditionally compute-intensive automatic speech recognition (ASR) has been moving from the cloud to devices to better protect user privacy. However, it is still challenging to implement on-device ASR on resource-constrained devices, such as smartphones, smart wearables, and other smart home automation devices. In this paper, we propose a series of model architecture adaptions, neural network graph transformations, and numerical optimizations to fit an advanced Conformer based end-to-end streaming ASR system on resource-constrained devices without accuracy degradation. We achieve over 5.26 times faster than realtime (0.19 RTF) speech recognition on smart wearables while minimizing energy consumption and achieving state-of-the-art accuracy. The proposed methods are widely applicable to other transformer-based server-free AI applications. In addition, we provide a complete theory on optimal pre-normalizers that numerically stabilize layer normalization in any Lp-norm using any floating point precision.
翻訳日:2024-05-15 19:31:02 公開日:2024-05-13
# 電磁誘導透過は、ラマン勾配エコーメモリを適度なデチューニングで支援し、勾配秩序に依存する

Electromagnetically-induced transparency assists the Raman gradient echo memory at moderate detuning, dependent on gradient order ( http://arxiv.org/abs/2312.12714v2 )

ライセンス: Link先を確認
Jesse L. Everett, Ankit Papneja, Arindam Saha, Cameron Trainor, Aaron D. Tranter, Ben C. Buchler, (参考訳) 光量子メモリは、量子通信とフォトニック量子技術に不可欠である。 3レベル相互作用に基づく光メモリのアンサンブルは、これらのメモリを実装するための一般的な基盤である。 しかし、こうした記憶は全て散乱によって失われる。 ラマン勾配エコーメモリ(GEM)のような非共振3レベル相互作用では、中間状態からの大きなデチューニングによって散乱損失を低減できる。 本研究では,ラマン吸収線に隣接した電磁誘導透過性が散乱損失の低減に重要であることを示す。 さらに、透明性の有効性、すなわちGEMの効率は、光の保存とリコールに勾配が適用される順序に依存する。 理論的解析を行い、その効率が勾配の順序や変形にどのように依存するかを実験的に示す。

Optical quantum memories are essential for quantum communications and photonic quantum technologies. Ensemble optical memories based on 3-level interactions are a popular basis for implementing these memories. All such memories, however, suffer from loss due to scattering. In off-resonant 3-level interactions, such as the Raman gradient echo memory (GEM), scattering loss can be reduced by a large detuning from the intermediate state. In this work, we show how electromagnetically induced transparency adjacent to the Raman absorption line plays a crucial role in reducing scattering loss, so that maximum efficiency is in fact achieved at a moderate detuning. Furthermore, the effectiveness of the transparency, and therefore the efficiency of GEM, depends on the order in which gradients are applied to store and recall the light. We provide a theoretical analysis and show experimentally how the efficiency depends on gradient order and detuning.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-13
# SoK:「アップ」はどこにある?Arm Cortex-Mシステムのセキュリティに関する総合的(ボトムアップ)研究

SoK: Where's the "up"?! A Comprehensive (bottom-up) Study on the Security of Arm Cortex-M Systems ( http://arxiv.org/abs/2401.15289v3 )

ライセンス: Link先を確認
Xi Tan, Zheyuan Ma, Sandro Pinto, Le Guan, Ning Zhang, Jun Xu, Zhiqiang Lin, Hongxin Hu, Ziming Zhao, (参考訳) Arm Cortex-Mプロセッサは組み込みデバイスやInternet-of-Thingsデバイスの中で最も広く使われている32ビットマイクロコントローラである。 広く使われているにもかかわらず、ハードウェアのセキュリティ機能を要約し、ハードウェアとソフトウェアスタックの限界と脆弱性を特徴づけ、これらのシステムのセキュリティに関する研究を体系化する努力はほとんど行われていない。 本論文の目的と貢献は多岐にわたる。 まず、Cortex-Mシステムのハードウェアセキュリティの限界と問題を分析する。 第2に,Cortex-M向けに設計されたソフトウェアスタックの詳細な研究を行い,その限界を明らかにし,実世界のファームウェア1,797を実証分析した。 第3に、Cortex-Mソフトウェアシステムにおける報告されたバグを分類する。 最後に、Cortex-Mシステムを保護するための取り組みを体系化し、それらが提供する保護、ランタイムパフォーマンス、必要なハードウェア機能などの観点から評価する。 これらの知見に基づき、研究コミュニティとMCUソフトウェア開発者のための一連のレコメンデーションを開発する。

Arm Cortex-M processors are the most widely used 32-bit microcontrollers among embedded and Internet-of-Things devices. Despite the widespread usage, there has been little effort in summarizing their hardware security features, characterizing the limitations and vulnerabilities of their hardware and software stack, and systematizing the research on securing these systems. The goals and contributions of this paper are multi-fold. First, we analyze the hardware security limitations and issues of Cortex-M systems. Second, we conducted a deep study of the software stack designed for Cortex-M and revealed its limitations, which is accompanied by an empirical analysis of 1,797 real-world firmware. Third, we categorize the reported bugs in Cortex-M software systems. Finally, we systematize the efforts that aim at securing Cortex-M systems and evaluate them in terms of the protections they offer, runtime performance, required hardware features, etc. Based on the insights, we develop a set of recommendations for the research community and MCU software developers.
翻訳日:2024-05-15 19:21:18 公開日:2024-05-13
# Su-Schrieffer-Heeger Chainにおける周期的なホッピング調節, ドメイン壁, 障害を伴うトポロジカルソリトン

Topological Solitons in Su-Schrieffer-Heeger Chain with periodic hopping modulation, domain walls and disorder ( http://arxiv.org/abs/2402.01236v2 )

ライセンス: Link先を確認
Surajit Mandal, Satyaki Kar, (参考訳) キラル対称Su-Schrieffer-Heeger (SSH) 鎖は、その二量体構成の1つに位相的端状態を持つ。 これらの中間ギャップゼロエネルギー状態は、ホッピング変調の周期的なチューニングによって興味深い変化を示す。 さらに、ホッピング周期の増大によるブリルアンゾーン(BZ)のさらなる分割のための非ゼロエネルギーには、より多くのギャップ内エンドモードが出現する。 新しいトポロジカル位相は、トポロジカル不変量、すなわち巻数とザック位相の詳細な解析と同一視される。 周期的に変調されたホッピングを持つこれらの系のスペクトルとトポロジーは、単一の静的領域壁の存在下でも研究され、2つのトポロジ的に等価でない二量体構造が分離される。 ドメイン壁は、特定のホッピング周期に対するゼロエネルギー領域壁ソリトニック状態と同様に、スペクトル内で追加のオンギャップモードを引き起こす。 また,障害,特にキラリティ破壊部位がエッジおよびドメイン壁状態に及ぼす影響についても検討した。 SSH型以外にも、障害の強さやホッピング周期性の変化として、無作為、ライス・ミール、AI型障害についても、キラリティとゼロエネルギー状態の進化の比較分析を行う。 量子計算を含む様々な分野において位相位相を利用する上で重要なフィードバックを与えることができる一方で、光学格子内に設定された冷間原子では、その結果を容易に検証することができる。

A chiral symmetric Su-Schrieffer-Heeger (SSH) chain features topological end states in one of its dimerized configurations. Those mid-gap zero energy states show interesting modifications upon a periodic tuning of the hopping modulations. Besides, more and more in-gap end modes appear at nonzero energies for further partitioning of the Brillouin zone (BZ) due to increased hopping periodicity. The new topological phases are identified with a detailed analysis of the topological invariants namely, winding number and Zak phases. The spectra and topology of these systems with periodically modulated hopping are studied also in the presence of a single static domain wall, separating two topologically inequivalent dimerized structures. The domain wall causes additional in-gap modes in the spectrum as well as zero energy domain wall solitonic states for specific hopping periodicities. We also study the effect of disorder, particularly the chirality breaking onsite ones, on the edge and domain wall states. Other than the SSH type we also consider random, Rice-Mele or AI type disorder to do a comparative analysis of the evolution of chirality and zero energy states as the strength of disorder and hopping periodicity is varied. Our findings can add important feedback in utilizing topological phases in various fields including quantum computations while the results can be easily verified in a cold atom set up within optical lattices.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-13
# オンライン凸最適化への一般化されたアプローチ

A Generalized Approach to Online Convex Optimization ( http://arxiv.org/abs/2402.08621v2 )

ライセンス: Link先を確認
Mohammad Pedramfar, Vaneet Aggarwal, (参考訳) 本稿では,オンライン凸最適化の問題点を異なる設定で解析する。 完全適応逆数を用いたオンライン線形最適化のアルゴリズムは,オンライン凸最適化のアルゴリズムであることを示す。 また, 完全な情報フィードバックを必要とするアルゴリズムは, 半帯域フィードバックを持つアルゴリズムに変換される可能性があることを示す。 さらに、決定論的半帯域フィードバックを用いて、完全に適応的な敵に対して設計されたアルゴリズムは、難解な敵に直面するとき、確率的半帯域フィードバックのみを用いて、類似のバウンダリを得ることができることを示す。 これを用いて、一般的なメタアルゴリズムを記述し、一階アルゴリズムを同様の後悔境界を持つゼロ階アルゴリズムに変換する。 本フレームワークでは,全情報フィードバック,包括的フィードバック,確率的後悔,反逆的後悔,非定常的後悔など,さまざまな場面でオンライン最適化を解析することができる。

In this paper, we analyze the problem of online convex optimization in different settings. We show that any algorithm for online linear optimization with fully adaptive adversaries is an algorithm for online convex optimization. We also show that any such algorithm that requires full-information feedback may be transformed to an algorithm with semi-bandit feedback with comparable regret bound. We further show that algorithms that are designed for fully adaptive adversaries using deterministic semi-bandit feedback can obtain similar bounds using only stochastic semi-bandit feedback when facing oblivious adversaries. We use this to describe general meta-algorithms to convert first order algorithms to zeroth order algorithms with comparable regret bounds. Our framework allows us to analyze online optimization in various settings, such full-information feedback, bandit feedback, stochastic regret, adversarial regret and various forms of non-stationary regret.
翻訳日:2024-05-15 19:11:33 公開日:2024-05-13
# Chat-Fine-Tuned LLMを用いた投機復号のためのドラフトモデルの直接アライメント

Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs ( http://arxiv.org/abs/2403.00858v4 )

ライセンス: Link先を確認
Raghavv Goel, Mukul Gagrani, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott, (参考訳) LLM(Large Language Models)によるテキスト生成は、その自己回帰性、巨大なパラメータ数、メモリ帯域幅の制限が組み合わさって、メモリバウンドであることが知られている。 LLM推論加速の解法として投機的復号法が提案されている。 しかし、Llama 2 7B の現代のオープンソース LLM ファミリでは、ドラフトモデルは利用できないことが多いため、投機的復号化による推論アクセラレーションを可能にするために、高品質のドラフトモデルを訓練する必要がある。 本稿では,チャット可能なターゲットモデルを直接アライメントするための,シンプルなドラフトモデルトレーニングフレームワークを提案する。 提案したフレームワークでは、Llama 2 Chat 7B以上のドラフトモデルであるLlama 2 Chat Drafter 115Mを、オリジナルサイズのわずか1.64\%でトレーニングする。 トレーニングフレームワークは,事前学習,蒸留データセット生成,知識蒸留による微調整のみで,追加のアライメント処理は行わない。 微調整ステップでは,対象モデルから生成した命令応答対を可塑性データ分散の蒸留に使用し,強化学習におけるポリシー勾配法から着想を得た分散低減手法を取り入れた,新しいトータル変分距離++(TVD++)の損失を提案する。 Llama 2 Chat Dr After 115M with Speculative decoding, and 2.4$\times$ speed-up to autoregressive decoding on various task without no more task-specific fine-tuning。

Text generation with Large Language Models (LLMs) is known to be memory bound due to the combination of their auto-regressive nature, huge parameter counts, and limited memory bandwidths, often resulting in low token rates. Speculative decoding has been proposed as a solution for LLM inference acceleration. However, since draft models are often unavailable in the modern open-source LLM families, e.g., for Llama 2 7B, training a high-quality draft model is required to enable inference acceleration via speculative decoding. In this paper, we propose a simple draft model training framework for direct alignment to chat-capable target models. With the proposed framework, we train Llama 2 Chat Drafter 115M, a draft model for Llama 2 Chat 7B or larger, with only 1.64\% of the original size. Our training framework only consists of pretraining, distillation dataset generation, and finetuning with knowledge distillation, with no additional alignment procedure. For the finetuning step, we use instruction-response pairs generated by target model for distillation in plausible data distribution, and propose a new Total Variation Distance++ (TVD++) loss that incorporates variance reduction techniques inspired from the policy gradient method in reinforcement learning. Our empirical results show that Llama 2 Chat Drafter 115M with speculative decoding achieves up to 2.3 block efficiency and 2.4$\times$ speed-up relative to autoregressive decoding on various tasks with no further task-specific fine-tuning.
翻訳日:2024-05-15 19:01:48 公開日:2024-05-13
# GaussianFlow:4Dコンテンツ作成のためのガウス力学のスプラッティング

GaussianFlow: Splatting Gaussian Dynamics for 4D Content Creation ( http://arxiv.org/abs/2403.12365v2 )

ライセンス: Link先を確認
Quankai Gao, Qiangeng Xu, Zhe Cao, Ben Mildenhall, Wenchao Ma, Le Chen, Danhang Tang, Ulrich Neumann, (参考訳) 画像やビデオからガウスの4Dフィールドを作るのは、制約の少ない性質のため難しい作業だ。 この最適化は、入力されたビデオから測光基準を引き出すか、生成モデルによって制御することができるが、ガウス運動を直接監督することは、まだ探索されていない。 本稿では,連続するフレーム間の3次元ガウス流と画素速度のダイナミクスを結合するガウス流という新しい概念を紹介する。 ガウス流は、画像空間にガウス力学をスプラッティングすることで効率よく得ることができる。 この微分可能なプロセスは、光学フローからの直接動的監視を可能にする。 提案手法は,4次元動的コンテンツ生成とガウススメッティングによる4次元新規ビュー合成,特に既存の方法では処理が困難であるリッチモーションのコンテンツに対して,大きな効果がある。 4次元生成で発生する一般的な色漂流問題は、改良されたグアシアン力学によって解決される。 広汎な実験における視覚的品質は,本手法の有効性を示す。 定量的および定性的な評価により,本手法は4次元生成と4次元新規ビュー合成の両課題において,最先端の成果が得られることが示された。 プロジェクトページ:https://zerg-overmind.github.io/GaussianFlow.github.io/

Creating 4D fields of Gaussian Splatting from images or videos is a challenging task due to its under-constrained nature. While the optimization can draw photometric reference from the input videos or be regulated by generative models, directly supervising Gaussian motions remains underexplored. In this paper, we introduce a novel concept, Gaussian flow, which connects the dynamics of 3D Gaussians and pixel velocities between consecutive frames. The Gaussian flow can be efficiently obtained by splatting Gaussian dynamics into the image space. This differentiable process enables direct dynamic supervision from optical flow. Our method significantly benefits 4D dynamic content generation and 4D novel view synthesis with Gaussian Splatting, especially for contents with rich motions that are hard to be handled by existing methods. The common color drifting issue that happens in 4D generation is also resolved with improved Guassian dynamics. Superior visual quality on extensive experiments demonstrates our method's effectiveness. Quantitative and qualitative evaluations show that our method achieves state-of-the-art results on both tasks of 4D generation and 4D novel view synthesis. Project page: https://zerg-overmind.github.io/GaussianFlow.github.io/
翻訳日:2024-05-15 18:52:04 公開日:2024-05-13
# 胸部X線写真における放射線所見の可視化によるGPT-4の評価

Evaluating GPT-4 with Vision on Detection of Radiological Findings on Chest Radiographs ( http://arxiv.org/abs/2403.15528v3 )

ライセンス: Link先を確認
Yiliang Zhou, Hanley Ong, Patrick Kennedy, Carol Wu, Jacob Kazam, Keith Hentel, Adam Flanders, George Shih, Yifan Peng, (参考訳) 本研究は,100個の胸部X線写真から放射線学的所見を検出するためのマルチモーダルな大規模言語モデルであるGPT-4Vの応用について検討し,GPT-4Vは現在,胸部X線画像の解釈において現実的な診断の準備ができていないことを示唆している。

The study examines the application of GPT-4V, a multi-modal large language model equipped with visual recognition, in detecting radiological findings from a set of 100 chest radiographs and suggests that GPT-4V is currently not ready for real-world diagnostic usage in interpreting chest radiographs.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-13
# エンサンブル蒸留による運動予測モデルのスケーリング

Scaling Motion Forecasting Models with Ensemble Distillation ( http://arxiv.org/abs/2404.03843v2 )

ライセンス: Link先を確認
Scott Ettinger, Kratarth Goel, Avikalp Srivastava, Rami Al-Rfou, (参考訳) モーション予測は、自律ロボットシステムにおいてますます重要なコンポーネントになりつつある。 計算予算は一般にリアルタイムシステムの精度を制限する。 本研究では,モデルアンサンブルと蒸留技術を組み合わせて,限られた計算予算を考慮した動き予測システムの改善手法を提案する。 ディープニューラルネットワークのアンサンブルの使用は、多くのアプリケーション領域における一般化精度を向上させることが示されている。 まず、最適化された単一モデルの大規模なアンサンブルを作成することで、大幅な性能向上を実証する。 そこで我々は,運動予測モデルの集合を,計算コストのごく一部で高い性能を維持する小さな学生モデルに蒸留する,一般化された枠組みを開発した。 本研究では,自律走行システムの実世界データを用いた動き予測の課題に焦点をあてる。 Waymo Open Motion Dataset(WOMD)とArgoverseのリーダーボードで非常に競合するアンサンブルモデルを開発した。 これらのアンサンブルから,計算コストのごく一部で高い性能を有する蒸留学生モデルを訓練する。 これらの実験は、限られた計算予算を持つロボットシステムの予測モデルの精度を向上させる効果的な方法として、アンサンブルからの蒸留を実証する。

Motion forecasting has become an increasingly critical component of autonomous robotic systems. Onboard compute budgets typically limit the accuracy of real-time systems. In this work we propose methods of improving motion forecasting systems subject to limited compute budgets by combining model ensemble and distillation techniques. The use of ensembles of deep neural networks has been shown to improve generalization accuracy in many application domains. We first demonstrate significant performance gains by creating a large ensemble of optimized single models. We then develop a generalized framework to distill motion forecasting model ensembles into small student models which retain high performance with a fraction of the computing cost. For this study we focus on the task of motion forecasting using real world data from autonomous driving systems. We develop ensemble models that are very competitive on the Waymo Open Motion Dataset (WOMD) and Argoverse leaderboards. From these ensembles, we train distilled student models which have high performance at a fraction of the compute costs. These experiments demonstrate distillation from ensembles as an effective method for improving accuracy of predictive models for robotic systems with limited compute budgets.
翻訳日:2024-05-15 18:52:04 公開日:2024-05-13
# 世代ギャップ:大規模言語モデルの下位値システムにおける年齢バイアスの探索

The Generation Gap:Exploring Age Bias in the Underlying Value Systems of Large Language Models ( http://arxiv.org/abs/2404.08760v2 )

ライセンス: Link先を確認
Siyang Liu, Trish Maturi, Bowen Yi, Siqi Shen, Rada Mihalcea, (参考訳) 本稿では,大言語モデル(LLM)と特定の年齢群とのアライメントについて検討し,13のカテゴリにわたる世界価値調査のデータを活用する。 応答の堅牢性を確保するために調整された多様なプロンプトを通じて、若年層に対するLCM値の一般的な傾きを見いだす。 さらに、年齢識別情報をプロンプトに取り入れることによる影響について検討し、年齢コホートによる価値の相違を緩和する上での課題を考察する。 以上の結果から,LSMの年齢バイアスが明らかとなり,今後の研究への洞察が得られた。

In this paper, we explore the alignment of values in Large Language Models (LLMs) with specific age groups, leveraging data from the World Value Survey across thirteen categories. Through a diverse set of prompts tailored to ensure response robustness, we find a general inclination of LLM values towards younger demographics. Additionally, we explore the impact of incorporating age identity information in prompts and observe challenges in mitigating value discrepancies with different age cohorts. Our findings highlight the age bias in LLMs and provide insights for future work.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-13
# MLCommonsによるAI Safety Benchmarkのv0.5の導入

Introducing v0.5 of the AI Safety Benchmark from MLCommons ( http://arxiv.org/abs/2404.12241v2 )

ライセンス: Link先を確認
Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Max Bartolo, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Srijan Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Sarah Luger, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren, (参考訳) 本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。 AI Safety Benchmarkは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。 ベンチマークの特定と構築に関する原則的なアプローチを導入し,v0.5では1つのユースケース(英語の汎用アシスタントへの成人チャット)と限られたペルソナ(典型的ユーザ,悪意のあるユーザ,脆弱なユーザ)をカバーする。 我々は13のハザードカテゴリーの新しい分類法を作成し、そのうち7つはv0.5ベンチマークでテストされている。 2024年末までにAI Safety Benchmarkのバージョン1.0をリリースする予定です。 v1.0ベンチマークは、AIシステムの安全性に関する有意義な洞察を提供する。 しかしながら、v0.5ベンチマークはAIシステムの安全性を評価するために使用すべきではない。 私たちはv0.5の限界、欠陥、課題を十分に文書化しようとしてきました。 このAI Safety Benchmark v0.5のリリースには、(1)テスト対象のシステムの種類(SUT)、言語とコンテキスト、ペルソナ、テスト、テスト項目を含むベンチマークの特定と構築に関する原則的なアプローチ、(2)定義とサブカテゴリを持つ13のハザードカテゴリの分類、(3)それぞれがテスト項目のユニークなセット、すなわちプロンプトを含む7つのハザードカテゴリのテストが含まれる。 合計43,090のテスト項目がテンプレートで作成され、(4)AIシステムのベンチマークに対するグレーディングシステム、(5)公開プラットフォームであるModelBenchと呼ばれる、ベンチマーク上のAIシステムの安全性を評価するために使用できるダウンロード可能なツール、(6)公開されている10以上のチャットチューニング言語モデルのパフォーマンスをベンチマークする例評価レポート、(7)ベンチマークのテスト仕様。

This paper introduces v0.5 of the AI Safety Benchmark, which has been created by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been designed to assess the safety risks of AI systems that use chat-tuned language models. We introduce a principled approach to specifying and constructing the benchmark, which for v0.5 covers only a single use case (an adult chatting to a general-purpose assistant in English), and a limited set of personas (i.e., typical users, malicious users, and vulnerable users). We created a new taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark. We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024. The v1.0 benchmark will provide meaningful insights into the safety of AI systems. However, the v0.5 benchmark should not be used to assess the safety of AI systems. We have sought to fully document the limitations, flaws, and challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes (1) a principled approach to specifying and constructing the benchmark, which comprises use cases, types of systems under test (SUTs), language and context, personas, tests, and test items; (2) a taxonomy of 13 hazard categories with definitions and subcategories; (3) tests for seven of the hazard categories, each comprising a unique set of test items, i.e., prompts. There are 43,090 test items in total, which we created with templates; (4) a grading system for AI systems against the benchmark; (5) an openly available platform, and downloadable tool, called ModelBench that can be used to evaluate the safety of AI systems on the benchmark; (6) an example evaluation report which benchmarks the performance of over a dozen openly available chat-tuned language models; (7) a test specification for the benchmark.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-13
# 光空洞と結合した二重量子ドットの待ち時間統計

Waiting time statistics for a double quantum dot coupled with an optical cavity ( http://arxiv.org/abs/2404.13775v2 )

ライセンス: Link先を確認
Luis F. Santos, Gabriel T. Landi, (参考訳) 光空洞に結合した二重量子ドットは、非自明な開量子系の原始的な例である。 近年の実験的および理論的研究により、このシステムはマイクロ波領域における単一光子検出の候補であることが示されている。 これは、平均的な電流を超える研究を動機付け、光子と電子検出の完全なカウント統計を考慮に入れている。 このことを念頭に置いて, 量子ジャンプによる待ち時間統計を詳細に解析し, 成功率, 失敗確率, および検出間時間について解析式を抽出する。 さらに、単光子と多光子の比較により、異なる事象の発生確率の階層を推定し、検出確率における光子干渉イベントの役割を明らかにする。 そこで本研究では,待ち時間の統計値を用いて,時間的,関連性の高い気象課題を最適化する方法について直接図示する。

A double quantum dot coupled to an optical cavity is a prototypical example of a non-trivial open quantum system. Recent experimental and theoretical studies show that this system is a candidate for single-photon detection in the microwave domain. This motivates studies that go beyond just the average current, and also take into account the full counting statistics of photon and electron detections. With this in mind, here we provide a detailed analysis of the waiting time statistics of this system within the quantum jump unravelling, which allows us to extract analytical expressions for the success and failure probabilities, as well as for the inter detection times. Furthermore, by comparing single and multi-photon scenarios, we infer a hierarchy of occurrence probabilities for the different events, highlighting the role of photon interference events in the detection probabilities. Our results therefore provide a direct illustration of how waiting time statistics can be used to optimize a timely and relevant metrological task.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-13
# CASPR: コントラスト要約のための自動評価基準

CASPR: Automated Evaluation Metric for Contrastive Summarization ( http://arxiv.org/abs/2404.15565v2 )

ライセンス: Link先を確認
Nirupan Ananthamurugan, Dat Duong, Philip George, Ankita Gupta, Sandeep Tata, Beliz Gunel, (参考訳) コントラッシブ・サマリゼーション(コントラスト・サマリゼーション)と呼ばれる一連のソースレビューからエンティティ(ホテル、電話など)の比較意見を要約することで、ユーザーは意思決定においてかなり役立つ。 しかし、人間の評価に頼らずに出力サマリーのコントラスト性を確実に測定することは、未解決の問題である。 従来の研究では、意味保存の語彙変動に対する感度を考慮していないコントラストを測定するために、トークンオーバーラップベースのメトリクスである Distinctiveness Score が提案されていた。 本研究では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。 提案手法は,自然言語推論(NLI)タスクを利用して,評価を単一文に分割し,その間にNLIスコアを注意深く集約し,要約レベルのスコアを求めることによってコントラストを測定する。 我々は CASPR と Distinctiveness Score を比較し,BERTScore をベースとしたシンプルなベースラインとを比較した。 従来のデータセットであるCoCoTRIPを用いた結果から,CASPRはベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることがわかった。

Summarizing comparative opinions about entities (e.g., hotels, phones) from a set of source reviews, often referred to as contrastive summarization, can considerably aid users in decision making. However, reliably measuring the contrastiveness of the output summaries without relying on human evaluations remains an open problem. Prior work has proposed token-overlap based metrics, Distinctiveness Score, to measure contrast which does not take into account the sensitivity to meaning-preserving lexical variations. In this work, we propose an automated evaluation metric CASPR to better measure contrast between a pair of summaries. Our metric is based on a simple and light-weight method that leverages natural language inference (NLI) task to measure contrast by segmenting reviews into single-claim sentences and carefully aggregating NLI scores between them to come up with a summary-level score. We compare CASPR with Distinctiveness Score and a simple yet powerful baseline based on BERTScore. Our results on a prior dataset CoCoTRIP demonstrate that CASPR can more reliably capture the contrastiveness of the summary pairs compared to the baselines.
翻訳日:2024-05-15 18:42:17 公開日:2024-05-13
# 量子力学の複素確率最適制御基礎

Complex Stochastic Optimal Control Foundation of Quantum Mechanics ( http://arxiv.org/abs/2404.15964v3 )

ライセンス: Link先を確認
Vasil Yordanov, (参考訳) 近年の研究では、量子力学方程式を導出するための複素変数を含む確率的ハミルトン・ヤコビ・ベルマン方程式(HJB)の使用が拡張されている。 しかしながら、これらの研究は HJB 方程式を直接複素数に適用することは有効であると仮定することが多い。 本稿では,複素変数の文脈においてHJB方程式を正しく適用する方法を検討する。 本研究は,量子粒子の確率的運動を,確率的最適制御理論の枠組みの中で明らかに再評価するものである。 コーシー・リーマンの定理を用いて、運動の確率方程式における複素拡散係数を導出し、粒子の確率運動が2つの完全に相関した実数および虚数的確率過程によって記述されていることを考察した。 導出拡散係数はHJB方程式を線形化できる形式を採り、ディラック方程式の導出に繋がることを示した。 これらの知見は量子力学の理解を深め、確率論的最適制御を量子力学に適用する枠組みの数学的厳密性を高める。

Recent studies have extended the use of the stochastic Hamilton-Jacobi-Bellman (HJB) equation to include complex variables for deriving quantum mechanical equations. However, these studies often assume that it is valid to apply the HJB equation directly to complex numbers, an approach that overlooks the fundamental problem of comparing complex numbers to find optimal controls. This paper explores how to correctly apply the HJB equation in the context of complex variables. Our findings significantly reevaluate the stochastic movement of quantum particles within the framework of stochastic optimal control theory. We derived the complex diffusion coefficient in the stochastic equation of motion using the Cauchy-Riemann theorem, considering that the particle's stochastic movement is described by two perfectly correlated real and imaginary stochastic processes. We demonstrated that the derived diffusion coefficient took a form that allowed the HJB equation to be linearized, thereby leading to the derivation of the Dirac equations. These insights deepen our understanding of quantum dynamics and enhance the mathematical rigor of the framework for applying stochastic optimal control to quantum mechanics.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-13
# 角運動量量子エンタングルを用いた固体高調波ガウス軌道の計算効率の良い分子積分

Computationally Efficient Molecular Integrals of Solid Harmonic Gaussian Orbitals Using Quantum Entanglement of Angular Momentum ( http://arxiv.org/abs/2404.16245v2 )

ライセンス: Link先を確認
Hang Hu, Gilles Peslherbe, Hsu Kiang Ooi, Anguang Hu, (参考訳) カルテシアン型基底集合による多中心分子積分の評価は、固体や分子の電子構造理論計算における長年のボトルネックとなっている。 我々は,固体調和基底関数(SHGO)を用いた分子クーロン積分の解法として,ベクトル結合およびベクトルアンカップリング法を開発した。 固体調和は角運動量の固有状態であり、分子積分を分解することができる。 固体調和加法、差分法、および積則を組み合わせることにより、計算にコストがかかる4中心積分を、原子位置に依存する角部と放射成分に分解することができる。 この方法で分子核クーロン積分を評価する際のポテンシャル速度比は、高い角運動量量子数を持つ原子軌道に対して最大4桁まで達することができる。 数学的効率の根底にある基礎は量子角運動量理論であり、ベクトルカップリングとベクトルアンカップリングの両方のスキームは、量子角運動量状態に作用するユニタリなクレブシュ・ゴルダン変換に対応し、そのエンタングル化の度合いに影響を与える。 これらの変換を通じて量子角運動量を導入することにより、状態の絡み合いが減少し、量子系にとっての絡み合いが小さくなればなるほど、シミュレートが容易になる。 この高効率な方法は、加速材料と分子の設計と発見のための新しい道を開く。

Evaluating multi-center molecular integrals with Cartesian Gaussian-type basis sets has been a long-standing bottleneck in electronic structure theory calculation for solids and molecules. We have developed a vector-coupling and vector-uncoupling scheme to solve molecular Coulomb integrals with solid harmonics basis functions(SHGO). Solid harmonics are eigenstates of angular momentum, making it possible to factorize molecular integrals. By combining solid harmonic addition, differential and product rules, the computationally costly multi-center four-center integrals can be factored into an angular part and a radial component dependent on the atomic positions. The potential speed-up ratio in evaluating molecular nuclear Coulomb integrals in our method can reach up to four orders of magnitude for atomic orbitals with high angular momentum quantum numbers. The foundation underpinning the mathematical efficiency is the quantum angular momentum theory, where both vector-coupling and vector-uncoupling schemes correspond to unitary Clebsch-Gordan transformations that act on quantum angular momentum states, influencing their degree of entanglement. By incorporating quantum angular momentum through these transformations, the entanglement of the states can be reduced, and the less entanglement there is for a quantum system, the easier it is to simulate. The highly efficient method unveiled here opens new avenues for accelerated material and molecule design and discovery.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-13
# 神経放射場除去における深さ先行

Depth Priors in Removal Neural Radiance Fields ( http://arxiv.org/abs/2405.00630v2 )

ライセンス: Link先を確認
Zhihao Guo, Peng Wang, (参考訳) ニューラル・ラジアンス・フィールドは3次元再構成と新しいビュー生成において印象的な成果を上げている。 NeRFにおける重要な課題は、複数のビューの一貫性と高品質な視点の合成を要求するオブジェクト除去のような再構成された3Dシーンの編集である。 これまでの研究では、通常LiDARやCOLMAPのスパース深さ推定から得られる深度を統合して、物体除去におけるNeRFの性能を高めてきた。 しかし、これらの手法は高価か時間を要する。 本稿では、SpinNeRFとZoeDepthのような単眼深度推定モデルを利用して、複雑な物体除去におけるNeRFの性能を向上し、効率を向上するパイプラインを提案する。 KITTIデータセット上でのCOLMAPの深い深度再構成の徹底的な評価を行い、LiDARのような従来の手法と比較して、COLMAPはコスト効率が高くスケーラブルな真理を得るための代替手段とみなすことができることを示した。 これは、SpinNeRFの奥行き先を生成するのに最適なものを決定するために、単眼深度推定モデルの性能を評価する基礎となる。 新しいパイプラインは3次元再構成とオブジェクト除去を含む様々なシナリオでテストされ、その結果、我々のパイプラインはオブジェクト除去のための深度取得に要する時間を著しく削減し、合成されたビューの忠実度を高め、将来、高忠実度デジタルツインシステムを構築する可能性を示している。

Neural Radiance Fields have achieved impressive results in 3D reconstruction and novel view generation. A significant challenge within NeRF involves editing reconstructed 3D scenes, such as object removal, which demands consistency across multiple views and the synthesis of high-quality perspectives. Previous studies have integrated depth priors, typically sourced from LiDAR or sparse depth estimates from COLMAP, to enhance NeRF's performance in object removal. However, these methods are either expensive or time-consuming. This paper proposes a new pipeline that leverages SpinNeRF and monocular depth estimation models like ZoeDepth to enhance NeRF's performance in complex object removal with improved efficiency. A thorough evaluation of COLMAP's dense depth reconstruction on the KITTI dataset is conducted to demonstrate that COLMAP can be viewed as a cost-effective and scalable alternative for acquiring depth ground truth compared to traditional methods like LiDAR. This serves as the basis for evaluating the performance of monocular depth estimation models to determine the best one for generating depth priors for SpinNeRF. The new pipeline is tested in various scenarios involving 3D reconstruction and object removal, and the results indicate that our pipeline significantly reduces the time required for depth prior acquisition for object removal and enhances the fidelity of the synthesized views, suggesting substantial potential for building high-fidelity digital twin systems with increased efficiency in the future.
翻訳日:2024-05-15 18:32:33 公開日:2024-05-13
# 局所的平均処理効果

Dynamic Local Average Treatment Effects ( http://arxiv.org/abs/2405.01463v2 )

ライセンス: Link先を確認
Ravi B. Sojitra, Vasilis Syrgkanis, (参考訳) 我々は,デジタルレコメンデーションや適応医療トライアルなどの応用において,一方的不適合を伴う動的治療規則(DTR)を検討する。 これらは、意思決定者が個人が時間とともに治療を受けることを奨励するが、以前の奨励、治療、状態、結果に基づいて奨励を適応する設定である。 重要なのは、個人が保存されていない共同設立者に基づく奨励に従わないことだ。 2次処理と励ましの設定のために、各順応サブポピュレーションに対する複数の時間的処理のコントラストの期待値である動的局所的平均処理効果(LATE)の非パラメトリック同定、推定、推論を行う。 インスツルメンタル・バリアブルとDTRの文献における標準的な仮定では、単一ステップでの処理に対応する動的LATEを識別できることが示される。 また、Saggered Adoptionの設定で満たされるクロス周期効果コンプライアンス独立の仮定と、Saggered Compliance設定と定義するそれらの一般化により、複数の時間で扱う動的LATEを識別する。

We consider Dynamic Treatment Regimes (DTRs) with One Sided Noncompliance that arise in applications such as digital recommendations and adaptive medical trials. These are settings where decision makers encourage individuals to take treatments over time, but adapt encouragements based on previous encouragements, treatments, states, and outcomes. Importantly, individuals may not comply with encouragements based on unobserved confounders. For settings with binary treatments and encouragements, we provide nonparametric identification, estimation, and inference for Dynamic Local Average Treatment Effects (LATEs), which are expected values of multiple time period treatment contrasts for the respective complier subpopulations. Under standard assumptions in the Instrumental Variable and DTR literature, we show that one can identify Dynamic LATEs that correspond to treating at single time steps. Under an additional cross-period effect-compliance independence assumption, which is satisfied in Staggered Adoption settings and a generalization of them, which we define as Staggered Compliance settings, we identify Dynamic LATEs for treating in multiple time periods.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-13
# スタックアテンションを有する変圧器

A Transformer with Stack Attention ( http://arxiv.org/abs/2405.04515v2 )

ライセンス: Link先を確認
Jiaoda Li, Jennifer C. White, Mrinmaya Sachan, Ryan Cotterell, (参考訳) 自然言語は文脈に敏感であると考えられている。 非常に有能な大きな言語モデルを支えるにもかかわらず、トランスフォーマーは多くの文脈に依存しない言語タスクをモデル化することはできない。 変換器に基づく言語モデルのモデリング能力において、この制限に対処するために、微分可能なスタックベースのアテンション機構でそれらを拡張することを提案する。 我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。 スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。

Natural languages are believed to be (mildly) context-sensitive. Despite underpinning remarkably capable large language models, transformers are unable to model many context-free language tasks. In an attempt to address this limitation in the modeling power of transformer-based language models, we propose augmenting them with a differentiable, stack-based attention mechanism. Our stack-based attention mechanism can be incorporated into any transformer-based language model and adds a level of interpretability to the model. We show that the addition of our stack-based attention mechanism enables the transformer to model some, but not all, deterministic context-free languages.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-13
# オーバージェネレーション・アンド・ランクによるマルチチョイス質問に対する自動ディトラクタ生成の改善

Improving Automated Distractor Generation for Math Multiple-choice Questions with Overgenerate-and-rank ( http://arxiv.org/abs/2405.05144v2 )

ライセンス: Link先を確認
Alexander Scarlatos, Wanyong Feng, Digory Smith, Simon Woodhead, Andrew Lan, (参考訳) 多重選択質問(MCQ)は、大規模に展開およびグレードできるため、数学教育のあらゆる段階にわたって一般的に使用される。 MCQの重要な構成要素は、学生の誤りや誤解を反映した誤った回答である。 数学のMCQ、例えば大きな言語モデルでそれらを自動生成することは困難である。 そこで本研究では,乱れ発生者の品質を過剰に生成・ランク化することで向上させる手法を提案し,実際の学生が乱れ発生者を選択する可能性を予測するためのランキングモデルを訓練する。 実世界のデータセットと数学教師による人的評価の実験結果から、我々のランキングモデルが、人によるイントラクタとのアライメントを増加させていることが分かるが、人間によるイントラクタは、生成したデータよりも依然として好まれている。

Multiple-choice questions (MCQs) are commonly used across all levels of math education since they can be deployed and graded at a large scale. A critical component of MCQs is the distractors, i.e., incorrect answers crafted to reflect student errors or misconceptions. Automatically generating them in math MCQs, e.g., with large language models, has been challenging. In this work, we propose a novel method to enhance the quality of generated distractors through overgenerate-and-rank, training a ranking model to predict how likely distractors are to be selected by real students. Experimental results on a real-world dataset and human evaluation with math teachers show that our ranking model increases alignment with human-authored distractors, although human-authored ones are still preferred over generated ones.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-13
# KV-Runahead:並列キー値キャッシュ生成によるスケーラブル因果LLM推論

KV-Runahead: Scalable Causal LLM Inference by Parallel Key-Value Cache Generation ( http://arxiv.org/abs/2405.05329v2 )

ライセンス: Link先を確認
Minsik Cho, Mohammad Rastegari, Devang Naik, (参考訳) 大規模言語モデル(LLM)推論は、最初のトークンを出力するプロンプト(またはプリフィル)フェーズと、後続のトークンを生成する拡張(またはデコード)フェーズの2つのフェーズを持つ。 本研究では,高速な並列化手法KV-Runaheadを提案する。 鍵となる観察は、キー値キャッシュ(KV-cache)のため、拡張フェーズがプロンプトフェーズよりも早くトークンを生成することである。 したがって、KV-Runaheadは、複数のプロセスを編成してKV-cacheを発生させ、TTFT(time-to-first-token)を最小化することにより、プロンプトフェーズを並列化する。 KV-cache方式は2つの大きな利点がある。 まず、KV-cacheは因果注意マップを利用するように設計されているので、計算と計算を自動的に最小化する。 第二に、すでに拡張フェーズに存在しているため、KV-Runaheadの実装が容易である。 さらに、(因果注意による)不均一なKVキャッシュ生成を処理し、TTFTを最適化するために、コンテキストレベルの負荷分散を提案する。 テンソルやシーケンシャル並列化のような既存の並列化方式と比較して、KV-RunaheadはLlama 7BとFalcon 7Bでそれぞれ1.4倍、1.6倍のスピードアップを提供できることを示した。

Large Language Model or LLM inference has two phases, the prompt (or prefill) phase to output the first token and the extension (or decoding) phase to the generate subsequent tokens. In this work, we propose an efficient parallelization scheme, KV-Runahead to accelerate the prompt phase. The key observation is that the extension phase generates tokens faster than the prompt phase because of key-value cache (KV-cache). Hence, KV-Runahead parallelizes the prompt phase by orchestrating multiple processes to populate the KV-cache and minimizes the time-to-first-token (TTFT). Dual-purposing the KV-cache scheme has two main benefits. First, since KV-cache is designed to leverage the causal attention map, we minimize computation and computation automatically. Second, since it already exists for the extension phase, KV-Runahead is easy to implement. We further propose context-level load-balancing to handle uneven KV-cache generation (due to the causal attention) and to optimize TTFT. Compared with an existing parallelization scheme such as tensor or sequential parallelization where keys and values are locally generated and exchanged via all-gather collectives, our experimental results demonstrate that KV-Runahead can offer over 1.4x and 1.6x speedups for Llama 7B and Falcon 7B respectively.
翻訳日:2024-05-15 18:22:42 公開日:2024-05-13
# 分散回帰の代用として逆条件流がいかに生み出すか

How Inverse Conditional Flows Can Serve as a Substitute for Distributional Regression ( http://arxiv.org/abs/2405.05429v2 )

ライセンス: Link先を確認
Lucas Kook, Chris Kolb, Philipp Schiele, Daniel Dold, Marcel Arpogaus, Cornelius Fritz, Philipp F. Baumann, Philipp Kopper, Tobias Pielok, Emilio Dorigatti, David Rügamer, (参考訳) 線形回帰のような単純なモデルのニューラルネットワーク表現は、ディープラーニングアルゴリズムの基本原理をよりよく理解するために、ますます研究されている。 しかし、Coxモデルのような分布回帰モデルの神経表現は、今のところほとんど注目されていない。 我々は、上記のモデルの神経表現を含む逆流変換(DRIFT)を用いて、分布回帰のためのフレームワークを提案することにより、このギャップを埋める。 我々は、DRIFTにおけるモデルの神経表現が、連続、順序、時系列、生存結果を含むいくつかのアプリケーションにおいて、古典的な統計表現の代用として機能できることを実証的に実証した。 我々は,DRIFTにおけるモデルが,部分的効果,予測,およびアレタリック不確実性定量化の推定の観点から,いくつかの統計的手法の性能と経験的に一致していることを確認する。 DRIFTは解釈可能な統計モデルと柔軟なニューラルネットワークの両方をカバーする。

Neural network representations of simple models, such as linear regression, are being studied increasingly to better understand the underlying principles of deep learning algorithms. However, neural representations of distributional regression models, such as the Cox model, have received little attention so far. We close this gap by proposing a framework for distributional regression using inverse flow transformations (DRIFT), which includes neural representations of the aforementioned models. We empirically demonstrate that the neural representations of models in DRIFT can serve as a substitute for their classical statistical counterparts in several applications involving continuous, ordered, time-series, and survival outcomes. We confirm that models in DRIFT empirically match the performance of several statistical methods in terms of estimation of partial effects, prediction, and aleatoric uncertainty quantification. DRIFT covers both interpretable statistical models and flexible neural networks opening up new avenues in both statistical modeling and deep learning.
翻訳日:2024-05-15 18:12:57 公開日:2024-05-13
# 一般化力補正機械学習による異なる海域における船舶の応答予測

Predicting Ship Responses in Different Seaways using a Generalizable Force Correcting Machine Learning Method ( http://arxiv.org/abs/2405.08033v1 )

ライセンス: Link先を確認
Kyle E. Marlantes, Piotr J. Bandyk, Kevin J. Maki, (参考訳) 機械学習(ML)手法は、トレーニングデータセットとは異なる入力を予測できる場合、一般化可能である。 波動応答の予測には, ML法が設計評価に有用である場合, 一般化性が重要である。 さらに、トレーニングデータセットのサイズは、特に高価な高忠実度数値ツールを用いてトレーニングデータを生成する場合、メソッドの実用性に大きな影響を及ぼす。 本稿では,低忠実度運動方程式の力を補正するハイブリッド機械学習手法を提案する。 本手法は, 不規則な励起を受けるダッフィング方程式の非線形応答と, 頭部における高速変位船(FDS)の高忠実ヘブおよびピッチ応答データと, 2つの異なるケーススタディに適用した。 トレーニングデータセットと異なる不規則な波動条件における応答の予測を行うことにより、両方のケースで手法の一般化性を決定する。 ハイブリッドモデルにおける低忠実度物理学に基づく用語が一般化性に与える影響についても検討した。 予測は線形物理学に基づくモデルとデータ駆動LSTMモデルという2つのベンチマークと比較される。 このハイブリッド手法は,小さなデータセットでトレーニングした際の予測精度と一般化性を改善する。

A machine learning (ML) method is generalizable if it can make predictions on inputs which differ from the training dataset. For predictions of wave-induced ship responses, generalizability is an important consideration if ML methods are to be useful in design evaluations. Furthermore, the size of the training dataset has a significant impact on the practicality of a method, especially when training data is generated using high-fidelity numerical tools which are expensive. This paper considers a hybrid machine learning method which corrects the force in a low-fidelity equation of motion. The method is applied to two different case studies: the nonlinear responses of a Duffing equation subject to irregular excitation, and high-fidelity heave and pitch response data of a Fast Displacement Ship (FDS) in head seas. The generalizability of the method is determined in both cases by making predictions of the response in irregular wave conditions that differ from those in the training dataset. The influence that low-fidelity physics-based terms in the hybrid model have on generalizability is also investigated. The predictions are compared to two benchmarks: a linear physics-based model and a data-driven LSTM model. It is found that the hybrid method offers an improvement in prediction accuracy and generalizability when trained on a small dataset.
翻訳日:2024-05-15 18:03:09 公開日:2024-05-13
# 時空間的注意ネットワークに基づく戦闘機の飛行軌跡予測

Fighter flight trajectory prediction based on spatio-temporal graphcial attention network ( http://arxiv.org/abs/2405.08034v1 )

ライセンス: Link先を確認
Yao Sun, Tengyu Jing, Jiapeng Wang, Wei Wang, (参考訳) 近距離空戦における青軍戦闘機の飛行軌跡を迅速かつ正確に予測することは、赤軍戦闘機が支配的な状況を得るのに役立ち、これは後の空戦における勝利の要因である。 しかし, 高度戦闘機の高速・超音速能力, 戦術的操作の多様性, 状況遷移の即時性などにより, 予測精度を向上させるために, 飛行軌道の符号化・復号構造を用いた時空間グラフアテンションネットワーク(ST-GAT)を提案する。 エンコーダはトランスフォーマーとGATブランチの並列構造を採用し、各フロントエンドにマルチヘッド自己保持機構が組み込まれている。 トランスフォーマー・ブランチ・ネットワークは、歴史的軌跡の時間的特性を抽出し、戦闘機の歴史的状態が将来の軌跡に与える影響を捉え、GATブランチ・ネットワークは、歴史的軌跡の空間的特徴を抽出し、戦闘機間の空間的相関を捉えるために使用され、その後、2つのブランチの出力を新しい特徴ベクトルに結合し、ブルーアーミー・ファイターの将来の位置座標を予測するために完全に接続されたネットワークからなるデコーダに入力することにより、提案ネットワークは、強化されたCNN-LSTMネットワーク(ECNN-LSTM)と比較して飛行軌跡の予測精度を著しく向上し、ADEとFDEの双方で47%と34%改善し、その後の自律的なミッションを支援する。

Quickly and accurately predicting the flight trajectory of a blue army fighter in close-range air combat helps a red army fighter gain a dominant situation, which is the winning factor in later air combat. However,due to the high speed and even hypersonic capabilities of advanced fighters, the diversity of tactical maneuvers,and the instantaneous nature of situational transitions,it is difficult to meet the requirements of practical combat applications in terms of prediction accuracy.To improve prediction accuracy,this paper proposes a spatio-temporal graph attention network (ST-GAT) using encoding and decoding structures to predict the flight trajectory. The encoder adopts a parallel structure of Transformer and GAT branches embedded with the multi-head self-attention mechanism in each front end. The Transformer branch network is used to extract the temporal characteristics of historical trajectories and capture the impact of the fighter's historical state on future trajectories, while the GAT branch network is used to extract spatial features in historical trajectories and capture potential spatial correlations between fighters.Then we concatenate the outputs of the two branches into a new feature vector and input it into a decoder composed of a fully connected network to predict the future position coordinates of the blue army fighter.The computer simulation results show that the proposed network significantly improves the prediction accuracy of flight trajectories compared to the enhanced CNN-LSTM network (ECNN-LSTM), with improvements of 47% and 34% in both ADE and FDE indicators,providing strong support for subsequent autonomous combat missions.
翻訳日:2024-05-15 18:03:09 公開日:2024-05-13
# 対話型レコメンダシステムのためのLLMベースの制御可能でスケーラブルなユーザシミュレータフレームワーク

A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems ( http://arxiv.org/abs/2405.08035v1 )

ライセンス: Link先を確認
Lixi Zhu, Xiaowen Huang, Jitao Sang, (参考訳) Conversational Recommender System (CRS)は、ユーザのリアルタイムフィードバックを活用して、ユーザの好みを動的にモデル化することで、パーソナライズされたレコメンデーションの提供能力を高め、ユーザエクスペリエンス全体を改善する。 CRSは大きな可能性を示しており、研究者はより現実的で信頼性の高いユーザーシミュレータの開発に集中するよう促している。 LLM(Large Language Models)の出現は、計算能力の新たなエポックの始まりであり、様々なタスクにおいて人間レベルの知性を示す。 ユーザシミュレータ構築にLLMを活用してCRSの性能を評価する研究が進められている。 これらの取り組みはイノベーションを示すが、一定の制限が伴っている。 本研究では、プラグインマネージャを介して、様々なステージにわたるユーザシミュレータの動作を管理する、制御可能、スケーラブル、ヒューマンインクルード(CSHI)シミュレーターフレームワークを導入する。 CSHIはユーザー行動とインタラクションのシミュレーションをカスタマイズし、より生き生きとした説得力のあるユーザーインタラクション体験を提供する。 2つの会話レコメンデーションシナリオにおける実験とケーススタディを通じて、我々のフレームワークは様々な会話レコメンデーション設定に適応し、ユーザのパーソナライズされた好みを効果的にシミュレートできることを示す。 その結果、シミュレーターは実際のユーザのフィードバックを忠実に反映したフィードバックを生成することができる。 これにより、既存のCRS研究の信頼性評価が促進され、高品質な会話レコメンデーションデータセットの作成が促進される。

Conversational Recommender System (CRS) leverages real-time feedback from users to dynamically model their preferences, thereby enhancing the system's ability to provide personalized recommendations and improving the overall user experience. CRS has demonstrated significant promise, prompting researchers to concentrate their efforts on developing user simulators that are both more realistic and trustworthy. The emergence of Large Language Models (LLMs) has marked the onset of a new epoch in computational capabilities, exhibiting human-level intelligence in various tasks. Research efforts have been made to utilize LLMs for building user simulators to evaluate the performance of CRS. Although these efforts showcase innovation, they are accompanied by certain limitations. In this work, we introduce a Controllable, Scalable, and Human-Involved (CSHI) simulator framework that manages the behavior of user simulators across various stages via a plugin manager. CSHI customizes the simulation of user behavior and interactions to provide a more lifelike and convincing user interaction experience. Through experiments and case studies in two conversational recommendation scenarios, we show that our framework can adapt to a variety of conversational recommendation settings and effectively simulate users' personalized preferences. Consequently, our simulator is able to generate feedback that closely mirrors that of real users. This facilitates a reliable assessment of existing CRS studies and promotes the creation of high-quality conversational recommendation datasets.
翻訳日:2024-05-15 18:03:09 公開日:2024-05-13
# POWQMIX:協調的マルチエージェント強化学習のための潜在的に最適な関節行動認識を用いた重み付き値分解

POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.08036v1 )

ライセンス: Link先を確認
Chang Huang, Junqiao Zhao, Shatong Zhu, Hongtu Zhou, Chen Ye, Tiantian Feng, Changjun Jiang, (参考訳) 値関数分解法は協調型マルチエージェント強化学習において一般的に用いられ,QMIXは注目されている。 多くのQMIXベースの手法は、分散実行を実現するために、ジョイントアクション値と個別アクション値の間の単調性制約を導入する。 しかし、そのような制約は値分解の表現能力を制限し、それが表現できる共同アクション値を制限するとともに、最適なポリシーの学習を妨げる。 この課題に対処するために、潜在的に最適な関節動作を認識し、トレーニング中のこれらの関節動作の損失により高い重みを割り当てる、潜在的に最適な関節動作重み付きQMIX(POWQMIX)アルゴリズムを提案する。 このような重み付けされたトレーニングアプローチにより、最適ポリシーが回復されることを理論的に証明する。 行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。

Value function factorization methods are commonly used in cooperative multi-agent reinforcement learning, with QMIX receiving significant attention. Many QMIX-based methods introduce monotonicity constraints between the joint action value and individual action values to achieve decentralized execution. However, such constraints limit the representation capacity of value factorization, restricting the joint action values it can represent and hindering the learning of the optimal policy. To address this challenge, we propose the Potentially Optimal joint actions Weighted QMIX (POWQMIX) algorithm, which recognizes the potentially optimal joint actions and assigns higher weights to the corresponding losses of these joint actions during training. We theoretically prove that with such a weighted training approach the optimal policy is guaranteed to be recovered. Experiments in matrix games, predator-prey, and StarCraft II Multi-Agent Challenge environments demonstrate that our algorithm outperforms the state-of-the-art value-based multi-agent reinforcement learning methods.
翻訳日:2024-05-15 18:03:09 公開日:2024-05-13
# 大規模言語モデルを用いたレイアウト生成エージェント

Layout Generation Agents with Large Language Models ( http://arxiv.org/abs/2405.08037v1 )

ライセンス: Link先を確認
Yuichi Sasazawa, Yasuhiro Sogawa, (参考訳) 近年、カスタマイズ可能な3D仮想空間への需要が高まっている。 これらの仮想空間を作成するのに必要な人的労力が大きいため、仮想空間の作成には効率性が必要である。 既存の研究では,床計画や家具配置などのレイアウトを自動的に生成する手法が提案されているが,これらの手法は生成過程で得られた情報を活用することなく,ユーザ指示に基づいてレイアウト構造を示すテキストを生成するのみである。 本研究では,GPT-4Vマルチモーダル大言語モデルを用いたエージェント駆動レイアウト生成システムを提案し,その有効性を検証した。 具体的には、言語モデルはエージェントを操作して仮想空間にオブジェクトを順次配置することで、ユーザの指示を反映したレイアウトを生成する。 実験の結果,提案手法はユーザの指示を反映した仮想空間を高い成功率で生成できることを確認した。 さらに,アブレーション研究により,行動生成性能の向上に寄与する要素の同定に成功した。

In recent years, there has been an increasing demand for customizable 3D virtual spaces. Due to the significant human effort required to create these virtual spaces, there is a need for efficiency in virtual space creation. While existing studies have proposed methods for automatically generating layouts such as floor plans and furniture arrangements, these methods only generate text indicating the layout structure based on user instructions, without utilizing the information obtained during the generation process. In this study, we propose an agent-driven layout generation system using the GPT-4V multimodal large language model and validate its effectiveness. Specifically, the language model manipulates agents to sequentially place objects in the virtual space, thus generating layouts that reflect user instructions. Experimental results confirm that our proposed method can generate virtual spaces reflecting user instructions with a high success rate. Additionally, we successfully identified elements contributing to the improvement in behavior generation performance through ablation study.
翻訳日:2024-05-15 18:03:09 公開日:2024-05-13
# 授業増分学習における特徴拡張と圧縮強化

Feature Expansion and enhanced Compression for Class Incremental Learning ( http://arxiv.org/abs/2405.08038v1 )

ライセンス: Link先を確認
Quentin Ferdinand, Gilles Le Chenadec, Benoit Clement, Panagiotis Papadakis, Quentin Oliveau, (参考訳) クラスインクリメンタルラーニングは、時間とともに増加するクラスを分類するために差別モデルを訓練する。 しかし、新たに追加されたクラスデータのみを使用して行うと、以前のクラスを破滅的に忘れてしまうという既知の問題が発生する。 近年,動的深層学習アーキテクチャは,新しいクラスを学習するために,新しい特徴抽出器を動的に追加することにより,安定性と塑性のトレードオフが向上していることが示されている。 そこで本研究では,Rehearsal-CutMix法を用いて,従来のクラスサンプルのパッチを圧縮中に新しい画像に混入することにより,従来のクラス知識の圧縮を強化するアルゴリズムを提案する。 この新たなデータ拡張により,過去のクラス情報を特にターゲットとし,圧縮を改善することで,破滅的な忘れを低減できることを示す。 CIFARとImageNetのデータセットを多種多様な漸進的な学習評価プロトコルで実験した結果、我々のアプローチは最先端の.NETモデルよりも一貫して優れていることが示された。 コードは私たちの作品の公開時に公開されます。

Class incremental learning consists in training discriminative models to classify an increasing number of classes over time. However, doing so using only the newly added class data leads to the known problem of catastrophic forgetting of the previous classes. Recently, dynamic deep learning architectures have been shown to exhibit a better stability-plasticity trade-off by dynamically adding new feature extractors to the model in order to learn new classes followed by a compression step to scale the model back to its original size, thus avoiding a growing number of parameters. In this context, we propose a new algorithm that enhances the compression of previous class knowledge by cutting and mixing patches of previous class samples with the new images during compression using our Rehearsal-CutMix method. We show that this new data augmentation reduces catastrophic forgetting by specifically targeting past class information and improving its compression. Extensive experiments performed on the CIFAR and ImageNet datasets under diverse incremental learning evaluation protocols demonstrate that our approach consistently outperforms the state-of-the-art . The code will be made available upon publication of our work.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# DeepFMEA - プロセスエキスパートとデータ駆動PHMを調和させるスケーラブルなフレームワーク

DeepFMEA -- A Scalable Framework Harmonizing Process Expertise and Data-Driven PHM ( http://arxiv.org/abs/2405.08041v1 )

ライセンス: Link先を確認
Christoph Netsch, Till Schöpe, Benedikt Schindele, Joyam Jayakumar, (参考訳) 機械学習(ML)ベースの予後および健康モニタリング(PHM)ツールは、製造業者がリスク最適化された方法で機器を運用し、維持し、ライフサイクルに沿ってより持続的に活用する新たな機会を提供する。 しかし、ほとんどの産業環境では、データは量的に制限されることが多く、その品質は矛盾する可能性がある。 このギャップを埋めるために、成功する工業化PHMツールは、その解釈性を高めながら十分な正確な予測を可能にするために、事前のドメイン知識の導入に依存している。 このように、データ駆動型PHMツールを開発する際の重要な課題は、保守担当者、開発担当者、サービスエンジニアの経験とプロセス知識をデータ構造に変換することである。 この構造は、専門知識の多様性と多様性を捉えるだけでなく、様々なデータ駆動アルゴリズムでこの知識にアクセスできなければならない。 この結果、特定のアプリケーションと、開発チームが検出または予測することを目的とした障害モードに対して、大きく調整されたデータモデルが実現します。 標準化されたアプローチの欠如は、開発担当者の新たな障害モードへの拡張性、新しいアプリケーションへの移行可能性を制限するとともに、標準データ管理とMLOpsツールの利用を阻害し、開発チームの負担を増大させる。 DeepFMEAは、あらゆる技術的システムと結果の標準化されたデータモデルの分析に対する構造化されたアプローチにおいて、ドメインの専門家にとって直感的な方法でプロセスとメンテナンスの専門知識を捉え、結果として得られる情報をMLアルゴリズムの先行として導入する上で重要な側面を考慮しながら、FMEA(Failure Mode and Effects Analysis)からインスピレーションを得ている。

Machine Learning (ML) based prognostics and health monitoring (PHM) tools provide new opportunities for manufacturers to operate and maintain their equipment in a risk-optimized manner and utilize it more sustainably along its lifecycle. Yet, in most industrial settings, data is often limited in quantity, and its quality can be inconsistent - both critical for developing and operating reliable ML models. To bridge this gap in practice, successfully industrialized PHM tools rely on the introduction of domain expertise as a prior, to enable sufficiently accurate predictions, while enhancing their interpretability. Thus, a key challenge while developing data-driven PHM tools involves translating the experience and process knowledge of maintenance personnel, development, and service engineers into a data structure. This structure must not only capture the diversity and variability of the expertise but also render this knowledge accessible for various data-driven algorithms. This results in data models that are heavily tailored towards a specific application and the failure modes the development team aims to detect or predict. The lack of a standardized approach limits developments' extensibility to new failure modes, their transferability to new applications, and it inhibits the utilization of standard data management and MLOps tools, increasing the burden on the development team. DeepFMEA draws inspiration from the Failure Mode and Effects Analysis (FMEA) in its structured approach to the analysis of any technical system and the resulting standardized data model, while considering aspects that are crucial to capturing process and maintenance expertise in a way that is both intuitive to domain experts and the resulting information can be introduced as priors to ML algorithms.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# LLAniMation: LLAMA駆動ジェスチャーアニメーション

LLAniMAtion: LLAMA Driven Gesture Animation ( http://arxiv.org/abs/2405.08042v1 )

ライセンス: Link先を確認
Jonathan Windle, Iain Matthews, Sarah Taylor, (参考訳) 共同音声のジェスチャーは会話において重要なモダリティであり、文脈や社会的手がかりを提供する。 キャラクターアニメーションでは、適切なジェスチャーと同期ジェスチャがリアリズムを付加し、対話的なエージェントをより魅力的にすることができる。 歴史的に、ジェスチャーの自動生成方法は主に音声駆動であり、音声信号に符号化された韻律および音声関連コンテンツを利用する。 本稿では LLAMA2 を用いてテキストから抽出したジェスチャー生成に LLM 機能を利用する実験を行った。 音声特徴と比較し、目的テストとユーザスタディの両方において2つのモダリティを組み合わせることを検討する。 以上の結果から,LLAMA2は音声機能よりも優れており,両モードを含むと,単独でLLAMA2機能を使用する場合とでは有意な差は認められなかった。 LLAMA2ベースのモデルは、音声入力なしでビートとセマンティックジェスチャの両方を生成可能であることを実証し、ジェスチャー生成に適したリッチエンコーディングを提供できることを示唆する。

Co-speech gesturing is an important modality in conversation, providing context and social cues. In character animation, appropriate and synchronised gestures add realism, and can make interactive agents more engaging. Historically, methods for automatically generating gestures were predominantly audio-driven, exploiting the prosodic and speech-related content that is encoded in the audio signal. In this paper we instead experiment with using LLM features for gesture generation that are extracted from text using LLAMA2. We compare against audio features, and explore combining the two modalities in both objective tests and a user study. Surprisingly, our results show that LLAMA2 features on their own perform significantly better than audio features and that including both modalities yields no significant difference to using LLAMA2 features in isolation. We demonstrate that the LLAMA2 based model can generate both beat and semantic gestures without any audio input, suggesting LLMs can provide rich encodings that are well suited for gesture generation.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# HRNet:人間の移動データ合成のための個人的階層的・多解ネットワーク

HRNet: Differentially Private Hierarchical and Multi-Resolution Network for Human Mobility Data Synthesization ( http://arxiv.org/abs/2405.08043v1 )

ライセンス: Link先を確認
Shun Takagi, Li Xiong, Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa, (参考訳) 人間のモビリティデータは、都市計画やパンデミック対応など、多くのアプリケーションに貴重な洞察を提供するが、その使用はプライバシーの懸念も引き起こす。 本稿では, 現実的な人間の移動データを合成し, 差分プライバシーを確保しつつ, より深い生成モデルである階層・多解ネットワーク(HRNet)を紹介する。 まず、差分プライバシーの下で人間の移動データを学習する際の重要な困難を識別する。 これらの課題に対応するため、HRNetは、階層的なロケーションエンコーディング機構、複数の解像度にわたるマルチタスク学習、プライベート事前トレーニングの3つのコンポーネントを統合している。 これらの要素は、差分プライバシーの制約の下で、モデルの能力をまとめて強化する。 実世界のデータセットを使用した広範な比較実験を通じて、HRNetは、ユーティリティとプライバシのトレードオフのバランスをとる上で、既存の方法よりも顕著に改善されていることを実証している。

Human mobility data offers valuable insights for many applications such as urban planning and pandemic response, but its use also raises privacy concerns. In this paper, we introduce the Hierarchical and Multi-Resolution Network (HRNet), a novel deep generative model specifically designed to synthesize realistic human mobility data while guaranteeing differential privacy. We first identify the key difficulties inherent in learning human mobility data under differential privacy. In response to these challenges, HRNet integrates three components: a hierarchical location encoding mechanism, multi-task learning across multiple resolutions, and private pre-training. These elements collectively enhance the model's ability under the constraints of differential privacy. Through extensive comparative experiments utilizing a real-world dataset, HRNet demonstrates a marked improvement over existing methods in balancing the utility-privacy trade-off.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# ランダムアグリゲーションによるフェデレーション・コントリビューションの不安定化

Mitigating federated learning contribution allocation instability through randomized aggregation ( http://arxiv.org/abs/2405.08044v1 )

ライセンス: Link先を確認
Arno Geimer, Beltran Fiz, Radu State, (参考訳) Federated Learning(FL)は、堅牢なモデルの作成を可能にしながら、プライバシを保護するように設計された、新しいコラボレーティブ機械学習フレームワークである。 このパラダイムは、複数の参加者が個々のデータセットを公開せずにモデルにコントリビュートできるようにすることで、データセキュリティの必要性の増大に対処する。 しかし、この枠組みにおける重要な問題は、様々な参加者からの貢献の公正かつ正確な貢献と、共同グローバルモデルの作成に関するものである。 不正なコントリビューション分布は、参加者間の信頼を損なうことができ、不平等な報酬をもたらし、究極的には、当事者がフェデレーションに関与または積極的に貢献する意思を低下させる。 参加者に報酬を与える方法がいくつか提案されているが、コントリビューションの評価において、これらの手法の安定性の分析にはほとんど注意が払われていない。 本稿では,この安定性を,シェープリー値を用いた勾配モデル再構成手法によるコントリビューションの計算により解析する。 調査の結果,Shapleyの値は,特に異なるアグリゲーション技術を用いた場合,ベースラインのコントリビューションを反映できないことがわかった。 この問題に対処するため、より公平で分散した方法でコントリビューションをサンプリングするFedRandomを導入し、確立した集約手法を拡張した。 提案手法は, 有効な集約手法として機能するだけでなく, 従来の手法と比較して, コントリビューション評価の精度を大幅に向上することを示す。 その結果,FedRandomは,フェデレート学習システムの全体的公正性と安定性を高め,限られた参加者数でフェデレーションを選択できることが示唆された。

Federated learning (FL) is a novel collaborative machine learning framework designed to preserve privacy while enabling the creation of robust models. This paradigm addresses a growing need for data security by allowing multiple participants to contribute to a model without exposing their individual datasets. A pivotal issue within this framework, however, concerns the fair and accurate attribution of contributions from various participants to the creation of the joint global model. Incorrect contribution distribution can erode trust among participants, result in inequitable compensation, and ultimately diminish the willingness of parties to engage or actively contribute to the federation. While several methods for remunerating participants have been proposed, little attention was given to the analysis of the stability of these methods when evaluating contributions, which is critical to ensure the long-term viability and fairness of FL systems. In this paper, we analyse this stability through the calculation of contributions by gradient-based model reconstruction techniques with Shapley values. Our investigation reveals that Shapley values fail to reflect baseline contributions, especially when employing different aggregation techniques. To address this issue, we extend on established aggregation techniques by introducing FedRandom, which is designed to sample contributions in a more equitable and distributed manner. We demonstrate that this approach not only serves as a viable aggregation technique but also significantly improves the accuracy of contribution assessment compared to traditional methods. Our results suggest that FedRandom enhances the overall fairness and stability of the federated learning system, making it a superior choice for federations with limited number of participants.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 短期FOREX予測のためのニューラルネットワークアーキテクチャの比較解析

Comparative analysis of neural network architectures for short-term FOREX forecasting ( http://arxiv.org/abs/2405.08045v1 )

ライセンス: Link先を確認
Theodoros Zafeiriou, Dimitris Kalles, (参考訳) 本稿では、外国為替市場(FOREX)の短期周波数予測システムにおいて、様々なニューラルネットワークアーキテクチャの分析、設計、実装、ベンチマークについて述べる。 我々の目的は、市場状況の変化に迅速に対応し、短期的な取引戦略の最適化を可能にするシステムを用いて、人間専門家(技術アナリスト)の判断をシミュレートすることである。 我々は,LSTMニューラルネットワークアーキテクチャを設計,実装し,その実装に要する時間的・計算力の観点から,各アーキテクチャの適合性およびコストに関する有用な結論を得た。 ANNのカスタムアーキテクチャは、リソースが少なく、LSTMアーキテクチャよりも少ない時間で、高い感度で予測品質が得られる。 ANNのカスタムアーキテクチャは、低消費電力のコンピューティングシステムや、最小の計算コストで高速な決定を必要とするユースケースでの使用に最適であるように思われる。

The present document delineates the analysis, design, implementation, and benchmarking of various neural network architectures within a short-term frequency prediction system for the foreign exchange market (FOREX). Our aim is to simulate the judgment of the human expert (technical analyst) using a system that responds promptly to changes in market conditions, thus enabling the optimization of short-term trading strategies. We designed and implemented a series of LSTM neural network architectures which are taken as input the exchange rate values and generate the short-term market trend forecasting signal and an ANN custom architecture based on technical analysis indicator simulators We performed a comparative analysis of the results and came to useful conclusions regarding the suitability of each architecture and the cost in terms of time and computational power to implement them. The ANN custom architecture produces better prediction quality with higher sensitivity using fewer resources and spending less time than LSTM architectures. The ANN custom architecture appears to be ideal for use in low-power computing systems and for use cases that need fast decisions with the least possible computational cost.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 自律スパース平均CVaRポートフォリオ最適化

Autonomous Sparse Mean-CVaR Portfolio Optimization ( http://arxiv.org/abs/2405.08047v1 )

ライセンス: Link先を確認
Yizun Lin, Yangyu Zhang, Zhao-Rong Lai, Cheng Li, (参考訳) $\ell_0$-constrained mean-CVaR モデルは NP-hard の性質から大きな課題を生んでいる。 そこで我々は,従来の$\ell_0$-constrained mean-CVaRモデルを任意の精度で近似できる,革新的な自律スパース平均CVaRポートフォリオモデルを提案する。 中心となる考え方は、$\ell_0$制約をインジケータ関数に変換し、その後尾尾近似によって処理することだ。 そこで我々は,近似交互線形化最小化アルゴリズムとネストした固定点近接アルゴリズム(どちらも収束)を併用して,モデルを反復的に解く手法を提案する。 スパーシティにおける自律性とは、プールサイズの調整中に選択された資産プール内の資産のかなりの部分を保持することを指す。 その結果、理論上は$\ell_0$-constrained mean-CVaRモデルの近似が保証され、ロバストな資産選択スキームが提供され、計算効率が向上する。

The $\ell_0$-constrained mean-CVaR model poses a significant challenge due to its NP-hard nature, typically tackled through combinatorial methods characterized by high computational demands. From a markedly different perspective, we propose an innovative autonomous sparse mean-CVaR portfolio model, capable of approximating the original $\ell_0$-constrained mean-CVaR model with arbitrary accuracy. The core idea is to convert the $\ell_0$ constraint into an indicator function and subsequently handle it through a tailed approximation. We then propose a proximal alternating linearized minimization algorithm, coupled with a nested fixed-point proximity algorithm (both convergent), to iteratively solve the model. Autonomy in sparsity refers to retaining a significant portion of assets within the selected asset pool during adjustments in pool size. Consequently, our framework offers a theoretically guaranteed approximation of the $\ell_0$-constrained mean-CVaR model, improving computational efficiency while providing a robust asset selection scheme.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 乳腺癌腫瘍線条体における合成関連拡散像の最適化

Optimizing Synthetic Correlated Diffusion Imaging for Breast Cancer Tumour Delineation ( http://arxiv.org/abs/2405.08049v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Alexander Wong, (参考訳) 乳癌は、世界中の女性のがんによる死亡の重大な原因であり、患者の結果を改善するための診断画像の改善の必要性を強調している。 正確な腫瘍の同定は診断、治療、モニタリングに不可欠であり、腫瘍の特徴や疾患の詳細な見方を提供する高度な画像技術の重要性を強調している。 合成相関拡散イメージング (CDI$^s$) は, 最新のMRI画像と比較して, 前立腺癌の脱線化を約束する手法である。 そこで本稿では, 乳がん腫瘍に対するCDI$^s$の計算における係数の調整を, Nelder-Mead の単純な最適化手法を用いて, 受信部操作特性曲線 (AUC) の下での面積を最大化することによって検討する。 CDI$^s$ -Optimized modality によって最高の AUC が達成され,0.0044 で最高のゴールド標準モダリティを上回る結果が得られた。 特に、最適化されたCDI$^s$モダリティは、最適化されていないCDI$^s$値よりも0.02以上のAUC値を達成し、特定のがん応用に対するCDI$^s$指数を最適化することの重要性を示している。

Breast cancer is a significant cause of death from cancer in women globally, highlighting the need for improved diagnostic imaging to enhance patient outcomes. Accurate tumour identification is essential for diagnosis, treatment, and monitoring, emphasizing the importance of advanced imaging technologies that provide detailed views of tumour characteristics and disease. Synthetic correlated diffusion imaging (CDI$^s$) is a recent method that has shown promise for prostate cancer delineation compared to current MRI images. In this paper, we explore tuning the coefficients in the computation of CDI$^s$ for breast cancer tumour delineation by maximizing the area under the receiver operating characteristic curve (AUC) using a Nelder-Mead simplex optimization strategy. We show that the best AUC is achieved by the CDI$^s$ - Optimized modality, outperforming the best gold-standard modality by 0.0044. Notably, the optimized CDI$^s$ modality also achieves AUC values over 0.02 higher than the Unoptimized CDI$^s$ value, demonstrating the importance of optimizing the CDI$^s$ exponents for the specific cancer application.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 環境保全のための強化学習によるインテリジェント交通システムにおける無線資源管理と経路計画

Radio Resource Management and Path Planning in Intelligent Transportation Systems via Reinforcement Learning for Environmental Sustainability ( http://arxiv.org/abs/2405.08053v1 )

ライセンス: Link先を確認
S. Norouzi, N. Azarasa, M. R. Abedi, N. Mokari, S. E. Seyedabrishami, H. Saeedi, E. A. Jorswieck, (参考訳) 都市部における高効率かつダイナミックな経路計画は,移動時間の短縮とエネルギー消費の削減による環境保全に直接貢献するコネクテッドカー(CV)の密度の高い都市部において重要な課題となっている。 CVは、セルラー無線通信技術(C-V2X)を利用して、V2I(V2I)メッセージをベースステーション(BS)に分散し、都市道路の状況認識を改善する。 本稿では,情報(AoI)の年齢を最小化し,経路計画結果を向上するために,そのような枠組みにおける無線資源管理(RRM)について検討する。 AoI値が低いV2Iメッセージは、道路容量を推定し、より正確な経路計画を行う際のエラーを少なくする。 シミュレーションにより,道路走行時間と容量オーバーキャパシティ(V/C)をAoIの異なるレベルと比較し,提案フレームワークの有望な性能を示す。

Efficient and dynamic path planning has become an important topic for urban areas with larger density of connected vehicles (CV) which results in reduction of travel time and directly contributes to environmental sustainability through reducing energy consumption. CVs exploit the cellular wireless vehicle-to-everything (C-V2X) communication technology to disseminate the vehicle-to-infrastructure (V2I) messages to the Base-station (BS) to improve situation awareness on urban roads. In this paper, we investigate radio resource management (RRM) in such a framework to minimize the age of information (AoI) so as to enhance path planning results. We use the fact that V2I messages with lower AoI value result in less error in estimating the road capacity and more accurate path planning. Through simulations, we compare road travel times and volume over capacity (V/C) against different levels of AoI and demonstrate the promising performance of the proposed framework.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# Coin3D: Proxy-Guided Conditioningによる制御可能でインタラクティブな3Dアセット生成

Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning ( http://arxiv.org/abs/2405.08054v1 )

ライセンス: Link先を確認
Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui, (参考訳) 人間として、自由で自由にコントロールできるメディアコンテンツを作りたいと考えています。 生成技術の発達により、2次元拡散法を利用して生のスケッチや指定された人間のポーズによって制御された画像の合成や、マスクによる着色による局所の編集・再生も容易に行えるようになった。 しかし、3Dモデリングタスクにおける同様のワークフローは、3D生成における制御性や効率性の欠如のため、まだ利用できない。 本稿では,Coin3Dという新しい制御可能なインタラクティブな3Dアセットモデリングフレームワークを提案する。 Coin3Dは、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使用して3D生成を制御することができ、インタラクティブな生成ワークフローを導入し、シームレスなローカル部分編集をサポートし、応答性のある3Dオブジェクトのプレビューを数秒で提供できる。 この目的のために、拡散モデルに体積粗い形状制御を適用する3Dアダプタ、精密部分編集のためのプロキシ境界編集戦略、応答性プレビューをサポートするプログレッシブボリュームキャッシュ、一貫したメッシュ再構成を保証するボリュームSDSなどを開発した。 多様な形状のプロキシ上でのインタラクティブな生成と編集の広範囲な実験により,本手法は3次元アセット生成タスクにおいて,制御性と柔軟性に優れることを示した。

As humans, we aspire to create media content that is both freely willed and readily controlled. Thanks to the prominent development of generative techniques, we now can easily utilize 2D diffusion methods to synthesize images controlled by raw sketch or designated human poses, and even progressively edit/regenerate local regions with masked inpainting. However, similar workflows in 3D modeling tasks are still unavailable due to the lack of controllability and efficiency in 3D generation. In this paper, we present a novel controllable and interactive 3D assets modeling framework, named Coin3D. Coin3D allows users to control the 3D generation using a coarse geometry proxy assembled from basic shapes, and introduces an interactive generation workflow to support seamless local part editing while delivering responsive 3D object previewing within a few seconds. To this end, we develop several techniques, including the 3D adapter that applies volumetric coarse shape control to the diffusion model, proxy-bounded editing strategy for precise part editing, progressive volume cache to support responsive preview, and volume-SDS to ensure consistent mesh reconstruction. Extensive experiments of interactive generation and editing on diverse shape proxies demonstrate that our method achieves superior controllability and flexibility in the 3D assets generation task.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# DiffTF++:大語彙3D生成のための3D対応拡散変換器

DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation ( http://arxiv.org/abs/2405.08055v1 )

ライセンス: Link先を確認
Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu, (参考訳) 多様な高品質な3Dアセットの生成は、自動的に3Dコンピュータビジョンの基本的な課題となる。 3D生成に多大な努力を払っているにも関わらず、既存の最適化ベースのアプローチは、大規模な3Dアセットを効率的に生産するのに苦労している。 一方、フィードフォワード法は、1つのカテゴリまたはいくつかのカテゴリだけを生成することに集中し、その一般化性を制限する。 そこで本研究では,これらの課題に単一モデルで対処するための拡散型フィードフォワードフレームワークを提案する。 カテゴリー間の幾何学・テクスチャの多様性と複雑さを効果的に扱えるためには 1) 効率性を確保するために改良型三葉機を採用する。 2) 一般化された3D知識を専門的な3D特徴で集約する3D対応トランスフォーマーを導入する。 3)汎用的な3D知識を高めるために,3D対応エンコーダ/デコーダを考案する。 そこで我々は,TransFormer,DiffTFを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。 これは、多面的な再構築損失と三面体の改良という2つの部分に分けられる。 具体的には,多視点再構成損失を利用して拡散モデルとトリプレーンデコーダを微調整し,再構成誤差による負の影響を回避し,テクスチャ合成を改善する。 2つのステージ間のミスマッチを除去することにより、特にテクスチャにおいて、生成性能が向上する。 さらに、アーティファクトをろ過し、トリプレーンを精錬するために、3D対応の精錬プロセスが導入され、より複雑で合理的な細部が生成される。 ShapeNetとOmniObject3Dの大規模な実験は、提案するモジュールの有効性と、多種多様なリッチセマンティクスと高品質な最先端の3Dオブジェクト生成性能を確実に実証している。

Generating diverse and high-quality 3D assets automatically poses a fundamental yet challenging task in 3D computer vision. Despite extensive efforts in 3D generation, existing optimization-based approaches struggle to produce large-scale 3D assets efficiently. Meanwhile, feed-forward methods often focus on generating only a single category or a few categories, limiting their generalizability. Therefore, we introduce a diffusion-based feed-forward framework to address these challenges with a single model. To handle the large diversity and complexity in geometry and texture across categories efficiently, we 1) adopt improved triplane to guarantee efficiency; 2) introduce the 3D-aware transformer to aggregate the generalized 3D knowledge with specialized 3D features; and 3) devise the 3D-aware encoder/decoder to enhance the generalized 3D knowledge. Building upon our 3D-aware Diffusion model with TransFormer, DiffTF, we propose a stronger version for 3D generation, i.e., DiffTF++. It boils down to two parts: multi-view reconstruction loss and triplane refinement. Specifically, we utilize multi-view reconstruction loss to fine-tune the diffusion model and triplane decoder, thereby avoiding the negative influence caused by reconstruction errors and improving texture synthesis. By eliminating the mismatch between the two stages, the generative performance is enhanced, especially in texture. Additionally, a 3D-aware refinement process is introduced to filter out artifacts and refine triplanes, resulting in the generation of more intricate and reasonable details. Extensive experiments on ShapeNet and OmniObject3D convincingly demonstrate the effectiveness of our proposed modules and the state-of-the-art 3D object generation performance with large diversity, rich semantics, and high quality.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 粒子散乱における絡み合いエントロピーの領域法則

An Area Law for Entanglement Entropy in Particle Scattering ( http://arxiv.org/abs/2405.08056v1 )

ライセンス: Link先を確認
Ian Low, Zhewei Yin, (参考訳) 散乱断面積は、2つの粒子が衝突するときの衝突の有効面積である。 量子力学的には、特定のプロセスが実行される確率の尺度である。 散乱過程を記述するためにウェーブパケットを用いることで、2-to-2粒子散乱における絡み合いエントロピーを、S$-行列形式を用いて一般設定で計算する。 光学定理を適用すると、線形エントロピー $\mathcal{E}_2$ は、初期状態が絡み合っていないとき、逆サイズ $L^2$, $\mathcal{E}_2 \sim \sigma_{\text{el}}/L^2$ の弾性断面 $\sigma_{\text{el}}$ で与えられることを示す。 その結果、絡み合いエントロピーを領域として、そして確率として二重解釈することができる。 $\sqrt{s}$は高エネルギー状態において衝突エネルギー$\sqrt{s}$で成長するために一般的に信じられ、実験的に観察されるので、この結果は高エネルギー衝突に対する絡み合いエントロピーの「第二法則」を示唆している。 さらに、フロワサート境界はエントロピー成長の上限となる。

The scattering cross section is the effective area of collision when two particles collide. Quantum mechanically, it is a measure of the probability for a specific process to take place. Employing wave packets to describe the scattering process, we compute the entanglement entropy in 2-to-2 scattering of particles in a general setting using the $S$-matrix formalism. Applying the optical theorem, we show that the linear entropy $\mathcal{E}_2$ is given by the elastic cross section $\sigma_{\text{el}}$ in unit of the transverse size $L^2$ of the wave packet, $\mathcal{E}_2 \sim \sigma_{\text{el}}/L^2$, when the initial states are not entangled. The result allows for dual interpretations of the entanglement entropy as an area and as a probability. Since $\sigma_{\text{el}}$ is generally believed, and observed experimentally, to grow with the collision energy $\sqrt{s}$ in the high energy regime, the result suggests a "second law" of entanglement entropy for high energy collisions. Furthermore, the Froissart bound places an upper limit on the entropy growth.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 量子重ね合わせの直接的かつ効率的な検出

Direct and Efficient Detection of Quantum Superposition ( http://arxiv.org/abs/2405.08065v1 )

ライセンス: Link先を確認
Daniel Kun, Teodor Strömberg, Michele Spagnolo, Borivoje Dakić, Lee A. Rozema, Philip Walther, (参考訳) 最も顕著な量子現象の1つは重ね合わせであり、1つの粒子が異なる状態に同時に居住する。 コヒーレント重ね合わせを検証するほとんどの方法は間接的であり、異なる状態を再結合する必要がある。 ここでは、分割されたパーティが重ね合わせ粒子の異なる部分を測り、それを \textit{local measured} と 2 番目の独立粒子で重ね合わせを検証する XOR ゲームを適用する。 そして、このゲームを資源効率の検証スキームに変換し、素粒子が重畳されて指数関数的に高速に一意に近づくという自信を得る。 単一光子を用いて本手法を実証し, 粒子が37個のコピーで重畳されるという99%の信頼を得た。 我々の研究は、量子リソースを検証するためのXORゲームの有用性を示し、重畳された状態を再干渉することなく、量子スーパーポジションを効率的に検出することを可能にする。

One of the most striking quantum phenomena is superposition, where one particle simultaneously inhabits different states. Most methods to verify coherent superposition are indirect, in that they require the distinct states to be recombined. Here, we adapt an XOR game, in which separated parties measure different parts of a superposed particle, and use it to verify superpositions with \textit{local measurements} and a second independent particle. We then turn this game into a resource-efficient verification scheme, obtaining a confidence that the particle is superposed which approaches unity exponentially fast. We demonstrate our scheme using a single photon, obtaining a 99\% confidence that the particle is superposed with only 37 copies. Our work shows the utility of XOR games to verify quantum resources, allowing us to efficiently detect quantum superposition without reinterfering the superposed states.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# ゾーンニュートラル原子構造上の論理的エンタングゲートの抽象モデルと効率的なルーティング

An Abstract Model and Efficient Routing for Logical Entangling Gates on Zoned Neutral Atom Architectures ( http://arxiv.org/abs/2405.08068v1 )

ライセンス: Link先を確認
Yannick Stade, Ludwig Schmid, Lukas Burgholzer, Robert Wille, (参考訳) 最近の実験的成果は、フォールトトレラント量子コンピューティングにおける中性原子アーキテクチャの可能性を示している。 これらのアーキテクチャは、計算中の原子の動的再構成を特徴とし、ほぼ任意の2次元再構成を可能にする。 さらに、エンタング、ストレージ、読み取りのための専用リージョンを備えたゾーンレイアウトを採用している。 このアーキテクチャは、このハードウェアに量子回路を効率的にコンパイルし、正しいタイミングで原子が正しい位置にあることを注意する設計自動化ソフトウェアを必要とする。 本稿では,(1)新しいアーキテクチャの抽象モデルを提供し,(2)絡み合うゲートのルーティング問題に対する効率的な解法を提供することにより,この一連の作業を開始する。 これにより、密閉ゲートの並列性の最大化と、ゾーン間の原子のルーティングによるオーバーヘッドの最小化を目指す。 さらに、フォールトトレラント量子コンピューティングの領域を念頭に置き、論理量子ビット配列を1つの論理量子ビットを符号化する。 提案手法を NALAC というツールとして実装し,提案手法の有効性と効率性を示した。 ミュンヘン量子ツールキット(MQT)の一部として、NAACはhttps://github.com/cda-tum/mqt-qmapでオープンソースとして公開されている。

Recent experimental achievements have demonstrated the potential of neutral atom architectures for fault-tolerant quantum computing. These architectures feature the dynamic rearrangement of atoms during computation, enabling nearly arbitrary two-dimensional rearrangements. Additionally, they employ a zoned layout with dedicated regions for entangling, storage, and readout. This architecture requires design automation software that efficiently compiles quantum circuits to this hardware and takes care that atoms are in the right place at the right time. In this paper, we initiate this line of work by providing, (1) an abstract model of the novel architecture and, (2) an efficient solution to the routing problem of entangling gates. By this, we aim to maximize the parallelism of entangling gates and minimize the overhead caused by the routing of atoms between zones. In addition to that, we keep the realm of fault-tolerant quantum computing in mind and consider logical qubit arrays, each of which encodes one logical qubit. We implemented the proposed idea as a tool called NALAC and demonstrated its effectiveness and efficiency by showing that it can significantly reduce the routing overhead of logical entangling gates compared to the naive approach. As part of the Munich Quantum Toolkit (MQT), NALAC is publicly available as open-source at https://github.com/cda-tum/mqt-qmap.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# PrivFED -- 乳がんの早期診断におけるプライバシ保護のためのフェデレーションラーニングフレームワーク

PrivFED -- A Framework for Privacy-Preserving Federated Learning in Enhanced Breast Cancer Diagnosis ( http://arxiv.org/abs/2405.08084v1 )

ライセンス: Link先を確認
Maithili Jha, S. Maitri, M. Lohithdakshan, Shiny Duela J, K. Raja, (参考訳) 医療機関の日々の業務では、PII(Personally Identible Information)データ交換が多数発生し、そのデータがサイバーセキュリティの脅威に晒される。 本研究では、ウィスコンシンデータセットに基づいてトレーニングされたフェデレーション学習フレームワークを導入し、データの不足や不均衡といった課題を軽減する。 SMOTE (Synthetic Minority Over-Sampling Technique) のような技術はロバスト性を高めるために組み込まれており、孤立林はオフリージに対するモデル強化のために使用されている。 Catboostは、すべてのデバイスにまたがる分類ツールである。 主成分分析 (PCA) により, 最適特徴の同定を追究し, ハイパーパラメータチューニングの重要性を, 比較分析で強調した。 このモデルの平均精度はエッジデバイスで99.95%、中央サーバで98%である。

In the day-to-day operations of healthcare institutions, a multitude of Personally Identifiable Information (PII) data exchanges occur, exposing the data to a spectrum of cybersecurity threats. This study introduces a federated learning framework, trained on the Wisconsin dataset, to mitigate challenges such as data scarcity and imbalance. Techniques like the Synthetic Minority Over-sampling Technique (SMOTE) are incorporated to bolster robustness, while isolation forests are employed to fortify the model against outliers. Catboost serves as the classification tool across all devices. The identification of optimal features for heightened accuracy is pursued through Principal Component Analysis (PCA),accentuating the significance of hyperparameter tuning, as underscored in a comparative analysis. The model exhibits an average accuracy of 99.95% on edge devices and 98% on the central server.
翻訳日:2024-05-15 16:06:44 公開日:2024-05-13
# 光媒体における量子ヘリシティ

Quantised helicity in optical media ( http://arxiv.org/abs/2405.08086v1 )

ライセンス: Link先を確認
Neel Mackinnon, Jörg B. Götte, Stephen M. Barnett, Niclas Westerberg, (参考訳) 光ヘリシティは光のハンドネスを定量化し、光とキラル物質の相互作用の記述において中心的な役割を果たす。 自由空間では、電磁場の双対対称性(電磁場と磁場の交換の下でマクスウェル方程式の不等式をカプセル化する連続対称性)に関係している。 しかし、材料においては、自由空間変換は$\mathbf{E}$/$\mathbf{H}$と$\mathbf{D}$/$\mathbf{B}$フィールド対の混合を含むように拡張されなければならないので、状況はそれほど単純ではない。 $\mathbf{E}$/$\mathbf{H}$ と $\mathbf{D}$/$\mathbf{B}$ の同時直交は、線形構成的関係の存在とは相容れない。 本研究では、この不整合を解消する方法で双対変換を拡張し、分散性、損失性、キラル性、非相互性を持つ一般的な媒体における光学ヘリシティを定義する。 ヘリシティ密度は、物質の偏極と磁化に関連する明示的な寄与を含まなければならないことを示し、この物質寄与の形式は媒体の細部とは無関係であることを示す。 また,本システムの基本量子化励起の観点から,インジウムヘリシティが自然に表現できることも示している。

Optical helicity quantifies the handedness of light, and plays a central role in the description of interactions between light and chiral matter. In free space, it is related to the duality symmetry of the electromagnetic field, a continuous symmetry encapsulating the invariance of Maxwell's equations under the interchange of electric and magnetic fields. However, in materials the situation is not so straightforward, as the free space transformation must be extended to encompass mixing of both the $\mathbf{E}$/$\mathbf{H}$ and $\mathbf{D}$/$\mathbf{B}$ field pairs. The simultaneous direct interchange of $\mathbf{E}$/$\mathbf{H}$ and of $\mathbf{D}$/$\mathbf{B}$ is incompatible with the presence of linear constitutive relations. In this work, we extend the duality transform in a way that resolves this incompatibility, and use this to define the optical helicity in a general medium, which may be dispersive, lossy, chiral or nonreciprocal. We find that the helicity density must contain an explicit contribution associated with the polarisation and magnetisation of the matter, and we show that the form of this matter contribution is independent of the details of the medium. We also show that the in-medium helicity can be naturally expressed in terms of the elementary quantised excitations of the system.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# NOON状態を用いたツイーザー干渉法

Tweezer interferometry with NOON states ( http://arxiv.org/abs/2405.08088v1 )

ライセンス: Link先を確認
Yehoshua Winsten, Doron Cohen, Yoav Sagi, (参考訳) 原子干渉計は例外的な精度で経路に沿って位相差を測定する。 Tweezer Interferometryは、このタスクを実行するための新しいアプローチである。 事前に定義された軌道に沿って粒子を誘導することができる。 ツイーザー干渉計における凝縮ボソンの適用可能性について検討する。 係数 $\sqrt{N}$ enhancement with ${N \sim 100}$ fermions とは対照的に、ここでは係数 ${N}$ enhancement using NOON state interferometry を期待する。 提案プロトコルは, 断熱分裂とマージ, 続いて凝縮ボソンの断熱分岐を含む。 後者の目的は位相符号化である。 自発的対称性の破れは避けるべきである。 これらのスイーププロセスの実行に必要な時間を見積もる。

Atomic interferometers measure phase differences along paths with exceptional precision. Tweezer interferometry is a novel approach for performing this task. It allows to guide the particles along pre-defined trajectories. We explore the feasibility of using condensed bosons in tweezer interferometry. As opposed to factor $\sqrt{N}$ enhancement with ${N \sim 100}$ fermions, here we expect factor ${N}$ enhancement using NOON state interferometry. The proposed protocol involves adiabatic splitting and merging, followed by adiabatic branching of condensed bosons. The purpose of the latter step is phase encoding. Spontaneous symmetry breaking should be avoided. We estimate the time that is required for performing those sweep processes.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# Bitcoin価格予測の比較研究

Comparative Study of Bitcoin Price Prediction ( http://arxiv.org/abs/2405.08089v1 )

ライセンス: Link先を確認
Ali Mohammadjafari, (参考訳) 特にビットコインのような非常に不安定なデジタル通貨の場合、株価の予測は極めて重要かつ困難な課題となっている。 本研究は、Bitcoinの価格変動を予測するために、LSTMやGRUといったニューラルネットワークモデルを使用することの可能性を検討する。 一般化を高めるために5倍のクロスバリデーションを使用し、L2正規化を利用して過度な適合とノイズを低減する。 我々の研究は、GRUsモデルがBitcoinの価格を予測するLSTMモデルよりも精度が高いことを示した。 具体的には、GRUモデルは4.67MSE、LSTMモデルはテストセットの実際の価格と比較すると6.25MSEである。 この結果は、GRUモデルは、Bitcoin価格などの金融時系列データの特徴である長期依存を伴うシーケンシャルデータを処理するのに適していることを示している。 要約して、我々は、正確なBitcoin価格予測のためのニューラルネットワークモデルの可能性についての貴重な洞察を提供し、モデル性能を高めるために適切な正規化技術を採用することの重要性を強調した。

Prediction of stock prices has been a crucial and challenging task, especially in the case of highly volatile digital currencies such as Bitcoin. This research examineS the potential of using neural network models, namely LSTMs and GRUs, to forecast Bitcoin's price movements. We employ five-fold cross-validation to enhance generalization and utilize L2 regularization to reduce overfitting and noise. Our study demonstrates that the GRUs models offer better accuracy than LSTMs model for predicting Bitcoin's price. Specifically, the GRU model has an MSE of 4.67, while the LSTM model has an MSE of 6.25 when compared to the actual prices in the test set data. This finding indicates that GRU models are better equipped to process sequential data with long-term dependencies, a characteristic of financial time series data such as Bitcoin prices. In summary, our results provide valuable insights into the potential of neural network models for accurate Bitcoin price prediction and emphasize the importance of employing appropriate regularization techniques to enhance model performance.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 室温およびテレコム波長におけるキャビティ強化光子不識別性

Cavity-enhanced photon indistinguishability at room temperature and telecom wavelengths ( http://arxiv.org/abs/2405.08091v1 )

ライセンス: Link先を確認
Lukas Husel, Julian Trapp, Johannes Scherzer, Xiaojian Wu, Peng Wang, Jacob Fortner, Manuel Nutz, Thomas Hümmer, Borislav Polovnikov, Michael Förg, David Hunger, YuHuang Wang, Alexander Högele, (参考訳) 光ファイバの通信帯域における識別不可能な単一光子は、長距離量子通信には不可欠である。 固体単光子エミッタは、主要なベンチマークにおいて優れた性能を達成しているが、室温での識別不可能性の実証は依然として大きな課題である。 そこで本研究では,不整合性良好な空洞結合状態下で動作する繊維系マイクロキャビティにおける,個々のナノチューブ欠陥からのテレコム波長における室温光子の不均一性について報告する。 結合システムの効率はスペクトルや時間的フィルタリングよりも優れており、光子の不識別性は自由空間限界に比べて2桁以上増大する。 本結果は,最適化された非古典的光源を実現するための有望な戦略を強調した。

Indistinguishable single photons in the telecom-bandwidth of optical fibers are indispensable for long-distance quantum communication. Solid-state single photon emitters have achieved excellent performance in key benchmarks, however, the demonstration of indistinguishability at room-temperature remains a major challenge. Here, we report room-temperature photon indistinguishability at telecom wavelengths from individual nanotube defects in a fiber-based microcavity operated in the regime of incoherent good cavity-coupling. The efficiency of the coupled system outperforms spectral or temporal filtering, and the photon indistinguishability is increased by more than two orders of magnitude compared to the free-space limit. Our results highlight a promising strategy to attain optimized non-classical light sources.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# グリーン関数零点の大域的異常

Global anomalies of Green's function zeros ( http://arxiv.org/abs/2405.08093v1 )

ライセンス: Link先を確認
Lei Su, Ivar Martin, (参考訳) 異常解析は、何十年もの間、非摂動物理学の研究において重要かつ強力なツールであった。 異常流入機構は、トポロジカルシステムにおけるバルク境界対応の直感的な解釈を提供する。 本研究では、対称性を保ったルッティンガー曲面を持つ系の大域的異常、すなわち、零エネルギーにおける運動量空間におけるフェルミオングリーンの函数 0 の多様体について、非局所有効理論によって記述する。 我々は、非局所的な有効理論は、いくつかの低エネルギー状態を統合する結果であると考えている。 積分された状態が異常に余分な寄与をしないと仮定すると、最も単純なラグランジアンがギャップのないディラックゼロと2極の変種、それらの大域的な異常、およびバルク境界対応を記述する。 次に、非フェルミ液体やルッティンガー面上の創発的隙間のない準粒子など、ディラック型のグリーン関数ゼロの可能な位相上の制約について考察する。 また、Golterman と Shamir (arXiv: 2311.12790) によって議論された非局所フェルミオン効果理論が対称的にギャップされた位相の出発点に適さない理由についてもいくつかの見解を述べる。

Anomaly analysis has been an important and powerful tool in studying nonperturbative physics for decades. The anomaly inflow mechanism provides an intuitive interpretation of the bulk-boundary correspondence in topological systems. In this work, we study global anomalies in systems with symmetry-preserving Luttinger surfaces, i.e. the manifolds of fermionic Green's function zeros in the momentum space at zero energy, described by nonlocal effective theories. We view the nonlocal effective theories as a result of integrating out some low energy states. Assuming that the states integrated out do not make extra contributions to the anomalies, we discuss the simplest Lagrangian describing a gapless Dirac zero and a two-pole variant, their global anomalies, and the bulk-boundary correspondence. We then consider the constraints on possible phases with Green's function zeros of Dirac type, such as non-Fermi liquids and emergent gapless quasiparticles on Luttinger surfaces. We also provide some perspectives on why the nonlocal fermionic effective theory discussed by Golterman and Shamir (arXiv: 2311.12790) is not a suitable starting point for a symmetrically gapped phase.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 非ユークリッド計量によるヒルベルト空間における部分系の定義

Defining subsystems in Hilbert spaces with non-Euclidean metric ( http://arxiv.org/abs/2405.08095v1 )

ライセンス: Link先を確認
Himanshu Badhani, Sibasish Ghosh, (参考訳) 擬エルミート量子力学が正規量子力学の自明な拡張であることはよく証明されている。 いわゆる計量作用素によって定義される修正内積空間は、利得と損失の均衡を含むような特定の現象を表現する最も自然な方法であることが判明した。 しかし、擬エルミート的進化を経る合成系では、計量作用素がテンソル積を持つように選択された場合にのみ、部分系を定義することは一般に可能と考えられる。 本研究では、計量がテンソル積形式であるか否かに関わらず、すべての距離空間において部分系が十分に定義可能であることを示すために、代数量子力学からの引数を用いる。 これは、基底代数を部分代数に分解した部分系を同定することによってなされる。 実際、基礎となる$C^*-$algebraの異なる分解は、計量作用素の異なる同値類の選択に対応することを示す。 このように定義された各サブシステムは、トモグラフィ的に構築可能であり、これらのサブシステムは、符号付けの原則を満たすことを示す。 したがって、計量のすべての選択を等しい足場に配置する。

It is well established that pseudo-Hermitian quantum mechanics is a trivial extension of regular quantum mechanics. The modified inner-product space defined through the so-called metric operator, turns out to be the most natural way to represent certain phenomena such as those involving balanced gain and loss. However, for composite systems undergoing pseudo-Hermitian evolution, defining the subsystems is generally considered feasible only when the metric operator is chosen to have a tensor product. In this work, we use arguments from algebraic quantum mechanics to show that the subsystems can be well-defined in every metric space -- irrespective of whether or not the metric is of tensor product form. This is done by identifying subsystems with a decomposition of the underlying algebra into sub-algebras. In fact, we show that different decompositions of the underlying $C^*-$algebra correspond to choosing different equivalence classes of metric operators. We show how each of the subsystems, defined this way, can be tomographically constructed and that these subsystems satisfy the no-signaling principle. Therefore, we put all the choices of the metric on an equal footing.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 対称行列と点雲上の軽量不変性による学習関数

Learning functions on symmetric matrices and point clouds via lightweight invariant features ( http://arxiv.org/abs/2405.08097v1 )

ライセンス: Link先を確認
Ben Blum-Smith, Ningyuan, Huang, Marco Cuturi, Soledad Villar, (参考訳) 本研究では,(1)共役による置換の作用に関して不変な対称行列上の関数と(2)点の回転,反射,置換に関して不変な点雲上の関数の数学的定式化について述べる。 これを達成するために、列と列の共役置換の下で不変である$n\times n$対称行列上の有理関数体に対する生成元から導かれる$O(n^2)$不変な特徴を構成する。 これらの不変性は、測度ゼロ集合を除いて対称行列のすべての異なる軌道を分離することができることを示し、そのような特徴は、ほぼすべての重み付きグラフ上の不変函数を普遍的に近似することができる。 固定次元の点雲に対して、不変な特徴の数は、表現性を失うことなく、一般には$O(n)$に還元され、$n$は点の数である。 これらの不変機能をDeepSetsと組み合わせて、対称行列と様々な大きさの点雲上の関数を学習する。 分子特性の回帰と点雲距離予測におけるアプローチの有効性を実証的に実証した。

In this work, we present a mathematical formulation for machine learning of (1) functions on symmetric matrices that are invariant with respect to the action of permutations by conjugation, and (2) functions on point clouds that are invariant with respect to rotations, reflections, and permutations of the points. To achieve this, we construct $O(n^2)$ invariant features derived from generators for the field of rational functions on $n\times n$ symmetric matrices that are invariant under joint permutations of rows and columns. We show that these invariant features can separate all distinct orbits of symmetric matrices except for a measure zero set; such features can be used to universally approximate invariant functions on almost all weighted graphs. For point clouds in a fixed dimension, we prove that the number of invariant features can be reduced, generically without losing expressivity, to $O(n)$, where $n$ is the number of points. We combine these invariant features with DeepSets to learn functions on symmetric matrices and point clouds with varying sizes. We empirically demonstrate the feasibility of our approach on molecule property regression and point cloud distance prediction.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# KET-QA: 知識に富んだ質問応答のためのデータセット

KET-QA: A Dataset for Knowledge Enhanced Table Question Answering ( http://arxiv.org/abs/2405.08099v1 )

ライセンス: Link先を確認
Mengkang Hu, Haoyu Dong, Ping Luo, Shi Han, Dongmei Zhang, (参考訳) テーブルの簡潔で構造化された性質のため、それに含まれる知識は不完全あるいは欠落しており、テーブル質問応答(TableQA)やデータ分析システムにとって重要な課題となっている。 既存のデータセットのほとんどは、テーブルQAの外部知識の問題に対処できないか、あるいはテーブルの補足情報として構造化されていないテキストのみを使用する。 本稿では,TableQAの外部知識源として知識ベース(KB)を用い,詳細なゴールドエビデンスアノテーションを備えたデータセットKET-QAを構築することを提案する。 データセットの各テーブルはKB全体のサブグラフに対応しており、各質問にはテーブルとサブグラフの両方からの情報を統合する必要がある。 膨大な知識サブグラフから関連する情報を抽出し、それをTableQAに適用するために、検索器・リアゾンダ構成パイプラインモデルを設計する。 実験の結果,従来のテーブルQA方式のテーブル情報にのみ依存するのに比べ,EMスコアの1.9倍から6.5倍,絶対的な11.66%から44.64%という3つの異なる設定(微調整,ゼロショット,少数ショット)において,優れた相対的性能向上を実現していることがわかった。 しかし、最高のモデルでさえも60.23%のEMスコアを達成しており、これは人間レベルのパフォーマンスに遅れを取っており、質問に答えるコミュニティにとってKET-QAの挑戦的な性質を浮き彫りにしている。 また、モデルを改善する側面をさらに分析するために、エラー事例の人間による評価も提供する。 プロジェクトページ: https://ketqa.github.io/.com

Due to the concise and structured nature of tables, the knowledge contained therein may be incomplete or missing, posing a significant challenge for table question answering (TableQA) and data analysis systems. Most existing datasets either fail to address the issue of external knowledge in TableQA or only utilize unstructured text as supplementary information for tables. In this paper, we propose to use a knowledge base (KB) as the external knowledge source for TableQA and construct a dataset KET-QA with fine-grained gold evidence annotation. Each table in the dataset corresponds to a sub-graph of the entire KB, and every question requires the integration of information from both the table and the sub-graph to be answered. To extract pertinent information from the vast knowledge sub-graph and apply it to TableQA, we design a retriever-reasoner structured pipeline model. Experimental results demonstrate that our model consistently achieves remarkable relative performance improvements ranging from 1.9 to 6.5 times and absolute improvements of 11.66% to 44.64% on EM scores across three distinct settings (fine-tuning, zero-shot, and few-shot), in comparison with solely relying on table information in the traditional TableQA manner. However, even the best model achieves a 60.23% EM score, which still lags behind the human-level performance, highlighting the challenging nature of KET-QA for the question-answering community. We also provide a human evaluation of error cases to analyze further the aspects in which the model can be improved. Project page: https://ketqa.github.io/.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# パラメータ化量子回路表現性推定のためのグラフニューラルネットワーク

Graph Neural Networks for Parameterized Quantum Circuits Expressibility Estimation ( http://arxiv.org/abs/2405.08100v1 )

ライセンス: Link先を確認
Shamminuj Aktar, Andreas Bärtschi, Diane Oyen, Stephan Eidenbenz, Abdel-Hameed A. Badawy, (参考訳) 量子化量子回路(PQC)は量子機械学習(QML)、量子最適化、変分量子アルゴリズム(VQAs)の基本である。 PQCの表現可能性(英: expressibility of PQCs)は、量子状態空間の全ポテンシャルを利用する能力を決定する尺度である。 したがって、特定のPQCアンザッツを選択する際には、重要なガイドポストとなる。 しかし、統計的推定による表現可能性計算には多くのサンプルが必要であるため、時間や計算資源の制約により大きな課題が生じる。 本稿では,グラフニューラルネットワーク(GNN)を用いたPQCの表現可能性推定手法を提案する。 我々は、ノイズのないIBM QASMシミュレータから25,000のサンプルと、3つのノイズの多い量子バックエンドから12,000のサンプルからなるデータセットを用いて、GNNモデルの予測能力を実証した。 このモデルは、ノイズのないバックエンドとノイズの多いバックエンドに対して、それぞれ0.05と0.06のルート平均二乗誤差(RMSE)で表現性を正確に推定する。 我々は,モデルの性能を評価するために,参照回路(Sim,QuTe'2019)とIBM Qiskitのハードウェア効率アンサッツセットを比較した。 ノイズのないシナリオとノイズの多いシナリオにおける実験的な評価は、モデルの有効性を浮き彫りにして、基底真理表現率値と密に一致していることを示す。 さらに,提案モデルでは,最大5量子ビット回路でのみトレーニングされた外乱量子ビット回路に対して,低RMSEで表現率を予測できる有望な外挿能力を示す。 この研究は、ノイズレスシミュレータやハードウェア上での多様なPQCの表現性を効率的に評価する信頼性の高い手段を提供する。

Parameterized quantum circuits (PQCs) are fundamental to quantum machine learning (QML), quantum optimization, and variational quantum algorithms (VQAs). The expressibility of PQCs is a measure that determines their capability to harness the full potential of the quantum state space. It is thus a crucial guidepost to know when selecting a particular PQC ansatz. However, the existing technique for expressibility computation through statistical estimation requires a large number of samples, which poses significant challenges due to time and computational resource constraints. This paper introduces a novel approach for expressibility estimation of PQCs using Graph Neural Networks (GNNs). We demonstrate the predictive power of our GNN model with a dataset consisting of 25,000 samples from the noiseless IBM QASM Simulator and 12,000 samples from three distinct noisy quantum backends. The model accurately estimates expressibility, with root mean square errors (RMSE) of 0.05 and 0.06 for the noiseless and noisy backends, respectively. We compare our model's predictions with reference circuits [Sim and others, QuTe'2019] and IBM Qiskit's hardware-efficient ansatz sets to further evaluate our model's performance. Our experimental evaluation in noiseless and noisy scenarios reveals a close alignment with ground truth expressibility values, highlighting the model's efficacy. Moreover, our model exhibits promising extrapolation capabilities, predicting expressibility values with low RMSE for out-of-range qubit circuits trained solely on only up to 5-qubit circuit sets. This work thus provides a reliable means of efficiently evaluating the expressibility of diverse PQCs on noiseless simulators and hardware.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 機械学習は高周波取引の新たな洞察を解き放てるのか?

Can machine learning unlock new insights into high-frequency trading? ( http://arxiv.org/abs/2405.08101v1 )

ライセンス: Link先を確認
G. Ibikunle, B. Moews, K. Rzayev, (参考訳) 我々は、金融市場のダイナミクスと高周波取引(HFT)活動の間の非線形相互作用を捉える機械学習モデルを設計し、訓練する。 その際、流動性要求とHFT戦略の供給を識別するための新しい指標を導入します。 両タイプのHFT戦略は、情報イベントに対する活動量を増やし、取引速度が制限された場合にその活動量を減少させ、流動性供給戦略はより応答性が高いことを示す。 流動性要求型HFTは遅延仲裁の機会と正に結びついているのに対し、流動性供給型HFTは理論的な期待と負の関係にある。 我々の指標は、金融市場における情報生産プロセスの理解に影響を及ぼす。

We design and train machine learning models to capture the nonlinear interactions between financial market dynamics and high-frequency trading (HFT) activity. In doing so, we introduce new metrics to identify liquidity-demanding and -supplying HFT strategies. Both types of HFT strategies increase activity in response to information events and decrease it when trading speed is restricted, with liquidity-supplying strategies demonstrating greater responsiveness. Liquidity-demanding HFT is positively linked with latency arbitrage opportunities, whereas liquidity-supplying HFT is negatively related, aligning with theoretical expectations. Our metrics have implications for understanding the information production process in financial markets.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# Googleの保護されたオーディエンスプロトコルの評価

Evaluating Google's Protected Audience Protocol ( http://arxiv.org/abs/2405.08102v1 )

ライセンス: Link先を確認
Minjun Long, David Evans, (参考訳) サードパーティのクッキーは、デジタルマーケティングのエコシステムの重要な要素だが、ユーザのWebサイトをまたがって、深刻なプライバシーの懸念を喚起する。 Googleは、サードパーティのクッキーを使わずに広告ターゲティングを可能にする、Privacy Sandboxイニシアチブを提案した。 このイニシアチブの他の側面に焦点をあてた研究はいくつかあるが、リクエストリンクの防止という目的をシステムがいかにうまく達成するかについては、これまではほとんど分析されていない。 本研究は,サードパーティのクッキーを使わずにオンライン再販を可能にすることを目的としたProtected Audience (PrAu)提案(以前はFLEDGEと呼ばれていた)で提案される報告メカニズムのリンクプライバシーリスクの分析に焦点をあてる。 PrAuの全体的なワークフローを要約し、提案した設計に関連する潜在的なプライバシーリスクを強調し、敵が異なるサイトへのリクエストを同じユーザにリンクしようとするシナリオに焦点を当てた。 我々は、現在提案されているすべてのプライバシーメカニズムの正しい実装であっても、現実的な敵が、ユーザー要求をリンクし、大量監視を行うために、プライバシー保護された報告メカニズムを引き続き使用できることを示します。

While third-party cookies have been a key component of the digital marketing ecosystem for years, they allow users to be tracked across web sites in ways that raise serious privacy concerns. Google has proposed the Privacy Sandbox initiative to enable ad targeting without third-party cookies. While there have been several studies focused on other aspects of this initiative, there has been little analysis to date as to how well the system achieves the intended goal of preventing request linking. This work focuses on analyzing linkage privacy risks for the reporting mechanisms proposed in the Protected Audience (PrAu) proposal (previously known as FLEDGE), which is intended to enable online remarketing without using third-party cookies. We summarize the overall workflow of PrAu and highlight potential privacy risks associated with its proposed design, focusing on scenarios in which adversaries attempt to link requests to different sites to the same user. We show how a realistic adversary would be still able to use the privacy-protected reporting mechanisms to link user requests and conduct mass surveillance, even with correct implementations of all the currently proposed privacy mechanisms.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 等角化物理インフォームドニューラルネットワーク

Conformalized Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.08111v1 )

ライセンス: Link先を確認
Lena Podina, Mahdi Torabi Rad, Mohammad Kohandel, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、微分方程式を解き、そのパラメータを推定する上で重要な手法である。 しかし、ニューラルネットワークを利用するため、偏微分方程式パラメータの点推定と、任意の点における解のみを不確実性の尺度なしで提供する。 アンサンブル法とベイズ法は以前、PINNの不確かさの定量化に応用されてきたが、これらの手法はデータ生成過程に強い仮定を必要とする可能性があり、計算コストがかかる。 本稿では,C-PINN (Conformalized PINNs) を導入し,追加の仮定を伴わずに,PINNの不確かさを定量化するために適合予測の枠組みを利用する。

Physics-informed neural networks (PINNs) are an influential method of solving differential equations and estimating their parameters given data. However, since they make use of neural networks, they provide only a point estimate of differential equation parameters, as well as the solution at any given point, without any measure of uncertainty. Ensemble and Bayesian methods have been previously applied to quantify the uncertainty of PINNs, but these methods may require making strong assumptions on the data-generating process, and can be computationally expensive. Here, we introduce Conformalized PINNs (C-PINNs) that, without making any additional assumptions, utilize the framework of conformal prediction to quantify the uncertainty of PINNs by providing intervals that have finite-sample, distribution-free statistical validity.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# RATLIP: 繰り返しアフィン変換に基づくCLIPテキスト・画像合成

RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations ( http://arxiv.org/abs/2405.08114v1 )

ライセンス: Link先を確認
Chengde Lin, Xijun Lu, Guangxi Chen, (参考訳) テキスト記述を条件として高品質なフォトリアリスティック画像の合成は非常に困難である。 このタスクの古典的モデルであるGAN(Generative Adversarial Networks)は、画像とテキストの記述の整合性が低く、合成画像の豊かさが不十分であることが多い。 近年,条件付きバッチ正規化やインスタンス正規化などの条件付きアフィン変換(CAT)が,GANの異なる層に適用され,画像中のコンテンツ合成が制御されている。 CATは、隣接層間のバッチ統計に基づいて独立してデータを予測する多層パーセプトロンであり、グローバルテキスト情報は他の層では利用できない。 この問題に対処するために、私たちはまずCATとリカレントニューラルネットワーク(RAT)をモデル化し、異なるレイヤがグローバル情報にアクセスできるようにする。 次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。 さらに,テキストと画像の関連性を確立するために,潜在空間におけるマルチモーダル表現の学習を通じて広く利用されている,強力な事前学習モデルであるClipを利用している。 判別器は複雑なシーンを理解するCLIPの能力を利用して、生成された画像の品質を正確に評価する。 CUB、オックスフォード、CelebA-tinyのデータセットで、現在の最先端モデルよりも提案モデルの方が優れていることを示す大規模な実験が行われた。 コードはhttps://github.com/OxygenLu/RATLIPである。

Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 証明書の削除による秘密の共有

Secret Sharing with Certified Deletion ( http://arxiv.org/abs/2405.08117v1 )

ライセンス: Link先を確認
James Bartusek, Justin Raizes, (参考訳) シークレット・シェアリング(Secret Share)は、シークレットを複数の共有に分割して、シークレットが収集された場合にのみ、シークレットを回収できるようにする。 秘密の共有は通常、計算の困難さの仮定は必要としないが、そのセキュリティは、敵が認証された共有の集合を収集できないことを要求する。 敵が複数のデータ漏洩から恩恵を受けることができる長期にわたって、これは非現実的な仮定になるかもしれない。 我々は、認証された株式の集合を最終的に収集する敵対者に対してさえも、セキュリティを達成するために、認証された削除を伴う秘密の共有に関する体系的な研究を開始する。 証明された削除を伴う秘密の共有では、(古典的な)秘密は量子共有に分割され、確実に破壊される。 セキュリティの自然な概念として,非署名型セキュリティと適応型セキュリティという2つを定義します。 次に、構築方法を示す。 一 モノトーンアクセス構造について無署名で認証された削除を有する秘密の共有方式 (二)適応的認証削除を有するしきい値秘密共有方式 最初の建設ではBartusekとKhurana(CRYPTO 2023)の2-out-of-2の秘密共有スキームをビルディングブロックとして削除しています。 例えば、あるエントロピーの量子源からの高速なシードレス抽出を得るために、Agarwal, Bartusek, Khurana, Kumar (EUROCRYPT 2023) の `XOR extractor' を著しく一般化する。

Secret sharing allows a user to split a secret into many shares so that the secret can be recovered if, and only if, an authorized set of shares is collected. Although secret sharing typically does not require any computational hardness assumptions, its security does require that an adversary cannot collect an authorized set of shares. Over long periods of time where an adversary can benefit from multiple data breaches, this may become an unrealistic assumption. We initiate the systematic study of secret sharing with certified deletion in order to achieve security even against an adversary that eventually collects an authorized set of shares. In secret sharing with certified deletion, a (classical) secret is split into quantum shares which can be verifiably destroyed. We define two natural notions of security: no-signaling security and adaptive security. Next, we show how to construct (i) a secret sharing scheme with no-signaling certified deletion for any monotone access structure, and (ii) a threshold secret sharing scheme with adaptive certified deletion. Our first construction uses Bartusek and Khurana's (CRYPTO 2023) 2-out-of-2 secret sharing scheme with certified deletion as a building block, while our second construction is built from scratch and requires several new technical ideas. For example, we significantly generalize the ``XOR extractor'' of Agarwal, Bartusek, Khurana, and Kumar (EUROCRYPT 2023) in order to obtain high rate seedless extraction from certain quantum sources of entropy.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# GPS-IMUセンサフュージョンによる自律走行車の位置推定

GPS-IMU Sensor Fusion for Reliable Autonomous Vehicle Position Estimation ( http://arxiv.org/abs/2405.08119v1 )

ライセンス: Link先を確認
Simegnew Yihunie Alaba, (参考訳) GPS(Global Positioning System)ナビゲーションは、グローバルな範囲で正確な位置決めを可能にする。 しかし、信号劣化は屋内空間や都市キャニオンで起こりうる。 対照的に、慣性測定ユニット(IMU)はジャイロスコープと加速度計から構成され、加速度や回転の変化などの相対的な運動情報を提供する。 GPSとは異なり、IMUは外部の信号に頼らず、GPSで識別された環境で有用である。 それでもIMUは、速度と位置を決定するために加速を統合しながら、エラーの蓄積によって時間の経過とともにドリフトに悩まされる。 したがって、GPSとIMUを融合させることは、特にGPS信号が漏洩した環境において、自動運転車のナビゲーションシステムの信頼性と精度を高めるのに不可欠である。 ナビゲーションを円滑にし,各センサの限界を克服するために,提案手法はGPSとIMUデータを融合する。 このセンサ融合は、Unscented Kalman Filter (UKF) Bayesian filtering 技術を用いている。 提案するナビゲーションシステムは堅牢な設計であり,特にGPSを用いた環境において,自動運転車の安全運転に不可欠な連続的かつ正確な位置決めを実現する。 このプロジェクトは、実験的な検証にKITTI GNSSとIMUデータセットを使用し、GNSS-IMU融合技術は、GNSSのみのデータRMSEを減少させることを示した。 RMSEは13.214、13.284、13.363から4.271、5.275、0.224に減少し、それぞれx軸、y軸、z軸となった。 UKFを用いた実験結果は、GPSとIMUセンサーの融合による自動運転車のナビゲーションを改善するための有望な方向性を示す。

Global Positioning System (GPS) navigation provides accurate positioning with global coverage, making it a reliable option in open areas with unobstructed sky views. However, signal degradation may occur in indoor spaces and urban canyons. In contrast, Inertial Measurement Units (IMUs) consist of gyroscopes and accelerometers that offer relative motion information such as acceleration and rotational changes. Unlike GPS, IMUs do not rely on external signals, making them useful in GPS-denied environments. Nonetheless, IMUs suffer from drift over time due to the accumulation of errors while integrating acceleration to determine velocity and position. Therefore, fusing the GPS and IMU is crucial for enhancing the reliability and precision of navigation systems in autonomous vehicles, especially in environments where GPS signals are compromised. To ensure smooth navigation and overcome the limitations of each sensor, the proposed method fuses GPS and IMU data. This sensor fusion uses the Unscented Kalman Filter (UKF) Bayesian filtering technique. The proposed navigation system is designed to be robust, delivering continuous and accurate positioning critical for the safe operation of autonomous vehicles, particularly in GPS-denied environments. This project uses KITTI GNSS and IMU datasets for experimental validation, showing that the GNSS-IMU fusion technique reduces GNSS-only data's RMSE. The RMSE decreased from 13.214, 13.284, and 13.363 to 4.271, 5.275, and 0.224 for the x-axis, y-axis, and z-axis, respectively. The experimental result using UKF shows promising direction in improving autonomous vehicle navigation using GPS and IMU sensor fusion using the best of two sensors in GPS-denied environments.
翻訳日:2024-05-15 15:56:55 公開日:2024-05-13
# 質問から洞察に満ちた回答へ:大学におけるインフォームドチャットボットの構築

From Questions to Insightful Answers: Building an Informed Chatbot for University Resources ( http://arxiv.org/abs/2405.08120v1 )

ライセンス: Link先を確認
Subash Neupane, Elias Hossain, Jason Keith, Himanshu Tripathi, Farbod Ghiasi, Noorbakhsh Amiri Golilarz, Amin Amirlatifi, Sudip Mittal, Shahram Rahimi, (参考訳) 本稿では,Large Language Model (LLM) ベースのチャットボットシステムであるBARKPLUG V.2について述べる。 本システムは,大学データを外部データコーパスとして活用し,ドメイン固有の質問応答タスクのためにRAGパイプラインに取り込みます。 本研究では,ミシシッピ州立大学における高精度かつ関連する応答を生成するためのシステムの有効性を,定量的尺度を用いて評価し,レトリーバル拡張生成評価(RAGAS)などのフレームワークを用いて評価した。 さらに,システムユーザビリティ尺度(SUS)を用いた主観的満足度調査により,本システムのユーザビリティを評価する。 ユーザビリティ評価の結果,RAGASの平均スコアは0.96,経験値は0.96であった。

This paper presents BARKPLUG V.2, a Large Language Model (LLM)-based chatbot system built using Retrieval Augmented Generation (RAG) pipelines to enhance the user experience and access to information within academic settings.The objective of BARKPLUG V.2 is to provide information to users about various campus resources, including academic departments, programs, campus facilities, and student resources at a university setting in an interactive fashion. Our system leverages university data as an external data corpus and ingests it into our RAG pipelines for domain-specific question-answering tasks. We evaluate the effectiveness of our system in generating accurate and pertinent responses for Mississippi State University, as a case study, using quantitative measures, employing frameworks such as Retrieval Augmented Generation Assessment(RAGAS). Furthermore, we evaluate the usability of this system via subjective satisfaction surveys using the System Usability Scale (SUS). Our system demonstrates impressive quantitative performance, with a mean RAGAS score of 0.96, and experience, as validated by usability assessments.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# AIベースのサイバーハラスメント検出ラボを設計したAIサイバーセキュリティ教育

AI-Cybersecurity Education Through Designing AI-based Cyberharassment Detection Lab ( http://arxiv.org/abs/2405.08125v1 )

ライセンス: Link先を確認
Ebuka Okpala, Nishant Vishwamitra, Keyan Guo, Song Liao, Long Cheng, Hongxin Hu, Yongkai Wu, Xiaohong Yuan, Jeannette Wade, Sajad Khorsandroo, (参考訳) サイバーハラスメントは、標的とするグループや個人に悪影響を及ぼす可能性があるため、批判的で社会的に関係のあるサイバーセキュリティ問題である。 サイバーハラスメントの理解、その検出、人工知能(AI)ベースのサイバーハラスメントシステムへの攻撃、およびサイバーハラスメント検知器の社会問題についての研究は進展しているが、このAI時代において、この新たな社会サイバーセキュリティに学生を巻き込む経験的学習教材を設計する上ではほとんど行われていない。 経験的学習の機会は通常、コンピュータ科学のようなSTEMプログラムのキャップストーンプロジェクトやエンジニアリングデザインコースを通じて提供される。 キャップストーンプロジェクトは経験的学習の優れた例だが、この新興社会サイバーセキュリティ問題の学際的な性質を考えると、AIの知識を必要とせずに非コンピュータの学生をエンゲージすることは困難である。 そのために私たちは,AIの知識をほとんどあるいは全く持たない非コンピュータの学生に経験的な学習体験を提供する,ハンズオンラボプラットフォームの開発を動機付け,このラボの開発で学んだ教訓について議論した。 2022年、ノースカロライナA&T州立大学の社会科学の学生が2学期(春と秋)にわたって使用したこの研究室では、学生は詳細な研究室マニュアルが与えられ、詳細なタスクを完了しようとしている。 このプロセスを通じて、学生はAIの概念とAIのサイバーハラスメント検出への応用を学ぶ。 プレサーベイとポストサーベイを使用して、学生にAIにおける知識やスキルの評価と、学習した概念の理解を依頼した。 その結果、学生はAIとサイバーハラスメントの概念を適度に理解していることがわかった。

Cyberharassment is a critical, socially relevant cybersecurity problem because of the adverse effects it can have on targeted groups or individuals. While progress has been made in understanding cyber-harassment, its detection, attacks on artificial intelligence (AI) based cyberharassment systems, and the social problems in cyberharassment detectors, little has been done in designing experiential learning educational materials that engage students in this emerging social cybersecurity in the era of AI. Experiential learning opportunities are usually provided through capstone projects and engineering design courses in STEM programs such as computer science. While capstone projects are an excellent example of experiential learning, given the interdisciplinary nature of this emerging social cybersecurity problem, it can be challenging to use them to engage non-computing students without prior knowledge of AI. Because of this, we were motivated to develop a hands-on lab platform that provided experiential learning experiences to non-computing students with little or no background knowledge in AI and discussed the lessons learned in developing this lab. In this lab used by social science students at North Carolina A&T State University across two semesters (spring and fall) in 2022, students are given a detailed lab manual and are to complete a set of well-detailed tasks. Through this process, students learn AI concepts and the application of AI for cyberharassment detection. Using pre- and post-surveys, we asked students to rate their knowledge or skills in AI and their understanding of the concepts learned. The results revealed that the students moderately understood the concepts of AI and cyberharassment.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 経路損失に対するレジリエンスを増強した新しい多光子絡み合い状態

A novel multi-photon entangled state with enhanced resilience to path loss ( http://arxiv.org/abs/2405.08127v1 )

ライセンス: Link先を確認
Armanpreet Pannu, Amr S. Helmy, Hesham El Gamal, (参考訳) 量子情報の領域では、絡み合いは基礎となる現象である。 膨大な量子情報プロセスの基盤となり、量子コンピューティング、通信、センシングの進歩に大きな可能性を秘めている。 本稿では, 単一光子状態の最大エンタングルを一般化した新しい多光子絡み状態を紹介し, フォトニック応用における信号減衰に対する顕著なレジリエンスを示す。 提案手法は,従来の単一光子プロトコルよりも優れた性能を示し,高い絡み合いレベルと騒音抑制性能の向上に起因する。 提案した多光子状態は、損失を受けるフォトニックアプリケーションの効率性と信頼性を高めるための重要な公約を持っていることが示唆された。 この研究は、量子技術における多光子絡み合った状態の実用的応用への将来の研究の基盤となり、量子センシングへの我々のアプローチに革命をもたらす可能性がある。

In the realm of quantum information, entanglement stands as a cornerstone phenomenon. It underpins a vast array of quantum information processes, offering significant potential for advancements in quantum computing, communication, and sensing. This paper introduces a novel multi-photon entangled state, which generalizes the maximally entangled single-photon state and exhibits remarkable resilience to signal attenuation in photonic applications. We demonstrate the novelty of the proposed state through a simplified target detection model and illustrate its superior performance over traditional single-photon protocols, attributed to its higher entanglement level and enhanced noise suppression capabilities. Our findings suggest that the proposed multi-photon state holds significant promise for enhancing the efficiency and reliability of photonic applications subject to loss. This work lays the groundwork for future exploration into the practical applications of multi-photon entangled states in quantum technologies, potentially revolutionizing our approach to quantum sensing and beyond
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 因数分解が議論に合うとき--論証的説明に向けて

When factorization meets argumentation: towards argumentative explanations ( http://arxiv.org/abs/2405.08131v1 )

ライセンス: Link先を確認
Jinfeng Zhong, Elsa Negre, (参考訳) ファクトリゼーションベースのモデルは、Netflixのチャレンジ(2007)以来人気を集めている。 それ以来、様々な因子化モデルが開発され、これらのモデルは、ユーザの評価をアイテムに向けて予測するのに効率的であることが証明されている。 主な懸念は、それらが学習する潜伏要因の明示的な意味が必ずしも明確でないため、そのような方法によって生成された推奨を説明することは自明ではないことである。 そこで本研究では,因子化に基づく手法と議論フレームワーク(AF)を組み合わせた新しいモデルを提案する。 AFsの統合は、モデルの各段階で明確な意味を提供し、その推奨に対する理解しやすい説明を作成できる。 このモデルでは、各ユーザとイテムの相互作用に対して、アイテムの特徴を議論として考慮したAFが定義され、これらの特徴に対するユーザの評価がこれらの議論の強さと極性を決定する。 この観点から、我々のモデルは特徴属性を構造化された議論手順として扱うことができ、各計算は明示的な意味でマークされ、その固有の解釈可能性を高めることができる。 さらに、私たちのフレームワークは、ユーザコンテキストなどのサイド情報をシームレスに組み込んで、より正確な予測を可能にします。 我々は、少なくとも3つの実用的応用を予想する:説明テンプレートの作成、インタラクティブな説明の提供、および対照的な説明を生成する。 実世界のデータセットをテストすることで、我々のモデルは、その変種とともに、既存の議論ベースのメソッドを超えるだけでなく、現在のコンテキストフリーおよびコンテキストアウェアなメソッドと効果的に競合することがわかった。

Factorization-based models have gained popularity since the Netflix challenge {(2007)}. Since that, various factorization-based models have been developed and these models have been proven to be efficient in predicting users' ratings towards items. A major concern is that explaining the recommendations generated by such methods is non-trivial because the explicit meaning of the latent factors they learn are not always clear. In response, we propose a novel model that combines factorization-based methods with argumentation frameworks (AFs). The integration of AFs provides clear meaning at each stage of the model, enabling it to produce easily understandable explanations for its recommendations. In this model, for every user-item interaction, an AF is defined in which the features of items are considered as arguments, and the users' ratings towards these features determine the strength and polarity of these arguments. This perspective allows our model to treat feature attribution as a structured argumentation procedure, where each calculation is marked with explicit meaning, enhancing its inherent interpretability. Additionally, our framework seamlessly incorporates side information, such as user contexts, leading to more accurate predictions. We anticipate at least three practical applications for our model: creating explanation templates, providing interactive explanations, and generating contrastive explanations. Through testing on real-world datasets, we have found that our model, along with its variants, not only surpasses existing argumentation-based methods but also competes effectively with current context-free and context-aware methods.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# Many-Shot Regurgitation (MSR) Prompting

Many-Shot Regurgitation (MSR) Prompting ( http://arxiv.org/abs/2405.08134v1 )

ライセンス: Link先を確認
Shashank Sonkar, Richard G. Baraniuk, (参考訳) 大規模言語モデル (LLM) において, 冗長なコンテンツ再現を検証するための新たなブラックボックスメンバシップ推論攻撃フレームワークであるMulti-Shot Regurgitation (MSR) を導入した。 MSRプロンプトは、入力テキストを複数のセグメントに分割し、ユーザと言語モデルの間の一連の偽の会話ラウンドを含む単一のプロンプトを作成して、動詞の反復を誘発する。 MSRをウィキペディアの記事やオープン教育リソース(OER)教科書など多様なテキストソースに適用し、高品質で事実的なコンテンツを提供し、時間とともに継続的に更新する。 各ソースについて、LLMがトレーニング中に露出した可能性が高い(D_{\rm pre}$)と、モデルのトレーニングのカットオフ日(D_{\rm post}$)後に公開されたドキュメント(D_{\rm post}$)の2つのデータセットタイプをキュレートします。 動詞の一致の発生を定量化するために、最も長い共通サブストリングアルゴリズムを用い、マッチの周波数を異なる長さ閾値でカウントする。 次に、Cliff's delta, Kolmogorov-Smirnov (KS) 距離、Kruskal-Wallis H テストなどの統計測度を用いて、動詞の一致の分布が$D_{\rm pre}$と$D_{\rm post}$とで大きく異なるかどうかを判定する。 LLM(eg GPTモデルとLLaMA)が訓練された可能性のあるデータセットからテキストを誘導された場合, 動詞の再現頻度は有意に高く, 動詞の一致の分布は$D_{\rm pre}$と$D_{\rm post}$とで著しく異なることが判明した。 例えば、Wikipediaの記事でGPT-3.5を使用する場合、相当な効果サイズ(Cliff's delta $= -0.984$)と、$D_{\rm pre}$と$D_{\rm post}$の分布の間の大きなKS距離(0.875$)を観察します。 この結果から,LLMは学習データから入力テキストが出力される可能性が高い場合に,動詞の内容を再現する傾向が示唆された。

We introduce Many-Shot Regurgitation (MSR) prompting, a new black-box membership inference attack framework for examining verbatim content reproduction in large language models (LLMs). MSR prompting involves dividing the input text into multiple segments and creating a single prompt that includes a series of faux conversation rounds between a user and a language model to elicit verbatim regurgitation. We apply MSR prompting to diverse text sources, including Wikipedia articles and open educational resources (OER) textbooks, which provide high-quality, factual content and are continuously updated over time. For each source, we curate two dataset types: one that LLMs were likely exposed to during training ($D_{\rm pre}$) and another consisting of documents published after the models' training cutoff dates ($D_{\rm post}$). To quantify the occurrence of verbatim matches, we employ the Longest Common Substring algorithm and count the frequency of matches at different length thresholds. We then use statistical measures such as Cliff's delta, Kolmogorov-Smirnov (KS) distance, and Kruskal-Wallis H test to determine whether the distribution of verbatim matches differs significantly between $D_{\rm pre}$ and $D_{\rm post}$. Our findings reveal a striking difference in the distribution of verbatim matches between $D_{\rm pre}$ and $D_{\rm post}$, with the frequency of verbatim reproduction being significantly higher when LLMs (e.g. GPT models and LLaMAs) are prompted with text from datasets they were likely trained on. For instance, when using GPT-3.5 on Wikipedia articles, we observe a substantial effect size (Cliff's delta $= -0.984$) and a large KS distance ($0.875$) between the distributions of $D_{\rm pre}$ and $D_{\rm post}$. Our results provide compelling evidence that LLMs are more prone to reproducing verbatim content when the input text is likely sourced from their training data.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 多量子クリフォード-シクロトミック回路の精密合成

Exact Synthesis of Multiqutrit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2405.08136v1 )

ライセンス: Link先を確認
Andrew N. Glaudel, Neil J. Ross, John van de Wetering, Lia Yeh, (参考訳) Toffoli+Hadamard, Clifford+$T$ あるいはより一般的には、Clifford-cyclotomic gate set はちょうど環 $\mathbb{Z}[1/2,\zeta_k]$ のエントリを持つユニタリ行列である。 本稿では,四重項の類似対応性を確立する。 古典的なクォートゲートを$X$, $CX$, and Toffoli に拡張し、ハダードゲートを $H$ とシングルクォートゲートを $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$ とすることで、次数3^k$ の多重クォートゲート集合を定義する。 このゲートセットは、$k=1$のとき、qutrit Toffoli+Hadamardゲートセット、$k>1$のとき、qutrit Clifford+$T_k$ゲートセットと等価である。 すると、3^n\times 3^n$ のユニタリ行列 $U$ が、位数 $3^k$ のクリフォード-シクロトミックゲート集合上の$n$-qutrit 回路で表せることを証明し、$U$ の成分が環 $\mathbb{Z}[1/3,\omega_k]$ にある場合に限る。

It is known that the unitary matrices that can be exactly represented by a multiqubit circuit over the Toffoli+Hadamard, Clifford+$T$, or, more generally, Clifford-cyclotomic gate set are precisely the unitary matrices with entries in the ring $\mathbb{Z}[1/2,\zeta_k]$, where $k$ is a positive integer that depends on the gate set and $\zeta_k$ is a primitive $2^k$-th root of unity. In this paper, we establish the analogous correspondence for qutrits. We define the multiqutrit Clifford-cyclotomic gate set of order $3^k$ by extending the classical qutrit gates $X$, $CX$, and Toffoli with the Hadamard gate $H$ and the single-qutrit gate $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$, where $\omega_k$ is a primitive $3^k$-th root of unity. This gate set is equivalent to the qutrit Toffoli+Hadamard gate set when $k=1$, and to the qutrit Clifford+$T_k$ gate set when $k>1$. We then prove that a $3^n\times 3^n$ unitary matrix $U$ can be represented by an $n$-qutrit circuit over the Clifford-cyclotomic gate set of order $3^k$ if and only if the entries of $U$ lie in the ring $\mathbb{Z}[1/3,\omega_k]$.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# LATTE:カルトテンソル収縮に基づく原子環境記述子

LATTE: an atomic environment descriptor based on Cartesian tensor contractions ( http://arxiv.org/abs/2405.08137v1 )

ライセンス: Link先を確認
Franco Pellegrini, Stefano de Gironcoli, Emine Küçükbenli, (参考訳) 本稿では,原子間ポテンシャル構築のための機械学習モデルと組み合わせて,局所的な原子環境のための新しい記述子を提案する。 Local Atomic Tensors Trainable Expansion (LATTE)は、学習可能なパラメータを持つ多体項の可変数の効率的な構成を可能にする。 我々は、この新しい記述子を、いくつかのシステム上の既存の記述子と比較し、スペクトルの一方の端で非常に高速なポテンシャルと競合し、最先端に近い精度で拡張可能であることを示した。

We propose a new descriptor for local atomic environments, to be used in combination with machine learning models for the construction of interatomic potentials. The Local Atomic Tensors Trainable Expansion (LATTE) allows for the efficient construction of a variable number of many-body terms with learnable parameters, resulting in a descriptor that is efficient, expressive, and can be scaled to suit different accuracy and computational cost requirements. We compare this new descriptor to existing ones on several systems, showing it to be competitive with very fast potentials at one end of the spectrum, and extensible to an accuracy close to the state of the art.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 幾何的に調整可能な誤差抵抗性を持つ論理的量子ビット設計

A logical qubit-design with geometrically tunable error-resistibility ( http://arxiv.org/abs/2405.08138v1 )

ライセンス: Link先を確認
Reja H. Wilke, Leonard W. Pingen, Thomas Köhler, Sebastian Paeckel, (参考訳) エラー閾値を破ることは、幅広い関連する問題に対する量子的優位性を確立するためのマイルストーンとなるだろう。 可能な1つのルートは、複数のノイズ量子ビットを組み合わせて論理量子ビットに冗長に情報を符号化し、外部摂動に対するロバスト性を高めることである。 超伝導量子ビット(SCQ)をマイクロ波空洞モードに結合した論理量子ビットのセットアップを提案する。 我々の設計はBose-Hubbard wheel (BHW)で最近発見された幾何安定化機構に基づいており、これは多体固有状態のエネルギー的によく分離されたクラスターとして表される。 SCQと空洞の摂動がBHWのスペクトル特性に及ぼす影響について検討した。 典型的な製造不確実性が存在する場合でも,集団化された多体固有状態の発生と分離は極めて堅牢であることを示す。 キャビティに結合された追加の周波数変調SCQの導入は、これらのクラスターの重複を生じさせ、オンサイト電位によって分割することができる。 これが許されることを示す。 i) 効率よく切り換えて読み出すことができる2つの論理量子状態の冗長な符号化 (ii) は幾何安定化により残りの多体スペクトルから分離することができる。 X-ゲートの例において、提案された論理量子ビットが実験的に実現可能な温度レジーム$\sim10-20\,\mathrm{mK}$において、単一量子ビットゲートフィデリティ$>0.999$に達することを示す。

Breaking the error-threshold would mark a milestone in establishing quantum advantage for a wide range of relevant problems. One possible route is to encode information redundantly in a logical qubit by combining several noisy qubits, providing an increased robustness against external perturbations. We propose a setup for a logical qubit built from superconducting qubits (SCQs) coupled to a microwave cavity-mode. Our design is based on a recently discovered geometric stabilizing mechanism in the Bose-Hubbard wheel (BHW), which manifests as energetically well-separated clusters of many-body eigenstates. We investigate the impact of experimentally relevant perturbations between SCQs and the cavity on the spectral properties of the BHW. We show that even in the presence of typical fabrication uncertainties, the occurrence and separation of clustered many-body eigenstates is extremely robust. Introducing an additional, frequency-detuned SCQ coupled to the cavity yields duplicates of these clusters, that can be split up by an on-site potential. We show that this allows to (i) redundantly encode two logical qubit states that can be switched and read out efficiently and (ii) can be separated from the remaining many-body spectrum via geometric stabilization. We demonstrate at the example of an X-gate that the proposed logical qubit reaches single qubit-gate fidelities $>0.999$ in experimentally feasible temperature regimes $\sim10-20\,\mathrm{mK}$.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 回転制御されたQND相互作用による並列2量子エンタングルゲート

Parallel two-qubit entangling gates via QND interaction controlled by rotation ( http://arxiv.org/abs/2405.08141v1 )

ライセンス: Link先を確認
E. A. Vashukevich, T. Yu. Golubeva, (参考訳) 本稿では、多モード光と軌道角運動量と原子アンサンブルとの間の量子非復調(QND)相互作用における絡み合いと非局所動作の解析を行う。 原子スピンコヒーレンスと光の四重項の回転を持つ2つのQND演算からなるプロトコルは、幅広い2量子ビット演算を提供する一方、選択された自由度のマルチモードの性質は、複数の2量子ビット系上での並列演算の実装を可能にする。 我々は、同値類と局所不変量の形式主義を用いて、2ビット変換の特性を評価した。 制御パラメータの適切な値(2つのQND相互作用のそれぞれの時間とキュービットの回転角)を選択すると、このプロトコルは決定論的非局所SWAP演算と2乗根SWAP演算を確率1/3で絡み合わせることができる。

The paper presents an analysis of entangling and non-local operations in a quantum nondemolition (QND) interaction between multimode light with orbital angular momentum and an atomic ensemble. A protocol consisting of two QND operations with rotations of quadratures of atomic spin coherence and light between them provides a wide range of two-qubit operations, while the multimode nature of the chosen degrees of freedom allows the implementation of parallel operations over multiple two-qubit systems. We have used the formalism of equivalence classes and local invariants to evaluate the properties of two-qubit transformations. It is shown that, when selecting suitable values of the governing parameters - the duration of each of the two QND interactions and the rotation angles of the qubits - the protocol allows to realise a deterministic non-local SWAP operation and entangling square-root-SWAP operation with probability 1/3.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# オンラインコメントにおける差別的反対戦略--分類スキーマの作成とトレーニングの検証

Discursive objection strategies in online comments: Developing a classification schema and validating its training ( http://arxiv.org/abs/2405.08142v1 )

ライセンス: Link先を確認
Ashley L. Shea, Aspen K. B. Omapang, Ji Yong Cho, Miryam Y. Ginsparg, Natalie Bazarova, Winice Hui, René F. Kizilcec, Chau Tong, Drew Margolin, (参考訳) 多くのアメリカ人は、誤情報、ヘイトスピーチ、ハラスメントは、現在のモデレーションの慣行を通じてソーシャルメディアに有害で不十分に抑制されていることに同意している。 本稿では,ニュースコメントにおける有害な言論に応えて,人々が採用する散発的戦略を理解することを目的とする。 我々は、YouTubeとTwitterのトレンドニュースビデオに対する6500件以上のコメント回答のコンテンツ分析を行い、7つの異なる反響戦略を特定した(Study 1)。 6500件のコメント回答と2004年の2回目の回答から,各戦略の出現頻度を検討した(第2報)。 これらの研究は、人々が言論に異議を唱えるとき、様々な非帰的戦略を展開していることを示し、評判の攻撃が最も一般的である。 結果として得られた分類体系は、異論を表現するための異なる理論的アプローチを説明でき、キャンパスでの攻撃的または問題のあるスピーチを止めることを目的とした草の根の取り組みを包括的視点を提供する。

Most Americans agree that misinformation, hate speech and harassment are harmful and inadequately curbed on social media through current moderation practices. In this paper, we aim to understand the discursive strategies employed by people in response to harmful speech in news comments. We conducted a content analysis of more than 6500 comment replies to trending news videos on YouTube and Twitter and identified seven distinct discursive objection strategies (Study 1). We examined the frequency of each strategy's occurrence from the 6500 comment replies, as well as from a second sample of 2004 replies (Study 2). Together, these studies show that people deploy a diversity of discursive strategies when objecting to speech, and reputational attacks are the most common. The resulting classification scheme accounts for different theoretical approaches for expressing objections and offers a comprehensive perspective on grassroots efforts aimed at stopping offensive or problematic speech on campus.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 最適量子進化の構成:比較研究

Constructions of Optimal-Speed Quantum Evolutions: A Comparative Study ( http://arxiv.org/abs/2405.08144v1 )

ライセンス: Link先を確認
Leonardo Rossetti, Carlo Cafaro, Newshaw Bahreyni, (参考訳) ブロッホ球面上の最適速度量子ハミルトニアン進化の2つの異なる構成の比較解析を行う。 最初のアプローチ(Mostafazadeh のアプローチ)では、進化はトレースレス定常エルミート・ハミルトニアンによって特定され、エネルギーの不確実性を最大化することで2つの任意の量子ビット状態の間に起こる。 第二のアプローチ(ベンダーのアプローチ)では、進化は無跡ではなく、北極上の初期量子ビットと任意の最終量子ビットの間に生じる定常エルミート・ハミルトニアンによって特徴づけられる。 この第2のアプローチでは、ハミルトンの最小固有値と最大値の差が固定されているという制約の下での進化時間の最小化によって進化が生じる。 どちらのアプローチも、最適ハミルトニアン、最適ユニタリ進化作用素、そして最後に最適な磁場構成を明示的に計算する。 さらに、モスタファザデーとベンダーのアプローチは、モスタファザデーのアプローチを非ゼロトレースを持つハミルトンに拡張し、同時にブロッホ球の北極に置かれる初期量子状態に焦点をあてるときに等価であることを示す。 最後に、両シナリオにおいて、最適ユニタリ進化作用素は、初期および最終量子ビット状態に対応する単位ブロッホベクトルと直交する軸の回転であることを示す。

We present a comparative analysis of two different constructions of optimal-speed quantum Hamiltonian evolutions on the Bloch sphere. In the first approach (Mostafazadeh's approach), the evolution is specified by a traceless stationary Hermitian Hamiltonian and occurs between two arbitrary qubit states by maximizing the energy uncertainty. In the second approach (Bender's approach), instead, the evolution is characterized by a stationary Hermitian Hamiltonian which is not traceless and occurs between an initial qubit on the north pole and an arbitrary final qubit. In this second approach, the evolution occurs by minimizing the evolution time subject to the constraint that the difference between the largest and the smallest eigenvalues of the Hamiltonian is kept fixed. For both approaches we calculate explicitly the optimal Hamiltonian, the optimal unitary evolution operator and, finally, the optimal magnetic field configuration. Furthermore, we show in a clear way that Mostafazadeh's and Bender's approaches are equivalent when we extend Mostafazadeh's approach to Hamiltonians with nonzero trace and, at the same time, focus on an initial quantum state placed on the north pole of the Bloch sphere. Finally, we demonstrate in both scenarios that the optimal unitary evolution operator is a rotation about an axis that is orthogonal to the unit Bloch vectors that correspond to the initial and final qubit states.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# マルチクォート正確な合成

Multi-qutrit exact synthesis ( http://arxiv.org/abs/2405.08147v1 )

ライセンス: Link先を確認
Amolak Ratan Kalra, Manimugdha Saikia, Dinesh Valluri, Sam Winnick, Jon Yard, (参考訳) 我々は, クリフォード$+T$ゲートの上の$\mathcal{U}_{3^n}(\mathbb{Z}[1/3,e^{2\pi i/3}])$において, クォートユニタリの正確な合成アルゴリズムを提案する。 これは、クリフォード$+T$ゲートの1つのアンシラを持つ部分集合であるクォートメタプレクティックゲートの既知結果を拡張する。 中間的なステップとして、3レベルユニタリを乗算制御ゲートに変換するアルゴリズムを構築し、これは2レベルユニタリを乗算制御ゲートに変換するグレイ符号に類似する。 最後に、触媒埋め込みを用いて、少なくとも2つのアンシラを持つClifford$+T$ゲート上のユニタリ$\mathcal{U}_{3^n}(\mathbb{Z}[1/3,e^{2\pi i/9}])$を正確に合成するアルゴリズムを提案する。 これは特に、単一四重項 Clifford$+\mathcal{D}$ の正確な合成アルゴリズムを多四重項 Clifford$+T$ gate set with at least two ancillas を与える。

We present an exact synthesis algorithm for qutrit unitaries in $\mathcal{U}_{3^n}(\mathbb{Z}[1/3,e^{2\pi i/3}])$ over the Clifford$+T$ gate set with at most one ancilla. This extends the already known result of qutrit metaplectic gates being a subset of Clifford$+T$ gate set with one ancilla. As an intermediary step, we construct an algorithm to convert 3-level unitaries into multiply-controlled gates, analogous to Gray codes converting 2-level unitaries into multiply-controlled gates. Finally, using catalytic embeddings, we present an algorithm to exactly synthesize unitaries $\mathcal{U}_{3^n}(\mathbb{Z}[1/3,e^{2\pi i/9}])$ over the Clifford$+T$ gate set with at most 2 ancillas. This, in particular, gives an exact synthesis algorithm of single-qutrit Clifford$+\mathcal{D}$ over the multi-qutrit Clifford$+T$ gate set with at most two ancillas.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# バイオメディカルNLPにおける検索型大規模言語モデルのベンチマーク:応用,ロバスト性,自己認識

Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness ( http://arxiv.org/abs/2405.08151v1 )

ライセンス: Link先を確認
Mingchen Li, Zaifu Zhan, Han Yang, Yongkang Xiao, Jiatan Huang, Rui Zhang, (参考訳) 大規模言語モデル (LLM) は様々なバイオメディカル自然言語処理(NLP)タスクにおいて顕著な機能を示し、入力コンテキスト内の実演を利用して新しいタスクに適応している。 しかし、LLMはデモの選択に敏感である。 LLMに固有の幻覚的問題に対処するために、検索強化LLM(RAL)は、確立したデータベースから関連する情報を検索して解決策を提供する。 それにもかかわらず、既存の研究は、検索強化された大規模言語モデルが異なる生物医学的NLPタスクに与える影響の厳密な評価を欠いている。 この欠損は、バイオメディカルドメイン内でのALの機能の確認を困難にしている。 さらに、ALからのアウトプットは、バイオメディカル領域であまり研究されていない、ラベルのない、偽造的、あるいは多様な知識を回収することによって影響を受ける。 しかし、そのような知識は現実世界では一般的である。 最後に、自己認識能力の探索も、ALシステムにとって不可欠である。 そこで本研究では,3つの生物医学的課題(3つの抽出,リンク予測,分類,質問応答,自然言語推論)に対するラルの影響を体系的に検討する。 本研究では, ラベルのない頑健性, 反事実的堅牢性, 多様な頑健性, 否定的認識など, 4つの基本能力におけるラルのパフォーマンスを分析した。 そこで本研究では,生物医学的NLPタスクにおけるALSのパフォーマンスを評価するための評価枠組みを提案し,上記の基本能力に基づいて4つのテストベッドを構築した。 そして,9つのデータセット上の5つのタスクに対して,3つの異なるレトリバーを持つ3つの代表LSMを評価した。

Large language models (LLM) have demonstrated remarkable capabilities in various biomedical natural language processing (NLP) tasks, leveraging the demonstration within the input context to adapt to new tasks. However, LLM is sensitive to the selection of demonstrations. To address the hallucination issue inherent in LLM, retrieval-augmented LLM (RAL) offers a solution by retrieving pertinent information from an established database. Nonetheless, existing research work lacks rigorous evaluation of the impact of retrieval-augmented large language models on different biomedical NLP tasks. This deficiency makes it challenging to ascertain the capabilities of RAL within the biomedical domain. Moreover, the outputs from RAL are affected by retrieving the unlabeled, counterfactual, or diverse knowledge that is not well studied in the biomedical domain. However, such knowledge is common in the real world. Finally, exploring the self-awareness ability is also crucial for the RAL system. So, in this paper, we systematically investigate the impact of RALs on 5 different biomedical tasks (triple extraction, link prediction, classification, question answering, and natural language inference). We analyze the performance of RALs in four fundamental abilities, including unlabeled robustness, counterfactual robustness, diverse robustness, and negative awareness. To this end, we proposed an evaluation framework to assess the RALs' performance on different biomedical NLP tasks and establish four different testbeds based on the aforementioned fundamental abilities. Then, we evaluate 3 representative LLMs with 3 different retrievers on 5 tasks over 9 datasets.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 絡み合いから普遍性へ:量子計算ゲートに対する多粒子時空代数的アプローチ再考

From Entanglement to Universality: A Multiparticle Spacetime Algebra Approach to Quantum Computational Gates Revisited ( http://arxiv.org/abs/2405.08152v1 )

ライセンス: Link先を確認
Carlo Cafaro, Newshaw Bahreyni, Leonardo Rossetti, (参考訳) 量子コンピューティングにおける別の数学的探索は、特に物理的な洞察を浸透させれば、非常に科学的に興味深い。 本稿では、[C. Cafaro and S. Mancini, Adv. Appl. Clifford Algebras 21, 493 (2011)]で最初に提示された量子コンピューティングにおける幾何学的(クリフォード)代数(GA)の応用を批判的に再検討する。 我々の焦点は、量子コンピューティングへの2つの応用における幾何代数(GA)技術の有用性をテストすることである。 まず、相対論的構成空間(例えば、多粒子時空代数(MSTA))の幾何学代数を利用することで、1量子と2量子の量子状態の明示的な代数的特徴づけと、1量子と2量子の量子ゲートのMSTA記述を提供する。 この最初の応用では、絡み合った量子状態と2量子の絡み合う量子ゲートに焦点をあてて、絡み合いの概念に特別な注意を払っている。 第二に、ローター群形式に依存するリー代数 SO(3;R) と SU(2;C) の GA 描写と合わせて、前述の MSTA の特徴を利用して、ボイキンの普遍的な量子ゲートの同定に関する証明を再評価することにより、量子コンピューティングにおける普遍性の概念に注意を向ける。 数学的探索の終わりに、我々は2つの主要な結論に達した。 第一に、MSTAの観点は量子状態と量子作用素の強力な概念統一につながる。 より具体的には、複素キュービット空間とそれらに作用するユニタリ作用素の複素空間は、単一の多重ベクトル実空間にマージされる。 第2に,ローター群に基づく回転に対するGA視点は,従来のベクトル法や行列法と比較して,概念上手と計算上手の両方を担っている。

Alternative mathematical explorations in quantum computing can be of great scientific interest, especially if they come with penetrating physical insights. In this paper, we present a critical revisitation of our geometric (Clifford) algebras (GAs) application in quantum computing as originally presented in [C. Cafaro and S. Mancini, Adv. Appl. Clifford Algebras 21, 493 (2011)]. Our focus is on testing the usefulness of geometric algebras (GAs) techniques in two applications to quantum computing. First, making use of the geometric algebra of a relativistic configuration space (a.k.a., multiparticle spacetime algebra or MSTA), we offer an explicit algebraic characterization of one- and two-qubit quantum states together with a MSTA description of one- and two-qubit quantum computational gates. In this first application, we devote special attention to the concept of entanglement, focusing on entangled quantum states and two-qubit entangling quantum gates. Second, exploiting the previously mentioned MSTA characterization together with the GA depiction of the Lie algebras SO(3;R) and SU(2;C) depending on the rotor group formalism, we focus our attention to the concept of universality in quantum computing by reevaluating Boykin's proof on the identification of a suitable set of universal quantum gates. At the end of our mathematical exploration, we arrive at two main conclusions. Firstly, the MSTA perspective leads to a powerful conceptual unification between quantum states and quantum operators. More specifically, the complex qubit space and the complex space of unitary operators acting on them merge in a single multivectorial real space. Secondly, the GA viewpoint on rotations based on the rotor group carries both conceptual and computational upper hands compared to conventional vectorial and matricial methods.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# LLMにおける心とアライメントの理論--機会とリスク

LLM Theory of Mind and Alignment: Opportunities and Risks ( http://arxiv.org/abs/2405.08154v1 )

ライセンス: Link先を確認
Winnie Street, (参考訳) 大規模言語モデル(LLM)は、自然言語の会話と推論に優れた能力で、人間とコンピュータの相互作用と人工知能(AI)の概念を変革している。 LLMが心の理論(ToM)を持っているかどうか,人間の社会的知能の中核である他者の心的および感情的な状態を判断する能力に注目が集まっている。 LLMは、私たちの個人的、専門的、社会的な生活の基盤に統合され、現実世界の成果で決定を下すためのより大きなエージェンシーを与えられているため、どのように人間の価値観に合わせることができるかを理解することが不可欠である。 ToMはこの点に関して有望な調査方向のようだ。 本稿では,人間のToMの役割と影響に関する文献に続いて,LLM ToMがヒトに現れる重要な領域について述べる。 個人レベルでは、LLM ToMが目標仕様、会話適応、共感、人間同型にどのように現れるかを検討する。 グループレベルでは、LLM ToMが集合的アライメント、協力、競争、道徳的判断をいかに促進するかを考える。 この論文は、潜在的な影響の幅広い範囲を概説し、将来の研究の最も急進的な領域を示唆している。

Large language models (LLMs) are transforming human-computer interaction and conceptions of artificial intelligence (AI) with their impressive capacities for conversing and reasoning in natural language. There is growing interest in whether LLMs have theory of mind (ToM); the ability to reason about the mental and emotional states of others that is core to human social intelligence. As LLMs are integrated into the fabric of our personal, professional and social lives and given greater agency to make decisions with real-world consequences, there is a critical need to understand how they can be aligned with human values. ToM seems to be a promising direction of inquiry in this regard. Following the literature on the role and impacts of human ToM, this paper identifies key areas in which LLM ToM will show up in human:LLM interactions at individual and group levels, and what opportunities and risks for alignment are raised in each. On the individual level, the paper considers how LLM ToM might manifest in goal specification, conversational adaptation, empathy and anthropomorphism. On the group level, it considers how LLM ToM might facilitate collective alignment, cooperation or competition, and moral judgement-making. The paper lays out a broad spectrum of potential implications and suggests the most pressing areas for future research.
翻訳日:2024-05-15 15:47:11 公開日:2024-05-13
# 光ファイバー・時間多重単一光子源を目指して

Towards a fiber-optic temporally multiplexed single photon source ( http://arxiv.org/abs/2405.08157v1 )

ライセンス: Link先を確認
Agustina G. Magnoni, Laura T. Knoll, Lina Wölcken, Julián Defant, Julián Morales, Miguel A. Larotonda, (参考訳) 光通信の波長範囲における連続波符号化光子源の時間多重化によるサブポアソン放射統計を用いた光子源の実装の可能性を示す。 我々は、シャーディング光子の時刻到着情報を用いて、全ファイバ組立体におけるシャーディング光子の遅延を積極的に修正し、出力を外部クロックと同期させる。 この同期動作系内では、一つの時間的補正段階が加わったことにより、隠蔽光子源の単一光子放出のメリットの数値が向上することを示した。 約1.8の輝度向上係数と信号-雑音比の増大を一致事故数比で定量化する。 これらの結果は、光通信帯域における古典的でない光子源の統合方法を明確にする。

We demonstrate the feasibility of implementing a photon source with sub-Poissonian emission statistics through temporal multiplexing of a continuous wave heralded photon source in the optical communications wavelength range. We use the time arrival information of a heralding photon to actively modify the delay of the heralded photon in an all-fiber assembly, in order to synchronize the output with with respect to an external clock. Within this synchronized operating regime we show that the addition of a single temporal correcting stage can improve the figure of merit for single photon emission of a heralded photon source. We obtain a brightness improvement factor of approximately 1.8 and an enhancement of the signal-to-noise ratio, quantified by the coincidence-to-accidental counts ratio. These results, clear the way for integrated optics non-classical photon sources in the optical communication band.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# ブラックホール量子大気における多部量子状態のコヒーレンス

Coherence of multipartite quantum states in the black hole quantum atmosphere ( http://arxiv.org/abs/2405.08167v1 )

ライセンス: Link先を確認
Adam Z. Kaczmarek, Dominik Szczęśniak, Zygmunt Bąk, (参考訳) 最近導入された量子大気の概念によると、ブラックホールの放射は、事象の地平線(r_H$)の近くの有効距離(r$)の量子励起に由来することが示唆されている。 ここでは、ブラックホールの近くにある多部量子系のコヒーレンスを分析することによって、量子資源の観点からこの概念を探求する。 グリーンベルガー・ホーネ・ザイリンガー状態の場合、大気のサインは明らかである。 つまり、コヒーレンスは事象の地平線に近いピークを示し、次に減少し、従来の振る舞いを$r/r_H \rightarrow\infty$で回復する。 興味深いことに、量子状態がより複雑になり、パーティの数が増加するにつれて、量子雰囲気の役割は減少し、$N$パーティトコヒーレンス量子化器が期待する標準挙動が観察できることが示されている。 つまり、複雑な設定の場合、量子雰囲気のシグネチャは検出できない可能性がある。 したがって、量子大気論を考慮に入れた場合には、システムのサイズに関して注意が必要である。

According to the recently introduced concept of quantum atmosphere, the black hole radiation is suggested to originate from the quantum excitations at the effective distance ($r$) near the event horizon ($r_H$). Here, this concept is explored from the quantum resource perspective by analysing the coherence of multipartite quantum systems located near a black hole. For the Greenberger-Horne-Zeilinger state, it is found that signatures of the atmosphere are apparent. This is to say, the coherence exhibits peak close to the event horizon and next decreases, recovering conventional behavior at $r/r_H \rightarrow\infty$. Interestingly, it is shown that as the quantum state gets more complex and the number of parties increases, the role of quantum atmosphere diminishes and the standard behaviour expected for the $N$-partite coherence quantifiers can be observed. That means, in case of complex setups the quantum atmosphere signatures may not be detectable. Hence, our findings show that care should be taken, regarding size of a system, when quantum atmosphere argument is considered.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 低リソース設定のためのヒストロジースライドデジタル化ワークフローの再考

Rethinking Histology Slide Digitization Workflows for Low-Resource Settings ( http://arxiv.org/abs/2405.08169v1 )

ライセンス: Link先を確認
Talat Zehra, Joseph Marino, Wendy Wang, Grigoriy Frantsuzov, Saad Nadeem, (参考訳) 遠隔コンサルテーション、知識共有(教育)、最先端の人工知能アルゴリズム(拡張/自動化されたエンドツーエンド臨床ワークフロー)の利用には、ヒストロジースライドのデジタル化が欠かせないものになりつつある。 しかし、デジタルマルチスライダーの高速照準スキャナー、クラウド/オンプレミスストレージ、人員(ITと技術者)の累積コストは、現在のスライドデジタル化ワークフローを、限られたリソース設定でアウトオブリーチし、健康格差をさらに広げている。 本研究では,低コストで安価な顕微鏡とカメラを内蔵した低画質ビデオから,スキャナ品質のWSIを作成するための新しいクラウドスライドデジタイゼーションワークフローを提案する。 具体的には、10Xイメージを40倍の解像度にアップサンプリングし、輝度/コントラストおよび光源照明のばらつきを低減しつつ、縫合したWSIを生成するパイプラインを提案する。 われわれは,世界保健機関(WTO)が宣言した熱帯病,Cutaneous Leishmaniasis(世界で最も貧しい地域でのみ発生し,貧しい国では稀なサブスペシャリスト皮膚病理医によってのみ診断される),および乳腺,肝臓,十二指腸,胃,リンパ節のコア生検におけるWSI産生効果を実証した。 コードと事前トレーニングされたモデルはGitHub(https://github.com/nadeemlab/DeepLIIF)からアクセスでき、クラウドプラットフォームはhttps://deepliif.orgで顕微鏡ビデオのアップロードと、テレパロジーと知識共有のための共有リンク(サインイン不要)を備えたWSIのダウンロード/ビューが可能になる。

Histology slide digitization is becoming essential for telepathology (remote consultation), knowledge sharing (education), and using the state-of-the-art artificial intelligence algorithms (augmented/automated end-to-end clinical workflows). However, the cumulative costs of digital multi-slide high-speed brightfield scanners, cloud/on-premises storage, and personnel (IT and technicians) make the current slide digitization workflows out-of-reach for limited-resource settings, further widening the health equity gap; even single-slide manual scanning commercial solutions are costly due to hardware requirements (high-resolution cameras, high-spec PC/workstation, and support for only high-end microscopes). In this work, we present a new cloud slide digitization workflow for creating scanner-quality whole-slide images (WSIs) from uploaded low-quality videos, acquired from cheap and inexpensive microscopes with built-in cameras. Specifically, we present a pipeline to create stitched WSIs while automatically deblurring out-of-focus regions, upsampling input 10X images to 40X resolution, and reducing brightness/contrast and light-source illumination variations. We demonstrate the WSI creation efficacy from our workflow on World Health Organization-declared neglected tropical disease, Cutaneous Leishmaniasis (prevalent only in the poorest regions of the world and only diagnosed by sub-specialist dermatopathologists, rare in poor countries), as well as other common pathologies on core biopsies of breast, liver, duodenum, stomach and lymph node. The code and pretrained models will be accessible via our GitHub (https://github.com/nadeemlab/DeepLIIF), and the cloud platform will be available at https://deepliif.org for uploading microscope videos and downloading/viewing WSIs with shareable links (no sign-in required) for telepathology and knowledge sharing.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# CANTONMT: 英語翻訳におけるバックトランスレーションとモデルスイッチ機構の検討

CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation ( http://arxiv.org/abs/2405.08172v1 )

ライセンス: Link先を確認
Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic, (参考訳) 本稿では、カントン語から英語への機械翻訳モデルの開発と評価について検討し、低リソース言語翻訳への新たなアプローチを提案する。 この研究の主な目的は、カントン語を効果的に英語に翻訳し、最先端の商業モデルに対して評価できるモデルを開発することである。 これを実現するために、オンラインで利用可能な異なるコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。 さらに、合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。 データ収集プロセスに続いて、微調整モデル、バックトランスレーション、モデルスイッチなど、いくつかのアプローチが使用されている。 モデルの翻訳品質は、レキシコンベースのメトリクス(SacreBLEUとhLEPOR)や埋め込み空間メトリクス(COMETとBERTscore)など、複数の品質メトリクスで評価されている。 自動測定値に基づいて、ヒト評価フレームワークHOPESを用いて、最適なモデルを選択し、比較する。 モデルスイッチ機構を備えたNLLB-mBART (NLLB-mBART) で提案される最良のモデルでは,テストセットのSacreBLEUスコアが16.8である最先端の商用モデル (Bing と Baidu Translators) に対して,同等かつさらに優れた自動評価スコアに達している。 さらに、ユーザがカントン語と英語を翻訳できるように、オープンソースのWebアプリケーションも開発されている。 CANTONMTはhttps://github.com/kenrickkung/Cantonese Translationで利用可能である。

This paper investigates the development and evaluation of machine translation models from Cantonese to English, where we propose a novel approach to tackle low-resource language translations. The main objectives of the study are to develop a model that can effectively translate Cantonese to English and evaluate it against state-of-the-art commercial models. To achieve this, a new parallel corpus has been created by combining different available corpora online with preprocessing and cleaning. In addition, a monolingual Cantonese dataset has been created through web scraping to aid the synthetic parallel corpus generation. Following the data collection process, several approaches, including fine-tuning models, back-translation, and model switch, have been used. The translation quality of models has been evaluated with multiple quality metrics, including lexicon-based metrics (SacreBLEU and hLEPOR) and embedding-space metrics (COMET and BERTscore). Based on the automatic metrics, the best model is selected and compared against the 2 best commercial translators using the human evaluation framework HOPES. The best model proposed in this investigation (NLLB-mBART) with model switch mechanisms has reached comparable and even better automatic evaluation scores against State-of-the-art commercial models (Bing and Baidu Translators), with a SacreBLEU score of 16.8 on our test set. Furthermore, an open-source web application has been developed to allow users to translate between Cantonese and English, with the different trained models available for effective comparisons between models from this investigation and users. CANTONMT is available at https://github.com/kenrickkung/CantoneseTranslation
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 空間干渉の有無を考慮した時空間干渉の直接因果効果と間接因果効果の推定

Estimating Direct and Indirect Causal Effects of Spatiotemporal Interventions in Presence of Spatial Interference ( http://arxiv.org/abs/2405.08174v1 )

ライセンス: Link先を確認
Sahara Ali, Omar Faruque, Jianwu Wang, (参考訳) 空間干渉は、ある場所での治療が他の場所での結果に影響を与えるときに起こる。 時空間における空間干渉の会計は、干渉が安定した単位処理値の仮定に反するので、空間的に異なる結果における時間変化処理の効果を定量化するための標準的な因果推論法では不可能である。 本稿では, 空間干渉という概念を, 不測の共起を前提に, 潜在的結果の枠組みを拡張して, 時間変化による治療課題における空間干渉の概念を定式化する。 次に、時空間因果推論のための深層学習に基づく潜在的な結果モデルを提案する。 U-Netアーキテクチャのパワーを活用しながら、遅延因子モデルを用いて時間的変化によるバイアスを低減し、時間とともにグローバルかつ局所的な空間干渉を捕捉する。 我々の因果推定器は、直接的(DATE)と間接的(IATE)を推定するための平均治療効果(ATE)の拡張である。 本手法は,深層学習に基づく時空間因果推論手法としては初めてであり,空間的干渉を伴わない2つの合成データセットの実験結果に基づいて,いくつかの基本手法の利点を示す。 実世界の気候データセットに関する我々の結果は、ドメイン知識とも一致し、提案手法の有効性をさらに実証する。

Spatial interference (SI) occurs when the treatment at one location affects the outcomes at other locations. Accounting for spatial interference in spatiotemporal settings poses further challenges as interference violates the stable unit treatment value assumption, making it infeasible for standard causal inference methods to quantify the effects of time-varying treatment at spatially varying outcomes. In this paper, we first formalize the concept of spatial interference in case of time-varying treatment assignments by extending the potential outcome framework under the assumption of no unmeasured confounding. We then propose our deep learning based potential outcome model for spatiotemporal causal inference. We utilize latent factor modeling to reduce the bias due to time-varying confounding while leveraging the power of U-Net architecture to capture global and local spatial interference in data over time. Our causal estimators are an extension of average treatment effect (ATE) for estimating direct (DATE) and indirect effects (IATE) of spatial interference on treated and untreated data. Being the first of its kind deep learning based spatiotemporal causal inference technique, our approach shows advantages over several baseline methods based on the experiment results on two synthetic datasets, with and without spatial interference. Our results on real-world climate dataset also align with domain knowledge, further demonstrating the effectiveness of our proposed method.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# AWS Model Deployment Servicesの比較分析

Comparative Analysis of AWS Model Deployment Services ( http://arxiv.org/abs/2405.08175v1 )

ライセンス: Link先を確認
Rahul Bagai, (参考訳) SageMaker、Lambda、Elastic Container Service(ECS)の3つの重要なモデルデプロイサービスを提供している。 これらのサービスには重要なアドバンテージとデメリットがあり、モデル開発者の採用決定に影響を与える。 この比較分析は、これらのサービスのメリットと欠点をレビューする。 この分析によると、Lambda AWSサービスは、モデル開発中に効率性、自動スケーリング、統合を導く。 逆に、ECSはモデル開発中の複雑なコンテナ環境の管理や予算の懸念に対処する上で、より適している -- つまり、水平スケーリングによる完全な自由とフレームワークの柔軟性を達成することを目的としているモデル開発者にとって、好まれる選択肢である。 ECSは、プロジェクトの目標と制約に合わせたパフォーマンス要件を保証するのに適しています。 AWSサービス選択プロセスは、ロードバランシングとコスト効率に制限されない要因を考慮に入れている。 ECSは、モデル開発が抽象から始まるとき、より良い選択です。 水平および垂直にスケールする機能など、ユニークなメリットがあり、モデルデプロイメントにとって最適なツールです。

Amazon Web Services (AWS) offers three important Model Deployment Services for model developers: SageMaker, Lambda, and Elastic Container Service (ECS). These services have critical advantages and disadvantages, influencing model developer's adoption decisions. This comparative analysis reviews the merits and drawbacks of these services. This analysis found that Lambda AWS service leads in efficiency, autoscaling aspects, and integration during model development. However, ECS was found to be outstanding in terms of flexibility, scalability, and infrastructure control; conversely, ECS is better suited when it comes to managing complex container environments during model development, as well as addressing budget concerns -- it is, therefore, the preferred option for model developers whose objective is to achieve complete freedom and framework flexibility with horizontal scaling. ECS is better suited to ensuring performance requirements align with project goals and constraints. The AWS service selection process considered factors that include but are not limited to load balance and cost-effectiveness. ECS is a better choice when model development begins from the abstract. It offers unique benefits, such as the ability to scale horizontally and vertically, making it the best preferable tool for model deployment.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 非線形導波路アレイにおける空間絡みの再構成可能生成

Reconfigurable generation of spatial entanglement in nonlinear waveguide arrays ( http://arxiv.org/abs/2405.08176v1 )

ライセンス: Link先を確認
A. Raymond, A. Zecchetto, J. Palomo, M. Morassi, A. Lemaître, F. Raineri, M. I. Amanti, S. Ducci, F. Baboux, (参考訳) 光の高次元の絡み合った状態の調和は、量子力学の基礎的なテストから高度な計算と通信プロトコルに至るまで、量子情報技術の進歩のフロンティアを示す。 この文脈では、空間的自由度はオンチップ統合に特に適している。 しかし従来の実証では、経路に絡み合った状態を個別の光学素子で連続的に生成し操作するが、連続結合された非線形導波路システムは、光子を発生し、伝播長全体に沿って干渉し、フットプリントを小さくすることで、新たな能力を披露する、有望な代替手段を提供する。 ここでは、この概念を利用して、AlGaAs非線形導波路アレイのパラメトリックダウン変換に基づいて、空間的に絡み合った光子対のコンパクトで再構成可能なソースを実装する。 我々は、出力量子状態を設計し、様々な種類の空間相関を実装し、各ポンプ導波路で発生したバイフォトン状態間の量子干渉効果を利用する。 この実験は、室温とテレコム波長において、光子の高次元空間自由度を利用するための離散多成分量子回路の代替として、連続結合系の可能性を示している。

Harnessing high-dimensional entangled states of light presents a frontier for advancing quantum information technologies, from fundamental tests of quantum mechanics to enhanced computation and communication protocols. In this context, the spatial degree of freedom stands out as particularly suited for on-chip integration. But while traditional demonstrations produce and manipulate path-entangled states sequentially with discrete optical elements, continuously-coupled nonlinear waveguide systems offer a promising alternative where photons can be generated and interfere along the entire propagation length, unveiling novel capabilities within a reduced footprint. Here we exploit this concept to implement a compact and reconfigurable source of spatially entangled photon pairs based on parametric down-conversion in AlGaAs nonlinear waveguides arrays. We use a double-pump configuration to engineer the output quantum state and implement various types of spatial correlations, exploiting a quantum interference effect between the biphoton state generated in each pumped waveguide. This demonstration, at room temperature and telecom wavelength, illustrates the potential of continuously-coupled systems as a promising alternative to discrete multi-component quantum circuits for leveraging the high-dimensional spatial degree of freedom of photons.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# ベイズイメージングは信頼できる確率を報告しているか?

Do Bayesian imaging methods report trustworthy probabilities? ( http://arxiv.org/abs/2405.08179v1 )

ライセンス: Link先を確認
David Y. W. Thong, Charlesquin Kemajou Mbakam, Marcelo Pereyra, (参考訳) ベイズ統計は画像科学の基盤であり、マルコフのランダム場からスコアに基づくデノナイジング拡散モデルへの多くの様々なアプローチを支えている。 強力な画像推定法に加えて、ベイズパラダイムは不確実性定量化のためのフレームワークも提供し、画像データを定量的証拠として利用する。 これらの確率的能力は、実験結果の厳密な解釈や、定量的画像パイプラインと科学的および決定的プロセスとの堅牢な相互作用のために重要である。 しかし、既存のベイズ画像法によって得られた確率は、実験の複製において意味があるのか、それとも、主観的信念の尺度としてのみ意味があるのか? 本稿では,モンテカルロ法を用いてこの問題を探索する。 次に提案したモンテカルロ法を応用し,過去数十年の主要なベイズ画像戦略の1つである5つの標準ベイズ画像法の精度を1000GPU時間で検証する大規模な実験を行う(スコアベースデノナイジン拡散法,リプシッツ正規化DnCNNデノワザを用いたプラグアンドプレイランゲインアルゴリズム,ログ共振制約を前提とした辞書ベースのベイズ的手法,全変分前の経験的ベイズ的手法,ガウスマルコフ確率場モデルに基づく階層的ベイズ的ギブズサンプリング)。 現代のベイズ画像技術によって報告された確率は、実験の多数の複製で観察された長期平均値と広く一致しているが、既存のベイズ画像法では、信頼性の高い不確実性定量化結果が得られない。

Bayesian statistics is a cornerstone of imaging sciences, underpinning many and varied approaches from Markov random fields to score-based denoising diffusion models. In addition to powerful image estimation methods, the Bayesian paradigm also provides a framework for uncertainty quantification and for using image data as quantitative evidence. These probabilistic capabilities are important for the rigorous interpretation of experimental results and for robust interfacing of quantitative imaging pipelines with scientific and decision-making processes. However, are the probabilities delivered by existing Bayesian imaging methods meaningful under replication of an experiment, or are they only meaningful as subjective measures of belief? This paper presents a Monte Carlo method to explore this question. We then leverage the proposed Monte Carlo method and run a large experiment requiring 1,000 GPU-hours to probe the accuracy of five canonical Bayesian imaging methods that are representative of some of the main Bayesian imaging strategies from the past decades (a score-based denoising diffusion technique, a plug-and-play Langevin algorithm utilising a Lipschitz-regularised DnCNN denoiser, a Bayesian method with a dictionary-based prior trained subject to a log-concavity constraint, an empirical Bayesian method with a total-variation prior, and a hierarchical Bayesian Gibbs sampler based on a Gaussian Markov random field model). We find that, a few cases, the probabilities reported by modern Bayesian imaging techniques are in broad agreement with long-term averages as observed over a large number of replication of an experiment, but existing Bayesian imaging methods are generally not able to deliver reliable uncertainty quantification results.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# エネルギーを考慮したMARLによるフェデレーション学習に向けて--モデルとクライアントのデュアル選択アプローチ

Towards Energy-Aware Federated Learning via MARL: A Dual-Selection Approach for Model and Client ( http://arxiv.org/abs/2405.08183v1 )

ライセンス: Link先を確認
Jun Xia, Yiyu Shi, (参考訳) フェデレートラーニング(FL)は、異種人工知能デバイス(AIoT)の知識共有において有望であるが、同種モデルパラダイムと異種デバイス能力のミスマッチに起因する「木樽効果」により、その訓練性能とエネルギー効率は、実用的なバッテリ駆動シナリオにおいて厳しく制限されている。 その結果, 既存のFL法では, デバイス間の各種の違いから, 電池の制約などエネルギー制約のあるシナリオにおいて, 効果的に訓練を行うことは困難であった。 このような課題に対処するために,クライアントと異種ディープラーニングモデルの両方のエネルギー制約を考慮し,エネルギー効率の高いFLを実現するDR-FLという,エネルギーを意識したFLフレームワークを提案する。 DR-FLは,Vanilla FLとは異なり,MARLをベースとしたMati-Agents Reinforcement Learning(MARL)ベースのデュアル選択方式を採用しており,MARLをベースとした計算能力とエネルギー容量に基づいて,参加者がグローバルモデルに効果的かつ適応的にコントリビューションを行うことができる。 様々なよく知られたデータセットの実験により、DR-FLは大規模AIoTシステムのエネルギー制約下での異種モデル間の知識共有を最大化できるだけでなく、関与する各異種デバイスのモデル性能を向上させることができる。

Although Federated Learning (FL) is promising in knowledge sharing for heterogeneous Artificial Intelligence of Thing (AIoT) devices, their training performance and energy efficacy are severely restricted in practical battery-driven scenarios due to the ``wooden barrel effect'' caused by the mismatch between homogeneous model paradigms and heterogeneous device capability. As a result, due to various kinds of differences among devices, it is hard for existing FL methods to conduct training effectively in energy-constrained scenarios, such as the battery constraints of devices. To tackle the above issues, we propose an energy-aware FL framework named DR-FL, which considers the energy constraints in both clients and heterogeneous deep learning models to enable energy-efficient FL. Unlike Vanilla FL, DR-FL adopts our proposed Muti-Agents Reinforcement Learning (MARL)-based dual-selection method, which allows participated devices to make contributions to the global model effectively and adaptively based on their computing capabilities and energy capacities in a MARL-based manner. Experiments on various well-known datasets show that DR-FL can not only maximise knowledge sharing among heterogeneous models under the energy constraint of large-scale AIoT systems but also improve the model performance of each involved heterogeneous device.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 確率的フラックスリミッタ

Probabilistic Flux Limiters ( http://arxiv.org/abs/2405.08185v1 )

ライセンス: Link先を確認
Nga T. T. Nguyen-Fotiadis, Robert Chiodi, Michael McKerns, Daniel Livescu, Andrew Sornborger, (参考訳) 圧縮性流れシミュレーションにおける衝撃の安定な数値積分はギブス現象(不安定で刺激的な振動)の低減や除去に依存している。 未解決シミュレーションにおける数値離散化によるギブス振動を実質的に除去する一般的な方法は、フラックスリミッタを使用することである。 文献では幅広いフラックスリミッターが研究されており、近年は高解像度データセットで訓練された機械学習手法による最適化への関心が高まっている。 プラグアンドプレイのブラックボックスコンポーネントとしての数値符号におけるフラックスリミッターの一般的な使用は、それらが設計改善の鍵となるターゲットとなる。 さらに、流体力学系では、アレター性(本質的ランダム性)やエピステミック(知識不足)の不確実性が一般的であるが、これらの効果はフラックスリミッターの設計において一般的に無視される。 決定論的力学モデルにおいても、全ての動きのスケールを解くのに十分な計算力で必要とされる粗粒化によって数値的不確実性が導入される。 本稿では,モデルにおけるランダム性やモデルパラメータの不確実性の影響を扱うために設計された,概念的に異なるタイプのフラックスリミッタを提案する。 この新しい確率的フラックスリミッタは、高分解能データを用いて学習され、関連する確率を持つフラックスリミッタ関数のセットで構成され、それらの使用のための選択の周波数を定義する。 バーガースの方程式の例を用いて、確率論的フラックスリミッタを衝撃捕捉符号に使用して、より正確に衝撃プロファイルをキャプチャできることが示される。 特に,確率的フラックスリミッタは標準リミッタよりも優れており,確率的に選択されたフラックスリミッタ関数の集合を拡張することにより,一点まで連続的に改善可能であることを示す。

The stable numerical integration of shocks in compressible flow simulations relies on the reduction or elimination of Gibbs phenomena (unstable, spurious oscillations). A popular method to virtually eliminate Gibbs oscillations caused by numerical discretization in under-resolved simulations is to use a flux limiter. A wide range of flux limiters has been studied in the literature, with recent interest in their optimization via machine learning methods trained on high-resolution datasets. The common use of flux limiters in numerical codes as plug-and-play blackbox components makes them key targets for design improvement. Moreover, while aleatoric (inherent randomness) and epistemic (lack of knowledge) uncertainty is commonplace in fluid dynamical systems, these effects are generally ignored in the design of flux limiters. Even for deterministic dynamical models, numerical uncertainty is introduced via coarse-graining required by insufficient computational power to solve all scales of motion. Here, we introduce a conceptually distinct type of flux limiter that is designed to handle the effects of randomness in the model and uncertainty in model parameters. This new, {\it probabilistic flux limiter}, learned with high-resolution data, consists of a set of flux limiting functions with associated probabilities, which define the frequencies of selection for their use. Using the example of Burgers' equation, we show that a machine learned, probabilistic flux limiter may be used in a shock capturing code to more accurately capture shock profiles. In particular, we show that our probabilistic flux limiter outperforms standard limiters, and can be successively improved upon (up to a point) by expanding the set of probabilistically chosen flux limiting functions.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 四重項の次元によって誘導されるバレン高原

Barren plateaus induced by the dimension of qudits ( http://arxiv.org/abs/2405.08190v1 )

ライセンス: Link先を確認
Lucas Friedrich, Tiago de Souza Farias, Jonas Maziero, (参考訳) 変分量子アルゴリズム(VQA)は、様々な科学的・技術的領域、特に量子ニューラルネットワークにおいて量子アドバンテージを達成するための重要な戦略として登場した。 しかし、その可能性にもかかわらず、VQAは大きな障害に遭遇し、主に勾配の消失問題であり、一般にバレン台地と呼ばれる。 本研究では,従来見過ごされていたクアディットの次元とバレンプラトーの発生との直接的相関を明らかにする。 厳密な分析により,既存の文献はバレン高原におけるクディット次元の内在的影響を暗黙的に示唆している。 これらの知見を定量化するために,バレン高原におけるクーディット次元の影響を実証する数値的な結果を示す。 さらに,様々な誤差軽減手法が提案されているにもかかわらず,本研究の結果は,VQAとquditsの文脈における有効性についてさらなる精査を求めるものである。

Variational Quantum Algorithms (VQAs) have emerged as pivotal strategies for attaining quantum advantages in diverse scientific and technological domains, notably within Quantum Neural Networks. However, despite their potential, VQAs encounter significant obstacles, chief among them being the gradient vanishing problem, commonly referred to as barren plateaus. In this study, we unveil a direct correlation between the dimension of qudits and the occurrence of barren plateaus, a connection previously overlooked. Through meticulous analysis, we demonstrate that existing literature implicitly suggests the intrinsic influence of qudit dimensionality on barren plateaus. To instantiate these findings, we present numerical results that exemplify the impact of qudit dimensionality on barren plateaus. Additionally, despite the proposition of various error mitigation techniques, our results call for further scrutiny about their efficacy in the context of VQAs with qudits.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 量子重力について「量子」とは何か?

What is "quantum" about quantum gravity? ( http://arxiv.org/abs/2405.08192v1 )

ライセンス: Link先を確認
Giorgio Torrieri, (参考訳) 量子状態における等価原理の妥当性を仮定すると、通常の量子力学の定義の仮定の1つ、「古典的」検出器と「量子的」系の分離は緩和されなければならない。 したがって、同値原理と量子力学の両方が実験実験を継続するならば、これは「状態と波動関数の現実を仮定する」よりも「量子力学(観測可能量の間の関係を中心に形式主義が構築される)の「独立」の解釈を好んでいると論じる。 特に、関係型解釈は、形式主義を正当化するために用いられる仮定の小さな修正によって、同値原理を楽しませることができることを示す。 我々は、完全に共変の量子力学がどのようなものか、質的に推測し、実験的な研究についてコメントする。

Assuming the validity of the equivalence principle in the quantum regime, we argue that one of the assumptions of the usual definition of quantum mechanics, namely separation between the ``classical'' detector and the ``quantum'' system, must be relaxed. We argue, therefore, that if both the equivalence principle and quantum mechanics continue to survive experimental tests, that this favors ``epistemic'' interpretations of quantum mechanics (where formalism is built around relations between observables) over ``ontic ones'' (assuming the reality of states and wavefunctions). In particular, we show that relational type interpretations can readily accomodate the equivalence principle via a minor modification of the assumptions used to justify the formalism. We qualitatively speculate what a full generally covariant quantum dynamics could look like, and comment on experimental investigations.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# IHC問題:2段階多モードバイリニアポリシング核融合によるがんグレーディング改善のためのH&E全スライド画像解析へのIHC分析の導入

IHC Matters: Incorporating IHC analysis to H&E Whole Slide Image Analysis for Improved Cancer Grading via Two-stage Multimodal Bilinear Pooling Fusion ( http://arxiv.org/abs/2405.08197v1 )

ライセンス: Link先を確認
Jun Wang, Yu Mao, Yufei Cui, Nan Guan, Chun Jason Xue, (参考訳) 免疫組織化学(IHC)は、組織サンプル中のタンパク質の過剰発現を検出するため、病理学において重要な役割を担っている。 しかし、IHCの正確ながん評価への影響に関する機械学習モデル研究は、まだ少ない。 We found that IHC and H\&E had distinct advantages and disadvantages while having certain complementary quality。 この観測に基づいて,機能プーリングモジュールを用いた2段階のマルチモーダルバイリニアモデルを開発した。 このモデルは、IHCとHEの特徴表現の可能性を最大化することを目的としており、その結果、個々の使用と比較してパフォーマンスが向上する。 我々の実験は、H&E染色画像とともに機械学習モデルにIHCデータを組み込むことで、がんの診断に優れた予測結果が得られることを示した。 提案フレームワークは, パブリックデータセットBCIにおいて, 0.953以上のACCを実現している。

Immunohistochemistry (IHC) plays a crucial role in pathology as it detects the over-expression of protein in tissue samples. However, there are still fewer machine learning model studies on IHC's impact on accurate cancer grading. We discovered that IHC and H\&E possess distinct advantages and disadvantages while possessing certain complementary qualities. Building on this observation, we developed a two-stage multi-modal bilinear model with a feature pooling module. This model aims to maximize the potential of both IHC and HE's feature representation, resulting in improved performance compared to their individual use. Our experiments demonstrate that incorporating IHC data into machine learning models, alongside H\&E stained images, leads to superior predictive results for cancer grading. The proposed framework achieves an impressive ACC higher of 0.953 on the public dataset BCI.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 2次元フェルミ系の一般化ヘルツ作用と量子臨界性

Generalized Hertz action and quantum criticality of two-dimensional Fermi systems ( http://arxiv.org/abs/2405.08198v1 )

ライセンス: Link先を確認
Mateusz Homenda, Paweł Jakubczyk, Hiroyuki Yamase, (参考訳) 我々は、2次元フェルミ系の実効作用と量子臨界特異点の構造を再評価し、秩序なウェーブベクター $\vec{Q}= \vec{0}$ を特徴付ける。 すべての無質量自由度に赤外カットオフを用いることで、ヘルツ作用の一般化形式が導出され、これは特異な有効相互作用の問題に支障をきたさない。 我々は、赤外線スケーリングを捉えるウィルソン運動量殻再正規化群(RG)理論が、流れの大きいスケール依存量として$\vec{Q}$を維持することを実証する。 量子臨界点において、動的指数 $z=3$ で制御されるスケーリングは、より低い値 $z \approx 2$ で特徴づけられる広いスケーリング体制によって覆われている。 これは特に、電子ネマティック量子臨界点に関連する量子モンテカルロシミュレーションの結果を説明する。

We reassess the structure of the effective action and quantum critical singularities of two-dimensional Fermi systems characterized by the ordering wavevector $\vec{Q}= \vec{0}$. By employing infrared cutoffs on all the massless degrees of freedom, we derive a generalized form of the Hertz action, which does not suffer from problems of singular effective interactions. We demonstrate that the Wilsonian momentum-shell renormalization group (RG) theory capturing the infrared scaling should be formulated keeping $\vec{Q}$ as a flowing, scale-dependent quantity. At the quantum critical point, scaling controlled by the dynamical exponent $z=3$ is overshadowed by a broad scaling regime characterized by a lower value of $z \approx 2$. This in particular offers an explanation of the results of quantum Monte Carlo simulations pertinent to the electronic nematic quantum critical point.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# フェーディングとシャドーイングによる時変無線通信路のモデル化

Modeling of Time-varying Wireless Communication Channel with Fading and Shadowing ( http://arxiv.org/abs/2405.08199v1 )

ライセンス: Link先を確認
Lee Youngmin, Ma Xiaomin, Lang S. I. D Andrew, (参考訳) 無線チャネルが送信信号に与える影響のリアルタイム定量化は,各種サービスを対象とした無線通信システムの解析とインテリジェント設計に不可欠である。 近年,ディープラーニングニューラルネットワークを用いた符号化,変調,信号処理などとは無関係にチャネル特性をモデル化するメカニズムが期待できる。 しかし、現在のアプローチは統計的に正確でも、変化する環境に適応できない。 本稿では,ニューラルネットワークと混合密度ネットワークモデルを組み合わせることで,一般的な無線通信システムにおいて受信電力の条件付き確率密度関数(PDF)を導出する手法を提案する。 さらに、チャネルモデルが通信環境の変化に動的に適応できるように、ディープトランスファー学習スキームを設計、実装する。 経路損失とノイズを伴う中上フェーディングチャネルモデルと対数正規シャドーイングチャネルモデルに対する大規模な実験により、新しいアプローチは従来のディープラーニングベースチャネルモデルよりも統計的に正確で、高速で、より堅牢であることが示された。

The real-time quantification of the effect of a wireless channel on the transmitting signal is crucial for the analysis and the intelligent design of wireless communication systems for various services. Recent mechanisms to model channel characteristics independent of coding, modulation, signal processing, etc., using deep learning neural networks are promising solutions. However, the current approaches are neither statistically accurate nor able to adapt to the changing environment. In this paper, we propose a new approach that combines a deep learning neural network with a mixture density network model to derive the conditional probability density function (PDF) of receiving power given a communication distance in general wireless communication systems. Furthermore, a deep transfer learning scheme is designed and implemented to allow the channel model to dynamically adapt to changes in communication environments. Extensive experiments on Nakagami fading channel model and Log-normal shadowing channel model with path loss and noise show that the new approach is more statistically accurate, faster, and more robust than the previous deep learning-based channel models.
翻訳日:2024-05-15 15:37:23 公開日:2024-05-13
# 動作検出のためのセマンティック・モーション対応時空間変圧器ネットワーク

A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection ( http://arxiv.org/abs/2405.08204v1 )

ライセンス: Link先を確認
Matthew Korban, Peter Youngs, Scott T. Acton, (参考訳) 本稿では,非トリミングビデオにおける動作を検出するために,複数のオリジナルコンポーネントを導入した新しい時空間トランスフォーマネットワークを提案する。 まず、多機能選択的セマンティックアテンションモデルを用いて、空間的特徴と運動的特徴の相関を計算し、異なるアクションセマンティクス間の時空間的相互作用を適切にモデル化する。 第2に、モーションアウェアネットワークは、モーションアウェア2D位置符号化アルゴリズムを用いて、ビデオフレーム内のアクションセマンティクスの位置を符号化する。 このような動き認識機構は、現在の手法では利用できない動作フレームの動的時空間変動を記憶する。 第3に、シーケンスベースの時間的アテンションモデルは、アクションフレームの不均一な時間的依存をキャプチャする。 自然言語処理で使用される標準的な時間的注意は、主に言語単語間の類似性を見つけることを目的としているのに対し、提案されたシーケンスベースの時間的注意は、アクションの意味を共同で定義するビデオフレーム間の差異と類似性の両方を決定するように設計されている。 提案手法は、4つの時空間行動データセット(AVA 2.2, AVA 2.1, UCF101-24, EPIC-Kitchens)で最先端のソリューションよりも優れている。

This paper presents a novel spatiotemporal transformer network that introduces several original components to detect actions in untrimmed videos. First, the multi-feature selective semantic attention model calculates the correlations between spatial and motion features to model spatiotemporal interactions between different action semantics properly. Second, the motion-aware network encodes the locations of action semantics in video frames utilizing the motion-aware 2D positional encoding algorithm. Such a motion-aware mechanism memorizes the dynamic spatiotemporal variations in action frames that current methods cannot exploit. Third, the sequence-based temporal attention model captures the heterogeneous temporal dependencies in action frames. In contrast to standard temporal attention used in natural language processing, primarily aimed at finding similarities between linguistic words, the proposed sequence-based temporal attention is designed to determine both the differences and similarities between video frames that jointly define the meaning of actions. The proposed approach outperforms the state-of-the-art solutions on four spatiotemporal action datasets: AVA 2.2, AVA 2.1, UCF101-24, and EPIC-Kitchens.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 機能的に重要な部位と小分子の基質によって誘導される生成酵素設計

Generative Enzyme Design Guided by Functionally Important Sites and Small-Molecule Substrates ( http://arxiv.org/abs/2405.08205v1 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Wenxian Shi, Wengong Jin, Yang Yang, Lei Li, (参考訳) 酵素は、化学反応を加速できる遺伝子コード化された生体触媒である。 機能性酵素をどのように設計するか? 本稿では,酵素設計のための統一モデルであるEnzyGenを提案する。 我々のキーとなるアイデアは、酵素のアミノ酸配列とその3次元(3D)座標を、所望の触媒機能に対応する機能的に重要な部位と基質に基づいて生成することである。 これらの部位は酵素データベースから自動的に採掘される。 EnzyGenは、タンパク質配列全体における長距離相関と、3D空間における最も近いアミノ酸の局所的影響の両方を捉える、新しいインターリービングネットワークと近隣の同変層で構成されている。 生成モデルを学習するために、配列生成損失、位置予測損失、酵素-基質相互作用損失を含む共同学習目標を考案する。 さらに、タンパク質データバンク(PDB)内のすべての利用可能な酵素をカバーする3157の酵素ファミリーを持つデータセットであるEnzyBenchを構築した。 実験の結果、EnzyGenは323の試験ファミリで一貫して最高のパフォーマンスを達成し、基質結合親和性の点で10.79%のベースラインを上回りました。 これらの結果から, 高い親和性を有する特定の基質に結合する, 十分に折りたたみされた, 効果的な酵素を設計する上で, EnzyGenが優れていることが示唆された。

Enzymes are genetically encoded biocatalysts capable of accelerating chemical reactions. How can we automatically design functional enzymes? In this paper, we propose EnzyGen, an approach to learn a unified model to design enzymes across all functional families. Our key idea is to generate an enzyme's amino acid sequence and their three-dimensional (3D) coordinates based on functionally important sites and substrates corresponding to a desired catalytic function. These sites are automatically mined from enzyme databases. EnzyGen consists of a novel interleaving network of attention and neighborhood equivariant layers, which captures both long-range correlation in an entire protein sequence and local influence from nearest amino acids in 3D space. To learn the generative model, we devise a joint training objective, including a sequence generation loss, a position prediction loss and an enzyme-substrate interaction loss. We further construct EnzyBench, a dataset with 3157 enzyme families, covering all available enzymes within the protein data bank (PDB). Experimental results show that our EnzyGen consistently achieves the best performance across all 323 testing families, surpassing the best baseline by 10.79% in terms of substrate binding affinity. These findings demonstrate EnzyGen's superior capability in designing well-folded and effective enzymes binding to specific substrates with high affinities.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 誰が出ているのか? DataCompにおけるマルチモーダルCLIPフィルタリングの事例研究

Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp ( http://arxiv.org/abs/2405.08209v1 )

ライセンス: Link先を確認
Rachel Hong, William Agnew, Tadayoshi Kohno, Jamie Morgenstern, (参考訳) トレーニングデータセットが、Webのような構造化されていない、制御されていない環境から引き出されていくにつれて、研究者や業界の実践者は、Webスクラッドデータの"ノイズを除去する"ために、データフィルタリング技術にますます依存している。 データセットは、作成者のバイアスや価値観を反映するものとして広く示されているが、本論文では、これらのデータセットの作成に使用されるフィルタを評価するための、新たな研究団体に貢献する。 画像テキストデータフィルタリングにもバイアスがあり、値ラデンであり、「高品質」なデータとして数えられるものの特定の概念を符号化していることを示す。 本研究では, 画像, テキスト, ウェブサイトソースの多様性にまたがる様々なアノテーション技術を通して, フィルタリングの相違を解析することにより, 学術ベンチマークDataComp's CommonPoolにおける画像テキストCLIP-filteringの標準的アプローチを監査する。 LGBTQ+の人々、年上の女性、若い男性など、いくつかの不適切な人口集団に関するデータは、排除率の上昇に関連していることがわかった。 さらに, 排除増幅の事例として, フィルタされていないデータにすでに疎外化されたグループが存在するだけでなく, CLIP-filtering はこれらのグループからのデータを高いレートで除外する。 機械学習パイプラインにおけるデータフィルタリングステップは、特にゼロショット画像分類精度などの特定の下流パフォーマンスメトリックを最適化するように、既存のフィルタが設計されている場合、データ収集ステップにすでに存在する表現格差を悪化させる可能性がある。 最後に、NSFWフィルタは、CommonPoolから性的に要求されたコンテンツを削除せず、CLIPフィルタリングには、高いレートで著作権のあるコンテンツのカテゴリがいくつか含まれていることを示す。 私たちの結論は、データセットの作成とフィルタリングのプラクティスに根本的な変更が必要であることを示している。

As training datasets become increasingly drawn from unstructured, uncontrolled environments such as the web, researchers and industry practitioners have increasingly relied upon data filtering techniques to "filter out the noise" of web-scraped data. While datasets have been widely shown to reflect the biases and values of their creators, in this paper we contribute to an emerging body of research that assesses the filters used to create these datasets. We show that image-text data filtering also has biases and is value-laden, encoding specific notions of what is counted as "high-quality" data. In our work, we audit a standard approach of image-text CLIP-filtering on the academic benchmark DataComp's CommonPool by analyzing discrepancies of filtering through various annotation techniques across multiple modalities of image, text, and website source. We find that data relating to several imputed demographic groups -- such as LGBTQ+ people, older women, and younger men -- are associated with higher rates of exclusion. Moreover, we demonstrate cases of exclusion amplification: not only are certain marginalized groups already underrepresented in the unfiltered data, but CLIP-filtering excludes data from these groups at higher rates. The data-filtering step in the machine learning pipeline can therefore exacerbate representation disparities already present in the data-gathering step, especially when existing filters are designed to optimize a specifically-chosen downstream performance metric like zero-shot image classification accuracy. Finally, we show that the NSFW filter fails to remove sexually-explicit content from CommonPool, and that CLIP-filtering includes several categories of copyrighted content at high rates. Our conclusions point to a need for fundamental changes in dataset creation and filtering practices.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 無限テクスチャ:テキスト誘導高分解能拡散テクスチャ合成

Infinite Texture: Text-guided High Resolution Diffusion Texture Synthesis ( http://arxiv.org/abs/2405.08210v1 )

ライセンス: Link先を確認
Yifan Wang, Aleksander Holynski, Brian L. Curless, Steven M. Seitz, (参考訳) Infinite Textureはテキストプロンプトから任意の大きさのテクスチャ画像を生成する方法である。 本手法は,1つのテクスチャ上に拡散モデルを微調整し,その分布をモデルの出力領域に埋め込むことを学習する。 DALL-E 2のようなテキスト・ツー・イメージ・モデルから任意に生成できる、サンプルテクスチャパッチでこの微調整プロセスをシードする。 1つのGPU上で任意の解像度の出力テクスチャ画像を生成するために、スコアアグリゲーション戦略により、我々の微調整拡散モデルを使用する。 本手法から合成テクスチャをパッチベースおよびディープラーニングテクスチャ合成法における既存の作業と比較する。 生成したテクスチャの3次元レンダリングとテクスチャ転送における2つの応用についても紹介する。

We present Infinite Texture, a method for generating arbitrarily large texture images from a text prompt. Our approach fine-tunes a diffusion model on a single texture, and learns to embed that statistical distribution in the output domain of the model. We seed this fine-tuning process with a sample texture patch, which can be optionally generated from a text-to-image model like DALL-E 2. At generation time, our fine-tuned diffusion model is used through a score aggregation strategy to generate output texture images of arbitrary resolution on a single GPU. We compare synthesized textures from our method to existing work in patch-based and deep learning texture synthesis methods. We also showcase two applications of our generated textures in 3D rendering and texture transfer.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# プログラミング・アサインメントにおける潜在学生の知識表現の解釈

Interpreting Latent Student Knowledge Representations in Programming Assignments ( http://arxiv.org/abs/2405.08213v1 )

ライセンス: Link先を確認
Nigel Fernandez, Andrew Lan, (参考訳) 人工知能の教育における最近の進歩は、生成的大言語モデルを利用して、その正確性のみではなく、オープンエンドの学生の反応を予測している。 しかしながら、これらのモデルのブラックボックスの性質は、学習した学生の知識表現の解釈可能性を制限する。 本稿では,情報正規化オープンエンドアイテム応答理論モデルであるInfoOIRTを提示することにより,潜在学生の知識表現の解釈を初めて行う。 InfoOIRTは、単純な事前分布で強制される潜伏知識状態の固定されたサブセットと生成された学生コードの間の相互情報を最大化することで、モデルが、構文スタイル、プログラミングスキルの熟達、コード構造を含む有能な構文および意味的コード機能の非絡み合った表現を学習することを奨励する。 実世界のプログラミング教育データセットの実験を通して、InfoOIRTは学生のコードを正確に生成し、解釈可能な学生の知識表現へと導くことができることを示す。

Recent advances in artificial intelligence for education leverage generative large language models, including using them to predict open-ended student responses rather than their correctness only. However, the black-box nature of these models limits the interpretability of the learned student knowledge representations. In this paper, we conduct a first exploration into interpreting latent student knowledge representations by presenting InfoOIRT, an Information regularized Open-ended Item Response Theory model, which encourages the latent student knowledge states to be interpretable while being able to generate student-written code for open-ended programming questions. InfoOIRT maximizes the mutual information between a fixed subset of latent knowledge states enforced with simple prior distributions and generated student code, which encourages the model to learn disentangled representations of salient syntactic and semantic code features including syntactic styles, mastery of programming skills, and code structures. Through experiments on a real-world programming education dataset, we show that InfoOIRT can both accurately generate student code and lead to interpretable student knowledge representations.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# グラディエントな類似性を持つデータ評価

Data Valuation with Gradient Similarity ( http://arxiv.org/abs/2405.08217v1 )

ライセンス: Link先を確認
Nathaniel J. Evans, Gordon B. Mills, Guanming Wu, Xubo Song, Shannon McWeeney, (参考訳) 高品質なデータは、正確な機械学習と実行可能な分析には不可欠だが、多くのドメインでは、ラベルのずれやノイズの多いデータが一般的な問題である。 高品質なデータから低品質なデータを識別することは困難であり、しばしば専門家の知識とかなりの手作業による介入を必要とする。 データバリュエーションアルゴリズム(Data Valuation algorithm)は、データセット内の各サンプルの価値を、与えられた予測タスクへの貢献や重要性に基づいて定量化する手法のクラスである。 これらのデータ値は、ラベルの不一致を識別する印象的な能力を示し、低値データをフィルタリングすることで、機械学習のパフォーマンスが向上する。 本研究では,DVGS (Data Valuation with Gradient similarity) と呼ばれる既存手法の簡易な代替手法を提案する。 このアプローチは、任意の勾配降下学習アルゴリズムに容易に適用でき、大きなデータセットにうまくスケールでき、破損したラベル発見やノイズ定量化といったタスクのベースラインアセスメント手法よりも相容れないか、あるいは優れている。 本手法の有効性を示すために,DVGS法を表,画像,RNA表現データセット上で評価した。 当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。

High-quality data is crucial for accurate machine learning and actionable analytics, however, mislabeled or noisy data is a common problem in many domains. Distinguishing low- from high-quality data can be challenging, often requiring expert knowledge and considerable manual intervention. Data Valuation algorithms are a class of methods that seek to quantify the value of each sample in a dataset based on its contribution or importance to a given predictive task. These data values have shown an impressive ability to identify mislabeled observations, and filtering low-value data can boost machine learning performance. In this work, we present a simple alternative to existing methods, termed Data Valuation with Gradient Similarity (DVGS). This approach can be easily applied to any gradient descent learning algorithm, scales well to large datasets, and performs comparably or better than baseline valuation methods for tasks such as corrupted label discovery and noise quantification. We evaluate the DVGS method on tabular, image and RNA expression datasets to show the effectiveness of the method across domains. Our approach has the ability to rapidly and accurately identify low-quality data, which can reduce the need for expert knowledge and manual intervention in data cleaning tasks.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 浅層・深層言語理解の情報理論モデル

An information-theoretic model of shallow and deep language comprehension ( http://arxiv.org/abs/2405.08223v1 )

ライセンス: Link先を確認
Jiaxuan Li, Richard Futrell, (参考訳) 心理言語学における多くの研究は、オンライン言語理解が浅く、あるいは「十分良い」という考えに焦点が当てられている:時間や利用可能な計算の制約が与えられた場合、コンプレッシャーは、妥当だが不正確な入力の解釈を形成するかもしれない。 しかし、この考え方は資源制約の下での計算の形式理論とはまだ関連付けられていない。 ここでは、情報理論を用いて、入力から抽出した情報のビットとして定式化され、処理時間とともに増大する、精度と処理深度の間の最適なトレードオフとして言語理解のモデルを定式化する。 このモデルでは、処理深度の変化として処理の労力を計測し、脳波信号と読み取り時間にリンクする。 また,N400,P600,両相性ERP効果を考慮した脳波実験を行った。 浅層から深層へと進む言語処理の時間軸を定量化することにより、我々のモデルは、言語理解の行動的および神経的シグネチャを説明する統一的な枠組みを提供する。

A large body of work in psycholinguistics has focused on the idea that online language comprehension can be shallow or `good enough': given constraints on time or available computation, comprehenders may form interpretations of their input that are plausible but inaccurate. However, this idea has not yet been linked with formal theories of computation under resource constraints. Here we use information theory to formulate a model of language comprehension as an optimal trade-off between accuracy and processing depth, formalized as bits of information extracted from the input, which increases with processing time. The model provides a measure of processing effort as the change in processing depth, which we link to EEG signals and reading times. We validate our theory against a large-scale dataset of garden path sentence reading times, and EEG experiments featuring N400, P600 and biphasic ERP effects. By quantifying the timecourse of language processing as it proceeds from shallow to deep, our model provides a unified framework to explain behavioral and neural signatures of language comprehension.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# SeNMo: オンコロジーにおけるマルチオミクスデータ解析の強化のための自己正規化深層学習モデル

SeNMo: A Self-Normalizing Deep Learning Model for Enhanced Multi-Omics Data Analysis in Oncology ( http://arxiv.org/abs/2405.08226v1 )

ライセンス: Link先を確認
Asim Waqas, Aakash Tripathi, Sabeen Ahmed, Ashwin Mukund, Hamza Farooq, Matthew B. Schabath, Paul Stewart, Mia Naeini, Ghulam Rasool, (参考訳) マルチオミクス研究は、がんの不均一性と進行の理解を深めた。 マルチオミクスアプローチによる分子データの探索は、がんの根底にある複雑な生物学的メカニズムを解明し、効果的な診断、治療、予防戦略を可能にするために重要である。 しかし、利用可能な全マルチオミクスデータの統合による患者結果の予測は、研究の方向性として研究が進められている。 本稿では,33種類の癌にまたがるマルチオミクスデータに基づいて訓練された深層ニューラルネットワークSeNMo(Self-normalizing Network for Multi-omics)を提案する。 SeNMoは、高幅(多くの特徴)と低長(低いサンプル)の属性を特徴とするマルチオミクスデータを扱うのに効率的である。 我々はSeNMoを,Genomics Data Commons(GDC)の33のがん部位を含む膵臓データを用いて総合生存を訓練した。 トレーニングデータは、遺伝子発現、DNAメチル化、miRNA発現、DNA突然変異、タンパク質発現モダリティ、臨床データを含む。 本研究では,コンコーダンス指標(C-Index)を用いて,全体の生存率を予測する際のモデルの性能を評価した。 SeNMoは、GDCの公開データに対するC-Indexのバリデーション0.76で、トレーニング体制において一貫して良好に動作した。 テスト体制では、SeNMoはホールドアウトテストセットでC-Indexの0.758で実行された。 このモデルでは、膵臓検査コホートにおける原発性がんのタイプを分類する作業において、平均99.8%の精度を示した。 SeNMoは、分子データ型だけでなく、原発性がん型を予測するための分類タスクにも頑健な性能と適応性を示したため、マルチオミクスオンコロジーデータのためのミニ境界モデルであることが判明した。 SeNMoは任意のがん部位と分子データタイプにさらに拡張することができる。 SeNMoと類似のモデルは、腫瘍学の景観を変革し、より効果的で効率よく、患者中心のがん治療を期待していると信じています。

Multi-omics research has enhanced our understanding of cancer heterogeneity and progression. Investigating molecular data through multi-omics approaches is crucial for unraveling the complex biological mechanisms underlying cancer, thereby enabling effective diagnosis, treatment, and prevention strategies. However, predicting patient outcomes through integration of all available multi-omics data is an under-study research direction. Here, we present SeNMo (Self-normalizing Network for Multi-omics), a deep neural network trained on multi-omics data across 33 cancer types. SeNMo is efficient in handling multi-omics data characterized by high-width (many features) and low-length (fewer samples) attributes. We trained SeNMo for the task of overall survival using pan-cancer data involving 33 cancer sites from Genomics Data Commons (GDC). The training data includes gene expression, DNA methylation, miRNA expression, DNA mutations, protein expression modalities, and clinical data. We evaluated the model's performance in predicting overall survival using concordance index (C-Index). SeNMo performed consistently well in training regime, with the validation C-Index of 0.76 on GDC's public data. In the testing regime, SeNMo performed with a C-Index of 0.758 on a held-out test set. The model showed an average accuracy of 99.8% on the task of classifying the primary cancer type on the pan-cancer test cohort. SeNMo proved to be a mini-foundation model for multi-omics oncology data because it demonstrated robust performance, and adaptability not only across molecular data types but also on the classification task of predicting the primary cancer type of patients. SeNMo can be further scaled to any cancer site and molecular data type. We believe SeNMo and similar models are poised to transform the oncology landscape, offering hope for more effective, efficient, and patient-centric cancer care.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 広視野窒素-原子価顕微鏡によるヘモグロビンの磁気緩和

Magnetic Relaxometry of Hemoglobin by Widefield Nitrogen-Vacancy Microscopy ( http://arxiv.org/abs/2405.08227v1 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Evelyn Carreto Guevara, Ilja Fescenko, Sy-Hwang Liou, Rebecca Y. Lai, Abdelghani Laraoui, (参考訳) ヘモグロビン(ヘモグロビン、Hemoglobin、Hb)は、金属タンパク質、クロムタンパク質、グロブリンに分類される多面体タンパク質である。 鉄は赤血球内で酸素を輸送する重要な役割を担っている。 Hbは、呼吸器官から体内の様々な組織へ酸素を運ぶことで機能し、酸素を放出して好気性呼吸を燃やし、生物の代謝過程を支える。 血液中のHb濃度の変動は、貧血やその他の血液疾患を含む様々な医学的状態と関連している。 ここでは、浅い(約5.5nm)高密度窒素空孔(NV)スピン量子ビットをドープしたナノ構造ダイヤモンド上に流し込んだHb中における常磁性鉄スピンの光学的磁気緩和法を用いる。 我々は,6x10^6から1.8x10^7の範囲でのHb濃度を変化させ,NV緩和率G1(=1/T1,T1はNVスピン緩和時間)を2x10^3 s^-1まで増加させる。 リン酸塩水溶液中のHbのNV磁気緩和度は、Hb濃度が100 uMに増加すると、G1が6.7 x 10^3 s^-1に増加するのと同様の効果を示した。 NV G1の増加は、Hbタンパク質に存在するFe+3スピンからのスピンノイズの増加によって説明される。 本研究は、生体分子の常磁性中心を検出するために、NV量子センサを付加的に使用することを提案する。

Hemoglobin (Hb) is a multifaceted protein, classified as a metalloprotein, chromoprotein, and globulin. It incorporates iron, which plays a crucial role in transporting oxygen within red blood cells. Hb functions by carrying oxygen from the respiratory organs to diverse tissues in the body, where it releases oxygen to fuel aerobic respiration, thus supporting the organism's metabolic processes. Deviations in Hb concentration in the blood have been linked to various medical conditions, including anemia and other blood disorders. Here, we use optical detected magnetic relaxometry of paramagnetic iron spins in Hb drop-casted onto nanostructured diamond doped with shallow (~ 5.5 nm) high density nitrogen vacancy (NV) spin qubits. We modify the Hb concentration in the range of 6 x 10^6 to 1.8 x 10^7 adsorbed Fe+3 spins per um^2 and observe an increase of the NV relaxation rate G1 (= 1/ T1, T1 is NV spin lattice relaxation time) up to 2 x 10^3 s^-1. NV magnetic relaxometry of Hb in phosphate-buffered saline solution show a similar effect with an increase of G1 to 6.7 x 10^3 s^-1 upon increasing the Hb concentration to 100 uM. The increase of NV G1 is explained by the increased spin noise coming from the Fe+3 spins present in Hb proteins. This study presents an additional usage of NV quantum sensors to detect paramagnetic centers in biomolecules.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 金融成功の要因 : 変動要因の深層化

Factors Shaping Financial Success: A Deep Dive into Influencing Variables ( http://arxiv.org/abs/2405.08233v1 )

ライセンス: Link先を確認
Michael Zhou, Ramin Ramezani, (参考訳) 本稿では、機械学習アルゴリズムとアプローチを用いて、個別の経済的成功に寄与する様々な社会経済的要因について考察する。 経済的成功は、すべての個人の幸福にとって重要な側面であり、様々な要因によって影響される複雑な概念である。 本研究は、金融成功の真の決定要因を理解することを目的としている。 1997年の全国縦断調査データを労働統計局 [1] で調査し、8,984人の縦断データを数年にわたって分析した。 このデータセットは、収入変数と個人の社会経済変数からなる。 詳細な分析では、金融成功研究における機械学習アルゴリズムの有効性を実証し、予測精度を高めるために長手データを活用する可能性を強調し、様々な社会経済的要因が経済的成功にどのように影響するかについての貴重な洞察を提供する。 調査対象となった社会経済的要因のうち,個人所得の上位3因子として,高等教育,職業,性別の有意な影響が示唆された。 就業時間、年齢、就業期間は3つの二次的影響要因として出現し、子育ての収入、産業、両親の最高等級、その他すべての要因が第三次要因として特定される。 これらの洞察は、研究者が経済的成功の複雑な性質をよりよく理解し、政策立案者が社会のより広い社会・経済構造を形作る基礎となるダイナミクスを把握できるようにする。 この理解は、個人間の経済的成功を促進し、より広範な社会的幸福を促進するために不可欠である。

This paper explores various socioeconomic factors that contribute to individual financial success using machine learning algorithms and approaches. Financial success, a critical aspect of all individual's well-being, is a complex concept influenced by a plethora of different factors. This study aims to understand the true determinants of financial success. It examines the survey data from the National Longitudinal Survey of Youth 1997 by the Bureau of Labor Statistics [1], consisting of a sample of 8,984 individuals's longitudinal data over years. The dataset comprises income variables and a large set of socioeconomic variables of individuals. An in-depth analysis demonstrates the effectiveness of machine learning algorithms in financial success research, highlights the potential of leveraging longitudinal data to enhance prediction accuracy, and provides valuable insights into how various socioeconomic factors influence financial success. The findings underscore the significant influence of highest education degree, occupation and gender as the top three determinants of individual income among socioeconomic factors examined. Yearly working hours, age and work tenure emerge as three secondary influencing factors, and all other factors including parental household income, industry, parents' highest grade and others are identified as tertiary factors. These insights allow researchers to better understand the complex nature of financial success and enable policymakers to grasp the underlying dynamics shaping aspirations, decision-making, and the broader socio-economic fabric of society. This comprehension is crucial for fostering financial success among individuals and advancing broader societal well-being.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 付加効果支援学習

Additive-Effect Assisted Learning ( http://arxiv.org/abs/2405.08235v1 )

ライセンス: Link先を確認
Jiawei Zhang, Yuhong Yang, Jie Ding, (参考訳) 近年、研究者やデータアナリストが異なるデータセットを持ち、モデリング性能を向上させるために互いに助けを求めるのは非常に人気がある。 異なる学習者が、潜在的に異なる変数を持つデータセットを保持し、それらの観察を非プライベートな識別子で一致させることができるシナリオを考察する。 第一に、学習者は、例えば、商業的関心やプライバシー規制によって、データ値や変数名さえも開示しなくてはならず、第二に、通信コストなどによって、データ間での送信ラウンドの数に制限がある。 これらの課題に対処するため、エージェントAliceのための2段階の学習アーキテクチャを開発し、別のエージェントBobの助けを求める。 最初の段階では、Bobからのデータの有用性を決定するために、Aliceのプライバシを意識した仮説テストベースのスクリーニング手法を提案する。 アリスがボブの有用性を認識すると、アリスとボブは第2ステージに進み、共同でシナジスティック反復モデルトレーニング手順を適用する。 要約統計の伝達が限られていることから,Aliceは,理論上も数値上も,集中的なデータから訓練を行うように,オラクルのパフォーマンスを達成できることが示唆された。

It is quite popular nowadays for researchers and data analysts holding different datasets to seek assistance from each other to enhance their modeling performance. We consider a scenario where different learners hold datasets with potentially distinct variables, and their observations can be aligned by a nonprivate identifier. Their collaboration faces the following difficulties: First, learners may need to keep data values or even variable names undisclosed due to, e.g., commercial interest or privacy regulations; second, there are restrictions on the number of transmission rounds between them due to e.g., communication costs. To address these challenges, we develop a two-stage assisted learning architecture for an agent, Alice, to seek assistance from another agent, Bob. In the first stage, we propose a privacy-aware hypothesis testing-based screening method for Alice to decide on the usefulness of the data from Bob, in a way that only requires Bob to transmit sketchy data. Once Alice recognizes Bob's usefulness, Alice and Bob move to the second stage, where they jointly apply a synergistic iterative model training procedure. With limited transmissions of summary statistics, we show that Alice can achieve the oracle performance as if the training were from centralized data, both theoretically and numerically.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 予測学習モデルは、連続音声の神経表現に見られる時間的ダイナミクスと文脈効果をシミュレートできる

A predictive learning model can simulate temporal dynamics and context effects found in neural representations of continuous speech ( http://arxiv.org/abs/2405.08237v1 )

ライセンス: Link先を確認
Oli Danyi Liu, Hao Tang, Naomi Feldman, Sharon Goldwater, (参考訳) 音声知覚は、逐次提示されたアイテムの保存と統合を伴う。 認知神経科学における最近の研究は、この時間的処理を促進する可能性のある人間の音声のニューラルエンコーディングにおける時間的特徴と文脈的特徴を特定している。 そこで本研究では,学習目的の未学習音声から学習した計算モデルから抽出した表現を用いて,類似した解析をシミュレーションした。 シミュレーションの結果,脳信号に類似した時間的ダイナミクスが明らかとなり,これらの特性が言語的知識を伴わずに生じる可能性が示唆された。 脳とモデルの間で共有されるもう1つの特性は、音素の符号化パターンがある程度のクロスコンテキスト一般化をサポートすることである。 しかし、これらの一般化の有効性は特定の文脈に依存することが判明し、この分析だけでは文脈不変エンコーディングの存在を支持するには不十分であることが示唆された。

Speech perception involves storing and integrating sequentially presented items. Recent work in cognitive neuroscience has identified temporal and contextual characteristics in humans' neural encoding of speech that may facilitate this temporal processing. In this study, we simulated similar analyses with representations extracted from a computational model that was trained on unlabelled speech with the learning objective of predicting upcoming acoustics. Our simulations revealed temporal dynamics similar to those in brain signals, implying that these properties can arise without linguistic knowledge. Another property shared between brains and the model is that the encoding patterns of phonemes support some degree of cross-context generalization. However, we found evidence that the effectiveness of these generalizations depends on the specific contexts, which suggests that this analysis alone is insufficient to support the presence of context-invariant encoding.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# Silver-Tongued and Sundry: ChatGPTを用いた節間代名詞の探索

Silver-Tongued and Sundry: Exploring Intersectional Pronouns with ChatGPT ( http://arxiv.org/abs/2405.08238v1 )

ライセンス: Link先を確認
Takao Fujii, Katie Seaborn, Madeleine Steeds, (参考訳) ChatGPTは、大きな言語モデル上に構築された会話エージェントである。 人間のアウトプットのかなりの部分で訓練されたChatGPTは、人をある程度模倣することができる。 そのため、社会的なアイデンティティであるChatGPTが何をシミュレートするか(あるいはシミュレートするように設計されているか)を検討する必要がある。 本研究では,日本語の1人称代名詞を介し,交叉型代名詞である交叉型代名詞の社会的アイデンティティと密接に結びついているアイデンティティシミュレーションの事例について検討した。 そこで,日本の2地域(関東・近畿)の人々がChatGPTと10種類の一対称代名詞を用いた対話を目撃する,制御されたオンライン実験を行った。 代名詞だけでは、性別、年齢、地域、フォーマル性の交点におけるChatGPTの社会的アイデンティティの認識を注意喚起できることがわかった。 この研究は、社会的アイデンティティシミュレーションにおける代名詞の使用の重要性を強調し、文化に敏感なペルソナ開発のための言語ベースの方法論を提供し、知的エージェントにおける相互同一性の可能性を高める。

ChatGPT is a conversational agent built on a large language model. Trained on a significant portion of human output, ChatGPT can mimic people to a degree. As such, we need to consider what social identities ChatGPT simulates (or can be designed to simulate). In this study, we explored the case of identity simulation through Japanese first-person pronouns, which are tightly connected to social identities in intersectional ways, i.e., intersectional pronouns. We conducted a controlled online experiment where people from two regions in Japan (Kanto and Kinki) witnessed interactions with ChatGPT using ten sets of first-person pronouns. We discovered that pronouns alone can evoke perceptions of social identities in ChatGPT at the intersections of gender, age, region, and formality, with caveats. This work highlights the importance of pronoun use for social identity simulation, provides a language-based methodology for culturally-sensitive persona development, and advances the potential of intersectional identities in intelligent agents.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 境界を越えてプレイする: クロスカルカルなマルデイモニックゲーム体験を探る

Play Across Boundaries: Exploring Cross-Cultural Maldaimonic Game Experiences ( http://arxiv.org/abs/2405.08240v1 )

ライセンス: Link先を確認
Katie Seaborn, Satoru Iseya, Shun Hidaka, Sota Kobuki, Shruti Chandra, (参考訳) マダイモニックゲームの経験は、人々がエゴセントリック、破壊的、または搾取的な行為を通じて個人的にプレイを遂行するときに起こる。 最初の定性的な研究は、英語圏の西洋人のために、この方向と経験的な構成を検証した。 本研究では,モルダイモニアの根底にある西洋哲学的基盤と文化的価値が相反する東欧のゲーム首都である日本において,モルダイモニアのゲーム体験と方向性が果たす役割について検討した。 本研究は,日本とアメリカのコホート間の差異がほとんどないゲーム体験において,マルダイモニアの初期枠組みに根ざした知見である。 また, 影響, プレイヤ経験, およびそれに関連するヘドニアおよびユーダイモニアの構造を定量的に測定し, 質的所見を拡張した。 本研究は,日本における新しい構造を確認し,大規模開発に向けての段階を定めている。

Maldaimonic game experiences occur when people engage in personally fulfilling play through egocentric, destructive, and/or exploitative acts. Initial qualitative work verified this orientation and experiential construct for English-speaking Westerners. In this comparative mixed methods study, we explored whether and how maldaimonic game experiences and orientations play out in Japan, an Eastern gaming capital that may have cultural values incongruous with the Western philosophical basis underlying maldaimonia. We present findings anchored to the initial frameworks on maldaimonia in game experiences that show little divergence between the Japanese and US cohorts. We also extend the qualitative findings with quantitative measures on affect, player experience, and the related constructs of hedonia and eudaimonia. We confirm this novel construct for Japan and set the stage for scale development.
翻訳日:2024-05-15 15:27:38 公開日:2024-05-13
# 失われたメロディ:ストーリーテリングの視点からのテキスト・ビデオ・ジェネレーションの実証観察

The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective ( http://arxiv.org/abs/2405.08720v1 )

ライセンス: Link先を確認
Andrew Shin, Yusuke Mori, Kunitake Kaneko, (参考訳) テキスト・ビデオ生成タスクは、テキストのプロンプトに高い忠実さと印象的な視覚的特性を反映して、顕著な進歩をみせている。 しかし、現在のテキスト・ビデオ生成モデルは、常に単一のシーンの視覚的要素を伝達することに集中しており、これまでのところ、媒体、すなわちストーリーテリングの別の重要なポテンシャルに無関心である。 本稿では,現在検討されていないストーリーテリングの観点からのテキスト・ビデオ生成について検討し,現在のテキスト・ビデオ生成方式の限界を浮き彫りにする経験的発言を行う。 また,ビデオのストーリーテリングに関する評価フレームワークを提案し,今後の方向性について考察する。

Text-to-video generation task has witnessed a notable progress, with the generated outcomes reflecting the text prompts with high fidelity and impressive visual qualities. However, current text-to-video generation models are invariably focused on conveying the visual elements of a single scene, and have so far been indifferent to another important potential of the medium, namely a storytelling. In this paper, we examine text-to-video generation from a storytelling perspective, which has been hardly investigated, and make empirical remarks that spotlight the limitations of current text-to-video generation scheme. We also propose an evaluation framework for storytelling aspects of videos, and discuss the potential future directions.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-13
# ボーアとフォン・ノイマンによる量子力学の普遍性--量子計測プロセスの歴史のための材料

Bohr and von Neumann on the Universality of Quantum Mechanics: Materials for the History of the Quantum Measurement Process ( http://arxiv.org/abs/2405.08722v1 )

ライセンス: Link先を確認
Federico Laudisa, (参考訳) ボーアとフォン・ノイマンの量子力学における測定過程に関する見解は、幾分議論の余地のある言葉で長い間解釈され、しばしば誤解を招く。 いくつかのテキスト分析に基づいて、広く意見が分かれているのとは対照的に、彼らの見解は、通常考えられていたよりも、より一貫性が低く、互いにより近くなるべきであるということを述べたいと思います。 結果として、ボーアとフォン・ノイマンは、量子力学の普遍性の問題に関して、概念的には同じ側面にあると主張する: 願わくば、量子力学における測定問題のより正確な歴史に寄与するかもしれない。

The Bohr and von Neumann views on the measurement process in quantum mechanics have been interpreted for a long time in somewhat controversial terms, often leading to misconceptions. On the basis of some textual analysis, I would like to show that, contrary to a widespread opinion, their views should be taken less inconsistent, and much closer to each other, than usually thought. As a consequence, I claim that Bohr and von Neumann are conceptually on the same side on the issue of the universality of quantum mechanics: hopefully, this might contribute to a more accurate history of the measurement problem in quantum mechanics.
翻訳日:2024-05-15 13:28:19 公開日:2024-05-13
# メモリモザイク

Memory Mosaics ( http://arxiv.org/abs/2405.06394v2 )

ライセンス: Link先を確認
Jianyu Zhang, Niklas Nolte, Ranajoy Sadhukhan, Beidi Chen, Léon Bottou, (参考訳) メモリモザイク(Memory Mosaics)は、関心の予測タスクを達成するために協力して働く連想記憶ネットワークである。 トランスと同様に、メモリモザイクは構成能力とコンテキスト内学習能力を持っている。 トランスとは異なり、メモリモザイクは比較的透過的な方法でこれらの能力を達成する。 これらの機能をおもちゃの例で示すとともに、中規模言語モデリングタスクにおけるトランスフォーマーよりもメモリモザイクが優れていることを示す。

Memory Mosaics are networks of associative memories working in concert to achieve a prediction task of interest. Like transformers, memory mosaics possess compositional capabilities and in-context learning capabilities. Unlike transformers, memory mosaics achieve these capabilities in comparatively transparent ways. We demonstrate these capabilities on toy examples and we also show that memory mosaics perform as well or better than transformers on medium-scale language modeling tasks.
翻訳日:2024-05-15 11:02:58 公開日:2024-05-13
# 量子因果構造の再検討 -- 因果秩序はいつ進化するのか?

Revisiting dynamics of quantum causal structures -- when can causal order evolve? ( http://arxiv.org/abs/2008.12757v3 )

ライセンス: Link先を確認
John H. Selby, Ana Belén Sainz, Paweł Horodecki, (参考訳) 近年、量子論の力学、特にチャネルの力学、測定、高次変換の研究に大きな関心が寄せられている。 Ref [Phys.~X 8(1), 011047 (2018)] は、プロセス行列の形式化と、そのようなプロセス行列のダイナミクスの定義を用いてこれを追求し、特に因果構造の進化に関する問題に焦点を当てている。 その主要な結論の1つは、形式論において、連続的かつ可逆的な変換の下では、操作間の因果順序は保存されなければならないという強い定理である。 ここでは驚くべき結果が見つかる:標準的な量子力学の形式論における操作の物理的進化の全体像を考慮に入れれば、実際には反対の結論を導くことができる。 すなわち、ある連続的かつ可逆的な力学の下では、操作間の因果順序が必ずしも保存されないことを示す。 我々はさらに、この明らかな矛盾の根源、具体的には、高次過程の広く受け入れられ、広く適用されている枠組みを、数学的に健全であるのに対して、必ずしも物理力学の基礎に関する結論を導き出すのに適切ではない、と特定し分析する。 最後に、局所的な操作による絡み合い処理と古典的なコミュニケーションに基づいて、直観の後の全体像の要素の整合性を示す。

Recently, there has been substantial interest in studying the dynamics of quantum theory beyond that of states, in particular, the dynamics of channels, measurements, and higher-order transformations. Ref. [Phys.~Rev.~X 8(1), 011047 (2018)] pursues this using the process matrix formalism, together with a definition of the possible dynamics of such process matrices, and focusing especially on the question of evolution of causal structures. One of its major conclusions is a strong theorem saying that, within the formalism, under continuous and reversible transformations, the causal order between operations must be preserved. Here we find a surprising result: if one is to take into account a full picture of the physical evolution of operations within the standard quantum-mechanical formalism, then one can actually draw the opposite conclusion. That is, we show that under certain continuous and reversible dynamics the causal order between operations is not necessarily preserved. We moreover identify and analyse the root of this apparent contradiction, specifically, that the commonly accepted and widely applied framework of higher-order processes, whilst mathematically sound, is not always appropriate for drawing conclusions on the fundamentals of physical dynamics. Finally we show how to reconcile the elements of the whole picture following the intuition based on entanglement processing by local operations and classical communication.
翻訳日:2024-05-15 02:15:10 公開日:2024-05-13
# 原子核自由度を含む時間分解粒子間クーロン崩壊スペクトル

Time-resolved Interparticle Coulombic Decay spectra including nuclear degrees of freedom ( http://arxiv.org/abs/2102.06040v2 )

ライセンス: Link先を確認
Alexander Riegel, Elke Fasshauer, (参考訳) 伝統的に原子の運動が焦点となる化学の分野では、我々は今、原子の運動が1秒からフェムト秒にまたがる超急速電子運動を探索し、それが等しく、その分野に関係があることを実証している。 超短パルス技術の出現は、原子や分子の電子的配置を直接観察する能力に革命をもたらした。 代表的な例として、オーガー・マイトナー崩壊や粒子間クーロン崩壊(ICD)がある。 しかし、真の課題は、理論モデルが不可欠であるこれらの観察を解釈することである。 Physで導入された分析フレームワークの上に構築する。 A 101, 043414 (2020)は、電子崩壊過程中に放出される電子のスペクトルを純粋に電子的観点から分析し、本論文は著しい進歩を示している。 この理論基盤を核力学に拡張し、ボルン・オッペンハイマー近似を利用して、これらの過程における電子運動と核運動の複雑な相互作用の理解を深める。 電子共鳴と電子最終状態の両方において、振動束縛状態の数が異なることを特徴とするいくつかの理論的ケースにおいて、核自由度を組み込むことによる影響を述べる。 このアプローチは複雑なスペクトルの特徴と異常なピーク形状を明らかにするだけでなく、その特異な干渉パターンを通じて複数の振動共鳴状態間のエネルギー差を抽出する方法も示している。

In the field of chemistry, where nuclear motion has traditionally been a focal point, we now explore the ultra-rapid electronic motion spanning attoseconds to femtoseconds, demonstrating that it is equally integral and relevant to the discipline. The advent of ultrashort attosecond pulse technology has revolutionized our ability to directly observe electronic rearrangements in atoms and molecules, offering a time-resolved insight into these swift processes. Prominent examples include Auger-Meitner decay and Interparticle Coulombic Decay (ICD). However, the real challenge lies in interpreting these observations, where theoretical models are indispensable. Building upon the analytical framework introduced in Phys. Rev. A 101, 043414 (2020), which analyzed the spectra of electrons emitted during electronic decay processes from a purely electronic perspective, our paper represents a significant advancement. We extend this theoretical base to include nuclear dynamics, utilizing the Born-Oppenheimer approximation to deepen our understanding of the intricate interaction between electronic and nuclear motion in these processes. We illustrate the impact of incorporating nuclear degrees of freedom in several theoretical cases characterized by different numbers of vibrational bound states in both the electronic resonance and the electronic final state. This approach not only clarifies complex spectral features and unusual peak shapes but also demonstrates a method for extracting the energy differences between multiple vibrational resonance states through their distinctive interference patterns.
翻訳日:2024-05-15 02:15:10 公開日:2024-05-13
# 不完全な観測を伴うレストレスバンドの低複素性アルゴリズム

Low-Complexity Algorithm for Restless Bandits with Imperfect Observations ( http://arxiv.org/abs/2108.03812v3 )

ライセンス: Link先を確認
Keqin Liu, Richard Weber, Chengzhong Zhang, (参考訳) 我々は、強化学習と確率的最適化において幅広い応用領域を見出す、レスレスバンディット問題の一類を考察する。 N$独立離散時間マルコフ過程を考えると、それぞれ 1 と 0 (`good' と `bad') の2つの可能な状態を持つ。 プロセスが状態1内にあり、そうであるように観察された場合のみ、報酬が発生する。 目的は、各ステップでM$$(<N)$プロセスしか観察できないという制約の下で、無限の地平線上でのリターンの期待の割引和を最大化することである。 状態 1 (0) が 0(1) として観測される確率は知られている。 このことから、いつでも$t$、プロセス$i$が状態1にある確率が分かる。 結果のシステムは、非可算基数の情報状態空間を持つレスレスマルチアームバンディット問題としてモデル化することができる。 有限状態空間においても、レスレスバンディット問題は一般にPSPACE-HARDである。 本稿では,このタイプのレスレス・バンディットの動的プログラミング方程式を単純化する新しい手法を提案し,観測誤差のある一般的なレスレス・バンディットモデルに対して容易に拡張可能な低複雑性アルゴリズムを提案する。 ある条件下では、ウィトル指数の存在(インデクサビリティ)と、アルゴリズムに対する同値性を確立する。 これらの条件が満たされていない場合、数値実験により、一般パラメトリック空間におけるアルゴリズムのほぼ最適性能を示す。 さらに,同質系に対するアルゴリズムの最適性を理論的に証明する。

We consider a class of restless bandit problems that finds a broad application area in reinforcement learning and stochastic optimization. We consider $N$ independent discrete-time Markov processes, each of which had two possible states: 1 and 0 (`good' and `bad'). Only if a process is both in state 1 and observed to be so does reward accrue. The aim is to maximize the expected discounted sum of returns over the infinite horizon subject to a constraint that only $M$ $(<N)$ processes may be observed at each step. Observation is error-prone: there are known probabilities that state 1 (0) will be observed as 0 (1). From this one knows, at any time $t$, a probability that process $i$ is in state 1. The resulting system may be modeled as a restless multi-armed bandit problem with an information state space of uncountable cardinality. Restless bandit problems with even finite state spaces are PSPACE-HARD in general. We propose a novel approach for simplifying the dynamic programming equations of this class of restless bandits and develop a low-complexity algorithm that achieves a strong performance and is readily extensible to the general restless bandit model with observation errors. Under certain conditions, we establish the existence (indexability) of Whittle index and its equivalence to our algorithm. When those conditions do not hold, we show by numerical experiments the near-optimal performance of our algorithm in the general parametric space. Furthermore, we theoretically prove the optimality of our algorithm for homogeneous systems.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 工学設計のための説明可能なAI: システム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for engineering design: A unified approach of systems engineering and component-based deep learning ( http://arxiv.org/abs/2108.13836v5 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh, Xia Chen, (参考訳) 機械学習によって生成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野において重要になる。 彼らは、より優れたパフォーマンスと持続可能性を備えた新しい人工物を作成する際に、意思決定者を支援する高い可能性を持っている。 しかしながら、これらのモデルの限定的な一般化とブラックボックスの性質は、限定的な説明可能性と再利用可能性をもたらす。 そこで我々は,機械学習(ML)による部分的コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングをシステム、エンジニアリング(SE)と整合させる。 コンポーネントベースのメソッドの重要な貢献は、コンポーネント間のインターフェイスでのアクティベーションが、解釈可能なエンジニアリング量であることである。 このように、階層的なコンポーネントシステムは、エンジニアリングや説明可能性のための情報を統合するディープニューラルネットワーク(DNN)を形成する。 アプローチは、モデル構造をシステム工学とドメイン知識の工学的手法に適応させる。 まず, 予測精度を解析することにより, コンポーネントベース手法のより優れた一般化を, トレーニングデータの外部で観測した。 特に, 構造が異なる代表設計では, 従来のモノリシック法に比べて, はるかに高い精度 (R2 = 0.94) を観測する(R2 = 0.71)。 次に、実例による説明可能性を説明し、SEとルールからの感度情報がどのように工学に役立つかを示す。 第3に、定性的および定量的手法による説明可能性の評価を行い、予備知識とデータ駆動型戦略の整合性を実証し、ホワイトボックスシミュレーション結果と比較して、コンポーネントインターフェースにおけるアクティベーションの正しさを示す(エンベロープコンポーネント: R2 = 0.92..0.99; ゾーン: R2 = 0.78.0.93)。

Data-driven models created by machine learning, gain in importance in all fields of design and engineering. They, have high potential to assist decision-makers in creating novel, artefacts with better performance and sustainability. However,, limited generalization and the black-box nature of these models, lead to limited explainability and reusability. To overcome this, situation, we propose a component-based approach to create, partial component models by machine learning (ML). This, component-based approach aligns deep learning with systems, engineering (SE). The key contribution of the component-based, method is that activations at interfaces between the components, are interpretable engineering quantities. In this way, the, hierarchical component system forms a deep neural network, (DNN) that a priori integrates information for engineering, explainability. The, approach adapts the model structure to engineering methods of, systems engineering and to domain knowledge. We examine the, performance of the approach by the field of energy-efficient, building design: First, we observed better generalization of the, component-based method by analyzing prediction accuracy, outside the training data. Especially for representative designs, different in structure, we observe a much higher accuracy, (R2 = 0.94) compared to conventional monolithic methods, (R2 = 0.71). Second, we illustrate explainability by exemplary, demonstrating how sensitivity information from SE and rules, from low-depth decision trees serve engineering. Third, we, evaluate explainability by qualitative and quantitative methods, demonstrating the matching of preliminary knowledge and data-driven, derived strategies and show correctness of activations at, component interfaces compared to white-box simulation results, (envelope components: R2 = 0.92..0.99; zones: R2 = 0.78..0.93).
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 無限の$d$次元格子上の量子ウォークにおけるオンデマンド再生

Induced on-demand revival in coined quantum walks on infinite $d$-dimensional lattices ( http://arxiv.org/abs/2201.03307v2 )

ライセンス: Link先を確認
Mahesh N. Jayakody, Ismael L. Paiva, Asiri Nanayakkara, Eliahu Cohen, (参考訳) 量子系における再帰と復活の研究は、量子系の制御の重要性と、新しい技術開発における潜在的使用の重要性から、大きな関心を集めている。 本研究では,$c$次元のコインシステムによって支配される$d$次元格子上の巨大な量子ウォークのクラスにおいて,フルステートリバイバルを誘導するプロトコルを導入する。 このプロトコルは、コインの自由度に2度繰り返し介入する必要がある。 また、そのようなプロトコルを許容するウォークの特性も提示する。 さらに、古典的なランダムウォークや量子ウォークにおける再帰の研究で一般的に用いられるP\'olya数と呼ばれる量を修正し、ウォークの最初の回復の証人を作成する。

The study of recurrences and revivals in quantum systems has attracted a great deal of interest because of its importance in the control of quantum systems and its potential use in developing new technologies. In this work, we introduce a protocol to induce full-state revivals in a huge class of quantum walks on a $d$-dimensional lattice governed by a $c$-dimensional coin system. The protocol requires two repeated interventions in the coin degree of freedom. We also present a characterization of the walks that admits such a protocol. Moreover, we modify the quantity known as P\'olya number, typically used in the study of recurrences in classical random walks and quantum walks, to create a witness of the first revival of the walk.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 集団コミュニケーションのための効率的な直接接続トポロジ

Efficient Direct-Connect Topologies for Collective Communications ( http://arxiv.org/abs/2202.03356v5 )

ライセンス: Link先を確認
Liangyu Zhao, Siddharth Pal, Tapan Chugh, Weiyang Wang, Jason Fantl, Prithwish Basu, Joud Khoury, Arvind Krishnamurthy, (参考訳) 集合通信における効率的なネットワークトポロジの蒸留の問題点を考察する。 ワークロードに関連する帯域幅のトレードオフに対して,レイテンシに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。 提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。 私たちのアルゴリズムは、小さくて最適なベーストポロジと関連する通信スケジュールから始まり、より大きなトポロジやスケジュールを導出するために反復的に適用できる技術を使用します。 さらに、新しい多項式時間アルゴリズムを用いて効率的な集合スケジュールを生成することにより、よく研究された大規模グラフトポロジをアルゴリズムフレームワークに組み込む。 評価では,複数のテストベッドと大規模シミュレーションを用いて,派生したトポロジやスケジュールから大きなパフォーマンス上のメリットを示す。

We consider the problem of distilling efficient network topologies for collective communications. We provide an algorithmic framework for constructing direct-connect topologies optimized for the latency vs. bandwidth trade-off associated with the workload. Our approach synthesizes many different topologies and schedules for a given cluster size and degree and then identifies the appropriate topology and schedule for a given workload. Our algorithms start from small, optimal base topologies and associated communication schedules and use techniques that can be iteratively applied to derive much larger topologies and schedules. Additionally, we incorporate well-studied large-scale graph topologies into our algorithmic framework by producing efficient collective schedules for them using a novel polynomial-time algorithm. Our evaluation uses multiple testbeds and large-scale simulations to demonstrate significant performance benefits from our derived topologies and schedules.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 正規化Q-ラーニング

Regularized Q-learning ( http://arxiv.org/abs/2202.05404v6 )

ライセンス: Link先を確認
Han-Dong Lim, Donghwan Lee, (参考訳) Q-learningは強化学習コミュニティで広く使われているアルゴリズムである。 ルックアップテーブル設定の下では、その収束は十分に確立されている。 しかし、線形関数近似の場合、その挙動は不安定であることが知られている。 本稿では,線形関数近似を用いて収束する新しいQ-ラーニングアルゴリズムを提案する。 適切な正規化項を追加するだけでアルゴリズムの収束が保証されることを示す。 スイッチングシステムモデルに基づく最近の解析ツールを用いて,その安定性を実証する。 さらに,線形関数近似を用いたQ-ラーニングが普及している環境に収束することが実験的に示された。 また、アルゴリズムが収束する解に縛られる誤差も提供する。

Q-learning is widely used algorithm in reinforcement learning community. Under the lookup table setting, its convergence is well established. However, its behavior is known to be unstable with the linear function approximation case. This paper develops a new Q-learning algorithm that converges when linear function approximation is used. We prove that simply adding an appropriate regularization term ensures convergence of the algorithm. We prove its stability using a recent analysis tool based on switching system models. Moreover, we experimentally show that it converges in environments where Q-learning with linear function approximation has known to diverge. We also provide an error bound on the solution where the algorithm converges.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 共変量と概念シフトによる物体検出のための領域一般化

Domain Generalisation for Object Detection under Covariate and Concept Shift ( http://arxiv.org/abs/2203.05294v3 )

ライセンス: Link先を確認
Karthik Seemakurthy, Erchan Aptoula, Charles Fox, Petra Bosilj, (参考訳) ドメイン一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変機能の学習を促進することを目的としている。 オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。 厳密な数学的解析に基づいて、画像レベルでの領域間の限界特徴分布の整合に加えて、インスタンスレベルでクラス条件アライメントを行うための新しいコンポーネントとの特徴アライメントに基づくアプローチを拡張する。 これにより、ドメインシフトのコンポーネント、すなわち共変量と概念シフトの両方に完全に対処し、ドメインに依存しない特徴表現を学ぶことができます。 我々は,一段式(FCOS,YOLO)と二段式(FRCNN)の両検出器を用いて,自律走行用(Cityscapes, BDD10K, ACDC, IDD)の異なるデータセットと,精密農業用GWHDデータセットからなる新しいベンチマークを行い,ベースラインと最先端技術による一般化とローカライゼーション性能の整合性向上を示す。

Domain generalisation aims to promote the learning of domain-invariant features while suppressing domain-specific features, so that a model can generalise better to previously unseen target domains. An approach to domain generalisation for object detection is proposed, the first such approach applicable to any object detection architecture. Based on a rigorous mathematical analysis, we extend approaches based on feature alignment with a novel component for performing class conditional alignment at the instance level, in addition to aligning the marginal feature distributions across domains at the image level. This allows us to fully address both components of domain shift, i.e. covariate and concept shift, and learn a domain agnostic feature representation. We perform extensive evaluation with both one-stage (FCOS, YOLO) and two-stage (FRCNN) detectors, on a newly proposed benchmark comprising several different datasets for autonomous driving applications (Cityscapes, BDD10K, ACDC, IDD) as well as the GWHD dataset for precision agriculture, and show consistent improvements to the generalisation and localisation performance over baselines and state-of-the-art.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# グラフ分類のためのマルチスケールワッサースタイン短パスグラフカーネル

Multi-scale Wasserstein Shortest-path Graph Kernels for Graph Classification ( http://arxiv.org/abs/2206.00979v5 )

ライセンス: Link先を確認
Wei Ye, Hao Tian, Qijun Chen, (参考訳) グラフカーネルはグラフの類似性を計算するための従来の方法である。 しかし、既存のR-畳み込みグラフカーネルはどちらも解決できない。 1)複数の異なるスケールでのグラフの比較、および 2) カーネル行列の計算における部分構造の分布を考慮した。 これらの2つの課題はパフォーマンスを制限します。 これら2つの課題を緩和するために,各要素がノード周辺で最短経路の発生回数を表すマルチスケール短経路特徴写像であるMWSP (Multiscale Wasserstein Shortest-Path graph kernel) というグラフカーネルを提案する。 最も短いパスは、その中のすべてのノードのラベルの連結によって表現される。 最短経路ノード特徴写像は局所スケールでしかグラフを比較できないため、グラフ内の各ノードに根付いた異なる深さの分岐したBFS木によってキャプチャされるグラフ構造の複数の異なるスケールを組み込む。 最短経路の分布を考慮した2つのグラフのマルチスケール短経路特徴写像の類似性を計算するためにワッサーシュタイン距離を用いる。 我々はMWSPを様々なベンチマークグラフデータセット上で実証的に検証し、ほとんどのデータセットで最先端のパフォーマンスを実現することを実証した。

Graph kernels are conventional methods for computing graph similarities. However, the existing R-convolution graph kernels cannot resolve both of the two challenges: 1) Comparing graphs at multiple different scales, and 2) Considering the distributions of substructures when computing the kernel matrix. These two challenges limit their performances. To mitigate both of the two challenges, we propose a novel graph kernel called the Multi-scale Wasserstein Shortest-Path graph kernel (MWSP), at the heart of which is the multi-scale shortest-path node feature map, of which each element denotes the number of occurrences of the shortest path around a node. The shortest path is represented by the concatenation of all the labels of nodes in it. Since the shortest-path node feature map can only compare graphs at local scales, we incorporate into it the multiple different scales of the graph structure, which are captured by the truncated BFS trees of different depths rooted at each node in a graph. We use the Wasserstein distance to compute the similarity between the multi-scale shortest-path node feature maps of two graphs, considering the distributions of shortest paths. We empirically validate MWSP on various benchmark graph datasets and demonstrate that it achieves state-of-the-art performance on most datasets.
翻訳日:2024-05-15 02:11:16 公開日:2024-05-13
# 視覚異常検出のためのオートエンコーダを用いた自己監督訓練

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v8 )

ライセンス: Link先を確認
Alexander Bauer, Shinichi Nakajima, Klaus-Robert Müller, (参考訳) 我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。 ここで、正規化された自己エンコーダは、正規例の集合上の恒等写像を学習し、多様体の外側の点に対する良い再構成を防ごうとして、一般的なアプローチを提供する。 通常、このゴールは、ボトルネック層のサイズを減らし、あるいは暗黙的に対応するネットワークの一部に間隔(あるいは収縮)の制約を課すことによって、モデルのキャパシティを直接制御することで達成される。 しかし、どちらの手法も異常信号の復元を明示的に罰するものではない。 我々は、訓練中に識別情報を活用しながら、通常の例のサブ多様体に焦点をあてる自己指導型学習体制を適用することで、この問題に対処する。 学習目的は,異常パターンを除去するフィルタとして機能し,不規則性を置き換えつつ,局所的に一貫した再構成を生成するためにモデルを正規化することである。 この直感を支援するために,提案手法の厳密な形式解析を行い,多くの興味深い知見を提供する。 特に, 得られたモデルは, 部分的に破損した画像の非直線直交射影に似ており, 破損しないサンプルのサブマニフォールドに映し出されることを示す。 一方, 直交射影は, 契約型および復調型を含む多数の正規化オートエンコーダの最適解である。 提案手法における検出および位置推定性能の実証評価により,提案手法の理論的解析を支援する。 特に、製造領域における視覚異常検出の難しいベンチマークであるMVTec ADデータセット上で、最先端の新たな結果を達成する。

We focus on a specific use case in anomaly detection where the distribution of normal samples is supported by a lower-dimensional manifold. Here, regularized autoencoders provide a popular approach by learning the identity mapping on the set of normal examples, while trying to prevent good reconstruction on points outside of the manifold. Typically, this goal is implemented by controlling the capacity of the model, either directly by reducing the size of the bottleneck layer or implicitly by imposing some sparsity (or contraction) constraints on parts of the corresponding network. However, neither of these techniques does explicitly penalize the reconstruction of anomalous signals often resulting in poor detection. We tackle this problem by adapting a self-supervised learning regime that exploits discriminative information during training but focuses on the submanifold of normal examples. Informally, our training objective regularizes the model to produce locally consistent reconstructions, while replacing irregularities by acting as a filter that removes anomalous patterns. To support this intuition, we perform a rigorous formal analysis of the proposed method and provide a number of interesting insights. In particular, we show that the resulting model resembles a non-linear orthogonal projection of partially corrupted images onto the submanifold of uncorrupted samples. On the other hand, we identify the orthogonal projection as an optimal solution for a number of regularized autoencoders including the contractive and denoising variants. We support our theoretical analysis by empirical evaluation of the resulting detection and localization performance of the proposed method. In particular, we achieve a new state-of-the-art result on the MVTec AD dataset -- a challenging benchmark for visual anomaly detection in the manufacturing domain.
翻訳日:2024-05-15 02:01:31 公開日:2024-05-13
# 純粋にランダムな構造からの創発的時空

Emergent spacetime from purely random structures ( http://arxiv.org/abs/2210.00963v2 )

ライセンス: Link先を確認
Ioannis Kleftogiannis, Ilias Amanatidis, (参考訳) 最小限の制限数を持つランダム離散構造が連続距離空間に収束できるかどうかという根本的な問題を検討する。 均一なランダムグラフの接続性から生じる次元性や曲率などの幾何学的性質について検討する。 さらに、初期完全グラフから時間の基本量子当たりの1つのエッジを除去することで、グラフの単純な進化機構を導入する。 グラフの半径の指数関数的成長は、宇宙の観測空間とその幾何学的性質を記述できる平坦な3次元多様体に類似した創発平均空間次元$D=3$とゼロ曲率$K=0$のランダムな構造に終わる。 さらに, 重力による時間拡張のような一般相対性理論で記述されたような, 時空のよく知られた特性の回復を支援する, 異なる部分グラフ構造上の物理量に基づくグラフに対する一般化作用を導入する。 また、統計的変動に基づく一般化された不確実性原理のような様々な量子力学的概念が、ランダム離散モデルからどのように現れるかを示す。 さらに、我々の手法は空間と物質エネルギーの統一につながり、そこでは宇宙定数を介して空空間と物質エネルギーの間の変換を行うための質量エネルギー空間同値性を提案する。

We examine the fundamental question whether a random discrete structure with the minimal number of restrictions can converge to continuous metric space. We study the geometrical properties such as the dimensionality and the curvature emerging out of the connectivity properties of uniform random graphs. In addition we introduce a simple evolution mechanism for the graph by removing one edge per a fundamental quantum of time from an initially complete graph. We show an exponential growth of the radius of the graph, that ends up in a random structure with emergent average spatial dimension $D=3$ and zero curvature $K=0$, resembling a flat 3D manifold, that could describe the observed space in our universe and some of its geometrical properties. In addition, we introduce a generalized action for graphs based on physical quantities on different subgraph structures that helps to recover the well known properties of spacetime as described in general relativity, like time dilation due to gravity. Also, we show how various quantum mechanical concepts such as generalized uncertainty principles based on the statistical fluctuations can emerge from random discrete models. Moreover, our approach leads to a unification of space and matter-energy, for which we propose a mass-energy-space equivalence that leads to a way to transform between empty space and matter-energy via the cosmological constant.
翻訳日:2024-05-15 02:01:31 公開日:2024-05-13
# 4次元における原子量子ホール系の実現

Realization of an atomic quantum Hall system in four dimensions ( http://arxiv.org/abs/2210.06322v2 )

ライセンス: Link先を確認
Jean-Baptiste Bouhiron, Aurélien Fabre, Qi Liu, Quentin Redon, Nehal Mittal, Tanish Satoor, Raphael Lopes, Sylvain Nascimbene, (参考訳) 現代の凝縮物質物理学は、量子ホールシステムからトポロジカル絶縁体まで、物質を分類するトポロジの概念に依存している。 合成次元の恩恵を受ける工学系は、次元$D > 3$で予測される新しい位相状態にアクセスできる可能性がある。 4次元(4次元)で進化する原子量子ホール系の実現を報告し,2つの空間次元と2つの合成量子ホール系をダイズプロシウム原子の大スピンに符号化した。 非自明なトポロジーは、量子化された電磁的非線形応答を測定し、異方性ハイパーエッジモードを観察することによって証明される。 また、非平面シクロトロン運動を励起し、その円同値の$D\leq3$と対比する。 我々の研究は、分数量子ホール状態の4次元一般化における強相関なトポロジカル液体の研究に始まります。

Modern condensed matter physics relies on the concept of topology to classify matter, from quantum Hall systems to topological insulators. Engineered systems, benefiting from synthetic dimensions, can potentially give access to novel topological states predicted in dimensions $D > 3$. We report the realization of an atomic quantum Hall system evolving in four dimensions (4D), with two spatial dimensions and two synthetic ones encoded in the large spin of dysprosium atoms. The non-trivial topology is evidenced by measuring a quantized electromagnetic non-linear response and observing anisotropic hyperedge modes. We also excite non-planar cyclotron motion, contrasting with its circular equivalents in $D\leq3$. Our work opens to the investigation of strongly-correlated topological liquids in 4D generalizing fractional quantum Hall states.
翻訳日:2024-05-15 02:01:31 公開日:2024-05-13
# ノイズのないカスケード化帯域のレグレト境界

Regret Bounds for Noise-Free Cascaded Kernelized Bandits ( http://arxiv.org/abs/2211.05430v2 )

ライセンス: Link先を確認
Zihan Li, Jonathan Scarlett, (参考訳) RKHS関数クラスを用いたノイズフリーグレーボックス設定における関数ネットワークの最適化について検討する。 ネットワークの構造が知られている(ただし、それを構成する機能ではない)と仮定し、(1)連鎖:スカラー値関数のカスケード、(2)マルチアウトプット連鎖:ベクトル値関数のカスケード、(3)フィードフォワードネットワーク:スカラー値関数の完全接続フィードフォワードネットワークの3種類の構造について検討する。 本稿では, 累積的後悔に対する理論上界と合わせて, 逐次的高信頼度有界アルゴリズム GPN-UCB を提案する。 さらに,Mat\'ern カーネルに対する単純な後悔に基づく,非適応サンプリングに基づく手法を提案する。 また、単純後悔と累積後悔のアルゴリズム非依存の下位境界も提供する。 我々のGPN-UCBに対する後悔の限界は、バニラブラックボックス設定でよく知られている時間水平線と、他のパラメータ(例えば、RKHSノルムとネットワーク長)のほぼ最適に依存する。

We consider optimizing a function network in the noise-free grey-box setting with RKHS function classes, where the exact intermediate results are observable. We assume that the structure of the network is known (but not the underlying functions comprising it), and we study three types of structures: (1) chain: a cascade of scalar-valued functions, (2) multi-output chain: a cascade of vector-valued functions, and (3) feed-forward network: a fully connected feed-forward network of scalar-valued functions. We propose a sequential upper confidence bound based algorithm GPN-UCB along with a general theoretical upper bound on the cumulative regret. In addition, we propose a non-adaptive sampling based method along with its theoretical upper bound on the simple regret for the Mat\'ern kernel. We also provide algorithm-independent lower bounds on the simple regret and cumulative regret. Our regret bounds for GPN-UCB have the same dependence on the time horizon as the best known in the vanilla black-box setting, as well as near-optimal dependencies on other parameters (e.g., RKHS norm and network length).
翻訳日:2024-05-15 02:01:31 公開日:2024-05-13
# Archetypal Analysis++:初期化戦略を再考

Archetypal Analysis++: Rethinking the Initialization Strategy ( http://arxiv.org/abs/2301.13748v4 )

ライセンス: Link先を確認
Sebastian Mair, Jens Sjölund, (参考訳) アーチティパル解析は凸性制約を持つ行列分解法である。 局所ミニマのため、良い初期化は必須であるが、頻繁に使われる初期化法は、準最適開始点を得るか、または、貧弱な局所ミニマで立ち往生する傾向がある。 本稿では,Architypal Analysis++ (AA++)を提案する。Architypal Analysisの確率的初期化戦略は,$k$-means++のような目的関数に対する影響に基づいて点を逐次サンプリングする。 実際、$k$-means++はすでに提案された初期化メソッドを近似している。 さらに,AA++に$k$-means++の効率的なモンテカルロ近似を適用することを提案する。 異なるサイズと次元の15の実世界のデータセットの広範な評価と2つの前処理戦略を考慮すると、AA++は最も頻繁に使用されるものを含め、ほぼ常に全てのベースラインを上回ります。

Archetypal analysis is a matrix factorization method with convexity constraints. Due to local minima, a good initialization is essential, but frequently used initialization methods yield either sub-optimal starting points or are prone to get stuck in poor local minima. In this paper, we propose archetypal analysis++ (AA++), a probabilistic initialization strategy for archetypal analysis that sequentially samples points based on their influence on the objective function, similar to $k$-means++. In fact, we argue that $k$-means++ already approximates the proposed initialization method. Furthermore, we suggest to adapt an efficient Monte Carlo approximation of $k$-means++ to AA++. In an extensive empirical evaluation of 15 real-world data sets of varying sizes and dimensionalities and considering two pre-processing strategies, we show that AA++ almost always outperforms all baselines, including the most frequently used ones.
翻訳日:2024-05-15 01:51:46 公開日:2024-05-13
# セキュアなコルーシオン耐性機能暗号化の証明等

Certified Everlasting Secure Collusion-Resistant Functional Encryption, and More ( http://arxiv.org/abs/2302.10354v2 )

ライセンス: Link先を確認
Taiga Hiroka, Fuyuki Kitagawa, Tomoyuki Morimae, Ryo Nishimaki, Tapas Pal, Takashi Yamakawa, (参考訳) 本研究では,この研究において,セキュアな関数暗号(FE)やその他の多くの暗号プリミティブについて検討する。 永続的セキュリティの認定は、大体以下の意味である。 量子暗号オブジェクトを有する受信機は、受信機が暗号オブジェクトを削除し、そのオブジェクトに含まれる情報が失われたことを示す証明書を発行することができる。 証明書が有効であれば、削除後、受信機が計算的にアンバウンド状態になったとしても、セキュリティが保証される。 多くの暗号プリミティブは、量子世界でさえ情報理論上のセキュリティを持つことが不可能(あるいは不可能)であることが知られている。 したがって、認定された永遠のセキュリティは、(量子に固有の)良い妥協である。 本研究では,FE,計算・計算難読化,述語暗号(PE),秘密鍵暗号(SKE),公開鍵暗号(PKE),レシーバ非コミット暗号(RNCE),ガーブロード回路の永遠のセキュアバージョンを定義する。 また, 多項式サイズの回路に対して, 不明瞭な難読化や片方向関数からセキュアなコラシオン耐性公開鍵FEを適応的に証明する手法を提案する。 -標準PKEのNC1回路に対するセキュアな有界コラシオン耐性公開鍵FEを適応的に認定する。 - 標準の完全同型暗号化と標準のコンピュート・アンド・コンプリート難読化からセキュアなコンプリート・アンド・コンプリート難読化を認定する - 適宜(resp.、選択的に)標準のアプリート・アプリート・アプリート・PEを標準のアプリート(resp.、選択的に)・アプリート・アプリート・アプリート・アプリート・アプリート・コンプリート・アンド・コンプリート難読化を認定する。 -標準SKEとPKEからそれぞれ安全安全SKEとPKEを認定。 -標準のPKEからRNCEを継続して認証する。 -標準SKEからセキュアなガーブラード回路を永遠認証する。

We study certified everlasting secure functional encryption (FE) and many other cryptographic primitives in this work. Certified everlasting security roughly means the following. A receiver possessing a quantum cryptographic object can issue a certificate showing that the receiver has deleted the cryptographic object and information included in the object was lost. If the certificate is valid, the security is guaranteed even if the receiver becomes computationally unbounded after the deletion. Many cryptographic primitives are known to be impossible (or unlikely) to have information-theoretical security even in the quantum world. Hence, certified everlasting security is a nice compromise (intrinsic to quantum). In this work, we define certified everlasting secure versions of FE, compute-and-compare obfuscation, predicate encryption (PE), secret-key encryption (SKE), public-key encryption (PKE), receiver non-committing encryption (RNCE), and garbled circuits. We also present the following constructions: - Adaptively certified everlasting secure collusion-resistant public-key FE for all polynomial-size circuits from indistinguishability obfuscation and one-way functions. - Adaptively certified everlasting secure bounded collusion-resistant public-key FE for NC1 circuits from standard PKE. - Certified everlasting secure compute-and-compare obfuscation from standard fully homomorphic encryption and standard compute-and-compare obfuscation - Adaptively (resp., selectively) certified everlasting secure PE from standard adaptively (resp., selectively) secure attribute-based encryption and certified everlasting secure compute-and-compare obfuscation. - Certified everlasting secure SKE and PKE from standard SKE and PKE, respectively. - Certified everlasting secure RNCE from standard PKE. - Certified everlasting secure garbled circuits from standard SKE.
翻訳日:2024-05-15 01:51:46 公開日:2024-05-13
# データ依存型量子幾何学による一般化

Generalization with data-dependent quantum geometry ( http://arxiv.org/abs/2303.13462v2 )

ライセンス: Link先を確認
Tobias Haug, M. S. Kim, (参考訳) 一般化とは、機械学習モデルがトレーニングデータから学習することで、新しいデータに対して正確な予測を行う能力である。 しかし、量子機械学習モデルの一般化を理解することが大きな課題となっている。 本稿では,データ量子フィッシャー情報量(DQFIM)について紹介する。 変分量子アルゴリズムのキャパシティは、変分アンサッツ、トレーニングデータ、およびそれらの対称性に依存する。 本稿では,DQFIMを用いて回路パラメータの定量化と,学習と一般化に要するトレーニングデータについて述べる。 動的リー代数を用いて、低数の訓練状態を用いて一般化する方法を説明する。 反故意に、トレーニングデータの破れ対称性は、一般化を改善するのに役立ちます。 最後に、異なるデータ分布からトレーニングデータとテストデータを描画するアウト・オブ・ディストリビューションの一般化が、同じ分布を使用するよりも優れていることを発見した。 私たちの研究は、量子機械学習モデルのパワーを探求するための有用なフレームワークを提供します。

Generalization is the ability of machine learning models to make accurate predictions on new data by learning from training data. However, understanding generalization of quantum machine learning models has been a major challenge. Here, we introduce the data quantum Fisher information metric (DQFIM). It describes the capacity of variational quantum algorithms depending on variational ansatz, training data and their symmetries. We apply the DQFIM to quantify circuit parameters and training data needed to successfully train and generalize. Using the dynamical Lie algebra, we explain how to generalize using a low number of training states. Counter-intuitively, breaking symmetries of the training data can help to improve generalization. Finally, we find that out-of-distribution generalization, where training and testing data are drawn from different data distributions, can be better than using the same distribution. Our work provides a useful framework to explore the power of quantum machine learning models.
翻訳日:2024-05-15 01:51:46 公開日:2024-05-13
# リモートセンシング画像のための数十億ドル規模の基礎モデル

A Billion-scale Foundation Model for Remote Sensing Images ( http://arxiv.org/abs/2304.05215v2 )

ライセンス: Link先を確認
Keumgang Cha, Junghoon Seo, Taekyung Lee, (参考訳) 視覚タスクにおける基礎モデルの可能性に大きな注目を集めているため、下流タスクの前にこれらのモデルを事前訓練することが重要なステップとなっている。 基礎モデルの事前学習における3つの重要な要素は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。 近年,リモートセンシング分野の研究は,モデルパラメータの数に限定して,事前学習手法とデータセットのサイズに重点を置いている。 本稿では, オブジェクトの回転検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響を検討することで, このギャップを解消する。 86M, 605.26M, 1.3B, 2.4Bなど,様々なパラメータを持つ基礎モデルを事前学習し, パラメータの増加に伴う下流タスクの性能向上を検証した。 我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。 さらに,リモートセンシング分野における視覚変換器のスケールアップと微調整に有効な手法を提案する。 下流タスクにおける一般的な性能を評価するために、回転物体検出のためのDOTA v2.0とDIOR-Rベンチマークデータセット、意味的セグメンテーションのためのPotsdamとLoveDAデータセットを用いた。 実験の結果、すべてのベンチマークデータセットとダウンストリームタスクにおいて、基礎モデルの性能とデータ効率が改善し、パラメータの数が増加した。 さらに,本モデルでは,DIOR-R,Postdam,LoveDAなど,いくつかのデータセットで最先端のパフォーマンスを実現している。

As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
翻訳日:2024-05-15 01:51:46 公開日:2024-05-13
# 決定時間計画のための更新等価フレームワーク

The Update-Equivalence Framework for Decision-Time Planning ( http://arxiv.org/abs/2304.13138v3 )

ライセンス: Link先を確認
Samuel Sokota, Gabriele Farina, David J. Wu, Hengyuan Hu, Kevin A. Wang, J. Zico Kolter, Noam Brown, (参考訳) チェスや囲碁といった完全情報ゲームにおいて、実行時にポリシーを改訂(あるいは構築)するプロセスは、超人的なパフォーマンスを達成するための鍵となった。 最近の研究は、不完全な情報ゲームに対する意思決定時間を延長し、ポーカーにおける超人的なパフォーマンスにつながった。 しかし,これらの手法は,非公開情報の量が多い場合,そのサイズが急速に大きくなるサブゲームの解決に関係している。 この問題に触発されて、サブゲームの解決ではなく、更新等価性に基づく意思決定時計画のための代替フレームワークを導入する。 この更新等価フレームワークでは、決定時計画アルゴリズムは、公開情報に頼る必要のない最終段階のアルゴリズムの更新を複製する。 これにより、大量の非公開情報を持つゲームへのスケーラビリティが向上する。 この枠組みを用いて,ミラー降下に基づく完全協調型ゲームに対する検証可能な音声探索アルゴリズムと,磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。 完全協調不完全情報ゲームにおける検索の標準ベンチマークであるハナビにおいて,これらのアルゴリズムの性能を協調的・敵対的領域で検証する。 ここでは, ミラー降下法は, 検索時間を大幅に短縮しながら, 公開情報に基づく検索性能を上回り, 一致させる。 これは、歴史的に支配されてきた領域において、公開情報に基づくアルゴリズムが公開情報に基づくアプローチを上回った最初の例である。

The process of revising (or constructing) a policy at execution time -- known as decision-time planning -- has been key to achieving superhuman performance in perfect-information games like chess and Go. A recent line of work has extended decision-time planning to imperfect-information games, leading to superhuman performance in poker. However, these methods involve solving subgames whose sizes grow quickly in the amount of non-public information, making them unhelpful when the amount of non-public information is large. Motivated by this issue, we introduce an alternative framework for decision-time planning that is not based on solving subgames, but rather on update equivalence. In this update-equivalence framework, decision-time planning algorithms replicate the updates of last-iterate algorithms, which need not rely on public information. This facilitates scalability to games with large amounts of non-public information. Using this framework, we derive a provably sound search algorithm for fully cooperative games based on mirror descent and a search algorithm for adversarial games based on magnetic mirror descent. We validate the performance of these algorithms in cooperative and adversarial domains, notably in Hanabi, the standard benchmark for search in fully cooperative imperfect-information games. Here, our mirror descent approach exceeds or matches the performance of public information-based search while using two orders of magnitude less search time. This is the first instance of a non-public-information-based algorithm outperforming public-information-based approaches in a domain they have historically dominated.
翻訳日:2024-05-15 01:51:46 公開日:2024-05-13
# 地下イメージングにおける自己線現象

Auto-Linear Phenomenon in Subsurface Imaging ( http://arxiv.org/abs/2305.13314v2 )

ライセンス: Link先を確認
Yinan Feng, Yinpeng Chen, Peng Jin, Shihang Feng, Zicheng Liu, Youzuo Lin, (参考訳) 地表面イメージングは、フルウェーブフォームインバージョン(FWI)を解くことで、測定から物理特性を予測する。 この問題はイメージ・ツー・イメージの変換として再編成することができ、通常のアプローチでは2つの領域(物理特性と測定)のペアデータを使ってエンコーダ・デコーダネットワークをトレーニングする。 最近のセミナルワーク(InvLINT)では、2つのドメインの潜在空間の間には線形マッピングしか存在せず、デコーダはトレーニングにペアデータを必要とすることが示されている。 本稿では, 線形写像がペアデータのみを必要とすることを示すとともに, エンコーダとデコーダの両方が自己教師付き学習によって各領域から学習可能であることを示す。 これは、2つの別々のドメインの自己学習した特徴が自動的に線形に相関する興味深い現象(Auto-Linearと呼ばれる)を明らかにする。 既存の方法と比較して、Auto-Linearには4つの利点があります。 (a)前後のモデリングを同時に解くこと。 (b) 異なる地下撮影作業に適用し、従来の方法よりも著しく優れた結果を得る。 (c)特にペアデータが少ない場合やノイズの多いデータが存在する場合のパフォーマンスを向上させ、 (d) 訓練されたエンコーダとデコーダの強力な一般化能力。

Subsurface imaging involves solving full waveform inversion (FWI) to predict geophysical properties from measurements. This problem can be reframed as an image-to-image translation, with the usual approach being to train an encoder-decoder network using paired data from two domains: geophysical property and measurement. A recent seminal work (InvLINT) demonstrates there is only a linear mapping between the latent spaces of the two domains, and the decoder requires paired data for training. This paper extends this direction by demonstrating that only linear mapping necessitates paired data, while both the encoder and decoder can be learned from their respective domains through self-supervised learning. This unveils an intriguing phenomenon (named Auto-Linear) where the self-learned features of two separate domains are automatically linearly correlated. Compared with existing methods, our Auto-Linear has four advantages: (a) solving both forward and inverse modeling simultaneously, (b) applicable to different subsurface imaging tasks and achieving markedly better results than previous methods, (c)enhanced performance, especially in scenarios with limited paired data and in the presence of noisy data, and (d) strong generalization ability of the trained encoder and decoder.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# 物理インフォームドコンピュータビジョンの展望と展望

Physics-Informed Computer Vision: A Review and Perspectives ( http://arxiv.org/abs/2305.18035v3 )

ライセンス: Link先を確認
Chayan Banerjee, Kien Nguyen, Clinton Fookes, George Karniadakis, (参考訳) 機械学習フレームワークにおける物理情報の取り込みは、多くのアプリケーションドメインを開放し、変換している。 ここでは、基本的な知識の誘導と物理法則の統制を通じて学習プロセスが強化される。 本研究では,視覚データの解釈と理解におけるコンピュータビジョンタスクの有用性について検討する。 本稿では,250以上の物理法則によるコンピュータビジョンタスクの定式化とアプローチに関する体系的な文献レビューを行う。 まず、一般的なコンピュータビジョンパイプラインをステージの分類に分解し、各ステージに物理方程式を統合するアプローチを検討する。 コンピュータビジョンタスクにおける既存のアプローチは、物理プロセスのモデル化と定式化、それらがどのように組み込まれているか、すなわち、入力データの修正(観測バイアス)、ネットワークアーキテクチャの変更(誘導バイアス)、トレーニング損失の修正(バイアスバイアス)について分析される。 分類学は、物理学インフォームド能力の適用を統一的に捉え、物理学インフォームド・ラーニングがどこで行われ、ギャップと機会がどこにあるかを強調している。 最後に、今後の研究を知らせるためのオープンな問題と課題を強調します。 物理インフォームドコンピュータビジョンの研究は、まだ初期の段階ではあるが、ますます現実的なアプリケーションにおいて、物理的な可視性、正確性、データ効率、一般化を改善することができるより良いコンピュータビジョンモデルを開発することを約束している。

The incorporation of physical information in machine learning frameworks is opening and transforming many application domains. Here the learning process is augmented through the induction of fundamental knowledge and governing physical laws. In this work, we explore their utility for computer vision tasks in interpreting and understanding visual data. We present a systematic literature review of more than 250 papers on formulation and approaches to computer vision tasks guided by physical laws. We begin by decomposing the popular computer vision pipeline into a taxonomy of stages and investigate approaches to incorporate governing physical equations in each stage. Existing approaches in computer vision tasks are analyzed with regard to what governing physical processes are modeled and formulated, and how they are incorporated, i.e. modification of input data (observation bias), modification of network architectures (inductive bias), and modification of training losses (learning bias). The taxonomy offers a unified view of the application of the physics-informed capability, highlighting where physics-informed learning has been conducted and where the gaps and opportunities are. Finally, we highlight open problems and challenges to inform future research. While still in its early days, the study of physics-informed computer vision has the promise to develop better computer vision models that can improve physical plausibility, accuracy, data efficiency, and generalization in increasingly realistic applications.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# 安定化器エントロピーのための効率的な量子アルゴリズム

Efficient quantum algorithms for stabilizer entropies ( http://arxiv.org/abs/2305.19152v3 )

ライセンス: Link先を確認
Tobias Haug, Soovin Lee, M. S. Kim, (参考訳) 安定化器エントロピー(英: Stabilizer entropies、SE)は、安定化器によって状態が記述される度合いを定量化する非安定化器性の尺度である。 SEは特に興味深いのは、スクランブルやローカライゼーション、プロパティテストとのつながりのためです。 しかし、これまでに知られていたSEの計測プロトコルは、キュービット数とともに指数関数的にスケールするように制限されてきた。 ここでは、ベル測定により整数 R\'enyi index $n>1$ のSEを効率的に測定する。 $N$-量子状態のSEは、$O(n)$コピーと$O(nN)$古典計算時間で測定できる。 数量子ビットを超える計算が可能となる様々な非安定化性モノトンの効率的な境界を提供する。 On the IonQ quantum computer, we measure SEs of random Clifford circuits doped with non-Clifford gates and give bounds for the stabilityr fidelity, stabler extent and robustness of magic。 我々はクリフォード平均4n$の時間外相関器とマルチフラクタル平坦度を測定するための効率的なアルゴリズムを提供する。 これらの測定により、ドープされたクリフォード回路のスクランブル時間と、非安定化器性に依存するランダムなハミルトン進化を研究する。 反故意にランダムなハミルトンの進化は、多フラクタル平坦性によって明らかになるような長い時間で、スクランブルされなくなる。 我々の結果は、量子コンピュータによる非安定化器の探索を開放する。

Stabilizer entropies (SEs) are measures of nonstabilizerness or `magic' that quantify the degree to which a state is described by stabilizers. SEs are especially interesting due to their connections to scrambling, localization and property testing. However, applications have been limited so far as previously known measurement protocols for SEs scale exponentially with the number of qubits. Here, we efficiently measure SEs for integer R\'enyi index $n>1$ via Bell measurements. The SE of $N$-qubit quantum states can be measured with $O(n)$ copies and $O(nN)$ classical computational time, where for even $n$ we additionally require the complex conjugate of the state. We provide efficient bounds of various nonstabilizerness monotones which are intractable to compute beyond a few qubits. Using the IonQ quantum computer, we measure SEs of random Clifford circuits doped with non-Clifford gates and give bounds for the stabilizer fidelity, stabilizer extent and robustness of magic. We provide efficient algorithms to measure Clifford-averaged $4n$-point out-of-time-order correlators and multifractal flatness. With these measures we study the scrambling time of doped Clifford circuits and random Hamiltonian evolution depending on nonstabilizerness. Counter-intuitively, random Hamiltonian evolution becomes less scrambled at long times which we reveal with the multifractal flatness. Our results open up the exploration of nonstabilizerness with quantum computers.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# 適応的ルーティングによるエキスパートのソフトマージ

Soft Merging of Experts with Adaptive Routing ( http://arxiv.org/abs/2306.03745v2 )

ライセンス: Link先を確認
Mohammed Muqeeth, Haokun Liu, Colin Raffel, (参考訳) 条件付き計算を伴うわずかに活性化されたニューラルネットワークは、異なる"専門家"サブネットワークを通じて入力をルーティングすることを学び、密に活性化されたモデルに欠けているモジュラリティの形式を提供する。 それらの利点はあるものの、学習されたルーティングを持つモデルは、パラメータマッチングされた高密度に活性化されたモデルと、学習されていないヒューリスティックなルーティング戦略を使用するモデルとを過小評価することが多い。 本稿では、これらの欠点は、微分不可能な離散的ルーティング決定を用いた疎活性化モデルの訓練に使用される勾配推定手法に起因していると仮定する。 この問題に対処するために,専門家のパラメータの重み付け平均を用いて構築された単一の"マージ"エキスパートを使用することで,個別のルーティングを回避するためのSMEAR(Soft Merging of Experts with Adaptive Routing)を導入する。 単一のマージされた専門家を通してアクティベーションをルーティングすることで、SMEARは計算コストを大幅に増加させず、標準勾配ベースのトレーニングを可能にする。 我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。 さらに,SMEARを用いて学習した専門家が,相当量の専門性を示した質的分析を行った。 私たちの実験で使われたコードは、すべて公開されています。

Sparsely activated neural networks with conditional computation learn to route their inputs through different "expert" subnetworks, providing a form of modularity that densely activated models lack. Despite their possible benefits, models with learned routing often underperform their parameter-matched densely activated counterparts as well as models that use non-learned heuristic routing strategies. In this paper, we hypothesize that these shortcomings stem from the gradient estimation techniques used to train sparsely activated models that use non-differentiable discrete routing decisions. To address this issue, we introduce Soft Merging of Experts with Adaptive Routing (SMEAR), which avoids discrete routing by using a single "merged" expert constructed via a weighted average of all of the experts' parameters. By routing activations through a single merged expert, SMEAR does not incur a significant increase in computational costs and enables standard gradient-based training. We empirically validate that models using SMEAR outperform models that route based on metadata or learn sparse routing through gradient estimation. Furthermore, we provide qualitative analysis demonstrating that the experts learned via SMEAR exhibit a significant amount of specialization. All of the code used in our experiments is publicly available.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# バニラ変分オートエンコーダを超える:条件付きおよび階層的変分オートエンコーダにおける後部崩壊の検出

Beyond Vanilla Variational Autoencoders: Detecting Posterior Collapse in Conditional and Hierarchical Variational Autoencoders ( http://arxiv.org/abs/2306.05023v3 )

ライセンス: Link先を確認
Hien Dang, Tho Tran, Tan Nguyen, Nhat Ho, (参考訳) 変分自己エンコーダ(VAE)における後部崩壊現象は、変分後部分布が先行分布と密接に一致しているため、学習された潜伏変数の品質を損なう可能性がある。 後続崩壊の結果、VAEのエンコーダによって抽出された潜伏変数は、入力データからの情報が少なくなり、デコーダの再構成プロセスへの入力として有意義な表現が得られない。 この現象は、VAEの性能に関する話題として活発に扱われてきたが、後部崩壊の理論はまだ未発達であり、特に標準のVAEを超えている。 本研究では, 後部崩壊の理論的理解を, 条件付きVAEと階層型VAEの2つの重要な, 広く普及しているがあまり研究されていないクラスに進める。 具体的には、線形条件付きVAEと階層型VAEの2段階の非自明な理論的解析を通して、これらのモデルにおける後続崩壊の原因は、条件付きVAEの入力と出力の相関と階層型VAEにおける学習可能なエンコーダ分散の影響を含むことを証明した。 線形条件および階層的VAEに関する理論的知見を実証的に検証し,これらの結果が広範な実験を伴う非線形症例においても予測可能であることを実証した。

The posterior collapse phenomenon in variational autoencoder (VAE), where the variational posterior distribution closely matches the prior distribution, can hinder the quality of the learned latent variables. As a consequence of posterior collapse, the latent variables extracted by the encoder in VAE preserve less information from the input data and thus fail to produce meaningful representations as input to the reconstruction process in the decoder. While this phenomenon has been an actively addressed topic related to VAE performance, the theory for posterior collapse remains underdeveloped, especially beyond the standard VAE. In this work, we advance the theoretical understanding of posterior collapse to two important and prevalent yet less studied classes of VAE: conditional VAE and hierarchical VAE. Specifically, via a non-trivial theoretical analysis of linear conditional VAE and hierarchical VAE with two levels of latent, we prove that the cause of posterior collapses in these models includes the correlation between the input and output of the conditional VAE and the effect of learnable encoder variance in the hierarchical VAE. We empirically validate our theoretical findings for linear conditional and hierarchical VAE and demonstrate that these results are also predictive for non-linear cases with extensive experiments.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# PeFLL: 学習による個人化フェデレーション学習

PeFLL: Personalized Federated Learning by Learning to Learn ( http://arxiv.org/abs/2306.05515v3 )

ライセンス: Link先を確認
Jonathan Scott, Hossein Zakerinia, Christoph H. Lampert, (参考訳) PeFLLは、新しいパーソナライズされたフェデレーション学習アルゴリズムで、最先端の3つの面で改善されている。 1) より正確なモデル、特に低データ体制において、訓練期間中に存在する顧客だけでなく、将来出現する可能性のある顧客のためにも作成する。 2) 追加の微調整や最適化を必要としないパーソナライズされたモデルを提供することにより、クライアント側での計算量やクライアント側通信量を削減します。 3) 観測されたクライアントから将来のクライアントへの一般化を確立する理論的保証が伴う。 PeFLLの中核には、埋め込みネットワークとハイパーネットワークを共同でトレーニングする学習から学習へのアプローチがある。 埋め込みネットワークは、クライアント同士の類似性を反映して、潜在ディスクリプタ空間内のクライアントを表現するために使用される。 ハイパーネットワークはそのような記述子を入力として、完全にパーソナライズされたクライアントモデルのパラメータを出力します。 両ネットワークは、複数のパーソナライズされたフェデレーション学習ベンチマークにおいて、最先端のパフォーマンスを達成する学習アルゴリズムを構成する。

We present PeFLL, a new personalized federated learning algorithm that improves over the state-of-the-art in three aspects: 1) it produces more accurate models, especially in the low-data regime, and not only for clients present during its training phase, but also for any that may emerge in the future; 2) it reduces the amount of on-client computation and client-server communication by providing future clients with ready-to-use personalized models that require no additional finetuning or optimization; 3) it comes with theoretical guarantees that establish generalization from the observed clients to future ones. At the core of PeFLL lies a learning-to-learn approach that jointly trains an embedding network and a hypernetwork. The embedding network is used to represent clients in a latent descriptor space in a way that reflects their similarity to each other. The hypernetwork takes as input such descriptors and outputs the parameters of fully personalized client models. In combination, both networks constitute a learning algorithm that achieves state-of-the-art performance in several personalized federated learning benchmarks.
翻訳日:2024-05-15 01:42:01 公開日:2024-05-13
# 逆スケーリング:ビッグガーが良くないとき

Inverse Scaling: When Bigger Isn't Better ( http://arxiv.org/abs/2306.09479v2 )

ライセンス: Link先を確認
Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller, Ameya Prabhu, Euan McLean, Aaron Kirtland, Alexis Ross, Alisa Liu, Andrew Gritsevskiy, Daniel Wurgaft, Derik Kauffman, Gabriel Recchia, Jiacheng Liu, Joe Cavanagh, Max Weiss, Sicong Huang, The Floating Droid, Tom Tseng, Tomasz Korbak, Xudong Shen, Yuhui Zhang, Zhengping Zhou, Najoung Kim, Samuel R. Bowman, Ethan Perez, (参考訳) 大規模言語モデル(LM)は、スケールの増大による全体的な損失(モデルサイズ、トレーニングデータ、計算)に対して予測可能な改善を示す。 ここでは、学習目標やデータに欠陥があるため、逆スケーリングや、スケールの増大によるタスクパフォーマンスの悪化が生じる可能性があるという主張の証拠を示す。 パブリックコンテストである逆スケーリング賞(Inverse Scaling Prize)の実施によって収集された11のデータセットに対して,相当な賞金プールを有する逆スケーリングの実証的証拠を提示する。 データセットの分析を通じて、文献で見られる他の例とともに、逆スケーリングの潜在的な4つの原因を同定する。 一 文中の指示に従うことよりも、暗記した順序を繰り返すことを好むこと。 二 トレーニングデータにおける望ましくないパターンの模倣 三 難易度タスクを含むタスクであって、LMがより厳格なタスクではなく、集中できるものであって、 (4) タスクの正しいが誤解を招く数発のデモ。 優勝したデータセットをhttps://inversescaling.com/dataでリリースし、逆スケーリングのさらなる調査を可能にします。 我々のタスクは、初期の傾向が逆転するU字型および逆U字型のスケーリングトレンドの発見を促進するのに役立ち、スケールトレンドは以前より大規模なモデルの振る舞いを予測する上で信頼性が低いことを示唆している。 全体としては、モデルスケールの増大だけでは進歩に至らないタスクがあり、言語モデルを訓練するためのデータや目的についてより慎重に考える必要があることを示唆している。

Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training data, and compute). Here, we present evidence for the claim that LMs may show inverse scaling, or worse task performance with increased scale, e.g., due to flaws in the training objective and data. We present empirical evidence of inverse scaling on 11 datasets collected by running a public contest, the Inverse Scaling Prize, with a substantial prize pool. Through analysis of the datasets, along with other examples found in the literature, we identify four potential causes of inverse scaling: (i) preference to repeat memorized sequences over following in-context instructions, (ii) imitation of undesirable patterns in the training data, (iii) tasks containing an easy distractor task which LMs could focus on, rather than the harder real task, and (iv) correct but misleading few-shot demonstrations of the task. We release the winning datasets at https://inversescaling.com/data to allow for further investigation of inverse scaling. Our tasks have helped drive the discovery of U-shaped and inverted-U scaling trends, where an initial trend reverses, suggesting that scaling trends are less reliable at predicting the behavior of larger-scale models than previously understood. Overall, our results suggest that there are tasks for which increased model scale alone may not lead to progress, and that more careful thought needs to go into the data and objectives for training language models.
翻訳日:2024-05-15 01:32:17 公開日:2024-05-13
# 一般化量子化による漸近最適量子振幅推定

Asymptotically Optimal Quantum Amplitude Estimation by Generalized Qubitization ( http://arxiv.org/abs/2306.16695v5 )

ライセンス: Link先を確認
Xi Lu, Hongwei Lin, (参考訳) まず、量子振幅推定の標準偏差誤差が漸近的に約1.28 L^{-1}$で低く、ここでは$L$がクエリの数であることを示す。 次に,数個の多項式関数を同時にブロックエンコードできる一般化量子化法を提案し,量子振幅を推定して最適な漸近精度を達成できることを示す。

We first show that the standard deviation error of quantum amplitude estimation is asymptotically lower bounded by approximately $1.28 L^{-1}$, where $L$ is the number of queries. Then we propose a generalized qubitization that can block-encode several polynomial functions simultaneously, and show how it can help estimating quantum amplitude to achieve the optimal asymptotic accuracy, so the bound is tight.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# オンライン等角予測によるホルマル安全保証によるベイズ最適化

Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction ( http://arxiv.org/abs/2306.17815v2 )

ライセンス: Link先を確認
Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone, (参考訳) ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。 この問題の一般的な定式化において、設計者は、システムから各試行の値に対するノイズフィードバックを受けながら、順次、候補解を試行する。 本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討し,最適化プロセスを通じて試される安全でないソリューションの数を制限するために最適化器を制約する。 ベイズ最適化(BO)に基づく手法に着目した先行技術では、安全制約関数の厳密な仮定が満たされる限り、フィードバックノイズよりも制御可能な確率で安全でないソリューションを選択することが保証されるSAFEOPTと呼ばれる最適化スキームが導入された。 本稿では,制約関数の性質に関わらず,安全要件を満たす新しいBOベースのアプローチを提案する。 この強力な理論的保証は、任意で制御可能だがゼロでない安全制約の違反率を許容するコストで得られる。 提案手法は,SAFE-BOCPと呼ばれるオンラインコンフォーマル予測(CP)に基づいており,安全制約に対するフィードバックがノイズのない場合とノイズの多い場合に特化している。 合成および実世界のデータによる実験結果は,提案したSAFE-BOCPの利点と柔軟性を検証した。

Black-box zero-th order optimization is a central primitive for applications in fields as diverse as finance, physics, and engineering. In a common formulation of this problem, a designer sequentially attempts candidate solutions, receiving noisy feedback on the value of each attempt from the system. In this paper, we study scenarios in which feedback is also provided on the safety of the attempted solution, and the optimizer is constrained to limit the number of unsafe solutions that are tried throughout the optimization process. Focusing on methods based on Bayesian optimization (BO), prior art has introduced an optimization scheme -- referred to as SAFEOPT -- that is guaranteed not to select any unsafe solution with a controllable probability over feedback noise as long as strict assumptions on the safety constraint function are met. In this paper, a novel BO-based approach is introduced that satisfies safety requirements irrespective of properties of the constraint function. This strong theoretical guarantee is obtained at the cost of allowing for an arbitrary, controllable but non-zero, rate of violation of the safety constraint. The proposed method, referred to as SAFE-BOCP, builds on online conformal prediction (CP) and is specialized to the cases in which feedback on the safety constraint is either noiseless or noisy. Experimental results on synthetic and real-world data validate the advantages and flexibility of the proposed SAFE-BOCP.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# 限定乗算数を利用した暗号化動的制御とRing-LWEを用いた方法

Encrypted Dynamic Control exploiting Limited Number of Multiplications and a Method using Ring-LWE based Cryptosystem ( http://arxiv.org/abs/2307.03451v2 )

ライセンス: Link先を確認
Joowon Lee, Donggil Lee, Junsoo Kim, Hyungbo Shim, (参考訳) 本稿では,動的コントローラを暗号化する手法を提案する。 この目的のために、与えられたコントローラの出力を、以前の入力と出力の固定数の線形結合として表現する。 その結果、暗号化コントローラは、出力が再暗号化されアクチュエータから送信されると仮定して、すべての暗号化データに対して限られた数の同型乗算しか必要としない。 パラメータ選択のためのガイダンスも提供され、暗号化されたコントローラが無限の時間地平線で予め定義された性能を達成することを保証する。 さらに,メッセージのベクトルを1つの暗号文に暗号化し,同時に動作させることができるリングラーニング・ウィズ・エラー(Ring-LWE)ベースの暗号システムのカスタマイズを提案する。 従来の結果とは異なり、提案されたカスタマイズは、基本的な加算や乗算以外の回転のような余分なアルゴリズムを必要としない。 シミュレーションの結果,提案手法の有効性が示された。

In this paper, we present a method to encrypt dynamic controllers that can be implemented through most homomorphic encryption schemes, including somewhat, leveled fully, and fully homomorphic encryption. To this end, we represent the output of the given controller as a linear combination of a fixed number of previous inputs and outputs. As a result, the encrypted controller involves only a limited number of homomorphic multiplications on every encrypted data, assuming that the output is re-encrypted and transmitted back from the actuator. A guidance for parameter choice is also provided, ensuring that the encrypted controller achieves predefined performance for an infinite time horizon. Furthermore, we propose a customization of the method for Ring-Learning With Errors (Ring-LWE) based cryptosystems, where a vector of messages can be encrypted into a single ciphertext and operated simultaneously, thus reducing computation and communication loads. Unlike previous results, the proposed customization does not require extra algorithms such as rotation, other than basic addition and multiplication. Simulation results demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# 記述-論理的特徴を持つ命題動的論理の非正規拡張の探索

Exploring Non-Regular Extensions of Propositional Dynamic Logic with Description-Logics Features ( http://arxiv.org/abs/2307.09913v5 )

ライセンス: Link先を確認
Bartosz Bednarczyk, (参考訳) ALCを拡張した記述論理において、非正規経路表現が満足度チェックとクエリの決定可能性に与える影響について検討する。 我々の関心の対象は ALCreg と ALCvpl である。 第一の ALCreg は、フィッシャーとラドナーのよく知られた命題動的論理の記法的変種である。 第2のALCvplは2007年にLoding and Serreによって導入され調査された。 ALCvpl は ALCreg の多くの既知の決定不能な非正規拡張を一般化する。 一連の決定不可能な結果が得られます。 まず, ALCvpl における概念満足度問題に対する決定性は, 一見無作為な自己演算子を加えると失われることを示す。 第2に,ALCvpl における概念満足度問題に対して,命名法で拡張した不確定性を確立した。 興味深いことに、我々の不確定性証明は、r#s# := { r^n s^n | n in N } で固定されたロール名 r と s に対して、1つの非正規(可視的プッシュダウン)言語にのみ依存する。 最後に、従来のデータベース設定とは対照的に、既にALC-TBoxesの場合において、r#s#の非正則な原子を含むクエリに対するクエリエンテーメントの非決定性を確立する。

We investigate the impact of non-regular path expressions on the decidability of satisfiability checking and querying in description logics extending ALC. Our primary objects of interest are ALCreg and ALCvpl, the extensions of with path expressions employing, respectively, regular and visibly-pushdown languages. The first one, ALCreg, is a notational variant of the well-known Propositional Dynamic Logic of Fischer and Ladner. The second one, ALCvpl, was introduced and investigated by Loding and Serre in 2007. The logic ALCvpl generalises many known decidable non-regular extensions of ALCreg. We provide a series of undecidability results. First, we show that decidability of the concept satisfiability problem for ALCvpl is lost upon adding the seemingly innocent Self operator. Second, we establish undecidability for the concept satisfiability problem for ALCvpl extended with nominals. Interestingly, our undecidability proof relies only on one single non-regular (visibly-pushdown) language, namely on r#s# := { r^n s^n | n in N } for fixed role names r and s. Finally, in contrast to the classical database setting, we establish undecidability of query entailment for queries involving non-regular atoms from r#s#, already in the case of ALC-TBoxes.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net

TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition ( http://arxiv.org/abs/2307.09997v4 )

ライセンス: Link先を確認
Isabel Funke, Dominik Rivoir, Stefanie Krell, Stefanie Speidel, (参考訳) 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。 外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間的情報を効果的にモデル化する、という2つの課題を提示する。 時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。 本稿では,既存の術期認識のための時間モデルに注意を向ける設計選択について検討し,より効果的に注意を利用でき,手作り制約を必要としない新しいアプローチを提案する。 さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。 実験では, ほぼすべての時間モデルにおいて, より長い時間的文脈で訓練した特徴抽出器上で, より優れた時間的モデルが得られた。 これらのコンテキスト化機能では、TUNeSはColec80データセット上で最先端の結果を達成する。 本研究は、注意機構を用いて、外科的位相認識のための正確かつ効率的な時間モデルを構築する方法について、新たな知見を提供する。 外科的ワークフローの分析と最適化を自動化し、手術中のコンテキスト認識型コンピュータ支援を可能にするためには、自動的な外科的位相認識を実装することが不可欠である。

To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that uses attention more effectively and does not require hand-crafted constraints: TUNeS, an efficient and simple temporal model that incorporates self-attention at the core of a convolutional U-Net structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, almost all temporal models performed better on top of feature extractors that were trained with longer temporal context. On these contextualized features, TUNeS achieves state-of-the-art results on the Cholec80 dataset. This study offers new insights on how to use attention mechanisms to build accurate and efficient temporal models for surgical phase recognition. Implementing automatic surgical phase recognition is essential to automate the analysis and optimization of surgical workflows and to enable context-aware computer assistance during surgery, thus ultimately improving patient care.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# 離散スライスワッサースタイン損失の特性

Properties of Discrete Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.10352v5 )

ライセンス: Link先を確認
Eloi Tanguy, Rémi Flamary, Julie Delon, (参考訳) Sliced Wasserstein (SW) 距離は、確率測度を比較するために、Wasserstein 距離の代替として人気がある。 ワイドスプレッドの応用としては、画像処理、ドメイン適応、生成モデリングがあり、SWを最小化するためにパラメータを最適化することが一般的である。 これらの最適化問題はすべて、スライスされたワッサーシュタインエネルギーを最小化する同じサブプロブレムを持つ。 本稿では、$\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, すなわち、サポート $Y \in \mathbb{R}^{n \times d} の関数として同じ量の点を持つ2つの一様離散測度の間のSW距離について検討する。 このエネルギーの正則性と最適化特性、およびそのモンテカルロ近似 $\mathcal{E}_p$ ($p$サンプルのみを用いてSWの期待値を推定する) について検討し、$\mathcal{E}_p$ の臨界点の収束結果と$\mathcal{E}$ の臨界点の収束結果、および、プロセス $\mathcal{E}_p(Y)$ のほぼ一様収束および一様中央極限結果を示す。 最後に、ある意味では、Stochastic Gradient Descent method minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge to (Clarke) critical points of these energy。

The Sliced Wasserstein (SW) distance has become a popular alternative to the Wasserstein distance for comparing probability measures. Widespread applications include image processing, domain adaptation and generative modelling, where it is common to optimise some parameters in order to minimise SW, which serves as a loss function between discrete probability measures (since measures admitting densities are numerically unattainable). All these optimisation problems bear the same sub-problem, which is minimising the Sliced Wasserstein energy. In this paper we study the properties of $\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, i.e. the SW distance between two uniform discrete measures with the same amount of points as a function of the support $Y \in \mathbb{R}^{n \times d}$ of one of the measures. We investigate the regularity and optimisation properties of this energy, as well as its Monte-Carlo approximation $\mathcal{E}_p$ (estimating the expectation in SW using only $p$ samples) and show convergence results on the critical points of $\mathcal{E}_p$ to those of $\mathcal{E}$, as well as an almost-sure uniform convergence and a uniform Central Limit result on the process $\mathcal{E}_p(Y)$. Finally, we show that in a certain sense, Stochastic Gradient Descent methods minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge towards (Clarke) critical points of these energies.
翻訳日:2024-05-15 01:32:16 公開日:2024-05-13
# ユーザ反応予測のための時間的関心ネットワーク

Temporal Interest Network for User Response Prediction ( http://arxiv.org/abs/2308.08487v3 )

ライセンス: Link先を確認
Haolin Zhou, Junwei Pan, Xinyi Zhou, Xihua Chen, Jie Jiang, Xiaofeng Gao, Guihai Chen, (参考訳) オンラインディスプレイ広告のような産業レコメンデーションシステムでは,ユーザ反応の予測が不可欠である。 レコメンデーションモデルのすべての機能の中で、ユーザの振る舞いが最も重要になります。 多くの研究で、ユーザの行動は、行動と候補者の間の意味的あるいは時間的相関から、候補項目に対するユーザの関心を反映していることが明らかになっている。 論文はそれぞれの相関関係を個別に検討しているが、研究者はまだそれらを意味的・時間的相関関係(意味的・時間的相関関係)と組み合わせて分析していない。 我々はこの相関を経験的に測定し、直感的で頑健なパターンを観察する。 そして、いくつかの人気ユーザー関心モデルを調べ、驚くべきことに、誰もそのような相関関係をうまく学ばないということに気付きました。 このギャップを埋めるために,行動と対象間の意味的時間的相関を同時に捉えるための時間的関心ネットワーク(TIN)を提案する。 これを実現するために,意味的エンコーディングに加えて,対象を意識したテンポラルエンコーディングを組み込んで行動や対象を表現する。 さらに,ターゲット認識とターゲット認識表現を配置して,意味的・時間的相関を捉えることで,明示的な4方向インタラクションを行う。 我々は2つの人気のある公開データセットに対して総合的な評価を行い、提案したTINはGAUCにおいてそれぞれ0.43%、0.29%で最高のパフォーマンスのベースラインを上回ります。 Tencentの広告プラットフォームにおけるオンラインA/Bテストでは、TINは1.65%のコストリフトと1.93%のGMVリフトを達成した。 2023年10月から運用に成功し、WeChat Momentsのトラフィックを処理した。 コードをhttps://github.com/zhouxy1003/TINでリリースしました。

User response prediction is essential in industrial recommendation systems, such as online display advertising. Among all the features in recommendation models, user behaviors are among the most critical. Many works have revealed that a user's behavior reflects her interest in the candidate item, owing to the semantic or temporal correlation between behaviors and the candidate. While the literature has individually examined each of these correlations, researchers have yet to analyze them in combination, that is, the semantic-temporal correlation. We empirically measure this correlation and observe intuitive yet robust patterns. We then examine several popular user interest models and find that, surprisingly, none of them learn such correlation well. To fill this gap, we propose a Temporal Interest Network (TIN) to capture the semantic-temporal correlation simultaneously between behaviors and the target. We achieve this by incorporating target-aware temporal encoding, in addition to semantic encoding, to represent behaviors and the target. Furthermore, we conduct explicit 4-way interaction by deploying target-aware attention and target-aware representation to capture both semantic and temporal correlation. We conduct comprehensive evaluations on two popular public datasets, and our proposed TIN outperforms the best-performing baselines by 0.43% and 0.29% on GAUC, respectively. During online A/B testing in Tencent's advertising platform, TIN achieves 1.65% cost lift and 1.93% GMV lift over the base model. It has been successfully deployed in production since October 2023, serving the WeChat Moments traffic. We have released our code at https://github.com/zhouxy1003/TIN.
翻訳日:2024-05-15 01:22:32 公開日:2024-05-13
# 完全組込み時間系列生成対向ネットワーク

Fully Embedded Time-Series Generative Adversarial Networks ( http://arxiv.org/abs/2308.15730v2 )

ライセンス: Link先を確認
Joe Beck, Subhadeep Chakraborty, (参考訳) GAN(Generative Adversarial Networks)は、モデル化されるデータの基盤となる分布に適合する合成データを生成する。 実値の時系列データの場合、これはデータの静的な分布を同時にキャプチャする必要があるだけでなく、潜在的な時間的地平線に対するデータの完全な時間的分布も同時に取得する必要があることを意味する。 この時間的要素はより複雑な問題を生じさせ、トレーニング中に現在の解が制約下にあるか不安定であるか、あるいはモード崩壊の度合いが変化する可能性がある。 FETSGANでは、全シーケンスをSeq2seqスタイルの逆自動エンコーダ(AAE)を使用して、ジェネレータのサンプリング空間に直接変換する。 この追加の制約は、合成サンプルの時間分布が崩壊しないという緩やかな保証を与える。 さらに、符号化シーケンスの再構築を補うために、第1Above Threshold(FAT)演算子を導入し、トレーニング安定性と合成データの全体的な品質を向上させる。 これらの新しいコントリビューションは、FETSGANによって生成されたデータの時間的類似度と定量的予測能力の質的尺度において、現在の対人学習者にとって大きな改善を示すものである。

Generative Adversarial Networks (GANs) should produce synthetic data that fits the underlying distribution of the data being modeled. For real valued time-series data, this implies the need to simultaneously capture the static distribution of the data, but also the full temporal distribution of the data for any potential time horizon. This temporal element produces a more complex problem that can potentially leave current solutions under-constrained, unstable during training, or prone to varying degrees of mode collapse. In FETSGAN, entire sequences are translated directly to the generator's sampling space using a seq2seq style adversarial auto encoder (AAE), where adversarial training is used to match the training distribution in both the feature space and the lower dimensional sampling space. This additional constraint provides a loose assurance that the temporal distribution of the synthetic samples will not collapse. In addition, the First Above Threshold (FAT) operator is introduced to supplement the reconstruction of encoded sequences, which improves training stability and the overall quality of the synthetic data being generated. These novel contributions demonstrate a significant improvement to the current state of the art for adversarial learners in qualitative measures of temporal similarity and quantitative predictive ability of data generated through FETSGAN.
翻訳日:2024-05-15 01:22:32 公開日:2024-05-13
# ギャップ工学によるトランスモン量子ビット中の準粒子毒の抑制

Suppression of quasiparticle poisoning in transmon qubits by gap engineering ( http://arxiv.org/abs/2309.02655v3 )

ライセンス: Link先を確認
Plamen Kamenov, Thomas DiNapoli, Michael Gershenson, Srivatsan Chakram, (参考訳) 超低温で動作する様々な超伝導素子の性能は、非平衡準粒子の存在によって損なわれる。 超伝導量子ビットのジョセフソン接合を横断する非弾性準粒子(QP)トンネルはデコヒーレンスと急激な励起をもたらす。 本研究では,超伝導量子プロセッサのビルディングブロックであるAl基トランスモン量子ビットにおける低エネルギー準粒子のトンネル化を抑制するために,"ギャップエンジニアリング"を用いる。 QPの潜在的な障壁を実装することにより、接続点を横断するQPトンネルを強く抑制し、電荷パリティを10^3$秒以上保持する。 QPトンネルの抑制はまた、クォービットエネルギー緩和率の低下をもたらす。 ギャップエンジニアリングに対する実証されたアプローチは、ジョセフソン接合を持つ全てのAl系回路で容易に実装できる。

The performance of various superconducting devices operating at ultra-low temperatures is impaired by the presence of non-equilibrium quasiparticles. Inelastic quasiparticle (QP) tunneling across Josephson junctions in superconducting qubits results in decoherence and spurious excitations and, notably, can trigger correlated errors that severely impede quantum error correction. In this work, we use "gap engineering" to suppress the tunneling of low-energy quasiparticles in Al-based transmon qubits, a leading building block for superconducting quantum processors. By implementing potential barriers for QP, we strongly suppress QP tunneling across the junction and preserve charge parity for over $10^3$ seconds. The suppression of QP tunneling also results in a reduction in the qubit energy relaxation rates. The demonstrated approach to gap engineering can be easily implemented in all Al-based circuits with Josephson junctions.
翻訳日:2024-05-15 01:22:32 公開日:2024-05-13
# ボリューム・メディカル・イメージ・セグメンテーション・プレトレーニングのための多レベル非対称コントラスト学習

Multi-level Asymmetric Contrastive Learning for Volumetric Medical Image Segmentation Pre-training ( http://arxiv.org/abs/2309.11876v2 )

ライセンス: Link先を確認
Shuang Zeng, Lei Zhu, Xinliang Zhang, Qian Chen, Hangzhou He, Lujia Jin, Zifeng Tian, Qiushi Ren, Zhaoheng Xie, Yanye Lu, (参考訳) 医用画像のセグメンテーションは、専門家から大量の高品質なラベル付きデータを取得するという困難なプロセスのため、基本的な課題である。 対照的な学習は、このジレンマに対して有望だがまだ問題のある解決策を提供する。 既存の医学的コントラスト学習戦略は、豊富な多レベル表現を無視した画像レベルの表現の抽出に重点を置いているためである。 そして、デコーダをランダムに初期化するか、エンコーダから事前学習を分離することにより、エンコーダとデコーダ間の潜在的な協調を無視する。 これらの課題に対処するために, ボリューム画像分割事前学習のためのMACLという, マルチレベル非対称なコントラスト学習フレームワークを提案する。 具体的には,プレトレインエンコーダとデコーダを同時に使用する非対称なコントラスト学習構造を設計し,セグメンテーションモデルのより優れた初期化を実現する。 さらに,特徴レベル,画像レベル,画素レベルの対応性を統合したマルチレベルコントラスト学習戦略を開発し,事前学習期間中の様々なスケールや粒度の表現から,エンコーダとデコーダが包括的詳細をキャプチャできるようにする。 最後に,12巻の医用画像データセットを用いた実験により,MACLフレームワークが既存の11のコントラスト学習戦略より優れていることが示された。 我々のMACLは,従来のCHD,MMWHS,CHAOS,AMOSの最高値よりも2.28\%,1.32\%,1.62\%,および1.60\%の精度で優れた性能を達成している。 また、我々のMACLは、5種類のU-Netバックボーンの間で強力な一般化能力を持つ。 私たちのコードはhttps://github.com/stevezs315/MACLで公開されます。

Medical image segmentation is a fundamental yet challenging task due to the arduous process of acquiring large volumes of high-quality labeled data from experts. Contrastive learning offers a promising but still problematic solution to this dilemma. Because existing medical contrastive learning strategies focus on extracting image-level representation, which ignores abundant multi-level representations. And they underutilize the decoder either by random initialization or separate pre-training from the encoder, thereby neglecting the potential collaboration between the encoder and decoder. To address these issues, we propose a novel multi-level asymmetric contrastive learning framework named MACL for volumetric medical image segmentation pre-training. Specifically, we design an asymmetric contrastive learning structure to pre-train encoder and decoder simultaneously to provide better initialization for segmentation models. Moreover, we develop a multi-level contrastive learning strategy that integrates correspondences across feature-level, image-level, and pixel-level representations to ensure the encoder and decoder capture comprehensive details from representations of varying scales and granularities during the pre-training phase. Finally, experiments on 12 volumetric medical image datasets indicate our MACL framework outperforms existing 11 contrastive learning strategies. {\itshape i.e.} Our MACL achieves a superior performance with more precise predictions from visualization figures and 2.28\%, 1.32\%, 1.62\% and 1.60\% Average Dice higher than previous best results on CHD, MMWHS, CHAOS and AMOS, respectively. And our MACL also has a strong generalization ability among 5 variant U-Net backbones. Our code will be available at https://github.com/stevezs315/MACL.
翻訳日:2024-05-15 01:22:32 公開日:2024-05-13
# 計測輸送による密度推定:生物科学への応用の展望

Density Estimation via Measure Transport: Outlook for Applications in the Biological Sciences ( http://arxiv.org/abs/2309.15366v4 )

ライセンス: Link先を確認
Vanessa Lopez-Marrero, Patrick R. Johnstone, Gilchan Park, Xihaier Luo, (参考訳) 測度輸送手法のいくつかの利点の1つは、広範囲の確率測度に応じて分散されたデータの処理と分析のための統一されたフレームワークを可能にすることである。 本研究は, 生体科学研究を支援するためのワークフローの一環として, 三角輸送マップの利用について, 計測輸送技術の可能性を評価することを目的とした計算研究の結果を提示する。 放射線生物学などの分野に共通する限られたサンプルデータの入手が特徴のシナリオは特に興味深い。 サンプルデータ量に制限がある分布密度関数を推定すると,適応輸送写像が有利であることがわかった。 特に、利用可能なデータサンプルの集合のランダムに選択された一連のサブセットに基づいて訓練された、一連の適応トランスポートマップから収集された統計は、データに隠された情報を明らかにする。 その結果, 放射線生物応用において, 本手法は, 放射線被曝下での遺伝子関係とその動態に関する仮説を生成するためのツールを提供する。

One among several advantages of measure transport methods is that they allow for a unified framework for processing and analysis of data distributed according to a wide class of probability measures. Within this context, we present results from computational studies aimed at assessing the potential of measure transport techniques, specifically, the use of triangular transport maps, as part of a workflow intended to support research in the biological sciences. Scenarios characterized by the availability of limited amount of sample data, which are common in domains such as radiation biology, are of particular interest. We find that when estimating a distribution density function given limited amount of sample data, adaptive transport maps are advantageous. In particular, statistics gathered from computing series of adaptive transport maps, trained on a series of randomly chosen subsets of the set of available data samples, leads to uncovering information hidden in the data. As a result, in the radiation biology application considered here, this approach provides a tool for generating hypotheses about gene relationships and their dynamics under radiation exposure.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# マルチユニットソフトセンシングで数発の学習が可能に

Multi-unit soft sensing permits few-shot learning ( http://arxiv.org/abs/2309.15828v2 )

ライセンス: Link先を確認
Bjarne Grimstad, Kristian Løvland, Lars S. Imsland, (参考訳) 近年の文献では、伝達性のある学習アルゴリズムを利用して、ソフトセンサーを改善する様々な方法が研究されている。 知識が強い関連性を持つソフトセンサー学習タスク間で伝達されると、一般的に性能向上が達成される。 転送可能性に関する特に関係のあるケースは、同じタイプのソフトセンサーを、類似しているが物理的に異なるプロセスやユニットのために開発する場合である。 そして、各ユニットのデータからソフトセンサー学習タスクが提示され、強い関連するタスクを期待することは合理的である。 この設定で転送可能性を利用する手法を適用すると、マルチユニットソフトセンシングと呼ばれるものになります。 本稿では,深層ニューラルネットワークを用いて実装した確率的階層モデルとして,マルチユニットソフトセンシングを定式化する。 このモデルの学習能力は,80個の石油井を対象とした仮想流量計(ソフトセンサの一種)を開発し,大規模産業事例で実証的に検証した。 モデルがウェルズ/ユニットの数でどのように一般化するかを検討する。 興味深いことに、多くの井戸から得られたデータから学習したマルチユニットモデルは、新しい井戸のための仮想フローメーターを数ショットで学習することができる。 驚くべきことに、タスクの難しさに関して、1-3データポイントでの少数ショット学習は、しばしば新しい井戸で高いパフォーマンスをもたらす。

Recent literature has explored various ways to improve soft sensors by utilizing learning algorithms with transferability. A performance gain is generally attained when knowledge is transferred among strongly related soft sensor learning tasks. A particularly relevant case for transferability is when developing soft sensors of the same type for similar, but physically different processes or units. Then, the data from each unit presents a soft sensor learning task, and it is reasonable to expect strongly related tasks. Applying methods that exploit transferability in this setting leads to what we call multi-unit soft sensing. This paper formulates multi-unit soft sensing as a probabilistic, hierarchical model, which we implement using a deep neural network. The learning capabilities of the model are studied empirically on a large-scale industrial case by developing virtual flow meters (a type of soft sensor) for 80 petroleum wells. We investigate how the model generalizes with the number of wells/units. Interestingly, we demonstrate that multi-unit models learned from data from many wells, permit few-shot learning of virtual flow meters for new wells. Surprisingly, regarding the difficulty of the tasks, few-shot learning on 1-3 data points often leads to high performance on new wells.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# Koopman VAEを用いた正規および不規則時系列データの生成モデリング

Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs ( http://arxiv.org/abs/2310.02619v2 )

ライセンス: Link先を確認
Ilan Naiman, N. Benjamin Erichson, Pu Ren, Michael W. Mahoney, Omri Azencot, (参考訳) 現実的な時系列データを生成することは、多くの工学的、科学的な応用にとって重要である。 既存の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。 しかし、GANはトレーニング中に不安定であり、モード崩壊に苦しむことがある。 変分オートエンコーダ(VAE)はこれらの問題に対してより堅牢であることが知られているが、(当然ながら)時系列生成では考慮されていない。 本研究では,従来のモデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAE(KoVAE)を紹介し,正規および不規則なトレーニングデータに最適化することができる。 クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。 我々のアプローチは、2つの望ましい特徴を持つ生成的モデリングを強化する。 一 領域知識を取り入れることは、線形写像の固有値の制約を規定するスペクトルツールを利用することにより達成することができる。 二 システムの定性的挙動と安定性の研究は、力学系理論の道具を用いて行うことができる。 以上の結果から,KoVAEは,合成および実世界の時系列生成ベンチマークにおいて,最先端のGAN法およびVAE法よりも優れた性能を示した。 正規データであれ不規則データであれ、KoVAEは差別的指標と予測的指標の両方を改善する時系列を生成する。 また,KoVAEが経験的基底真実分布をよりよく近似する確率密度関数を学習していることを示す視覚的エビデンスも提示する。

Generating realistic time series data is important for many engineering and scientific applications. Existing work tackles this problem using generative adversarial networks (GANs). However, GANs are unstable during training, and they can suffer from mode collapse. While variational autoencoders (VAEs) are known to be more robust to the these issues, they are (surprisingly) less considered for time series generation. In this work, we introduce Koopman VAE (KoVAE), a new generative framework that is based on a novel design for the model prior, and that can be optimized for either regular and irregular training data. Inspired by Koopman theory, we represent the latent conditional prior dynamics using a linear map. Our approach enhances generative modeling with two desired features: (i) incorporating domain knowledge can be achieved by leveraging spectral tools that prescribe constraints on the eigenvalues of the linear map; and (ii) studying the qualitative behavior and stability of the system can be performed using tools from dynamical systems theory. Our results show that KoVAE outperforms state-of-the-art GAN and VAE methods across several challenging synthetic and real-world time series generation benchmarks. Whether trained on regular or irregular data, KoVAE generates time series that improve both discriminative and predictive metrics. We also present visual evidence suggesting that KoVAE learns probability density functions that better approximate the empirical ground truth distribution.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# ChatGPTにおけるジェンダーバイアスはどの程度有効か -- ドイツ語と英語のChatGPT応答を探る

How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses ( http://arxiv.org/abs/2310.03031v3 )

ライセンス: Link先を確認
Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen, (参考訳) ChatGPTの導入により、OpenAIは、ITの専門知識に制限のあるユーザに対して、大規模な言語モデル(LLM)をアクセスできるようにした。 しかし、自然言語処理(NLP)のバックグラウンドを持たないユーザは、LLMを適切に理解していないかもしれない。 したがって、それら固有の制限を認識し、従ってシステムの出力をフェースバリューで取り込むことになる。 本稿では,システムアウトプットの処理においてユーザが意識する必要のあるジェンダーバイアスに特化して,潜在的な問題を特定するためのプロンプトと生成した応答を体系的に分析する。 英語やドイツ語のChatGPTが、女性、男性、中立的な視点から答えるように促された場合、どのように反応するかを考察する。 詳細な調査では,選択されたプロンプトを検証し,同じ方法で数回トリガーした場合の応答の程度を解析する。 この結果から,ChatGPTは非ITユーザが日々の作業のためにテキストを起草するのに役立つことがわかった。 しかし、システムの応答のバイアスと構文的および文法的誤りを徹底的にチェックすることは、絶対的に重要である。

With the introduction of ChatGPT, OpenAI made large language models (LLM) accessible to users with limited IT expertise. However, users with no background in natural language processing (NLP) might lack a proper understanding of LLMs. Thus the awareness of their inherent limitations, and therefore will take the systems' output at face value. In this paper, we systematically analyse prompts and the generated responses to identify possible problematic issues with a special focus on gender biases, which users need to be aware of when processing the system's output. We explore how ChatGPT reacts in English and German if prompted to answer from a female, male, or neutral perspective. In an in-depth investigation, we examine selected prompts and analyse to what extent responses differ if the system is prompted several times in an identical way. On this basis, we show that ChatGPT is indeed useful for helping non-IT users draft texts for their daily work. However, it is absolutely crucial to thoroughly check the system's responses for biases as well as for syntactic and grammatical mistakes.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# GaussianDreamer:2次元および3次元拡散モデルによるテキストから3次元ガウスへの高速生成

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models ( http://arxiv.org/abs/2310.08529v3 )

ライセンス: Link先を確認
Taoran Yi, Jiemin Fang, Junjie Wang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang, (参考訳) 近年、テキストプロンプトによる3Dアセットの生成は、目覚ましい結果を示している。 2Dと3Dの拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成するのに役立つ。 3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。 2次元拡散モデルには、一般化と微細生成の強い能力があるが、3次元の一貫性は保証できない。 本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。 高速な3次元オブジェクト生成フレームワークであるGaussianDreamerが提案され、3次元拡散モデルが初期化の事前を提供し、2次元拡散モデルが幾何学と外観を豊かにする。 ガウスの初期化を促進するために、ノイズの多い点の成長と色摂動の操作が導入されている。 我々のGaussianDreamerは、1つのGPUで15分以内に高品質な3Dインスタンスや3Dアバターを生成することができる。 デモとコードはhttps://taoranyi.com/gaussiandreamer/.comで公開されている。

In recent times, the generation of 3D assets from text prompts has shown impressive results. Both 2D and 3D diffusion models can help generate decent 3D objects based on prompts. 3D diffusion models have good 3D consistency, but their quality and generalization are limited as trainable 3D data is expensive and hard to obtain. 2D diffusion models enjoy strong abilities of generalization and fine generation, but 3D consistency is hard to guarantee. This paper attempts to bridge the power from the two types of diffusion models via the recent explicit and efficient 3D Gaussian splatting representation. A fast 3D object generation framework, named as GaussianDreamer, is proposed, where the 3D diffusion model provides priors for initialization and the 2D diffusion model enriches the geometry and appearance. Operations of noisy point growing and color perturbation are introduced to enhance the initialized Gaussians. Our GaussianDreamer can generate a high-quality 3D instance or 3D avatar within 15 minutes on one GPU, much faster than previous methods, while the generated instances can be directly rendered in real time. Demos and code are available at https://taoranyi.com/gaussiandreamer/.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# サブミクロン4H-SiC膜におけるV2中心のスペクトル安定性

Spectral stability of V2 centres in sub-micron 4H-SiC membranes ( http://arxiv.org/abs/2310.12617v4 )

ライセンス: Link先を確認
Jonah Heiler, Jonathan Körber, Erik Hesselmeier, Pierre Kuna, Rainer Stöhr, Philipp Fuchs, Misagh Ghezellou, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, Jörg Wrachtrup, (参考訳) 炭化ケイ素中の色中心は、優れたスピン光学コヒーレンスを持つ有望な半導体量子技術プラットフォームとして出現するが、近年のナノフォトニック構造への集積による光効率の最大化への取り組みは、スペクトル安定性の低下により困難であることが判明した。 ここでは, 厚さが0.25\,\rm\mu m$までの炭化ケイ素薄膜中のシリコン空孔中心を大規模に解析する。 製膜工程は, 化学機械研磨, 反応性イオンエッチング, およびその後の熱処理を組み合わせた。 これにより、粗さ値が3-4\,\rm\r{A}$の高再現性膜と、無視可能な表面蛍光が生じる。 シリコン空孔中心は、波長が0.7 \,\rm\mu m$の膜厚までさまようスペクトルの兆候がほとんどない、光線幅がほぼ一生に限られていることが判明した。 薄膜中のシリコン空孔中心が0.25\,\rm\mu m$以下の場合、光線幅は200\,\rm MHz$以下であり、スピン選択励起スキームと互換性がある。 本研究は, シリコン空孔中心をサブミクロンシリコン炭化物膜に統合し, ナノフォトニック構造に基づく光子抽出効率の向上に向けての道を開くことを明らかにした。

Colour centres in silicon carbide emerge as a promising semiconductor quantum technology platform with excellent spin-optical coherences.However, recent efforts towards maximising the photonic efficiency via integration into nanophotonic structures proved to be challenging due to reduced spectral stabilities. Here, we provide a large-scale systematic investigation on silicon vacancy centres in thin silicon carbide membranes with thicknesses down to $0.25\,\rm\mu m$. Our membrane fabrication process involves a combination of chemical mechanical polishing, reactive ion etching, and subsequent annealing. This leads to highly reproducible membranes with roughness values of $3-4\,\rm\r{A}$, as well as negligible surface fluorescence. We find that silicon vacancy centres show close-to lifetime limited optical linewidths with almost no signs of spectral wandering down to membrane thicknesses of $0.7 \,\rm\mu m$. For silicon vacancy centres in thinner membranes down to $0.25\,\rm\mu m$, we observe spectral wandering, however, optical linewidths remain below $200\,\rm MHz$, which is compatible with spin-selective excitation schemes. Our work clearly shows that silicon vacancy centres can be integrated into sub-micron silicon carbide membranes, which opens the avenue towards obtaining the necessary improvements in photon extraction efficiency based on nanophotonic structuring.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# 実時間畳み込みのない4次マスター方程式によるサブオーミックレジームにおけるブロッホ-レッドフィールド方程式の無効化

Invalidation of the Bloch-Redfield Equation in Sub-Ohmic Regime via a Practical Time-Convolutionless Fourth-Order Master Equation ( http://arxiv.org/abs/2310.15089v4 )

ライセンス: Link先を確認
Elyana Crowder, Lance Lampert, Grihith Manchanda, Brian Shoffeitt, Srikar Gadamsetty, Yiting Pei, Shantanu Chaudhary, Dragomir Davidović, (参考訳) 近年の量子科学の発展にもかかわらず、極端に長い時間スケールと分散環境でのオープン量子力学を正確かつ単純に特徴づける量子マスター方程式が依然として必要である。 本研究では、このニーズを満たすために、4階時間畳み込みのないマスター方程式の計算を最適化する。 このマスター方程式の初期のバージョンは多次元積分を計算し、使用を制限する必要があった。 我々のマスター方程式は、同時緩和とデファス化を考慮し、周波数微分に対するシステムのスペクトル密度に比例する係数をもたらす。 サブオーミック環境では、この微分はマスター方程式における赤外線の発散を誘導し、2階のブロッホ・レッドフィールドのマスター方程式の発見を無効にする。 一般開放量子系における基底状態へのアプローチを解析し、ブロッホ・レッドフィールド方程式だけでは確実に計算されないことを示す。 最適化された4階述語方程式は, 温度0で4階述語に発散できるにもかかわらず, 基底状態のアプローチは分散によらず, 浴槽カップリングの2階述語に正確であることを示す。

Despite recent advances in quantum sciences, a quantum master equation that accurately and simply characterizes open quantum dynamics across extremely long timescales and in dispersive environments is still needed. In this study, we optimize the computation of the fourth-order time-convolutionless master equation to meet this need. Early versions of this master equation required computing a multidimensional integral, limiting its use. Our master equation accounts for simultaneous relaxation and dephasing, resulting in coefficients proportional to the system's spectral density over frequency derivative. In sub-Ohmic environments, this derivative induces infrared divergence in the master equation, invalidating the second-order Bloch-Redfield master equation findings. We analyze the approach to a ground state in a generic open quantum system and demonstrate that it is not reliably computed by the Bloch-Redfield equation alone. The optimized fourth-order equation shows that the ground-state approach is accurate to second order in bath coupling regardless of the dispersion, even though it can diverge in the fourth order at zero temperature.
翻訳日:2024-05-15 01:12:47 公開日:2024-05-13
# CADS: 条件付きサンプリングによる拡散モデルの多様性の解放

CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling ( http://arxiv.org/abs/2310.17347v4 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber, (参考訳) 条件付き拡散モデルは、データ分布をよくカバーしていることが知られているが、特に最適な画像品質のための高い分類子なしガイダンススケールや、小さなデータセットで訓練された場合、出力の多様性の制限に直面している。 この問題は, 推論における条件付け信号の役割に起因し, 特に高ガイダンススケールにおいて, サンプル品質の損失を最小限に抑えながら, 生成の多様性を向上させる拡散モデルのサンプリング戦略の改善を図っている。 サンプリング手法では,条件付ベクトルに単調にガウス雑音を付加することにより条件付信号の処理を行ない,多様性と条件付のバランスをとる。 条件付き拡散サンプリング(CADS)は,任意の事前学習モデルとサンプリングアルゴリズムで使用することができ,様々な条件生成タスクにおける拡散モデルの多様性を向上することを示す。 さらに、既存の事前訓練拡散モデルを用いて、CADSは256$\times$256と512$\times$512のクラス条件の画像ネット生成に対して、1.70と2.31の最先端FIDをそれぞれ達成している。

While conditional diffusion models are known to have good coverage of the data distribution, they still face limitations in output diversity, particularly when sampled with a high classifier-free guidance scale for optimal image quality or when trained on small datasets. We attribute this problem to the role of the conditioning signal in inference and offer an improved sampling strategy for diffusion models that can increase generation diversity, especially at high guidance scales, with minimal loss of sample quality. Our sampling strategy anneals the conditioning signal by adding scheduled, monotonically decreasing Gaussian noise to the conditioning vector during inference to balance diversity and condition alignment. Our Condition-Annealed Diffusion Sampler (CADS) can be used with any pretrained model and sampling algorithm, and we show that it boosts the diversity of diffusion models in various conditional generation tasks. Further, using an existing pretrained diffusion model, CADS achieves a new state-of-the-art FID of 1.70 and 2.31 for class-conditional ImageNet generation at 256$\times$256 and 512$\times$512 respectively.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-13
# Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals

Wolfes model aka $G_2/I_6$-rational integrable model: $g^{(2)}, g^{(3)}$ hidden algebras and quartic polynomial algebra of integrals ( http://arxiv.org/abs/2310.20481v3 )

ライセンス: Link先を確認
J C Lopez Vieyra, A V Turbiner, (参考訳) G_2/I_6$-rational integral integrable model of the Hamiltonian reduction is exactly-solvable and superintegrable。 そのハミルトン$H$と2つの積分 ${\cal I}_{1}, {\cal I}_{2}$ は、それぞれ2階と6階の2つの変数(多項式係数を持つ)の代数微分作用素として記述でき、最小限の方法で$g^{(2)}$または$g^{(3)}$(隠れた)代数生成子の非線形結合として表される。 代数作用素を扱うために特別に設計された MAPLE-18 符号を用いることで、$(H, {\cal I}_1, {\cal I}_2, {\cal I}_{12} \equiv [{\cal I}_1, {\cal I}_2])$ は積分の四次多項式代数の4つの生成元であることが分かる。 この代数は普遍包絡代数 $g^{(3)}$ に埋め込まれる。 逆に、3body/$A_2$-rational Calogero モデルは積分の立方多項式代数によって特徴づけられる。

One-dimensional 3-body Wolfes model with 2- and 3-body interactions also known as $G_2/I_6$-rational integrable model of the Hamiltonian reduction is exactly-solvable and superintegrable. Its Hamiltonian $H$ and two integrals ${\cal I}_{1}, {\cal I}_{2}$, which can be written as algebraic differential operators in two variables (with polynomial coefficients) of the 2nd and 6th orders, respectively, are represented as non-linear combinations of $g^{(2)}$ or $g^{(3)}$ (hidden) algebra generators in a minimal manner. By using a specially designed MAPLE-18 code to deal with algebraic operators it is found that $(H, {\cal I}_1, {\cal I}_2, {\cal I}_{12} \equiv [{\cal I}_1, {\cal I}_2])$ are the four generating elements of the {\it quartic} polynomial algebra of integrals. This algebra is embedded into the universal enveloping algebra $g^{(3)}$. In turn, 3-body/$A_2$-rational Calogero model is characterized by cubic polynomial algebra of integrals, it is mentioned briefly.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-13
# CiFlow: 同型暗号化のためのキースイッチングのデータフロー解析と最適化

CiFlow: Dataflow Analysis and Optimization of Key Switching for Homomorphic Encryption ( http://arxiv.org/abs/2311.01598v4 )

ライセンス: Link先を確認
Negar Neda, Austin Ebel, Benedict Reynwar, Brandon Reagen, (参考訳) ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にするプライバシー保護計算技術である。 現在、HEのポテンシャルは非現実的であり、不可分に遅いため、実際のアプリケーションでの使用を妨げている。 HEの主な計算ボトルネックはキースイッチ操作であり、HEの実行時間の約70%を占め、入力、中間、キーに対する大量のデータを含む。 従来の研究では、HE性能を改善するハードウェアアクセラレータに重点を置いており、大容量のオンチップSRAMと大規模なデータを扱うためのオフチップ帯域幅が特徴である。 本稿では,そのデータフローを厳密に解析することでキースイッチング性能を向上させる新しい手法を提案する。 第一の目的は、オンチップメモリに制限のあるデータ再利用を最適化し、オフチップのデータ移動を最小限にすることです。 最大パラメータ(MP)、Digital-Centric(DC)、Output-Centric(OC)の3つの異なるデータフローを導入する。 本稿では,提案手法を用いて,中間鍵スイッチング作業セットを大幅に削減し,オフチップ帯域幅の大幅な削減を図り,データ再利用を効果的に行なえることを示す。 HEを含むリング処理アルゴリズムに適したベクトルプロセッサであるRPUを用いて,3つのデータフローを徹底的に評価した。 この評価は、帯域幅と計算スループットの網羅性、キーがチップ上でバッファリングされているか、あるいはストリーミングされているかを考慮する。 OCでは、MPデータフロー上で最大4.16倍のスピードアップを示し、OCが12.25倍のSRAMをストリーミングキーで保存し、パフォーマンス上のペナルティを最小限に抑える方法を示している。

Homomorphic encryption (HE) is a privacy-preserving computation technique that enables computation on encrypted data. Today, the potential of HE remains largely unrealized as it is impractically slow, preventing it from being used in real applications. A major computational bottleneck in HE is the key-switching operation, accounting for approximately 70% of the overall HE execution time and involving a large amount of data for inputs, intermediates, and keys. Prior research has focused on hardware accelerators to improve HE performance, typically featuring large on-chip SRAMs and high off-chip bandwidth to deal with large scale data. In this paper, we present a novel approach to improve key-switching performance by rigorously analyzing its dataflow. Our primary goal is to optimize data reuse with limited on-chip memory to minimize off-chip data movement. We introduce three distinct dataflows: Max-Parallel (MP), Digit-Centric (DC), and Output-Centric (OC), each with unique scheduling approaches for key-switching computations. Through our analysis, we show how our proposed Output-Centric technique can effectively reuse data by significantly lowering the intermediate key-switching working set and alleviating the need for massive off-chip bandwidth. We thoroughly evaluate the three dataflows using the RPU, a recently published vector processor tailored for ring processing algorithms, which includes HE. This evaluation considers sweeps of bandwidth and computational throughput, and whether keys are buffered on-chip or streamed. With OC, we demonstrate up to 4.16x speedup over the MP dataflow and show how OC can save 12.25x on-chip SRAM by streaming keys for minimal performance penalty.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-13
# DP-DCAN:シングルセルクラスタリングのための差分プライベート・ディープコントラストオートエンコーダネットワーク

DP-DCAN: Differentially Private Deep Contrastive Autoencoder Network for Single-cell Clustering ( http://arxiv.org/abs/2311.03410v2 )

ライセンス: Link先を確認
Huifa Li, Jie Fu, Zhili Chen, Xiaomin Yang, Haitao Liu, Xinpeng Ling, (参考訳) 単細胞RNAシークエンシング(scRNA-seq)は遺伝子発現の転写学的解析において重要である。 近年,ディープラーニングによって高次元単細胞データの解析が進められている。 残念ながら、ディープラーニングモデルはユーザーの機密情報を漏洩させる可能性がある。 その結果、差別化プライバシ(DP)は、プライバシーを保護するためにますます使われています。 しかし、既存のDP手法は通常、ニューラルネットワーク全体を摂動させて差分プライバシーを達成し、結果として性能上のオーバーヘッドが大きくなる。 この課題に対処するために,本研究では,ネットワーク中央の次元レデュースベクトルのみを出力するオートエンコーダの特異性を活用し,単一セルクラスタリングのための部分的ネットワーク摂動による差分プライベート・ディープ・コントラシブ・オートエンコーダネットワーク(DP-DCAN)を設計する。 部分的なネットワークだけがノイズを伴って追加されるため、パフォーマンスの改善は明らかで2倍になる。 6つのデータセットの実験結果から,DP-DCANは従来のDP方式よりもネットワーク摂動に優れていたことが確認された。 さらに,DP-DCANは敵攻撃に対して強い強靭性を示す。

Single-cell RNA sequencing (scRNA-seq) is important to transcriptomic analysis of gene expression. Recently, deep learning has facilitated the analysis of high-dimensional single-cell data. Unfortunately, deep learning models may leak sensitive information about users. As a result, Differential Privacy (DP) is increasingly used to protect privacy. However, existing DP methods usually perturb whole neural networks to achieve differential privacy, and hence result in great performance overheads. To address this challenge, in this paper, we take advantage of the uniqueness of the autoencoder that it outputs only the dimension-reduced vector in the middle of the network, and design a Differentially Private Deep Contrastive Autoencoder Network (DP-DCAN) by partial network perturbation for single-cell clustering. Since only partial network is added with noise, the performance improvement is obvious and twofold: one part of network is trained with less noise due to a bigger privacy budget, and the other part is trained without any noise. Experimental results of six datasets have verified that DP-DCAN is superior to the traditional DP scheme with whole network perturbation. Moreover, DP-DCAN demonstrates strong robustness to adversarial attacks.
翻訳日:2024-05-15 01:02:54 公開日:2024-05-13
# 機械学習を用いた果実病の認識

Dates Fruit Disease Recognition using Machine Learning ( http://arxiv.org/abs/2311.10365v2 )

ライセンス: Link先を確認
Ghassen Ben Brahim, Jaafar Alghazo, Ghazanfar Latif, Khalid Alnujaidi, (参考訳) サウジアラビア、モロッコ、チュニジアなど多くの国が、ヤシの果物を輸出し、消費している。 日付の果物生産は、日付の果物輸出国の経済において重要な役割を担っている。 日付の果物はどんな果物と同じように病気に罹患し、早期発見と介入は農産物を救える。 しかし、広大な農地では、農夫が早期の病原性検出に頻繁に日付木を観察することはほぼ不可能である。 加えて、人間の観察であっても、プロセスはヒューマンエラーを起こしやすく、デートフルーツのコストが上昇する。 コンピュータビジョン、機械学習、ドローン技術、その他の技術の進歩により、日付の果物病を自動的に検出するための統合されたソリューションが提案されている。 本稿では,L*a*b色特徴の抽出,統計特徴,DWTテクスチャ特徴の抽出に基づいて,標準分類器を用いたハイブリッド特徴量法を提案する。 本研究のために, 健康期, 初期病期, 栄養期, 寄生虫が感染した851枚の画像からなるデータセットを開発した。 抽出された特徴は、ランダムフォレスト(RF)、多層パーセプトロン(MLP)、Na\"ive Bayes(NB)、ファジィ決定木(FDT)などの共通分類器に入力された。 最も高い平均精度は、L*a*b、統計、DWT特徴を組み合わせることで達成された。

Many countries such as Saudi Arabia, Morocco and Tunisia are among the top exporters and consumers of palm date fruits. Date fruit production plays a major role in the economies of the date fruit exporting countries. Date fruits are susceptible to disease just like any fruit and early detection and intervention can end up saving the produce. However, with the vast farming lands, it is nearly impossible for farmers to observe date trees on a frequent basis for early disease detection. In addition, even with human observation the process is prone to human error and increases the date fruit cost. With the recent advances in computer vision, machine learning, drone technology, and other technologies; an integrated solution can be proposed for the automatic detection of date fruit disease. In this paper, a hybrid features based method with the standard classifiers is proposed based on the extraction of L*a*b color features, statistical features, and Discrete Wavelet Transform (DWT) texture features for the early detection and classification of date fruit disease. A dataset was developed for this work consisting of 871 images divided into the following classes; Healthy date, Initial stage of disease, Malnourished date, and Parasite infected. The extracted features were input to common classifiers such as the Random Forest (RF), Multilayer Perceptron (MLP), Na\"ive Bayes (NB), and Fuzzy Decision Trees (FDT). The highest average accuracy was achieved when combining the L*a*b, Statistical, and DWT Features.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# ガウス滑らか化とガウス微分の離散近似

Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v7 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 本稿では,離散データに適用するためのスケール空間理論におけるガウススムージングとガウス微分計算の近似問題に関する詳細な処理法を開発する。 連続的および離散的スケール空間理論の以前の公理的処理と密接な関係で、これらのスケール空間の操作を明示的な離散的畳み込みの観点から区別する3つの主要な方法を考える。 (i)ガウス核とガウス微分核をサンプリングする。 (ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、 3) ガウス核の離散的類似点のスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を計算する。 本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。 その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。 非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。 一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。

This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# エピポーラ変位場を用いたParallax-Tolerant Image Stitching

Parallax-Tolerant Image Stitching with Epipolar Displacement Field ( http://arxiv.org/abs/2311.16637v2 )

ライセンス: Link先を確認
Jian Yu, Feipeng Da, (参考訳) 視差で画像を縫うことは、まだまだ難しい課題だ。 既存の手法では、画像の局所的構造と大域的構造の両方を維持するのに苦労し、アライメントアーティファクトの低減や歪みの抑制に苦労することが多い。 本稿では, エピポーラ変位場に基づくワープ技術を確立するために, エピポーラ幾何を利用した新しいアプローチを提案する。 当初、エピポーラ幾何学における画素の歪み規則は無限ホモグラフィーによって確立される。 その後, 局所弾性変形の原理に基づいて, 歪んだ画素のエピポーラ線に沿ってのすべり距離を表すエピポーラ変位場を薄板スプラインで定式化する。 縫合結果は、エピポーラ変位場に応じて画素を逆ワープすることで生成される。 この方法は、ワープ則にエピポーラ制約を組み込んで、高品質なアライメントを確保し、パノラマの射影性を維持する。 定性的かつ定量的な比較実験により,大視差で画像を縫合する手法の競争力を実証した。

Image stitching with parallax is still a challenging task. Existing methods often struggle to maintain both the local and global structures of the image while reducing alignment artifacts and warping distortions. In this paper, we propose a novel approach that utilizes epipolar geometry to establish a warping technique based on the epipolar displacement field. Initially, the warping rule for pixels in the epipolar geometry is established through the infinite homography. Subsequently, the epipolar displacement field, which represents the sliding distance of the warped pixel along the epipolar line, is formulated by thin-plate splines based on the principle of local elastic deformation. The stitching result can be generated by inversely warping the pixels according to the epipolar displacement field. This method incorporates the epipolar constraints in the warping rule, which ensures high-quality alignment and maintains the projectivity of the panorama. Qualitative and quantitative comparative experiments demonstrate the competitiveness of the proposed method for stitching images with large parallax.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# 大規模な言語モデルで政治テキストをスケールする: チャットボットがすべて必要かもしれない

Scaling Political Texts with Large Language Models: Asking a Chatbot Might Be All You Need ( http://arxiv.org/abs/2311.16639v2 )

ライセンス: Link先を確認
Gaël Le Mens, Aina Gallego, (参考訳) 我々は GPT-4, MiXtral, Llama 3 などの命令調整型大規模言語モデル (LLM) を用いて政策やイデオロギー空間内に政治的テキストを配置する。 文献や著者が焦点政策の面においてどこに立っているのかを直接問う。 本稿では、イギリスの政党宣言を経済・社会・移民政策の次元にスケールさせることによるアプローチの実証と検証、反正反対の次元に関する欧州議会の10か国語に関する演説、右派のイデオロギースペクトルに関するツイートに基づく第117回米国議会議員、GPT-4のトレーニング遮断後の米国下院議員および上院議員によるツイートについて述べる。 専門家、クラウドワーカー、ロールコール投票によるコーディングに基づく最高のLCMとベンチマークで得られた位置推定値の相関は、.90を超えている。 このトレーニングフリーなアプローチは、大量のデータでトレーニングされた教師付き分類器よりも優れている。 ポリシーやイデオロギー空間でテキストをスケールするために命令調整されたLLMを使うことは、たとえテキストが短く、異なる言語で書かれていても、高速で、費用効率が高く、信頼性があり、再現可能である(オープンなLLMの場合)。 実証的検証の必要性について注意書きを締めくくる。

We use instruction-tuned Large Language Models (LLMs) such as GPT-4, MiXtral, and Llama 3 to position political texts within policy and ideological spaces. We directly ask the LLMs where a text document or its author stand on the focal policy dimension. We illustrate and validate the approach by scaling British party manifestos on the economic, social, and immigration policy dimensions; speeches from a European Parliament debate in 10 languages on the anti- to pro-subsidy dimension; Senators of the 117th US Congress based on their tweets on the left-right ideological spectrum; and tweets published by US Representatives and Senators after the training cutoff date of GPT-4. The correlation between the position estimates obtained with the best LLMs and benchmarks based on coding by experts, crowdworkers or roll call votes exceeds .90. This training-free approach also outperforms supervised classifiers trained on large amounts of data. Using instruction-tuned LLMs to scale texts in policy and ideological spaces is fast, cost-efficient, reliable, and reproducible (in the case of open LLMs) even if the texts are short and written in different languages. We conclude with cautionary notes about the need for empirical validation.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# アダプティブ・プロンプト学習による統一モーダル・サリエント物体検出

Unified-modal Salient Object Detection via Adaptive Prompt Learning ( http://arxiv.org/abs/2311.16835v4 )

ライセンス: Link先を確認
Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Zhengyi Liu, Bin Luo, (参考訳) 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。 しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。 本稿では,UniSODと呼ばれる統合フレームワークにおいて,タスク間の事前知識の重複を完全に活用する単一モーダルSODとマルチモーダルSODの両方に対処する。 それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。 この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。 切り替え可能なプロンプト生成ブロックから各モダリティ対応プロンプトを生成し、人間の介入なしにシングルモーダルおよびマルチモーダル入力に基づいて構造切替を適応的に行う。 エンドツーエンドのジョイントトレーニングを通じて、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対する全体的なパフォーマンス改善を実現し、本手法が単一モードおよび複数モードのSODタスクを効果的かつ効率的に統合できることを実証した。

Existing single-modal and multi-modal salient object detection (SOD) methods focus on designing specific architectures tailored for their respective tasks. However, developing completely different models for different tasks leads to labor and time consumption, as well as high computational and practical deployment costs. In this paper, we attempt to address both single-modal and multi-modal SOD in a unified framework called UniSOD, which fully exploits the overlapping prior knowledge between different tasks. Nevertheless, assigning appropriate strategies to modality variable inputs is challenging. To this end, UniSOD learns modality-aware prompts with task-specific hints through adaptive prompt learning, which are plugged into the proposed pre-trained baseline SOD model to handle corresponding tasks, while only requiring few learnable parameters compared to training the entire model. Each modality-aware prompt is generated from a switchable prompt generation block, which adaptively performs structural switching based on single-modal and multi-modal inputs without human intervention. Through end-to-end joint training, UniSOD achieves overall performance improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which demonstrates that our method effectively and efficiently unifies single-modal and multi-modal SOD tasks.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# スパースGS:ガウススプラッティングを用いたリアルタイム360度スパースビュー合成

SparseGS: Real-Time 360° Sparse View Synthesis using Gaussian Splatting ( http://arxiv.org/abs/2312.00206v2 )

ライセンス: Link先を確認
Haolin Xiong, Sairisheek Muttukuru, Rishi Upadhyay, Pradyumna Chari, Achuta Kadambi, (参考訳) ニューラル・レージアンス・フィールド(NeRF)と他の暗黙的なシーン表現手法の導入により,新しいビュー合成の問題は近年,著しく人気が高まっている。 最近の進歩である3D Gaussian Splatting (3DGS)は、明示的な表現を活用し、高品質な結果でリアルタイムレンダリングを実現する。 しかし、3DGSは、コヒーレントなシーン表現を生成するために、多くのトレーニングビューを必要とする。 NeRFと同様のショット設定では、3DGSはトレーニングビューに過度に適合する傾向にあり、特にトレーニングビューの数が減少するにつれて、背景の崩壊と過剰なフローターを引き起こす。 スパーストレーニングビューから360度シーンのコヒーレント3DGSに基づく放射場をトレーニングする手法を提案する。 我々は、背景崩壊を減らし、フローターを除去し、目に見えない視点から一貫性を高めるために、深度事前を生成的および明示的な制約と統合する。 実験の結果, LPIPSではベース3DGSが6.4%, PSNRでは12.2%, LPIPSでは少なくとも17.6%, MipNeRF-360データセットではトレーニングや推論のコストが大幅に削減された。

The problem of novel view synthesis has grown significantly in popularity recently with the introduction of Neural Radiance Fields (NeRFs) and other implicit scene representation methods. A recent advance, 3D Gaussian Splatting (3DGS), leverages an explicit representation to achieve real-time rendering with high-quality results. However, 3DGS still requires an abundance of training views to generate a coherent scene representation. In few shot settings, similar to NeRF, 3DGS tends to overfit to training views, causing background collapse and excessive floaters, especially as the number of training views are reduced. We propose a method to enable training coherent 3DGS-based radiance fields of 360-degree scenes from sparse training views. We integrate depth priors with generative and explicit constraints to reduce background collapse, remove floaters, and enhance consistency from unseen viewpoints. Experiments show that our method outperforms base 3DGS by 6.4% in LPIPS and by 12.2% in PSNR, and NeRF-based methods by at least 17.6% in LPIPS on the MipNeRF-360 dataset with substantially less training and inference cost.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# One Gate Scheme to Rule them: Introducing a Complex yet Reduced Instruction Set for Quantum Computing

One Gate Scheme to Rule Them All: Introducing a Complex Yet Reduced Instruction Set for Quantum Computing ( http://arxiv.org/abs/2312.05652v2 )

ライセンス: Link先を確認
Jianxin Chen, Dawei Ding, Weiyuan Gong, Cupjin Huang, Qi Ye, (参考訳) 量子命令セットの設計とアーキテクチャは、量子コンピュータの性能に最優先される。 本研究は,1量子ゲートまでの任意の2量子ゲートを直接かつ効率的に実現する,$XX+YY$結合を持つ量子ビットのゲートスキームを導入する。 第一に、このスキームは量子演算の高忠実度実行を可能にし、最小限のゲート時間を達成する。 第二に、このスキームは$\textbf{SU}(4)$の2キュービットゲート群にまたがっているので、アルゴリズムの実装に最適な2キュービットゲート数を達成するために利用できる。 これら2つのシナジーの利点は、量子複雑だが還元命令セットコンピュータ(CRISC)をもたらす。 ゲートスキームはコンパクトだが、包括的な量子演算の配列をサポートする。 これはパラドックス的に見えるかもしれないが、量子コンピュータアーキテクチャと古典コンピューターアーキテクチャの根本的な違いのために実現可能である。 ゲート方式を用いて、一般的な$n$-qubitゲート合成、量子ボリューム、キュービットルーティングなど、様々な応用において顕著な改善が見られた。 さらに, 提案方式では, ゲート時間$\frac{\pi}{2g}$のCNOTゲートと局所的に等価なゲートを実現している。 また、AshNスキームは、逆結合系における主コヒーレントエラーである$ZZ$エラーに完全に従わず、ゲートを実装する制御パラメータを容易に調整し、$ZZ$項を考慮に入れることができる。

The design and architecture of a quantum instruction set are paramount to the performance of a quantum computer. This work introduces a gate scheme for qubits with $XX+YY$ coupling that directly and efficiently realizes any two-qubit gate up to single-qubit gates. First, this scheme enables high-fidelity execution of quantum operations and achieves minimum possible gate times. Second, since the scheme spans the entire $\textbf{SU}(4)$ group of two-qubit gates, we can use it to attain the optimal two-qubit gate count for algorithm implementation. These two advantages in synergy give rise to a quantum Complex yet Reduced Instruction Set Computer (CRISC). Though the gate scheme is compact, it supports a comprehensive array of quantum operations. This may seem paradoxical but is realizable due to the fundamental differences between quantum and classical computer architectures. Using our gate scheme, we observe marked improvements across various applications, including generic $n$-qubit gate synthesis, quantum volume, and qubit routing. Furthermore, the proposed scheme also realizes a gate locally equivalent to the commonly used CNOT gate with a gate time of $\frac{\pi}{2g}$, where $g$ is the two-qubit coupling. The AshN scheme is also completely impervious to $ZZ$ error, the main coherent error in transversely coupled systems, as the control parameters implementing the gates can be easily adjusted to take the $ZZ$ term into account.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# 大規模マルチモーダルモデルにおけるハイジャックコンテキスト

Hijacking Context in Large Multi-modal Models ( http://arxiv.org/abs/2312.07553v2 )

ライセンス: Link先を確認
Joonhyun Jeong, (参考訳) 近年,LMM (Large Multi-modal Models) は画像に関する指示から画像の視覚的内容を理解する能力を示した。 LMMはLarge Language Models (LLMs)に基づいて構築されており、入力プロンプトとして画像とテキストの一貫性のあるシーケンスが与えられるコンテキスト内学習のような能力や特徴を継承する。 しかし,本研究では,意図されたコンテキストではなく,ハイジャックされたコンテキストに関するバイアス出力のみを生成するために,少数の不整合画像やテキスト記述を誤解させるような,既製のLMMの新たな制限を特定する。 そこで本研究では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。 さらに、ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連付けられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかについても検討する。

Recently, Large Multi-modal Models (LMMs) have demonstrated their ability to understand the visual contents of images given the instructions regarding the images. Built upon the Large Language Models (LLMs), LMMs also inherit their abilities and characteristics such as in-context learning where a coherent sequence of images and texts are given as the input prompt. However, we identify a new limitation of off-the-shelf LMMs where a small fraction of incoherent images or text descriptions mislead LMMs to only generate biased output about the hijacked context, not the originally intended context. To address this, we propose a pre-filtering method that removes irrelevant contexts via GPT-4V, based on its robustness towards distribution shift within the contexts. We further investigate whether replacing the hijacked visual and textual contexts with the correlated ones via GPT-4V and text-to-image models can help yield coherent responses.
翻訳日:2024-05-15 00:53:00 公開日:2024-05-13
# 循環器疾患と非透析疾患の統一スクリーニングツールとしてのAI強化心電図の展望-救急医療における探索的研究

Prospects for AI-Enhanced ECG as a Unified Screening Tool for Cardiac and Non-Cardiac Conditions -- An Explorative Study in Emergency Care ( http://arxiv.org/abs/2312.11050v2 )

ライセンス: Link先を確認
Nils Strodthoff, Juan Miguel Lopez Alcaraz, Wilhelm Haverkamp, (参考訳) 自動心電図解析のために設計された現在のディープラーニングアルゴリズムは、顕著な精度を示している。 しかし、従来の心電図と同様に、それらは狭く焦点を絞り、典型的には特異な診断条件に対処する傾向がある。 本研究は,救急部で収集した単心電図に基づいて,心臓および非心臓の退院診断の多様な範囲を予測できる単一モデルの有用性について検討するものである。 その結果,AUROCスコア0.8を超えるという意味では,253,81心,172非心,ICD符号を統計的に有意に予測できることがわかった。 このことは、様々な医学的出会いのスクリーニングツールとしての可能性を示す、広範囲の心臓と非心臓の診断シナリオを扱うモデルの熟練度を浮き彫りにしている。

Current deep learning algorithms designed for automatic ECG analysis have exhibited notable accuracy. However, akin to traditional electrocardiography, they tend to be narrowly focused and typically address a singular diagnostic condition. In this exploratory study, we specifically investigate the capability of a single model to predict a diverse range of both cardiac and non-cardiac discharge diagnoses based on a sole ECG collected in the emergency department. We find that 253, 81 cardiac, and 172 non-cardiac, ICD codes can be reliably predicted in the sense of exceeding an AUROC score of 0.8 in a statistically significant manner. This underscores the model's proficiency in handling a wide array of cardiac and non-cardiac diagnostic scenarios which demonstrates potential as a screening tool for diverse medical encounters.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# ビスカリのネットワーク

Biscari Network. Tutti gli uomini del principe ( http://arxiv.org/abs/2312.11505v2 )

ライセンス: Link先を確認
Salvatore Spina, (参考訳) その異質性により、シチリアにおける最も代表的家族のアーカイブの1つであるビスカリアーカイブは、新しいデジタル歴史研究において、歴史学者がカタニアとシチリアの都市の歴史を再構築するための貴重なデータセットとなった。 イグナツィオ・パテルノ・カステッロ(Ignazio Paterno' Castello)とその妻アナ(Biscari の王子)は1693年の地震の後、政治的にも文化的にも再建の推進者であった。 デジタル・ヒストリカル・方法論は、この高貴な家族がいかに強力なものを作ったかについて、伝統的な歴史学のギャップを埋めるにはどうすればよいのか? 私たちが知っているように、人間性は理解可能な数や名前に簡単にカプセル化できない。 しかし、トランスクリバスのような人工知能を推進し、歴史ネットワーク分析を適用した歴史家は、コンピュータがデジタル化された歴史資料から計算可能な意味を推測するのに役立つかもしれない。 チューリング・マシーンは、歴史学者が過去の出来事を理解し、都市や地域の文化的・政治的再生の俳優を識別するための最も強力な道具となった。

Thanks to its heterogeneity, the Biscari Archive, one of the most representative family's archives in Sicily, in a new digital historical study, became a valuable set of computable data that can lead historians to reconstruct the history of the city of Catania and Sicily. Ignazio Paterno' Castello and his wife Anna, princes of Biscari, were the promoters of the city's reconstruction after the 1693 earthquake, both politically and culturally. How could the digital historical methodology fulfil the traditional Historiography gap about how this noble family built its mighty? As we know, Humanities cannot easily be encapsulated in a few understandable numbers and names. However, historians, boosting Artificial Intelligence, such as Transkribus, and applying Historical Networks Analysis could help computers infer computable meaning from the digitised historical primary source. The Turing Machine became the most powerful tool to help historians understand what happened in the Past and identify the actors in cities and places' cultural and political renewal.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# ルビー格子上の反強磁性$J_1$-$J_2$-$J_3$横場イジングモデルにおける秩序差

Order-by-disorder in the antiferromagnetic $J_1$-$J_2$-$J_3$ transverse-field Ising model on the ruby lattice ( http://arxiv.org/abs/2312.12941v2 )

ライセンス: Link先を確認
A. Duft, J. A. Koziol, P. Adelhardt, M. Mühlhauser, K. P. Schmidt, (参考訳) J_1$-$J_2$-$J_3$反強磁性逆場イジングモデルのルビー格子上の量子位相図について検討する。 低磁場限界では、ゼロ場における広範囲な基底状態の縮退が、オーダー・バイ・ディオーダーのシナリオによってどのように持ち上げられるかを分析する、有効な量子二量体モデルが導出される。 直列展開を用いた高次位相のギャップ閉鎖について検討し,解析支援を行う。 J_2>J_3$の場合、低磁場での柱状相と、中間磁場でプラケットを共鳴させることにより安定化されたクロック順序の相と、偏極高磁場相への創発的な3d-XY量子相転移を見出す。 J_3>J_2$の場合、オーダー・バイ・ディオーダーのメカニズムは異なる$k=(0,0)$オーダーを安定化し、3d-イジング普遍性クラスにおける量子相転移が観察される。 さらに,既存のRydberg原子量子シミュレータにおけるカラム型およびクロック順化相の実装の可能性についても論じる。 ルビー格子上の全代数的に減衰する長距離相互作用を考慮すると、長距離相互作用は横磁場によって誘導される量子ゆらぎと同じ基底状態を好むことが分かる。

We investigate the quantum phase diagram of the $J_1$-$J_2$-$J_3$ antiferromagnetic transverse-field Ising model on the ruby lattice. In the low-field limit we derive an effective quantum dimer model, analyzing how the extensive ground-state degeneracy at zero field is lifted by an order-by-disorder scenario. We support our analysis by studying the gap-closing of the high-field phase using series expansions. For $J_2>J_3$, we find a columnar phase at low fields, followed by a clock-ordered phase stabilized by resonating plaquettes at intermediate field values, and an emergent 3d-XY quantum phase transition to the polarized high-field phase. For $J_3>J_2$, an order-by-disorder mechanism stabilizes a distinct $k=(0,0)$ order and a quantum phase transition in the 3d-Ising universality class is observed. Further, we discuss the possible implementation of the columnar- and clock-ordered phase in existing Rydberg atom quantum simulators. When taking into account the full algebraically decaying long-range interactions on the ruby lattice, we find that long-range interactions favor the same ground state as the quantum fluctuations induced by a transverse field, which could make the ruby lattice a promising candidate for the realization of a clock-ordered phase.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# Skippable Sub-Pathsを用いた適応深さネットワーク

Adaptive Depth Networks with Skippable Sub-Paths ( http://arxiv.org/abs/2312.16392v2 )

ライセンス: Link先を確認
Woochul Kang, (参考訳) ネットワーク深さの予測可能な適応は、推論遅延を制御し、様々なデバイスのリソース条件を満たす効果的な方法である。 しかし、従来の適応深度ネットワークは、なぜどの層をスキップできるかという一般的な原則や公式な説明を提供していないため、それらのアプローチは一般化が困難であり、長く複雑な訓練手順を必要とする。 本稿では,各種ネットワークに適用可能な適応深度ネットワークへの実践的アプローチを提案する。 本手法では, 各階層的残差段階を2つのサブパスに分割し, 簡単な自己蒸留戦略により異なる特性を得るように訓練する。 第1のサブパスは階層的な機能学習には不可欠だが、第2のパスは、学習した機能を洗練し、スキップした場合のパフォーマンス劣化を最小限に抑えるように訓練されている。 従来の適応型ネットワークとは異なり、我々のアプローチは全てのターゲットサブネットワークを反復的に訓練しない。 しかし、テスト時には、これらのサブパスを組み合わせて、単一のネットワークから様々な精度効率トレードオフのサブネットワークを選択することができる。 本稿では,提案手法がサブパススキップの影響を最小限に抑えつつ,全体的な予測誤差を低減できる理由を公式な根拠として提示する。 畳み込みニューラルネットワークとトランスフォーマーによるアプローチの一般化と有効性を示す。

Predictable adaptation of network depths can be an effective way to control inference latency and meet the resource condition of various devices. However, previous adaptive depth networks do not provide general principles and a formal explanation on why and which layers can be skipped, and, hence, their approaches are hard to be generalized and require long and complex training steps. In this paper, we present a practical approach to adaptive depth networks that is applicable to various networks with minimal training effort. In our approach, every hierarchical residual stage is divided into two sub-paths, and they are trained to acquire different properties through a simple self-distillation strategy. While the first sub-path is essential for hierarchical feature learning, the second one is trained to refine the learned features and minimize performance degradation if it is skipped. Unlike prior adaptive networks, our approach does not train every target sub-network in an iterative manner. At test time, however, we can connect these sub-paths in a combinatorial manner to select sub-networks of various accuracy-efficiency trade-offs from a single network. We provide a formal rationale for why the proposed training method can reduce overall prediction errors while minimizing the impact of skipping sub-paths. We demonstrate the generality and effectiveness of our approach with convolutional neural networks and transformers.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# 3DTINC : 経時的非コントラスト学習による経時的OCTによる疾患進展予測

3DTINC: Time-Equivariant Non-Contrastive Learning for Predicting Disease Progression from Longitudinal OCTs ( http://arxiv.org/abs/2312.16980v2 )

ライセンス: Link先を確認
Taha Emre, Arunava Chakravarty, Antoine Rivail, Dmitrii Lachinov, Oliver Leingang, Sophie Riedl, Julia Mai, Hendrik P. N. Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunović, (参考訳) 自己教師付き学習(SSL)は、ディープラーニングモデルの効率性と有効性を改善するための強力な技術として登場した。 コントラスト法(Contrastive method)は、イメージの2つの拡張ビューの類似した表現を抽出するSSLの顕著なファミリーである。 しかし、最先端のコントラスト法では、3D医療画像には実用的でない自然画像のために設計された大きなバッチサイズと拡張が必要である。 これらの制約に対処するために,非コントラスト学習に基づく新しい長手SSL方式である3DTINCを提案する。 3次元光コヒーレンストモグラフィ(OCT)ボリュームの摂動不変特性をOCT用に特別に設計した拡張を用いて学習するように設計されている。 異なる時間に取得した患者内スキャンから時間的情報を暗黙的に学習する非コントラスト類似性損失項を導入する。 本実験は, 加齢に伴う黄斑変性(AMD)などの網膜疾患の進行を予測する上で, この時間的情報は重要であることを示す。 3DTINCで事前トレーニングを行った後,網膜OCTの2つの大規模縦断データセットを用いて,学習した表現と予後モデルを評価し,湿式AMDへの変換を6ヶ月以内に予測した。 以上の結果から, コントリビューションの各コンポーネントは, 経時的容積スキャンによる疾患進行予測に有用な有意義な表現の学習に不可欠であることが示唆された。

Self-supervised learning (SSL) has emerged as a powerful technique for improving the efficiency and effectiveness of deep learning models. Contrastive methods are a prominent family of SSL that extract similar representations of two augmented views of an image while pushing away others in the representation space as negatives. However, the state-of-the-art contrastive methods require large batch sizes and augmentations designed for natural images that are impractical for 3D medical images. To address these limitations, we propose a new longitudinal SSL method, 3DTINC, based on non-contrastive learning. It is designed to learn perturbation-invariant features for 3D optical coherence tomography (OCT) volumes, using augmentations specifically designed for OCT. We introduce a new non-contrastive similarity loss term that learns temporal information implicitly from intra-patient scans acquired at different times. Our experiments show that this temporal information is crucial for predicting progression of retinal diseases, such as age-related macular degeneration (AMD). After pretraining with 3DTINC, we evaluated the learned representations and the prognostic models on two large-scale longitudinal datasets of retinal OCTs where we predict the conversion to wet-AMD within a six months interval. Our results demonstrate that each component of our contributions is crucial for learning meaningful representations useful in predicting disease progression from longitudinal volumetric scans.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# 魚眼カメラの歪み補正法の概要

A Comprehensive Overview of Fish-Eye Camera Distortion Correction Methods ( http://arxiv.org/abs/2401.00442v2 )

ライセンス: Link先を確認
Jian Xu, De-Wei Han, Kang Li, Jun-Jie Li, Zhao-Yuan Ma, (参考訳) 魚眼カメラは、独特の視野やその他の特徴を持つが、様々な分野で広く応用されている。 しかし、魚眼カメラはピンホールカメラに比べて大きな歪みに悩まされ、捕獲された物体の歪んだ画像となる。 魚眼カメラの歪みはデジタル画像処理において一般的な問題であり、画像品質を向上させるために効果的な補正技術が必要である。 本稿では,魚眼カメラの歪み補正法について概説する。 本稿では、多項式関数を用いて半径歪みをモデル化し補正する多項式歪みモデルについて検討する。 さらに,パノラママッピング,グリッドマッピング,直接手法,深層学習に基づく手法などの代替手法についても論じる。 レビューでは、各手法の利点、限界、そして最近の進歩を強調し、読者がそれぞれのニーズに応じて情報的な意思決定を行えるようにしている。

The fisheye camera, with its unique wide field of view and other characteristics, has found extensive applications in various fields. However, the fisheye camera suffers from significant distortion compared to pinhole cameras, resulting in distorted images of captured objects. Fish-eye camera distortion is a common issue in digital image processing, requiring effective correction techniques to enhance image quality. This review provides a comprehensive overview of various methods used for fish-eye camera distortion correction. The article explores the polynomial distortion model, which utilizes polynomial functions to model and correct radial distortions. Additionally, alternative approaches such as panorama mapping, grid mapping, direct methods, and deep learning-based methods are discussed. The review highlights the advantages, limitations, and recent advancements of each method, enabling readers to make informed decisions based on their specific needs.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# フーリエニューラル演算子を用いた双曲保存法における数値フラックスの近似

Approximating Numerical Fluxes Using Fourier Neural Operators for Hyperbolic Conservation Laws ( http://arxiv.org/abs/2401.01783v4 )

ライセンス: Link先を確認
Taeyoung Kim, Myungjoo Kang, (参考訳) 伝統的に、計算手法を用いて偏微分方程式(PDE)を解くために古典的な数値スキームが用いられている。 近年,ニューラルネットワークに基づく手法が出現している。 これらの進歩にもかかわらず、物理学インフォームドニューラルネットワーク(PINN)やニューラル演算子のようなニューラルネットワークベースの手法は、堅牢性と一般化の欠陥を示す。 これらの問題に対処するため、多くの研究が従来の数値手法の一部にニューラルネットワークを組み込んだ古典的数値フレームワークと機械学習技術を統合している。 本研究では,従来の数値フラックスをニューラル演算子に置き換えることによる双曲的保存則に着目した。 そこで我々は,保存法則とフーリエニューラル演算子(FNO)を用いた近似数値フラックスに関する確立された数値スキームから着想を得た損失関数を開発した。 提案手法は従来の数値スキームとFNOの長所を組み合わせ,いくつかの点でFNO法よりも優れていることを示した。 例えば、我々の手法は堅牢で、解像度の不変性があり、データ駆動方式として実現可能であることを実証する。 特に,本手法は時間とともに連続的な予測を行うことができ,既存のニューラル演算子の手法が遭遇する課題である,アウト・オブ・ディストリビューション(OOD)サンプルによる優れた一般化能力を示す。

Traditionally, classical numerical schemes have been employed to solve partial differential equations (PDEs) using computational methods. Recently, neural network-based methods have emerged. Despite these advancements, neural network-based methods, such as physics-informed neural networks (PINNs) and neural operators, exhibit deficiencies in robustness and generalization. To address these issues, numerous studies have integrated classical numerical frameworks with machine learning techniques, incorporating neural networks into parts of traditional numerical methods. In this study, we focus on hyperbolic conservation laws by replacing traditional numerical fluxes with neural operators. To this end, we developed loss functions inspired by established numerical schemes related to conservation laws and approximated numerical fluxes using Fourier neural operators (FNOs). Our experiments demonstrated that our approach combines the strengths of both traditional numerical schemes and FNOs, outperforming standard FNO methods in several respects. For instance, we demonstrate that our method is robust, has resolution invariance, and is feasible as a data-driven method. In particular, our method can make continuous predictions over time and exhibits superior generalization capabilities with out-of-distribution (OOD) samples, which are challenges that existing neural operator methods encounter.
翻訳日:2024-05-15 00:43:11 公開日:2024-05-13
# Unruh-De Witt検出器, Bell-CHSH不等式および富田竹崎理論

Unruh-De Witt detectors, Bell-CHSH inequality and Tomita-Takesaki theory ( http://arxiv.org/abs/2401.03313v2 )

ライセンス: Link先を確認
Fillipe M. Guedes, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella, (参考訳) ウンルー・デ・ウィットのスピン1/2$検出器と実スカラー場との相互作用は、ワイル作用素のフォン・ノイマン代数に適用されるトミータ・タケサキモジュラー理論を用いて精査される。 モジュラー理論を用いることで、量子場の自由度を超えるトレースを正確に評価することができる。 得られた密度行列はベル-CHSH相関器の研究に使用される。 量子場との相互作用の結果、ベル-CHSH不等式違反はスカラー場が欠落している場合と比較して減少する。

The interaction between Unruh-De Witt spin $1/2$ detectors and a real scalar field is scrutinized by making use of the Tomita-Takesaki modular theory as applied to the Von Neumann algebra of the Weyl operators. The use of the modular theory enables to evaluate in an exact way the trace over the quantum field degrees of freedom. The resulting density matrix is employed to the study of the Bell-CHSH correlator. It turns out that, as a consequence of the interaction with the quantum field, the violation of the Bell-CHSH inequality exhibits a decreasing as compared to the case in which the scalar field is absent.
翻訳日:2024-05-15 00:33:27 公開日:2024-05-13
# ニューラルセルオートマタを用いた周波数時間拡散

Frequency-Time Diffusion with Neural Cellular Automata ( http://arxiv.org/abs/2401.06291v2 )

ライセンス: Link先を確認
John Kalkhof, Arlene Kühn, Yannik Frisch, Anirban Mukhopadhyay, (参考訳) 大きなDenoising Diffusion Models (DDM)とUNetのバックボーンは大きな成功にもかかわらず、特に限られたハードウェアやギガピクセル画像の処理において、実用的な課題を提起している。 これらの制約に対処するために、我々は2つのニューラルセルラーオートマタ(NCA)ベースのDDM(Diff-NCAとFourierDiff-NCA)を導入する。 Diff-NCAは、NCAのローカル通信能力を利用して、NCAベースのDDMのパラメータ数を著しく削減する。 フーリエに基づく拡散を統合することで、拡散過程の早い段階でグローバル通信が可能になる。 この機能は、CelebAデータセットのような重要なグローバル機能を備えた複雑なイメージの合成に特に有用である。 331kパラメータのDiff-NCAでも512x512の病理スライスを生成でき、FourierDiff-NCA(1.1mパラメータ)は128.2の4倍のUNet(3.94mパラメータ)よりも3倍低いFIDスコア43.86に達することを示した。 さらに、FourierDiff-NCAは、過分解能、アウト・オブ・ディストリビューション画像合成、塗装などの様々なタスクを明示的なトレーニングなしで実行できる。

Despite considerable success, large Denoising Diffusion Models (DDMs) with UNet backbone pose practical challenges, particularly on limited hardware and in processing gigapixel images. To address these limitations, we introduce two Neural Cellular Automata (NCA)-based DDMs: Diff-NCA and FourierDiff-NCA. Capitalizing on the local communication capabilities of NCA, Diff-NCA significantly reduces the parameter counts of NCA-based DDMs. Integrating Fourier-based diffusion enables global communication early in the diffusion process. This feature is particularly valuable in synthesizing complex images with important global features, such as the CelebA dataset. We demonstrate that even a 331k parameter Diff-NCA can generate 512x512 pathology slices, while FourierDiff-NCA (1.1m parameters) reaches a three times lower FID score of 43.86, compared to the four times bigger UNet (3.94m parameters) with a score of 128.2. Additionally, FourierDiff-NCA can perform diverse tasks such as super-resolution, out-of-distribution image synthesis, and inpainting without explicit training.
翻訳日:2024-05-15 00:33:27 公開日:2024-05-13
# 公式Twitter上での「あなたのエビデンス」に関するFalse Consensus : COVID-19の科学に関する議論

"Here's Your Evidence": False Consensus in Public Twitter Discussions of COVID-19 Science ( http://arxiv.org/abs/2401.13248v2 )

ライセンス: Link先を確認
Alexandros Efstratiou, Marina Efstratiou, Satrio Yudhoatmojo, Jeremy Blackburn, Emiliano De Cristofaro, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、一般大衆の間で議論されたこの話題に関する異例の科学論文を招いた。 本稿では,新型コロナウイルスの諸問題に関する科学的コンセンサスと公衆の議論が相反するかどうかを検討するため,混合メソドス分析を行った。 我々は,プリプリントサーバからの要約のサンプルに基づいて科学的コンセンサスを推定し,これらの論文に言及したTwitter上での公開討論の量と比較した。 アンチ・コンセンサス・ポストやユーザーは、全体としてはプロ・コンセンサス・ポストよりも少ないが、Twitter上では圧倒的に過剰に表現されているため、誤ったコンセンサス効果が生じる。 これは好意的な論文が不釣り合いに増幅され、新たなアンチ・コンセンサス・ユーザー登録が流入することによるものである。 最後に、我々のコンテンツ分析は、アンチ・コンセンサス利用者が、彼らの主張を裏付ける努力において、科学的発見や科学者の整合性を誤って表現していることを強調している。

The COVID-19 pandemic brought about an extraordinary rate of scientific papers on the topic that were discussed among the general public, although often in biased or misinformed ways. In this paper, we present a mixed-methods analysis aimed at examining whether public discussions were commensurate with the scientific consensus on several COVID-19 issues. We estimate scientific consensus based on samples of abstracts from preprint servers and compare against the volume of public discussions on Twitter mentioning these papers. We find that anti-consensus posts and users, though overall less numerous than pro-consensus ones, are vastly over-represented on Twitter, thus producing a false consensus effect. This transpires with favorable papers being disproportionately amplified, along with an influx of new anti-consensus user sign-ups. Finally, our content analysis highlights that anti-consensus users misrepresent scientific findings or question scientists' integrity in their efforts to substantiate their claims.
翻訳日:2024-05-15 00:33:27 公開日:2024-05-13
# CompactifAI:量子インスパイアされたテンソルネットワークを用いた大規模言語モデルの極端圧縮

CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks ( http://arxiv.org/abs/2401.14109v2 )

ライセンス: Link先を確認
Andrei Tomut, Saeed S. Jahromi, Abhijoy Sarkar, Uygar Kurt, Sukhbinder Singh, Faysal Ishtiaq, Cesar Muñoz, Prabdeep Singh Bajaj, Ali Elborady, Gianni del Bimbo, Mehrazin Alizadeh, David Montero, Pablo Martin-Ramiro, Muhammad Ibrahim, Oussama Tahiri Alaoui, John Malcolm, Samuel Mugel, Roman Orus, (参考訳) ChatGPTやLlaMAのような大規模言語モデル(LLM)は、生成的人工知能(AI)において急速に進歩している。 プルーニング、蒸留、低ランク近似といった従来の圧縮手法は、ネットワーク内のニューロンの有効数を減らし、量子化は個々の重みの数値的精度を減らし、ニューロンの固定数を抑えながらモデルサイズを減らすことに重点を置いている。 これらの圧縮法は実際は比較的成功したが、ニューロンの数を減らすことが最適な戦略であると考えるのは説得力のある理由ではない。 本稿では、量子インスパイアされたテンソルネットワークを用いた革新的なLCM圧縮手法であるCompactifAIを紹介し、モデルの相関空間に着目し、より制御され、洗練され、解釈可能なモデル圧縮を実現する。 我々の手法は万能であり、他の圧縮技術で実装することができる。 ベンチマークでは、量子化とCompactifAIの組み合わせによって、LlaMA 7Bのメモリサイズの93%を削減し、パラメータの70%を削減し、トレーニングの50%と推論時間の25%を加速し、精度が2%から3%の小さな低下で、今日の他の圧縮技術によって達成可能なものよりもはるかに上回っていることを示す。 また, より深い層がテンソルネットワーク圧縮に適する傾向を示し, それらの層がLLM性能に非効率であることを示す。 我々の結果は、標準LLMは実際には過度に過度にパラメータ化されており、大きすぎる必要はないことを示唆している。

Large Language Models (LLMs) such as ChatGPT and LlaMA are advancing rapidly in generative Artificial Intelligence (AI), but their immense size poses significant challenges, such as huge training and inference costs, substantial energy demands, and limitations for on-site deployment. Traditional compression methods such as pruning, distillation, and low-rank approximation focus on reducing the effective number of neurons in the network, while quantization focuses on reducing the numerical precision of individual weights to reduce the model size while keeping the number of neurons fixed. While these compression methods have been relatively successful in practice, there is no compelling reason to believe that truncating the number of neurons is an optimal strategy. In this context, this paper introduces CompactifAI, an innovative LLM compression approach using quantum-inspired Tensor Networks that focuses on the model's correlation space instead, allowing for a more controlled, refined and interpretable model compression. Our method is versatile and can be implemented with - or on top of - other compression techniques. As a benchmark, we demonstrate that a combination of CompactifAI with quantization allows to reduce a 93% the memory size of LlaMA 7B, reducing also 70% the number of parameters, accelerating 50% the training and 25% the inference times of the model, and just with a small accuracy drop of 2% - 3%, going much beyond of what is achievable today by other compression techniques. Our methods also allow to perform a refined layer sensitivity profiling, showing that deeper layers tend to be more suitable for tensor network compression, which is compatible with recent observations on the ineffectiveness of those layers for LLM performance. Our results imply that standard LLMs are, in fact, heavily overparametrized, and do not need to be large at all.
翻訳日:2024-05-15 00:33:27 公開日:2024-05-13
# LitE-SNN:空間時間圧縮型ネットワーク探索と共同最適化による軽量で効率的なスパイクニューラルネットワークの設計

LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization ( http://arxiv.org/abs/2401.14652v2 )

ライセンス: Link先を確認
Qianhui Liu, Jiaqi Yan, Malu Zhang, Gang Pan, Haizhou Li, (参考訳) スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高く、低消費電力エッジデバイスに適している。 しかし、現在の研究における精度の追求は、これらの機器の資源制約と矛盾する、大規模な長期のSNNに繋がる。 軽量で効率的なSNNを設計するために、空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込んだLitE-SNNという新しいアプローチを提案する。 本稿では,プレニングと混合精度の量子化を支援するために,新しい圧縮畳み込みブロック(CompConv)を提案する。 時折、計算コストの制約の下で最適な時間ステップ数を特定するための圧縮時間ステップ探索を初めて提案する。 最後に,アーキテクチャパラメータと時空間圧縮戦略を同時に学習し,メモリと計算コストを最小化しながら高い性能を実現するための共同最適化を行う。 CIFAR-10、CIFAR-100、Google Speech Commandデータセットの実験結果から、提案したLitE-SNNは、モデルサイズが著しく小さく、計算コストも少なくて、競争力や精度が向上することを示した。

Spiking Neural Networks (SNNs) mimic the information-processing mechanisms of the human brain and are highly energy-efficient, making them well-suited for low-power edge devices. However, the pursuit of accuracy in current studies leads to large, long-timestep SNNs, conflicting with the resource constraints of these devices. In order to design lightweight and efficient SNNs, we propose a new approach named LitE-SNN that incorporates both spatial and temporal compression into the automated network design process. Spatially, we present a novel Compressive Convolution block (CompConv) to expand the search space to support pruning and mixed-precision quantization. Temporally, we are the first to propose a compressive timestep search to identify the optimal number of timesteps under specific computation cost constraints. Finally, we formulate a joint optimization to simultaneously learn the architecture parameters and spatial-temporal compression strategies to achieve high performance while minimizing memory and computation costs. Experimental results on CIFAR-10, CIFAR-100, and Google Speech Command datasets demonstrate our proposed LitE-SNNs can achieve competitive or even higher accuracy with remarkably smaller model sizes and fewer computation costs.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-13
# OMPGPT: OpenMPのための生成事前学習型トランスモデル

OMPGPT: A Generative Pre-trained Transformer Model for OpenMP ( http://arxiv.org/abs/2401.16445v2 )

ライセンス: Link先を確認
Le Chen, Arijit Bhattacharjee, Nesreen Ahmed, Niranjan Hasabnis, Gal Oren, Vy Vo, Ali Jannesari, (参考訳) ChatGPTのような大規模言語モデル(LLM)は自然言語処理(NLP)の分野を大きく進歩させた。 この傾向は、StarCoder、WizardCoder、CodeLlamaといったコードベースの大規模言語モデルの開発につながった。 これらのコードの汎用的な能力は、コード生成のようなタスクにおいて多くのプログラマにとって有用であるが、ハイパフォーマンスコンピューティング(HPC)の領域は、より小さく、よりドメイン固有のモデルをよりスマートな選択にするための、より狭い要求セットを持っている。 本稿では,OpenMPプラグマ生成のための言語モデル固有の強みを巧みに活用したドメイン固有モデルであるOMPGPTを提案する。 さらに、我々は、NLPドメインからの迅速なエンジニアリング技術を活用して、OMPGPTの有効性を高めるために設計された革新的な戦略であるChain-of-OMPを作成する。 OMPGPTはOpenMPタスクに特化している既存の大規模言語モデルよりも優れており、HPC環境の典型的なハードウェア制約とより密に一致している。 我々は、言語モデルの利点とHPCタスクの特定の要求を結びつけるために、我々の貢献を重要な橋と考えます。

Large language models (LLMs)such as ChatGPT have significantly advanced the field of Natural Language Processing (NLP). This trend led to the development of code-based large language models such as StarCoder, WizardCoder, and CodeLlama, which are trained extensively on vast repositories of code and programming languages. While the generic abilities of these code LLMs are useful for many programmers in tasks like code generation, the area of high-performance computing (HPC) has a narrower set of requirements that make a smaller and more domain-specific model a smarter choice. This paper presents OMPGPT, a novel domain-specific model meticulously designed to harness the inherent strengths of language models for OpenMP pragma generation. Furthermore, we leverage prompt engineering techniques from the NLP domain to create Chain-of-OMP, an innovative strategy designed to enhance OMPGPT's effectiveness. Our extensive evaluations demonstrate that OMPGPT outperforms existing large language models specialized in OpenMP tasks and maintains a notably smaller size, aligning it more closely with the typical hardware constraints of HPC environments. We consider our contribution as a pivotal bridge, connecting the advantage of language models with the specific demands of HPC tasks.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-13
# 空間行動単位キューによる表情認識の誘導

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v4 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger, (参考訳) 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。 専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間的行動単位(\aus)を関連付ける。 本稿では、同様の専門家の手順を踏襲する。 新しい学習戦略が提案され, \au cues を分類器訓練に明示的に組み込むことで, 深い解釈可能なモデルを訓練することができる。 トレーニング中は、入力された画像表現ラベルと顔ランドマークとともに、このauコードブックを使用して、表情が興味のある最も識別性の高い画像領域を示す \auヒートマップを構築する。 この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、分類器の空間層の特徴を \au ヒートマップと相関させることによって達成される。 合成損失を用いて、分類器は、専門家決定過程をシミュレートし、 \au マップと相関した解釈可能な視覚層対応の注意を与えながら、画像を正しく分類するように訓練される。 我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。 我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。 2つの公開ベンチマークである \rafdb と \affectnet のデータセットを広範囲に評価した結果,提案手法は分類性能を劣化させることなく階層的解釈性を向上させることができることがわかった。 さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。

Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-13
# ビジュアルチューニングのためのプロンプトのパワーを再考する

Revisiting the Power of Prompt for Visual Tuning ( http://arxiv.org/abs/2402.02382v2 )

ライセンス: Link先を確認
Yuzhu Wang, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Manni Duan, Meng Wang, (参考訳) ビジュアルプロンプトチューニング(VPT)は、学習可能なプロンプトトークンを組み込んだ有望なソリューションである。 しかし、VPTとその変種は、しばしば、自己教師付き事前訓練における迅速な初期化、迅速な長さ、サブパーパフォーマンスといった課題に遭遇し、文脈適応を妨げている。 本研究は, プロンプトとパッチトークンの相関進化を, 熟練した訓練中に探求することによって開始する。 プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。 戦略的初期化は、以前の初期化のスタンドインであり、微調整の性能を大幅に向上させる。 さらに改良するために,VPTに比べて計算コストがほとんど増加せず,優れた性能を維持した合理化パイプラインによるトークン構築を最適化する。 実験の結果,提案手法は既存の手法よりも顕著に優れていることがわかった。 例えば、FGVCとVTAB-1Kベンチマークで学習可能なパラメータの0.4%未満を使用して、24タスク中19タスクで完全な微調整を達成している。 特に,本手法は自己指導型事前学習の適応性を著しく向上させ,少なくとも10%から30%のタスク性能向上を実現している。 さらに,提案したSPTは,モデルキャパシティやトレーニングデータサイズとともに,長さやスケールの促進に頑健であることを示す実験結果を得た。 最終的に、トレーニング済みのモデルを下流タスクに適応させるのに役立つターゲットデータの量について、洞察に富んだ調査を行う。 コードはhttps://github.com/WangYZ1608/Self-Prompt-Tuningで公開されている。

Visual prompt tuning (VPT) is a promising solution incorporating learnable prompt tokens to customize pre-trained models for downstream tasks. However, VPT and its variants often encounter challenges like prompt initialization, prompt length, and subpar performance in self-supervised pretraining, hindering successful contextual adaptation. This study commences by exploring the correlation evolvement between prompts and patch tokens during proficient training. Inspired by the observation that the prompt tokens tend to share high mutual information with patch tokens, we propose initializing prompts with downstream token prototypes. The strategic initialization, a stand-in for the previous initialization, substantially improves performance in fine-tuning. To refine further, we optimize token construction with a streamlined pipeline that maintains excellent performance with almost no increase in computational expenses compared to VPT. Exhaustive experiments show our proposed approach outperforms existing methods by a remarkable margin. For instance, it surpasses full fine-tuning in 19 out of 24 tasks, using less than 0.4% of learnable parameters on the FGVC and VTAB-1K benchmarks. Notably, our method significantly advances the adaptation for self-supervised pretraining, achieving impressive task performance gains of at least 10% to 30%. Besides, the experimental results demonstrate the proposed SPT is robust to prompt lengths and scales well with model capacity and training data size. We finally provide an insightful exploration into the amount of target data facilitating the adaptation of pre-trained models to downstream tasks. The code is available at https://github.com/WangYZ1608/Self-Prompt-Tuning.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-13
# 音は系統再建の音か?

Are Sounds Sound for Phylogenetic Reconstruction? ( http://arxiv.org/abs/2402.02807v2 )

ライセンス: Link先を確認
Luise Häuser, Gerhard Jäger, Taraka Rama, Johann-Mattis List, Alexandros Stamatakis, (参考訳) 言語進化に関する伝統的な研究において、学者はしばしば、言語系統樹の系統的推論における音法則と音対応の重要性を強調している。 しかし、これまでは、計算的なアプローチは、この可能性を考慮に入れていなかった。 ほとんどの計算研究は、言語学における系統的再構築のための主要なデータ源として語彙コニャートに依存しているが、著者が音列のレベルで単語を比較する利点を賞賛する研究はいくつかある。 建物 (a)異なる言語族に属する10種類の多様なデータセット、 b)コグネート自動・音響対応検出の最先端手法として,音を用いた対コグネートによる系統再建手法の性能を初めて検証した。 以上の結果から,レキシカルコニャートから復元された系統は,平均して約3分の1ほど位相的に近づき,音の対応から復元された系統よりも金標準系統に近づいたことが示唆された。

In traditional studies on language evolution, scholars often emphasize the importance of sound laws and sound correspondences for phylogenetic inference of language family trees. However, to date, computational approaches have typically not taken this potential into account. Most computational studies still rely on lexical cognates as major data source for phylogenetic reconstruction in linguistics, although there do exist a few studies in which authors praise the benefits of comparing words at the level of sound sequences. Building on (a) ten diverse datasets from different language families, and (b) state-of-the-art methods for automated cognate and sound correspondence detection, we test, for the first time, the performance of sound-based versus cognate-based approaches to phylogenetic reconstruction. Our results show that phylogenies reconstructed from lexical cognates are topologically closer, by approximately one third with respect to the generalized quartet distance on average, to the gold standard phylogenies than phylogenies reconstructed from sound correspondences.
翻訳日:2024-05-15 00:23:41 公開日:2024-05-13
# マルチタスク学習における勾配アグリゲーションのベイズ的不確かさ

Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning ( http://arxiv.org/abs/2402.04005v2 )

ライセンス: Link先を確認
Idan Achituve, Idit Diamant, Arnon Netzer, Gal Chechik, Ethan Fetaya, (参考訳) 機械学習がより顕著になるにつれて、複数の推論タスクを並行して実行する必要性が高まっている。 各タスクに専用のモデルを実行するのは計算コストがかかるため、マルチタスク学習(MTL)に大きな関心がある。 MTLは、複数のタスクを効率的に解決する単一のモデルを学ぶことを目的としている。 MTLモデルの最適化は、タスク毎の1つの勾配を計算し、それらを集約して、統合された更新方向を取得することで達成されることが多い。 しかし、これらのアプローチは、勾配次元の感度という重要な側面を考慮していない。 本稿では,ベイズ推定を用いた新しい勾配集約手法を提案する。 タスク固有のパラメータに確率分布を設定し、タスクの勾配に分布を誘導する。 この付加価値情報により、各勾配次元の不確かさを定量化することができる。 我々は、さまざまなデータセットにおいて、我々のアプローチの利点を実証的に実証し、最先端のパフォーマンスを達成する。

As machine learning becomes more prominent there is a growing demand to perform several inference tasks in parallel. Running a dedicated model for each task is computationally expensive and therefore there is a great interest in multi-task learning (MTL). MTL aims at learning a single model that solves several tasks efficiently. Optimizing MTL models is often achieved by computing a single gradient per task and aggregating them for obtaining a combined update direction. However, these approaches do not consider an important aspect, the sensitivity in the gradient dimensions. Here, we introduce a novel gradient aggregation approach using Bayesian inference. We place a probability distribution over the task-specific parameters, which in turn induce a distribution over the gradients of the tasks. This additional valuable information allows us to quantify the uncertainty in each of the gradients dimensions, which can then be factored in when aggregating them. We empirically demonstrate the benefits of our approach in a variety of datasets, achieving state-of-the-art performance.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-13
# 高速タイミング制御型潜時音声拡散

Fast Timing-Conditioned Latent Audio Diffusion ( http://arxiv.org/abs/2402.04825v3 )

ライセンス: Link先を確認
Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons, (参考訳) テキストプロンプトから44.1kHzの長めのステレオオーディオを生成することは、計算的に要求される。 さらに、以前の作品の多くは、音楽や音響効果が持続時間によって自然に変化することには取り組んでいない。 本研究は、生成モデルを用いたテキストプロンプトを用いて、長大な可変長ステレオ音楽と44.1kHzの音を効率よく生成することに焦点を当てる。 安定オーディオは潜時拡散に基づいており、潜時拡散は完全畳み込み変分オートエンコーダによって定義される。 テキストプロンプトとタイミング埋め込みに条件付けされており、生成された音楽や音の内容と長さの両方を細かく制御することができる。 安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。 計算効率と高速な推論にもかかわらず、2つの公開テキスト・音楽・オーディオのベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオの音で音楽を生成することができる。

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-13
# Hydragen: 共有プレフィックスによる高速LEM推論

Hydragen: High-Throughput LLM Inference with Shared Prefixes ( http://arxiv.org/abs/2402.05099v2 )

ライセンス: Link先を確認
Jordan Juravsky, Bradley Brown, Ryan Ehrlich, Daniel Y. Fu, Christopher Ré, Azalia Mirhoseini, (参考訳) Transformerベースの大規模言語モデル(LLM)は現在、数億のユーザにデプロイされている。 LLM推論は、いくつかの例やチャットボットシステムプロンプトなど、プレフィックスを共有するシーケンスのバッチで一般的に実行される。 この大きなバッチ設定でのデコーディングは、メモリから大きなキー値(KV)キャッシュを読み出し、バッチ内の各シーケンスに対して非効率な行列ベクトル積を計算するアテンション操作によってボトルネックになる可能性がある。 本稿では,ハードウェアを意識した,共有プレフィックスによる注意の正確な実装であるHydragenを紹介する。 Hydragenは共有接頭辞とユニークな接尾辞を別々に計算する。 この分解により、クエリをシーケンス間でバッチ化し、冗長なメモリ読み込みを減らし、ハードウェアフレンドリーな行列乗算を可能にする。 提案手法は,バッチサイズとプレフィックス長の共有により高速化され,競合するベースラインに対して最大32倍のスループット向上を実現する。 バッチサイズが大きく、プレフィックス長を1Kから16Kトークンに増やすと、Hydragenのスループットは15%以下に低下し、ベースラインのスループットは90%以上低下する。 Hydragenは単純な接頭辞分解を超えて一般化し、ツリーベースのプロンプト共有パターンに適用できるため、競合するプログラミング問題に対する推論時間を55%削減できる。

Transformer-based large language models (LLMs) are now deployed to hundreds of millions of users. LLM inference is commonly performed on batches of sequences that share a prefix, such as few-shot examples or a chatbot system prompt. Decoding in this large-batch setting can be bottlenecked by the attention operation, which reads large key-value (KV) caches from memory and computes inefficient matrix-vector products for every sequence in the batch. In this work, we introduce Hydragen, a hardware-aware exact implementation of attention with shared prefixes. Hydragen computes attention over the shared prefix and unique suffixes separately. This decomposition enables efficient prefix attention by batching queries together across sequences, reducing redundant memory reads and enabling the use of hardware-friendly matrix multiplications. Our method can improve end-to-end CodeLlama-13b throughput by up to 32x against competitive baselines, with speedup growing with the batch size and shared prefix length. Hydragen also enables the use of very long shared contexts: with a large batch size, increasing the prefix length from 1K to 16K tokens decreases Hydragen throughput by less than 15%, while the throughput of baselines drops by over 90%. Hydragen generalizes beyond simple prefix-suffix decomposition and can be applied to tree-based prompt sharing patterns, allowing us to further reduce inference time on competitive programming problems by 55%.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-13
# 常時オン相互作用を持つアナログ制御を用いたデジタルゲートのエミュレートのための変分プロトコル

Variational protocols for emulating digital gates using analog control with always-on interactions ( http://arxiv.org/abs/2402.07653v2 )

ライセンス: Link先を確認
Claire Chevallier, Joseph Vovrosh, Julius de Hond, Mario Dagrada, Alexandre Dauphin, Vincent E. Elfving, (参考訳) 我々は、中性原子量子シミュレータに適した変動パルス列を設計し、単一量子ビットおよび複数量子ビットゲートの層を設計可能であることを示す。 アプリケーションとして,提案手法を用いて再焦点アルゴリズム,SWAPネットワーク,究極的には量子化学シミュレーションを行う方法について論じる。 理論的プロトコルはまだ実験的な制限があるが、これまでアナログモードと互換性がないと考えられていたものを含め、変分量子アルゴリズムにアナログ量子プロセッサを使用するために、さらなる最適化がなされている。

We design variational pulse sequences tailored for neutral atom quantum simulators and show that we can engineer layers of single-qubit and multi-qubit gates. As an application, we discuss how the proposed method can be used to perform refocusing algorithms, SWAP networks, and ultimately quantum chemistry simulations. While the theoretical protocol we develop still has experimental limitations, it paves the way, with some further optimisation, for the use of analog quantum processors for variational quantum algorithms, including those not previously considered compatible with analog mode.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-13
# 信頼の問題:大規模言語モデルの内在的自己補正能力を再考する

Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models ( http://arxiv.org/abs/2402.12563v3 )

ライセンス: Link先を確認
Loka Li, Zhenhao Chen, Guangyi Chen, Yixuan Zhang, Yusheng Su, Eric Xing, Kun Zhang, (参考訳) 最近のLLM(Large Language Models)の成功は、その自己補正能力への関心の高まりをきっかけにしている。 本稿では,LLMの内在的自己補正に関する包括的調査を行い,その実現可能性に関する議論に対処する。 我々の研究は、自己補正過程において重要な潜伏要因であるLSMの「信頼」を特定した。 この因子を見渡すと、モデルは自分自身を過度に批判し、自己補正の有効性に関する信頼できない結論をもたらす可能性がある。 我々は,LSMが自身の反応において「自信」を理解する能力を持っていることを実験的に観察した。 IoE(If-or-Else)プロンプトフレームワークの開発をモチベーションとしています。 我々は、IoEベースのPromptが、初期回答に対する自己補正応答の正確性に関して一貫した改善を達成できることを実証し、広範な実験を行った。 本研究は, LLMの自己補正に影響を及ぼす要因を明らかにするだけでなく, IoEプロンプト原理を利用した「自信」による自己補正能力を効率的に向上する実践的枠組みも導入する。 コードはhttps://github.com/MBZUAI-CLeaR/IoE-Prompting.gitで公開されている。

The recent success of Large Language Models (LLMs) has catalyzed an increasing interest in their self-correction capabilities. This paper presents a comprehensive investigation into the intrinsic self-correction of LLMs, attempting to address the ongoing debate about its feasibility. Our research has identified an important latent factor - the "confidence" of LLMs - during the self-correction process. Overlooking this factor may cause the models to over-criticize themselves, resulting in unreliable conclusions regarding the efficacy of self-correction. We have experimentally observed that LLMs possess the capability to understand the "confidence" in their own responses. It motivates us to develop an "If-or-Else" (IoE) prompting framework, designed to guide LLMs in assessing their own "confidence", facilitating intrinsic self-corrections. We conduct extensive experiments and demonstrate that our IoE-based Prompt can achieve a consistent improvement regarding the accuracy of self-corrected responses over the initial answers. Our study not only sheds light on the underlying factors affecting self-correction in LLMs, but also introduces a practical framework that utilizes the IoE prompting principle to efficiently improve self-correction capabilities with "confidence". The code is available at https://github.com/MBZUAI-CLeaR/IoE-Prompting.git.
翻訳日:2024-05-15 00:13:55 公開日:2024-05-13
# システム環境量子情報フロー

System-environment quantum information flow ( http://arxiv.org/abs/2402.15483v2 )

ライセンス: Link先を確認
Taysa M. Mendonça, Lucas C. Céleri, Mauro Paternostro, Diogo O. Soares-Pinto, (参考訳) 非マルコフ機構を理解することは、量子資源がどのように転送されるかを知ることが重要であり、ノイズ耐性量子技術を設計できる。 本研究では,量子資源がメインシステムから離散環境へどのように伝播し,環境量子ビット間の情報ダイナミクスを示す。 また、メインキュービットを離れ、環境を通り抜ける情報の伝播と、その帰還を特徴付ける。 最後に、この力学の出現条件と量子ダーウィン論の存在を結びつける。

Understanding the non-Markovian mechanisms is a key importance to know how the quantum resources are transferred and so to be able to design noise-resilient quantum technologies. In this work, we show how a quantum resource propagates from the main system to a discrete environment and the information dynamics among the environment qubits. We also characterize the propagation of information leaving the main qubit and going through the environment, as well as its return. Finally, we connect the conditions for the emergence of this dynamic to the existence of quantum Darwinism.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-13
# SAT、ガジェット、Max2XOR、量子アニール

SAT, Gadgets, Max2XOR, and Quantum Annealers ( http://arxiv.org/abs/2403.00182v2 )

ライセンス: Link先を確認
Carlos Ansótegui, Jordi Levy, (参考訳) 量子アニールは基本的に量子コンピュータであり、高い確率でブール変数上の二次関数を一定時間で最適化することができる。 これらの関数は基本的に、アニール過程の後、高い確率で基底エネルギー状態に達するイジング模型のハミルトニアンである。 SATを解く方法として提案されている。 これらのハミルトニアンはマックス2XOR問題、すなわち、満たされる少なくとも2つの変数のXOR節数を最大化する代入を見つける問題と見なすことができる。 本稿では,SAT を Max2XOR に還元するガジェットをいくつか提示する。 SATインスタンスを量子アニールの初期構成に変換する方法を示す。

Quantum Annealers are basically quantum computers that with high probability can optimize certain quadratic functions on Boolean variables in constant time. These functions are basically the Hamiltonian of Ising models that reach the ground energy state, with a high probability, after an annealing process. They have been proposed as a way to solve SAT. These Hamiltonians can be seen as Max2XOR problems, i.e. as the problem of finding an assignment that maximizes the number of XOR clauses of at most 2 variables that are satisfied. In this paper, we present several gadgets to reduce SAT to Max2XOR. We show how they can be used to translate SAT instances to initial configurations of a quantum annealer.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-13
# 数エミッター限界における連続的準エネルギー崩壊と光子遮断の破壊

Successive quasienergy collapse and breakdown of photon blockade in the few-emitter limit ( http://arxiv.org/abs/2403.02417v2 )

ライセンス: Link先を確認
T. Karmstrand, G. Johansson, R. Gutiérrez-Jáuregui, (参考訳) 大きさが大きくなる多体系で生じる創発的挙動は、秩序から秩序への遷移で明らかになる普遍的な法則に従う。 この挙動は伝統的に多数のエミッターに対して研究されてきたが、近年の進歩により、数エミッター限界の探索が可能となり、そこでは相関を計測し、微視的モデルと結びつけて秩序から秩序への遷移についてさらなる洞察を得ることができる。 駆動・減衰されたTavis-Cummingsモデルでは、駆動・減衰されたキャビティモードと相互作用する原子の集合を記述する。 我々の探索は原子アンサンブルと磁場の着飾った状態を中心に展開し、そのエネルギーは運動場が増加するにつれて崩壊し、散逸した量子相転移の開始を示す。 崩壊は段階的に起こり、単一の原子で見落とされ平均場モデルでは無視される光-物質相関の影響である。 これらの相関関係が, 系の大局的観測値に及ぼした影響について述べる。 我々は、期待される遷移点の変化に遭遇し、順序付けられた位相に達すると、パリティを破った状態の数が増加する。

The emergent behavior that arises in many-body systems of increasing size follows universal laws that become apparent in order-to-disorder transitions. While this behavior has been traditionally studied for large numbers of emitters, recent progress allows for the exploration of the few-emitter limit, where correlations can be measured and connected to microscopic models to gain further insight into order-to-disorder transitions. We explore this few-body limit in the driven and damped Tavis--Cummings model, which describes a collection of atoms interacting with a driven and damped cavity mode. Our exploration revolves around the dressed states of the atomic ensemble and field, whose energies are shown to collapse as the driving field is increased to mark the onset of a dissipative quantum phase transition. The collapse occurs in stages and is an effect of light-matter correlations that are overlooked for single atoms and neglected in mean-field models. The implications of these correlations over the macroscopic observables of the system are presented. We encounter a shift in the expected transition point and an increased number of parity-broken states to choose from once the ordered phase is reached.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-13
# 人口に対応するための学習:メタラーニングアプローチ

Learning to Defer to a Population: A Meta-Learning Approach ( http://arxiv.org/abs/2403.02683v2 )

ライセンス: Link先を確認
Dharmesh Tailor, Aditya Patra, Rajeev Verma, Putra Manggala, Eric Nalisnick, (参考訳) 遅延学習(L2D)フレームワークは、人間の専門家に難しい決定を割り当てることによって、自律システムの安全性と堅牢性を実現する。 L2Dに関する既存の作業はすべて、各専門家が十分に識別されていると仮定し、もし変更する専門家がいれば、システムは再トレーニングされるべきである。 本研究では、この制約を緩和し、テスト時に目に見えない専門家に対処できるL2Dシステムを定式化する。 メタラーニングを用いて最適化とモデルベースの両方を考慮し、これを実現する。 現在利用可能な専門家を特徴づける小さなコンテキストセットを前提として、私たちのフレームワークは、その遅延ポリシーを迅速に適用できます。 モデルに基づくアプローチでは、与えられたテストポイントに類似したコンテキストセット内のポイントを検索できる注意機構を採用し、専門家の能力をより正確に評価する。 実験では,画像認識,交通標識検出,皮膚病変診断ベンチマークについて検討した。

The learning to defer (L2D) framework allows autonomous systems to be safe and robust by allocating difficult decisions to a human expert. All existing work on L2D assumes that each expert is well-identified, and if any expert were to change, the system should be re-trained. In this work, we alleviate this constraint, formulating an L2D system that can cope with never-before-seen experts at test-time. We accomplish this by using meta-learning, considering both optimization- and model-based variants. Given a small context set to characterize the currently available expert, our framework can quickly adapt its deferral policy. For the model-based approach, we employ an attention mechanism that is able to look for points in the context set that are similar to a given test point, leading to an even more precise assessment of the expert's abilities. In the experiments, we validate our methods on image recognition, traffic sign detection, and skin lesion diagnosis benchmarks.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-13
# C2P-GCN: 大腸癌移植のための細胞間グラフ畳み込みネットワーク

C2P-GCN: Cell-to-Patch Graph Convolutional Network for Colorectal Cancer Grading ( http://arxiv.org/abs/2403.04962v2 )

ライセンス: Link先を確認
Sudipta Paul, Bulent Yener, Amanda W. Lund, (参考訳) 組織・組織情報をエンコードするグラフベースの学習アプローチは、大腸癌組織像のグレード化にますます好まれている。 最近のグラフベースの手法では、スライドイメージ全体(WSI)を小または中規模のパッチに分割し、各パッチにグラフを構築してトレーニングに使用する。 しかし、この方法は、WSI全体に存在する組織構造情報をキャプチャできず、非常に大きな画像パッチのデータセットからのトレーニングに依存します。 本稿では,2段階グラフ生成に基づく新しいセル・ツー・パッチグラフ畳み込みネットワーク(C2P-GCN)を提案する。 最初の段階では、WSIの各パッチのセル構造に基づいたパッチレベルグラフを形成する。 第2段階では、各パッチをグラフのノードとみなすWSIのパッチ間の類似度尺度に基づいて、画像レベルグラフを形成する。 このグラフ表現は、多層GCNベースの分類ネットワークに入力される。 本手法は,2相グラフ構築により,個々のパッチから局所的構造の詳細を効果的に収集し,WSI全体にわたるパッチ間の有意義な接続を確立する。 C2P-GCNは、WSI全体の構造データを単一のグラフに統合するので、大腸癌の最新のモデルと比較して、トレーニングデータが非常に少ない。 C2P-GCNの2つの異なる大腸癌データセットに対する実験的検証により,本法の有効性が示された。

Graph-based learning approaches, due to their ability to encode tissue/organ structure information, are increasingly favored for grading colorectal cancer histology images. Recent graph-based techniques involve dividing whole slide images (WSIs) into smaller or medium-sized patches, and then building graphs on each patch for direct use in training. This method, however, fails to capture the tissue structure information present in an entire WSI and relies on training from a significantly large dataset of image patches. In this paper, we propose a novel cell-to-patch graph convolutional network (C2P-GCN), which is a two-stage graph formation-based approach. In the first stage, it forms a patch-level graph based on the cell organization on each patch of a WSI. In the second stage, it forms an image-level graph based on a similarity measure between patches of a WSI considering each patch as a node of a graph. This graph representation is then fed into a multi-layer GCN-based classification network. Our approach, through its dual-phase graph construction, effectively gathers local structural details from individual patches and establishes a meaningful connection among all patches across a WSI. As C2P-GCN integrates the structural data of an entire WSI into a single graph, it allows our model to work with significantly fewer training data compared to the latest models for colorectal cancer. Experimental validation of C2P-GCN on two distinct colorectal cancer datasets demonstrates the effectiveness of our method.
翻訳日:2024-05-15 00:04:06 公開日:2024-05-13
# 量子ドットアレイにおけるスケーラブルなマルチキュービット固有ゲート

Scalable multi-qubit intrinsic gates in quantum dot arrays ( http://arxiv.org/abs/2403.06894v2 )

ライセンス: Link先を確認
Jiaan Qi, Zhi-Hai Liu, Hongqi Xu, (参考訳) 半導体量子ドットの配列に固有のマルチキュービット量子ゲートについて検討し、スケーラブルな実装方法について検討する。 固有量子ゲートは、直接交換結合の下でのクォービット回転フレームの自然な変形のクラスを指し、スピンキュービットチップの命令セットとして認識することができる。 摂動的処理を用いることで,結合強度の1次ダイナミクスにより固有ゲートをモデル化し,任意の配列接続下での多ビット固有ゲートの同定のための一般化形式を開発できる。 量子コンピューティングおよび量子誤り訂正における固有ゲートの利点について検討した。 マルチキュービット内在ゲートの忠実度に影響を与える要因についても論じる。 不均一結合の問題を克服するため,結合の動的キャリブレーションに単一キュービットパルスを適用した理論的スキームを提案する。 このスキームはさらに、大規模量子コンピュータにおけるマルチキュービットゲートの堅牢な実装のための周期的動的疎結合と組み合わせることができる。

We study multi-qubit quantum gates intrinsic to an array of semiconductor quantum dots and investigate how they can be implemented in a scalable way. The intrinsic quantum gates refer to the class of natural-forming transformations in the qubit rotating-frame under direct exchange coupling, and can be recognized as an instruction set of spin-qubit chips. Adopting perturbative treatment, we can model the intrinsic gates by first-order dynamics in the coupling strength and develop a general formalism for identifying the multi-qubit intrinsic gates under arbitrary array connectivity. The advantageous applications of the intrinsic gates in quantum computing and quantum error correction are explored. Factors influencing the fidelities of the multi-qubit intrinsic gates are also discussed. To overcome the problem of inhomogeneous coupling, we propose a theoretical scheme in which single-qubit pulses are applied to dynamically calibrate the connecting bonds. This scheme can be further combined with periodic dynamical decoupling for robust implementations of multi-qubit gates in large-scale quantum computers.
翻訳日:2024-05-14 23:54:22 公開日:2024-05-13
# 大規模言語モデルはARCの視覚的アナロジーを人のように解決するか?

Do Large Language Models Solve ARC Visual Analogies Like People Do? ( http://arxiv.org/abs/2403.09734v2 )

ライセンス: Link先を確認
Gustaw Opiełka, Hannes Rosenbusch, Veerle Vijverberg, Claire E. Stevenson, (参考訳) 抽象推論コーパス(ARC、Abstraction Reasoning Corpus)は、人間と機械向けに設計された視覚的類似推論テストである(Chollet, 2019)。 我々は、新しいARCアイテム群において、人間と大規模言語モデル(LLM)のパフォーマンスを比較した。 以上の結果から, 子どもと大人の双方がこれらの課題においてLLMよりも優れていたことが示唆された。 誤り分析の結果、LLMと幼児の類似した「フォールバック」ソリューション戦略が明らかとなった。 さらに、他の2つのエラータイプ(例:Inside-Outside)とアナログ入力行列の単純な組み合わせに基づくキー概念(例:Inside-Outside)を発見した。 全体として、人間では「概念」エラーが一般的であり、LLMでは「マトリックス」エラーが一般的であった。 この研究は、LLMの推論能力と、LLMが視覚的類似をどう解決するかを理解するために、エラー解析と人間開発との比較を利用できる範囲に新たな光を当てた。

The Abstraction Reasoning Corpus (ARC) is a visual analogical reasoning test designed for humans and machines (Chollet, 2019). We compared human and large language model (LLM) performance on a new child-friendly set of ARC items. Results show that both children and adults outperform most LLMs on these tasks. Error analysis revealed a similar "fallback" solution strategy in LLMs and young children, where part of the analogy is simply copied. In addition, we found two other error types, one based on seemingly grasping key concepts (e.g., Inside-Outside) and the other based on simple combinations of analogy input matrices. On the whole, "concept" errors were more common in humans, and "matrix" errors were more common in LLMs. This study sheds new light on LLM reasoning ability and the extent to which we can use error analyses and comparisons with human development to understand how LLMs solve visual analogies.
翻訳日:2024-05-14 23:54:21 公開日:2024-05-13
# 地球観測用モデル予測における欠測データの影響評価

Impact Assessment of Missing Data in Model Predictions for Earth Observation Applications ( http://arxiv.org/abs/2403.14297v2 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Marcela Charfuelan, Marlon Nuske, Andreas Dengel, (参考訳) 複雑で異質なデータソースを含む地球観測(EO)アプリケーションは、一般的に機械学習モデルによってアプローチされる。 しかし、データソースが永続的に利用可能になるという一般的な仮定がある。 ノイズや雲、衛星ミッションの失敗など、さまざまな状況がEOソースの可用性に影響を与える可能性がある。 本研究では,分類タスクと回帰タスクを含む4つのデータセットを対象としたトレーニングモデルにおいて,時間的および静的なEO源の欠如が与える影響を評価する。 異なるメソッドの予測品質を比較して、欠落したデータに対して自然に堅牢であることを示す。 特にEnsembleの戦略は、予測の堅牢性を最大100%達成している。 我々は、欠落したシナリオは分類タスクよりも回帰がかなり難しいことを証明している。 最後に、光学ビューが個別に欠落している場合、最も重要なビューであることが分かる。

Earth observation (EO) applications involving complex and heterogeneous data sources are commonly approached with machine learning models. However, there is a common assumption that data sources will be persistently available. Different situations could affect the availability of EO sources, like noise, clouds, or satellite mission failures. In this work, we assess the impact of missing temporal and static EO sources in trained models across four datasets with classification and regression tasks. We compare the predictive quality of different methods and find that some are naturally more robust to missing data. The Ensemble strategy, in particular, achieves a prediction robustness up to 100%. We evidence that missing scenarios are significantly more challenging in regression than classification tasks. Finally, we find that the optical view is the most critical view when it is missing individually.
翻訳日:2024-05-14 23:54:21 公開日:2024-05-13
# DP-RDM:微調整なしでドメインに拡散モデルを適用する

DP-RDM: Adapting Diffusion Models to Private Domains Without Fine-Tuning ( http://arxiv.org/abs/2403.14421v3 )

ライセンス: Link先を確認
Jonathan Lebensold, Maziar Sanjabi, Pietro Astolfi, Adriana Romero-Soriano, Kamalika Chaudhuri, Mike Rabbat, Chuan Guo, (参考訳) テキストと画像の拡散モデルはサンプルレベルの記憶に悩まされ、訓練されている画像のほぼ完璧な複製を再現する可能性があるが、それは望ましくないかもしれない。 この問題を解決するために、我々は、プライバシー保証を提供しながら高品質な画像サンプルを生成することができる最初の差分プライベート(DP)検索拡張生成アルゴリズムを開発した。 具体的には、少量の公開データに基づいて訓練されたテキスト間拡散モデルへのアクセスを想定し、DP検索機構を設計し、プライベート検索データセットから検索したサンプルを用いてテキストプロンプトを増強する。 我々は,検索データセットの微調整を必要とせず,最新の生成モデルを用いて,厳密なDP保証を満足しつつ高品質な画像サンプルを生成することができる。 例えば、MS-COCOで評価すると、DP-RDMはプライバシー予算が$\epsilon=10$のサンプルを生成できます。

Text-to-image diffusion models have been shown to suffer from sample-level memorization, possibly reproducing near-perfect replica of images that they are trained on, which may be undesirable. To remedy this issue, we develop the first differentially private (DP) retrieval-augmented generation algorithm that is capable of generating high-quality image samples while providing provable privacy guarantees. Specifically, we assume access to a text-to-image diffusion model trained on a small amount of public data, and design a DP retrieval mechanism to augment the text prompt with samples retrieved from a private retrieval dataset. Our \emph{differentially private retrieval-augmented diffusion model} (DP-RDM) requires no fine-tuning on the retrieval dataset to adapt to another domain, and can use state-of-the-art generative models to generate high-quality image samples while satisfying rigorous DP guarantees. For instance, when evaluated on MS-COCO, our DP-RDM can generate samples with a privacy budget of $\epsilon=10$, while providing a $3.5$ point improvement in FID compared to public-only retrieval for up to $10,000$ queries.
翻訳日:2024-05-14 23:54:21 公開日:2024-05-13
# 高等教育のための生成型AIチャットボットの概念フレームワークの開発

Developing generative AI chatbots conceptual framework for higher education ( http://arxiv.org/abs/2403.19303v2 )

ライセンス: Link先を確認
Joshua Ebere Chukwuere, (参考訳) 本研究は、高等教育における生成人工知能(GAI)チャットボットの急速な変化を探求するものである。 ChatGPT、HuggingChat、Google BardといったAIチャットボットは、教育を含むさまざまな分野において、ますます一般的なものになりつつある。 彼らの受け入れはまだ初期段階にあり、様々な可能性と障害がある。 しかし、高等教育におけるその潜在能力は特に注目され、教師や学生に安価で個人化された支援を提供する。 高等教育機関(HEI)における生成AIチャットボットの利用を支援する包括的なフレームワークの作成が、このプロジェクトの目的である。 Generative AI Chatbots Acceptance Model(GAICAM)は、TAM、UTAUT2、TBBなどの有名なフレームワークから、楽観主義、革新性、不快感、不安感などの変数とともに要素を合成した結果である。 この研究は、IEEE、ACM、ScienceDirect、Google Scholarなどのデータベースから、既存の文献を包括的に分析する研究手法を用いて、AIチャットボットが高等教育に与える影響を理解し、その効果的な実装のために重要な要素を特定することを目的としている。 高等教育におけるAIチャットボットの利用に焦点を当てた、2020年から2023年の間に出版されたピアレビュー英語の出版物が、検索基準の主な焦点となった。 結果は、AIチャットボットが学生のエンゲージメントを改善し、教育プロセスを合理化し、管理と研究の業務をサポートするためにどれだけのことができるかを実証する。 しかし、不愉快な学生の感情、AIが生み出す素材の正確性への疑念、新しい技術への不安と神経質さなど、明らかな困難もある。

This research explores the quickly changing field of generative artificial intelligence (GAI) chatbots in higher education, an industry that is undergoing major technological changes. AI chatbots, such as ChatGPT, HuggingChat, and Google Bard, are becoming more and more common in a variety of sectors, including education. Their acceptance is still in its early phases, with a variety of prospects and obstacles. However, their potential in higher education is particularly noteworthy, providing lecturers and students with affordable, individualized support. Creating a comprehensive framework to aid the usage of generative AI chatbots in higher education institutions (HEIs) is the aim of this project. The Generative AI Chatbots Acceptance Model (GAICAM) is the result of this study's synthesis of elements from well-known frameworks, including the TAM, UTAUT2, TPB, and others along with variables like optimism, innovativeness, discomfort, insecurity, and others. Using a research method that encompasses a comprehensive analysis of extant literature from databases such as IEEE, ACM, ScienceDirect, and Google Scholar, the study aims to comprehend the implications of AI Chatbots on higher education and pinpoint critical elements for their efficacious implementation. Peer-reviewed English-language publications published between 2020 and 2023 with a focus on the use of AI chatbots in higher education were the main focus of the search criteria. The results demonstrate how much AI chatbots can do to improve student engagement, streamline the educational process, and support administrative and research duties. But there are also clear difficulties, such as unfavorable student sentiments, doubts about the veracity of material produced by AI, and unease and nervousness with new technologies.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# 騒音に強いロバスト性を持つ中性個体群

Already Moderate Population Sizes Provably Yield Strong Robustness to Noise ( http://arxiv.org/abs/2404.02090v4 )

ライセンス: Link先を確認
Denis Antipov, Benjamin Doerr, Alexandra Ivanova, (参考訳) 経験から、典型的な進化的アルゴリズムは、ノイズ関数評価のような確率的障害にうまく対応できることが示されている。 1+\lambda)$と$(1,\lambda)$の進化的アルゴリズムのこの最初の数学的ランタイム解析では、両方のアルゴリズムがOneMaxベンチマークの漸近的ランタイムを増大させることなく、一定のノイズ確率を許容できることが示される。 これに対し、集団サイズ$\lambda$ sufficesは、少なくとも問題サイズ$n$の対数である。 この方向に向けられた唯一の結果は、現実的でない1ビットノイズモデルであり、問題サイズが超直線的であることが必要であり、OneMaxベンチマークのノイズレスランタイムでは、ほぼ3分の1の保証が保証された。 より強力な結果は、ノイズのない子孫は親と騒々しい子孫の間に偏りのある均一な交叉と見なすことができるという新しい証明理論に基づくものである。 この知見から得られた技術的補題は、進化的アルゴリズムの数学的ランタイム解析にも応用できると楽観的である。

Experience shows that typical evolutionary algorithms can cope well with stochastic disturbances such as noisy function evaluations. In this first mathematical runtime analysis of the $(1+\lambda)$ and $(1,\lambda)$ evolutionary algorithms in the presence of prior bit-wise noise, we show that both algorithms can tolerate constant noise probabilities without increasing the asymptotic runtime on the OneMax benchmark. For this, a population size $\lambda$ suffices that is at least logarithmic in the problem size $n$. The only previous result in this direction regarded the less realistic one-bit noise model, required a population size super-linear in the problem size, and proved a runtime guarantee roughly cubic in the noiseless runtime for the OneMax benchmark. Our significantly stronger results are based on the novel proof argument that the noiseless offspring can be seen as a biased uniform crossover between the parent and the noisy offspring. We are optimistic that the technical lemmas resulting from this insight will find applications also in future mathematical runtime analyses of evolutionary algorithms.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# 完全に観測可能な非決定論的計画領域に対する一般政策の学習

Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains ( http://arxiv.org/abs/2404.02499v2 )

ライセンス: Link先を確認
Till Hofmann, Hector Geffner, (参考訳) 一般的なポリシーは、あるドメインからの解決可能なインスタンスの無限のコレクションのような、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。 このような方針を学習する手法は、古典的なドメインでうまく開発されている。 本研究では、完全可観測非決定論的(FOND)領域上での一般政策学習のための定式化と結果の組合せ法を拡張する。 また、FOND計画における多くのベンチマークドメインに対して結果のアプローチを実験的に評価し、これらのドメインのいくつかに結果をもたらす一般的なポリシーを示し、それらの正しさを証明した。 FOND計画のための一般的なポリシーを学習する方法は、与えられた状態空間ではなく、同時に学習しなければならない特徴によって定義された抽象空間において、解を探索する代替FOND計画法として実際に見ることができる。

General policies represent reactive strategies for solving large families of planning problems like the infinite collection of solvable instances from a given domain. Methods for learning such policies from a collection of small training instances have been developed successfully for classical domains. In this work, we extend the formulations and the resulting combinatorial methods for learning general policies over fully observable, non-deterministic (FOND) domains. We also evaluate the resulting approach experimentally over a number of benchmark domains in FOND planning, present the general policies that result in some of these domains, and prove their correctness. The method for learning general policies for FOND planning can actually be seen as an alternative FOND planning method that searches for solutions, not in the given state space but in an abstract space defined by features that must be learned as well.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# 有限頻度論は量子確率を説明する

Finite frequentism explains quantum probability ( http://arxiv.org/abs/2404.12954v2 )

ライセンス: Link先を確認
Simon Saunders, (参考訳) 古典的な統計力学における確率の説明として、頻繁性は、古典的な位相空間の類似である非コヒーレントな量子歴史空間に自然に拡張できることを示す。 その結果は有限頻度論の一形態であり、ガスの無限アンサンブルというギブスの概念は、有限個のデコヒーリングマイクロステートの重ね合わせとして表される量子状態に置き換えられる。 量子力学のデコヒーレンスに基づくエヴェレット解釈に従えば、マクロ的に異なるかもしれないにもかかわらず、すべてのミクロ状態が存在するため、有限かつ実際の(仮説的な)頻繁性(英語版)の形式である。

I show that frequentism, as an explanation of probability in classical statistical mechanics, can be extended in a natural way to a decoherent quantum history space, the analogue of a classical phase space. The result is a form of finite frequentism, in which the Gibbs concept of an infinite ensemble of gases is replaced by the quantum state expressed as a superposition of a finite number of decohering microstates. It is a form of finite and actual (as opposed to hypothetical) frequentism insofar as all the microstates exist, even though they may differ macroscopically, in keeping with the decoherence-based Everett interpretation of quantum mechanics.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# トポロジカルな表現の分類のための階数分解

A rank decomposition for the topological classification of neural representations ( http://arxiv.org/abs/2404.19710v2 )

ライセンス: Link先を確認
Kosio Beshkov, Gaute T. Einevoll, (参考訳) ニューラルネットワークは入力データセットに変換を適用するものだと考えることができる。 このようなデータセットのトポロジを変更する方法は、多くのタスク、特に分類問題のような最適解に対する非同型写像を必要とするタスクにおいて、実際的な意味を持つことが多い。 本研究では,ニューラルネットワークが連続的なピースワイズアフィン写像と等価であるという事実を利用して,非同相変換を行う入力空間の領域をピンポイントすることで,入力データセットのトポロジ的構造の変化をもたらす。 このアプローチは相対ホモロジー列を利用することができ、そこでは多様体 $\mathcal{M}$ と部分集合 $A$ の商のホモロジー群を、これらの空間上のいくつかの最小の性質を仮定して研究することができる。 原理の証明として,ネットワーク幅と平均重量の関数として,低ランク(位相変化)アフィンマップの存在を実証的に検討する。 ランダムに初期化された狭いネットワークでは、データ多様体の(コ)ホモロジー群が変化する領域が存在することを示す。 幅が大きくなると、入力多様体のホモロジー群はより保存されやすくなる。 我々は、この特性を持たない非常に非ランダムな広義のネットワークを構築し、この非ランダムな体制を、生物学的ニューラルネットワークの定義的特徴であるデールの原理に関連付けることで、我々の研究のこの部分を終える。 最後に,MNISTで訓練された単純なフィードフォワードネットワークと,おもちゃの分類と回帰タスクについて検討し,トレーニング対象のタスクの連続性に応じて,ネットワークがデータのトポロジを異なる方法で操作することを示す。

Neural networks can be thought of as applying a transformation to an input dataset. The way in which they change the topology of such a dataset often holds practical significance for many tasks, particularly those demanding non-homeomorphic mappings for optimal solutions, such as classification problems. In this work, we leverage the fact that neural networks are equivalent to continuous piecewise-affine maps, whose rank can be used to pinpoint regions in the input space that undergo non-homeomorphic transformations, leading to alterations in the topological structure of the input dataset. Our approach enables us to make use of the relative homology sequence, with which one can study the homology groups of the quotient of a manifold $\mathcal{M}$ and a subset $A$, assuming some minimal properties on these spaces. As a proof of principle, we empirically investigate the presence of low-rank (topology-changing) affine maps as a function of network width and mean weight. We show that in randomly initialized narrow networks, there will be regions in which the (co)homology groups of a data manifold can change. As the width increases, the homology groups of the input manifold become more likely to be preserved. We end this part of our work by constructing highly non-random wide networks that do not have this property and relating this non-random regime to Dale's principle, which is a defining characteristic of biological neural networks. Finally, we study simple feedforward networks trained on MNIST, as well as on toy classification and regression tasks, and show that networks manipulate the topology of data differently depending on the continuity of the task they are trained on.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# 量子東-西方運動拘束モデルにおける異常輸送

Anomalous transport in the quantum East-West kinetically constrained model ( http://arxiv.org/abs/2405.02102v2 )

ライセンス: Link先を確認
Pietro Brighi, Marko Ljubotina, (参考訳) 我々は,反射対称性を破ることのできる単一パラメータを用いて,カオス的に保存される粒子の運動的拘束モデルについて検討する。 広範な数値シミュレーションにより, 領域壁状態は, 局所化から弾道輸送まで, 反射破れパラメータの値に依存する様々な動的挙動を示すことがわかった。 驚くべきことに、そのような異常な振る舞いは、一般的な相互作用モデルに対する期待と一致して拡散的にスケールしているように見える無限温度力学では反映されない。 しかし、粒子密度勾配を調べた結果、反射対称性の欠如が無限温度の力学に影響を与え、非対称な動的構造因子が生じることが示された。 これは通常の拡散とは不一致であり、このモデルが熱力学極限において無限温度で異常なダイナミクスを示すことも示唆している。 最後に、模型のスペクトルにおける低絡み合った固有状態、量子的な多くの天体の傷跡を観測する。

We study a chaotic particle-conserving kinetically constrained model, with a single parameter which allows us to break reflection symmetry. Through extensive numerical simulations we find that the domain wall state shows a variety of dynamical behaviors from localization all the way to ballistic transport, depending on the value of the reflection breaking parameter. Surprisingly, such anomalous behavior is not mirrored in infinite-temperature dynamics, which appear to scale diffusively, in line with expectations for generic interacting models. However, studying the particle density gradient, we show that the lack of reflection symmetry affects infinite-temperature dynamics, resulting in an asymmetric dynamical structure factor. This is in disagreement with normal diffusion and suggests that the model may also exhibit anomalous dynamics at infinite temperature in the thermodynamic limit. Finally, we observe low-entangled eigenstates in the spectrum of the model, a telltale sign of quantum many body scars.
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# デルタ・テンソル(Delta Tensor) - デルタ湖の効率的なベクトル・テンソル・ストレージ

Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake ( http://arxiv.org/abs/2405.03708v3 )

ライセンス: Link先を確認
Zhiwei Bao, Liu Liao-Liao, Zhiyu Wu, Yifan Zhou, Dan Fan, Michal Aibin, Yvonne Coady, Andrew Brownsword, (参考訳) 人工知能(AI)と機械学習(ML)のアプリケーションの指数関数的成長は、ベクトルデータとテンソルデータのための効率的なストレージソリューションの開発を必要としている。 本稿では,デルタ湖を用いたレイクハウス建築におけるテンソル貯蔵の新しい手法を提案する。 アレイデータベースからの多次元配列記憶戦略とスパース符号化手法をデルタレイクテーブルに適用することにより、従来のテンソルのシリアライゼーションと比較して、この手法は空間および時間効率の両方において顕著に改善されていることを示す。 これらの結果は、データ集約型アプリケーションにおける最適化ベクターおよびテンソルストレージソリューションの開発と実装のための貴重な洞察を与え、クラウドネイティブ環境におけるAIおよびMLドメインにおける効率的なデータ管理プラクティスの進化に寄与する。

The exponential growth of artificial intelligence (AI) and machine learning (ML) applications has necessitated the development of efficient storage solutions for vector and tensor data. This paper presents a novel approach for tensor storage in a Lakehouse architecture using Delta Lake. By adopting the multidimensional array storage strategy from array databases and sparse encoding methods to Delta Lake tables, experiments show that this approach has demonstrated notable improvements in both space and time efficiencies when compared to traditional serialization of tensors. These results provide valuable insights for the development and implementation of optimized vector and tensor storage solutions in data-intensive applications, contributing to the evolution of efficient data management practices in AI and ML domains in cloud-native environments
翻訳日:2024-05-14 23:44:37 公開日:2024-05-13
# ケーションによるテキストの計画と生成の学習

Learning to Plan and Generate Text with Citations ( http://arxiv.org/abs/2404.03381v2 )

ライセンス: Link先を確認
Constanza Fierro, Reinald Kim Amplayo, Fantine Huot, Nicola De Cao, Joshua Maynez, Shashi Narayan, Mirella Lapata, (参考訳) 情報検索のシナリオにおけるLCMの展開に対する需要が高まり、検証可能なシステムの構築への取り組みが加速し、クエリに対する応答と証拠が生成されるようになった。 本稿では、最近明らかになったプランベースモデルの帰属能力について検討し、生成したテキストの忠実性、接地性、制御性を改善することを目的としている。 我々は、生成したコンテンツとその組織の青写真として機能する一連の質問として、プランを概念化します。 本稿では,異なるブループリントの変種を利用する帰属モデルと,質問をゼロから生成する抽象モデルと,質問を入力からコピーする抽出モデルを提案する。 ロングフォームな質問応答実験は、計画が帰属品質を継続的に改善することを示している。 さらに、ブループリントモデルにより生成された励起は、計画部品を欠いたLLMパイプラインの励起よりも精度が高い。

The increasing demand for the deployment of LLMs in information-seeking scenarios has spurred efforts in creating verifiable systems, which generate responses to queries along with supporting evidence. In this paper, we explore the attribution capabilities of plan-based models which have been recently shown to improve the faithfulness, grounding, and controllability of generated text. We conceptualize plans as a sequence of questions which serve as blueprints of the generated content and its organization. We propose two attribution models that utilize different variants of blueprints, an abstractive model where questions are generated from scratch, and an extractive model where questions are copied from the input. Experiments on long-form question-answering show that planning consistently improves attribution quality. Moreover, the citations generated by blueprint models are more accurate compared to those obtained from LLM-based pipelines lacking a planning component.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# 外部計画型大規模言語モデルによる会話性疾患の診断

Conversational Disease Diagnosis via External Planner-Controlled Large Language Models ( http://arxiv.org/abs/2404.04292v4 )

ライセンス: Link先を確認
Zhoujian Sun, Cheng Luo, Ziyi Liu, Zhengxing Huang, (参考訳) 大規模言語モデル(LLM)の開発は、人工知能(AI)に基づく診断に先例のない可能性をもたらした。 しかし、実際の診断シナリオにおけるLCMの応用的視点は、患者データを積極的に収集することができないため、まだ不明である。 本研究は,医師のエミュレートによる計画能力の向上を目的としたLCMに基づく診断システムを提案する。 我々のシステムは、計画タスクを処理するために2つの外部プランナーを含んでいる。 最初のプランナーは、病気スクリーニングの質問を定式化し、初期診断を行うための強化学習アプローチを採用している。 第2のプランナーは、LSMを使用して医療ガイドラインを解析し、鑑別診断を行う。 実際の患者電子カルテデータを用いて,仮想患者と医師とのシミュレーション対話を構築し,診断能力の評価を行った。 本システムでは,GPT-4 Turbo を含む既存モデルよりも,疾患検診および鑑別診断において有意に優れていることを示す。 この研究は、AIを臨床環境にシームレスに統合するためのステップであり、医療診断の精度とアクセシビリティを高める可能性がある。

The development of large language models (LLMs) has brought unprecedented possibilities for artificial intelligence (AI) based medical diagnosis. However, the application perspective of LLMs in real diagnostic scenarios is still unclear because they are not adept at collecting patient data proactively. This study presents a LLM-based diagnostic system that enhances planning capabilities by emulating doctors. Our system involves two external planners to handle planning tasks. The first planner employs a reinforcement learning approach to formulate disease screening questions and conduct initial diagnoses. The second planner uses LLMs to parse medical guidelines and conduct differential diagnoses. By utilizing real patient electronic medical record data, we constructed simulated dialogues between virtual patients and doctors and evaluated the diagnostic abilities of our system. We demonstrate that our system significantly surpasses existing models, including GPT-4 Turbo, in both disease screening and differential diagnoses. This research represents a step towards more seamlessly integrating AI into clinical settings, potentially enhancing the accuracy and accessibility of medical diagnostics.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# GFlowNetsにおける動的バックトラッキング:逆依存性調整機構による決定ステップの強化

Dynamic Backtracking in GFlowNets: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms ( http://arxiv.org/abs/2404.05576v5 )

ライセンス: Link先を確認
Shuai Guo, Jielei Chu, Lei Zhu, Zhaoyu Li, Tianrui Li, (参考訳) 生成フローネットワーク(GFlowNets、GFNs)はマルコフフローを前提とした確率論的モデルであり、生体分子や化学材料などの構成物質を生成する確率論的ポリシーを学ぶために特定のアモーティゼーションアルゴリズムを使用している。 高性能な生化学分子を生成できる強力な能力により、GFNは科学物質の発見を加速し、従来の物質発見手法の時間的、労働集約的、コスト的な欠点を効果的に克服する。 しかし、以前の研究では、複雑なサンプリング空間における配向を誘導する生成構造を調整することにより、探索経験を蓄積することに集中することはめったにない。 LS-GFNのようなこの問題に対処する努力は、局所的な欲求検索に限られており、より広範なグローバルな調整が欠如している。 本稿では、報酬に基づく動的バックトラッキング機構により、意思決定ステップの適応性を向上させるGFN(Dynamic Backtracking GFN)を新たに導入する。 DB-GFNは、現在の状態の報酬値に従ってネットワーク構築プロセス中のバックトラックを可能にし、不利な決定を訂正し、探索プロセス中に代替経路を探索する。 生化学分子や遺伝物質配列を含む生成タスクに適用すると、DB-GFNは、LS-GFNやGTBなどのGFNモデルや、従来の強化学習法、サンプル品質、サンプル探索量、トレーニング収束速度に優れる。 さらに、その直交性から、DB-GFNは今後のGFNの改良に大きな可能性を示し、検索性能を高めるために他の戦略と統合することができる。

Generative Flow Networks (GFlowNets or GFNs) are probabilistic models predicated on Markov flows, and they employ specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, etc. With a strong ability to generate high-performance biochemical molecules, GFNs accelerate the discovery of scientific substances, effectively overcoming the time-consuming, labor-intensive, and costly shortcomings of conventional material discovery methods. However, previous studies rarely focus on accumulating exploratory experience by adjusting generative structures, which leads to disorientation in complex sampling spaces. Efforts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel variant of GFNs, the Dynamic Backtracking GFN (DB-GFN), which improves the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN allows backtracking during the network construction process according to the current state's reward value, thereby correcting disadvantageous decisions and exploring alternative pathways during the exploration process. When applied to generative tasks involving biochemical molecules and genetic material sequences, DB-GFN outperforms GFN models such as LS-GFN and GTB, as well as traditional reinforcement learning methods, in sample quality, sample exploration quantity, and training convergence speed. Additionally, owing to its orthogonal nature, DB-GFN shows great potential in future improvements of GFNs, and it can be integrated with other strategies to achieve higher search performance.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# 言語不均衡は言語間の一般化を促進する

Language Imbalance Can Boost Cross-lingual Generalisation ( http://arxiv.org/abs/2404.07982v3 )

ライセンス: Link先を確認
Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag, (参考訳) 言語モデリングの最近の進歩を多様な言語コミュニティに拡張するために、多言語性は不可欠である。 複数の言語を表現しながら高いパフォーマンスを維持するために、多言語モデルは表現を理想的に整列させ、ある言語で学んだことを他の言語に一般化させる。 先行研究は、このようなアライメントの鍵となる要素として、並列データと共有語彙要素の重要性を強調してきた。 本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。 完全同値なクローン言語に関する制御実験では、トレーニング中の支配的な言語の存在が、あまり頻度の低い言語の性能を高め、言語間のモデル表現の整合性を高めることが観察された。 さらに、この傾向は規模によって増幅されていることが判明した: 十分に大きなモデルや十分なトレーニングがある場合、90/10言語分割によるバイリンガルトレーニングデータがバランスの取れた50/50言語分割よりも、両言語のパフォーマンスが向上する。 これらの知見に基づいて、トレーニングデータを変更することなく、すべてのクローン言語のパフォーマンスを向上させるトレーニングスキームを設計する。 しかし、言語不均衡が言語間の一般化を引き起こすか否かは決定的ではない。

Multilinguality is crucial for extending recent advancements in language modelling to diverse linguistic communities. To maintain high performance while representing multiple languages, multilingual models ideally align representations, allowing what is learned in one language to generalise to others. Prior research has emphasised the importance of parallel data and shared vocabulary elements as key factors for such alignment. In this study, we investigate an unintuitive novel driver of cross-lingual generalisation: language imbalance. In controlled experiments on perfectly equivalent cloned languages, we observe that the existence of a predominant language during training boosts the performance of less frequent languages and leads to stronger alignment of model representations across languages. Furthermore, we find that this trend is amplified with scale: with large enough models or long enough training, we observe that bilingual training data with a 90/10 language split yields better performance on both languages than a balanced 50/50 split. Building on these insights, we design training schemes that can improve performance in all cloned languages, even without altering the training data. As we extend our analysis to real languages, we find that infrequent languages still benefit from frequent ones, yet whether language imbalance causes cross-lingual generalisation there is not conclusive.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# 適応的手法の保護:バルジライ=ボルヴァインの大域収束とその他の段階的選択

Safeguarding adaptive methods: global convergence of Barzilai-Borwein and other stepsize choices ( http://arxiv.org/abs/2404.09617v2 )

ライセンス: Link先を確認
Hongjia Ou, Andreas Themelis, (参考訳) 本稿では, 凸最小化問題に対する適応手法の最近の進歩を生かして, バルジライ=ボルワインやアンダーソン加速度などの一般的なステップサイズ選択の収束をグローバル化する, 線形探索不要な近位勾配フレームワークを提供する。 この枠組みは、微分可能関数の勾配が単に局所的に H より古い連続であるような問題に対処することができる。 私たちの分析は、その分析を包含するだけでなく、構築した既存の結果を洗練します。 この理論は、高速なステップサイズ選択と適応的な方法の間の相乗的相互作用を示す数値的な証拠によって裏付けられている。

Leveraging on recent advancements on adaptive methods for convex minimization problems, this paper provides a linesearch-free proximal gradient framework for globalizing the convergence of popular stepsize choices such as Barzilai-Borwein and one-dimensional Anderson acceleration. This framework can cope with problems in which the gradient of the differentiable function is merely locally H\"older continuous. Our analysis not only encompasses but also refines existing results upon which it builds. The theory is corroborated by numerical evidence that showcases the synergetic interplay between fast stepsize selections and adaptive methods.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# 基礎モデルを用いた最良の医用画像分割アルゴリズムの構築--セグメンテーションモデルを用いた総合的研究

How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model ( http://arxiv.org/abs/2404.09957v2 )

ライセンス: Link先を確認
Hanxue Gu, Haoyu Dong, Jichen Yang, Maciej A. Mazurowski, (参考訳) 自動セグメンテーションは医用画像解析の基本的な課題であり、深層学習の出現による大きな進歩を享受している。 基礎モデルは、自然言語処理や視覚タスクにおいてしばらくは有用であったが、イメージセグメンテーションを念頭に開発された基礎モデルは、SAM(Seegment Anything Model)と呼ばれるもので、最近になって開発され、同様の可能性を示している。 しかし, SAMを医用画像分割に最適に微調整するための体系的分析や「ベストプラクティス」ガイドラインはいまだに存在しない。 この研究は、様々なバックボーンアーキテクチャ、モデルコンポーネント、および18の組み合わせにわたる微調整アルゴリズムによる既存の微調整戦略を要約し、すべての一般的な放射線学のモダリティをカバーする17のデータセットで評価する。 本研究は,(1)細調整SAMが従来のセグメンテーション法よりも若干優れた性能をもたらすこと,(2)エンコーダとデコーダの両方でパラメータ効率のよい学習手法が優れていること,(3)ネットワークアーキテクチャが最終性能に小さな影響を与えていること,(4)自己教師型学習によるSAMのさらなるトレーニングが最終モデル性能を向上させることを明らかにした。 また,本研究で広く普及しているいくつかの手法の非効率性を実証し,実験をいくつかのショットとプロンプトベースの設定に拡張した。 最後に、私たちのコードとMRI固有の微調整ウェイトをリリースし、オリジナルのSAMよりも一貫して優れたパフォーマンスを得た。

Automated segmentation is a fundamental medical image analysis task, which enjoys significant advances due to the advent of deep learning. While foundation models have been useful in natural language processing and some vision tasks for some time, the foundation model developed with image segmentation in mind - Segment Anything Model (SAM) - has been developed only recently and has shown similar promise. However, there are still no systematic analyses or "best-practice" guidelines for optimal fine-tuning of SAM for medical image segmentation. This work summarizes existing fine-tuning strategies with various backbone architectures, model components, and fine-tuning algorithms across 18 combinations, and evaluates them on 17 datasets covering all common radiology modalities. Our study reveals that (1) fine-tuning SAM leads to slightly better performance than previous segmentation methods, (2) fine-tuning strategies that use parameter-efficient learning in both the encoder and decoder are superior to other strategies, (3) network architecture has a small impact on final performance, (4) further training SAM with self-supervised learning can improve final model performance. We also demonstrate the ineffectiveness of some methods popular in the literature and further expand our experiments into few-shot and prompt-based settings. Lastly, we released our code and MRI-specific fine-tuned weights, which consistently obtained superior performance over the original SAM, at https://github.com/mazurowski-lab/finetune-SAM.
翻訳日:2024-05-14 23:34:50 公開日:2024-05-13
# コードレビュー活動予測に関する実証的研究とその実践への影響

An Empirical Study on Code Review Activity Prediction and Its Impact in Practice ( http://arxiv.org/abs/2404.10703v2 )

ライセンス: Link先を確認
Doriane Olewicki, Sarra Habchi, Bram Adams, (参考訳) コードレビューの間、ソフトウェア品質の保証において重要なステップである、レビュー担当者は、コードの変更を理解して評価し、品質を検証し、コードベースに欠陥を導入しないようにする難しいタスクを持っています。 これは退屈なプロセスであり、必要な労力は提出されたコードや著者やレビュアーの経験に大きく依存する。 29名の専門家による最初のユーザスタディにより、レビュー環境内のパッチによって変更されたファイルの並べ替えは、より多くのコメントが書かれ(+23%)、参加者のファイルレベルのホットスポット精度が53%(+13%)と28%(+8%)に増加し、レビュー品質が向上する可能性が示唆された。 そこで本論文は,(1)コメント,(2)改訂,(3)ホットスポット(補足,あるいは改訂)のどのファイルが必要かを予測することで,コードレビュアを支援することを目的とする。 これらのタスクを予測するために,2種類のテキスト埋め込み(単語のバグ・オブ・ワードと大言語モデルエンコーディング)とプロセス機能(コードサイズベースと履歴ベース)を評価した。 3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。 全てのタスクにおいて、F1スコア(40-62%)は最先端(+1から+9%)よりもはるかに優れている。

During code reviews, an essential step in software quality assurance, reviewers have the difficult task of understanding and evaluating code changes to validate their quality and prevent introducing faults to the codebase. This is a tedious process where the effort needed is highly dependent on the code submitted, as well as the author's and the reviewer's experience, leading to median wait times for review feedback of 15-64 hours. Through an initial user study carried with 29 experts, we found that re-ordering the files changed by a patch within the review environment has potential to improve review quality, as more comments are written (+23%), and participants' file-level hot-spot precision and recall increases to 53% (+13%) and 28% (+8%), respectively, compared to the alphanumeric ordering. Hence, this paper aims to help code reviewers by predicting which files in a submitted patch need to be (1) commented, (2) revised, or (3) are hot-spots (commented or revised). To predict these tasks, we evaluate two different types of text embeddings (i.e., Bag-of-Words and Large Language Models encoding) and review process features (i.e., code size-based and history-based features). Our empirical study on three open-source and two industrial datasets shows that combining the code embedding and review process features leads to better results than the state-of-the-art approach. For all tasks, F1-scores (median of 40-62%) are significantly better than the state-of-the-art (from +1 to +9%).
翻訳日:2024-05-14 23:10:20 公開日:2024-05-13
# FilterPrompt: 拡散モデルにおける画像転送の誘導

FilterPrompt: Guiding Image Transfer in Diffusion Models ( http://arxiv.org/abs/2404.13263v2 )

ライセンス: Link先を確認
Xi Wang, Yichen Peng, Heng Fang, Haoran Xie, Xi Yang, Chuntao Li, (参考訳) 制御可能な生成タスクでは、生成した画像を柔軟に操作し、単一の入力画像キューに基づいて所望の外観や構造を達成できる。 これを実現するには、入力画像データ内のキー属性を効果的に分離し、表現を正確に取得する必要がある。 以前の研究では、主に特徴空間内の画像属性の分離に焦点が当てられていた。 しかし、実世界のデータに存在する複雑な分布は、そのようなデカップリングアルゴリズムを他のデータセットに適用することを難しくすることが多い。 さらに、機能符号化に対する制御の粒度は、特定のタスク要求を満たすのにしばしば失敗する。 様々な生成モデルの特性を精査すると,拡散モデルの入力感度と動的進化特性は,画素空間における明示的な分解操作と効果的に融合できることがわかった。 これにより、入力画像の特定の特徴分布に対して画素空間で実行される画像処理操作が可能となり、生成した結果において所望の制御効果が得られる。 そこで本研究では,モデル制御効果を高めるためのFilterPromptを提案する。 任意の拡散モデルに普遍的に適用可能であり、ユーザーはタスク要求に応じて特定の画像特徴の表現を調整でき、より正確で制御可能な生成結果を容易にすることができる。 特に,我々の設計した実験では,FilterPromptが特徴相関を最適化し,生成プロセス中のコンテント競合を緩和し,モデルの制御能力を向上することを示した。

In controllable generation tasks, flexibly manipulating the generated images to attain a desired appearance or structure based on a single input image cue remains a critical and longstanding challenge. Achieving this requires the effective decoupling of key attributes within the input image data, aiming to get representations accurately. Previous research has predominantly concentrated on disentangling image attributes within feature space. However, the complex distribution present in real-world data often makes the application of such decoupling algorithms to other datasets challenging. Moreover, the granularity of control over feature encoding frequently fails to meet specific task requirements. Upon scrutinizing the characteristics of various generative models, we have observed that the input sensitivity and dynamic evolution properties of the diffusion model can be effectively fused with the explicit decomposition operation in pixel space. This integration enables the image processing operations performed in pixel space for a specific feature distribution of the input image, and can achieve the desired control effect in the generated results. Therefore, we propose FilterPrompt, an approach to enhance the model control effect. It can be universally applied to any diffusion model, allowing users to adjust the representation of specific image features in accordance with task requirements, thereby facilitating more precise and controllable generation outcomes. In particular, our designed experiments demonstrate that the FilterPrompt optimizes feature correlation, mitigates content conflicts during the generation process, and enhances the model's control capability.
翻訳日:2024-05-14 23:10:20 公開日:2024-05-13
# 正準決定ダイアグラムによるモデュロ理論

Canonical Decision Diagrams Modulo Theories ( http://arxiv.org/abs/2404.16455v2 )

ライセンス: Link先を確認
Massimo Michelutti, Gabriele Masina, Giuseppe Spallitta, Roberto Sebastiani, (参考訳) 決定図(Decision diagrams, DD)は、多くの領域、特に形式的検証や知識コンパイルにおいて、効果的に命題式を表現する強力なツールである。 DDのいくつかの形式(例: OBDDs, SDDs)は標準的であり、(原子リスト上の与えられた条件の下では)公式の同値類を一意的に表す。 命題論理の限られた表現性を考えると、DDをSMTレベルに活用する試みが文献で紹介されている。 残念なことに、これらの技術は依然としていくつかの制限に悩まされている: ほとんどの手順は理論固有のものであり、いくつかの生成理論DD(T-DDs)は T-valid 式や T-consistent 式を単項的に表さない。 また、これらの手順は実装が簡単ではなく、実際に実装できるものはほとんどありません。 本稿では,全SMT ソルバと DD パッケージをブラックボックスとして実装することは極めて容易であり,すべての DD の形式や,AllSMT ソルバがサポートする理論,あるいはその組み合わせに対して有効であり,提案 DD が正則であれば理論-正準 T-DD を生成するという,SMT レベルに DD を活用するための新しい手法を提案する。 我々は,OBDDとSDDパッケージとMathSAT SMTソルバ上に,T-OBDDとT-SDDのプロトタイプツールを実装した。 いくつかの予備的な経験的評価は、アプローチの有効性を支持する。

Decision diagrams (DDs) are powerful tools to represent effectively propositional formulas, which are largely used in many domains, in particular in formal verification and in knowledge compilation. Some forms of DDs (e.g., OBDDs, SDDs) are canonical, that is, (under given conditions on the atom list) they univocally represent equivalence classes of formulas. Given the limited expressiveness of propositional logic, a few attempts to leverage DDs to SMT level have been presented in the literature. Unfortunately, these techniques still suffer from some limitations: most procedures are theory-specific; some produce theory DDs (T-DDs) which do not univocally represent T-valid formulas or T-inconsistent formulas; none of these techniques provably produces theory-canonical T-DDs, which (under given conditions on the T-atom list) univocally represent T-equivalence classes of formulas. Also, these procedures are not easy to implement, and very few implementations are actually available. In this paper, we present a novel very-general technique to leverage DDs to SMT level, which has several advantages: it is very easy to implement on top of an AllSMT solver and a DD package, which are used as blackboxes; it works for every form of DDs and every theory, or combination thereof, supported by the AllSMT solver; it produces theory-canonical T-DDs if the propositional DD is canonical. We have implemented a prototype tool for both T-OBDDs and T-SDDs on top of OBDD and SDD packages and the MathSAT SMT solver. Some preliminary empirical evaluation supports the effectiveness of the approach.
翻訳日:2024-05-14 23:10:20 公開日:2024-05-13
# 量子アルゴリズムからロバストな解を得る

Harnessing Inferior Solutions For Superior Outcomes: Obtaining Robust Solutions From Quantum Algorithms ( http://arxiv.org/abs/2404.16784v2 )

ライセンス: Link先を確認
Pascal Halffmann, Steve Lenk, Michael Trebing, (参考訳) 量子最適化の急速に進歩する領域では、量子アニーリング(QA)や量子近似最適化アルゴリズム(QAOA)などの量子アルゴリズムと堅牢な最適化手法が相まって、最先端のフロンティアが提示される。 不確実性に直面して量子アルゴリズムを適用するのは自然に思えるが、これはほとんどアプローチされていない。 本稿では、上記の量子最適化手法を適用し、ロバストな最適化問題に取り組む。 量子アニールの固有確率性を活用し、QAOA内のパラメータと評価関数を調整することにより、ロバストな最適解を得るための2つの革新的な方法を提案する。 これらのヒューリスティックスをエネルギーセクター内の2つのユースケースに適用し、電力プラント運用のスケジューリングの中心となるユニットコミットメント問題と、太陽光発電(PV)からの電力を含む電気自動車(EV)を最適化してコストを最小化する。 これらの例は、エネルギー管理における意思決定を強化する量子最適化手法の可能性だけでなく、量子コンピューティング全般の若い分野の実践的関連性も強調している。 量子アルゴリズムを慎重に適用することで、我々は現実世界で発生する複雑な最適化シナリオにおいて、より信頼性が高く効率的なソリューションを実現する方法を模索する基礎を築いた。

In the rapidly advancing domain of quantum optimization, the confluence of quantum algorithms such as Quantum Annealing (QA) and the Quantum Approximate Optimization Algorithm (QAOA) with robust optimization methodologies presents a cutting-edge frontier. Although it seems natural to apply quantum algorithms when facing uncertainty, this has barely been approached. In this paper we adapt the aforementioned quantum optimization techniques to tackle robust optimization problems. By leveraging the inherent stochasticity of quantum annealing and adjusting the parameters and evaluation functions within QAOA, we present two innovative methods for obtaining robust optimal solutions. These heuristics are applied on two use cases within the energy sector: the unit commitment problem, which is central to the scheduling of power plant operations, and the optimization of charging electric vehicles (EVs) including electricity from photovoltaic (PV) to minimize costs. These examples highlight not only the potential of quantum optimization methods to enhance decision-making in energy management but also the practical relevance of the young field of quantum computing in general. Through careful adaptation of quantum algorithms, we lay the foundation for exploring ways to achieve more reliable and efficient solutions in complex optimization scenarios that occur in the real-world.
翻訳日:2024-05-14 21:13:39 公開日:2024-05-13
# 条件拡散モデルを用いた3次元医用画像融合と超解像同時処理

Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model ( http://arxiv.org/abs/2404.17357v2 )

ライセンス: Link先を確認
Yushen Xu, Xiaosong Li, Yuchan Jie, Haishu Tan, (参考訳) 臨床実践において、既存のデュアルモーダル技術と比較して、トリモーダル医療画像融合は、疾患の形状、位置、生物学的活動を評価するために医師を支援する、より包括的な病変のビューを提供することができる。 しかし, 画像診断装置の限界や患者安全への配慮により, 医用画像の品質が制限され, 術中核融合性能が低下し, 医用画像解析の深度が低下する。 したがって、画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要となる。 現在の画像処理手法は画像融合と超解像を個別に効果的に扱うことができるが、両問題を同期的に解くことは極めて困難である。 本稿では,3次元医用画像融合と超解像モデルであるTFS-Diffを提案する。 特にTFS-Diffは、ランダム反復復調過程の拡散モデル生成に基づいている。 また, 単純な目的関数と, 提案した核融合超解像損失も開発し, 核融合の不確かさを効果的に評価し, 最適化プロセスの安定性を確保する。 また,複数の画像処理による情報損失を回避し,異なるモダリティの鍵情報を臨床診断に効果的に統合するチャネルアテンションモジュールを提案する。 ハーバード大学のデータセットに関する大規模な実験によると、TFS-Diffは、定量評価と視覚評価の両方において既存の最先端の手法を大幅に上回っている。 ソースコードはGitHubで入手できる。

In clinical practice, tri-modal medical image fusion, compared to the existing dual-modal technique, can provide a more comprehensive view of the lesions, aiding physicians in evaluating the disease's shape, location, and biological activity. However, due to the limitations of imaging equipment and considerations for patient safety, the quality of medical images is usually limited, leading to sub-optimal fusion performance, and affecting the depth of image analysis by the physician. Thus, there is an urgent need for a technology that can both enhance image resolution and integrate multi-modal information. Although current image processing methods can effectively address image fusion and super-resolution individually, solving both problems synchronously remains extremely challenging. In this paper, we propose TFS-Diff, a simultaneously realize tri-modal medical image fusion and super-resolution model. Specially, TFS-Diff is based on the diffusion model generation of a random iterative denoising process. We also develop a simple objective function and the proposed fusion super-resolution loss, effectively evaluates the uncertainty in the fusion and ensures the stability of the optimization process. And the channel attention module is proposed to effectively integrate key information from different modalities for clinical diagnosis, avoiding information loss caused by multiple image processing. Extensive experiments on public Harvard datasets show that TFS-Diff significantly surpass the existing state-of-the-art methods in both quantitative and visual evaluations. The source code will be available at GitHub.
翻訳日:2024-05-14 21:13:39 公開日:2024-05-13
# 高次元不均一処理効果評価のためのPareto-Smoothed Weighting

Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2404.17483v2 )

ライセンス: Link先を確認
Yoichi Chikahara, Kansei Ushiyama, (参考訳) 高次元の特徴属性を用いて、個人間での不均一な治療効果を推定することへの関心が高まっている。 このような高次元不均一処理効果推定における高い性能を達成することは、この設定では、一部の特徴がサンプル選択バイアスを誘導するのに対し、他の特徴は潜在的な結果の予測をしないため、通常である。 このような予測的特徴情報を失うのを避けるため、既存の手法では逆確率重み付け(IPW)を用いて特徴表現を個別に学習する。 しかし、数値的に不安定なIPW重みのため、これらの手法は有限サンプル設定下での推定バイアスに悩まされる。 重み付き表現学習による数値的ロバストな推定器を開発するために,極度の重み値をエンドツーエンドに置き換える微分可能なパレート平滑化フレームワークを提案する。 提案手法は, 従来の重み付け方式を含む既存手法よりも優れていることを示す。

There is a growing interest in estimating heterogeneous treatment effects across individuals using their high-dimensional feature attributes. Achieving high performance in such high-dimensional heterogeneous treatment effect estimation is challenging because in this setup, it is usual that some features induce sample selection bias while others do not but are predictive of potential outcomes. To avoid losing such predictive feature information, existing methods learn separate feature representations using inverse probability weighting (IPW). However, due to their numerically unstable IPW weights, these methods suffer from estimation bias under a finite sample setup. To develop a numerically robust estimator by weighted representation learning, we propose a differentiable Pareto-smoothed weighting framework that replaces extreme weight values in an end-to-end fashion. Our experimental results show that by effectively correcting the weight values, our proposed method outperforms the existing ones, including traditional weighting schemes.
翻訳日:2024-05-14 21:13:39 公開日:2024-05-13
# NeuroNet:シングルチャネル脳波を用いた睡眠段階分類のためのハイブリッド自己監督学習フレームワーク

NeuroNet: A Novel Hybrid Self-Supervised Learning Framework for Sleep Stage Classification Using Single-Channel EEG ( http://arxiv.org/abs/2404.17585v2 )

ライセンス: Link先を確認
Cheol-Hui Lee, Hakseung Kim, Hyun-jee Han, Min-Kyung Jung, Byung C. Yoon, Dong-Joo Kim, (参考訳) 睡眠段階の分類は、睡眠障害を診断し、睡眠の質を評価する重要な側面である。 しかし、従来の手動採点プロセスは、臨床医が行うもので、時間がかかり、人間の偏見がちである。 近年の深層学習の進歩は、睡眠段階分類の自動化を著しく促進している。 それでも、ラベル付き大規模なデータセットの必要性や、人為的なアノテーションに固有のバイアスなど、課題は続いている。 コントラスト学習タスクとマスク付き予測タスクを統合することで、ラベルのない単一チャンネル睡眠脳波信号(EEG)を効果的に活用する自己教師型学習(SSL)フレームワークであるNeuroNetを紹介する。 NeuroNetは3つのポリソノグラフィー(PSG)データセットにわたる広範な実験を通じて、既存のSSLメソッドよりも優れたパフォーマンスを示す。 さらに, マンバをベースとした時間的文脈モジュールを提案し, 多様な脳波エポック間の関係を捉える。 NeuroNetとMambaベースの時間的コンテキストモジュールを組み合わせることで、ラベル付きデータの限られた量であっても、最新の教師付き学習方法論のパフォーマンスを達成または超える能力が実証された。 本研究は、睡眠ステージ分類における新たなベンチマークを確立し、睡眠分析の分野における将来の研究と応用を導くことが期待されている。

The classification of sleep stages is a pivotal aspect of diagnosing sleep disorders and evaluating sleep quality. However, the conventional manual scoring process, conducted by clinicians, is time-consuming and prone to human bias. Recent advancements in deep learning have substantially propelled the automation of sleep stage classification. Nevertheless, challenges persist, including the need for large datasets with labels and the inherent biases in human-generated annotations. This paper introduces NeuroNet, a self-supervised learning (SSL) framework designed to effectively harness unlabeled single-channel sleep electroencephalogram (EEG) signals by integrating contrastive learning tasks and masked prediction tasks. NeuroNet demonstrates superior performance over existing SSL methodologies through extensive experimentation conducted across three polysomnography (PSG) datasets. Additionally, this study proposes a Mamba-based temporal context module to capture the relationships among diverse EEG epochs. Combining NeuroNet with the Mamba-based temporal context module has demonstrated the capability to achieve, or even surpass, the performance of the latest supervised learning methodologies, even with a limited amount of labeled data. This study is expected to establish a new benchmark in sleep stage classification, promising to guide future research and applications in the field of sleep analysis.
翻訳日:2024-05-14 21:13:39 公開日:2024-05-13
# 表面音波による極性分子の捕捉

Trapping polar molecules by surface acoustic waves ( http://arxiv.org/abs/2404.17879v3 )

ライセンス: Link先を確認
Haijin Ding, Re-Bing Wu, Yu-xi Liu, (参考訳) 圧電材料の表面音響波(SAW)によって誘導される電気力で極性分子を捕捉する手法を提案する。 このアプローチでは、電気力は極性分子の運動方向と垂直であり、音響伝達と直交する方向における閉じ込められた極性分子の位置を制御するために用いられる。 外部の電気力により、SAWによって誘導される電場は極性分子を単層または多層格子にトラップすることができる。 分子の配列は分子配列の結合エネルギーと局在に影響を与える。 すると、1次元または2次元の極性分子アレイを用いてボース・ハッバード(BH)モデルを構築することができ、そのエネルギーと動力学は捕捉された分子の局在に影響される。 極性分子BHモデルに基づく超流動絶縁体とモット絶縁体の相転移は,SAW誘起電位によって変調できることがわかった。

We propose a method to trap polar molecules with the electrical force induced by the surface acoustic wave (SAW) on piezoelectric materials. In this approach, the electrical force is perpendicular to the moving direction of the polar molecules, and is used to control the positions of trapped polar molecules in the direction orthogonal to the acoustic transmission. By virtue of an external electrical force, the SAW-induced electrical field can trap the polar molecules into single-layer or multi-layer lattices. The arrangement of molecules can affect the binding energy and localization of the molecule array. Then the one- or two-dimensional trapped polar molecule arrays can be used to construct the Bose-Hubbard (BH) model, whose energy and dynamics are affected by the localizations of the trapped molecules. We find that the phase transitions between the superfluid and Mott insulator based on trapped polar molecule BH model can be modulated by the SAW induced electrical potential.
翻訳日:2024-05-14 21:13:39 公開日:2024-05-13
# TwinDiffusion:拡散モデルを用いたパノラマ画像生成におけるコヒーレンスと効率の向上

TwinDiffusion: Enhancing Coherence and Efficiency in Panoramic Image Generation with Diffusion Models ( http://arxiv.org/abs/2404.19475v3 )

ライセンス: Link先を確認
Teng Zhou, Yongchuan Tang, (参考訳) 拡散モデルは、多種多様な高品質なコンテンツを生成する効果的なツールとして登場した。 しかし、特にパノラマ画像の高解像度画像生成におけるそれらの能力は、目に見えるシームや不整合遷移といった課題に直面している。 本稿では,品質向上のためのクロップフュージョンと効率最適化のためのクロスサンプリングという,これらの課題に対処するための最適化フレームワークであるTwinDiffusionを提案する。 本研究では,隣接する画像領域の類似性を改善するためのトレーニング不要最適化ステージと,収穫過程中に動的パッチを出力するインターリーブサンプリング戦略を導入する。 TwinDiffusionと既存の手法を比較し,コヒーレンス,忠実度,適合性,効率性などの要因を考慮した総合評価を行った。 その結果、シームレスでコヒーレントなパノラマ生成における我々のアプローチの優れた性能を示し、パノラマ画像生成のための新しい品質と効率の基準を設定した。

Diffusion models have emerged as effective tools for generating diverse and high-quality content. However, their capability in high-resolution image generation, particularly for panoramic images, still faces challenges such as visible seams and incoherent transitions. In this paper, we propose TwinDiffusion, an optimized framework designed to address these challenges through two key innovations: Crop Fusion for quality enhancement and Cross Sampling for efficiency optimization. We introduce a training-free optimizing stage to refine the similarity of the adjacent image areas, as well as an interleaving sampling strategy to yield dynamic patches during the cropping process. A comprehensive evaluation is conducted to compare TwinDiffusion with the existing methods, considering factors including coherence, fidelity, compatibility, and efficiency. The results demonstrate the superior performance of our approach in generating seamless and coherent panoramas, setting a new standard in quality and efficiency for panoramic image generation.
翻訳日:2024-05-14 21:13:38 公開日:2024-05-13
# テンソルネットワークを用いたフーリエ型オプション価格の学習パラメータ依存性

Learning parameter dependence for Fourier-based option pricing with tensor networks ( http://arxiv.org/abs/2405.00701v4 )

ライセンス: Link先を確認
Rihito Sakurai, Haruto Takahashi, Koichi Miyamoto, (参考訳) 数学ファイナンスにおける長年の問題として、価格オプションのスピードアップ、特にマルチアセットオプションがあげられる。 最近の研究では、テンソルネットワークの高次元テンソル圧縮能力を活用して、テンソルトレイン学習アルゴリズムを用いてフーリエ変換(FT)に基づくオプション価格の高速化が提案されている。 テンソルネットワークのもう1つの用途は、パラメータ依存を含む関数を圧縮することである。 そこで本研究では,FTベースのオプション価格に現れる関数をパラメータ依存で近似したテンソルトレインを構築し,入力パラメータのオプション価格を効率的に算出する,テンソル学習アルゴリズムを提案する。 ベンチマークテストとして,様々な揮発性の値と現在の資産価格に対するマルチアセットオプションの価格設定を行う。 提案手法は, 最大11個の資産を含む試験ケースにおいて, モンテカルロシミュレーションを計算複雑性の観点から10^5$パスで比較し, 精度を同等に保った。

A long-standing issue in mathematical finance is the speed-up of pricing options, especially multi-asset options. A recent study has proposed to use tensor train learning algorithms to speed up Fourier transform (FT)-based option pricing, utilizing the ability of tensor networks to compress high-dimensional tensors. Another usage of the tensor network is to compress functions, including their parameter dependence. In this study, we propose a pricing method, where, by a tensor learning algorithm, we build tensor trains that approximate functions appearing in FT-based option pricing with their parameter dependence and efficiently calculate the option price for the varying input parameters. As a benchmark test, we run the proposed method to price a multi-asset option for the various values of volatilities and present asset prices. We show that, in the tested cases involving up to 11 assets, the proposed method is comparable to or outperforms Monte Carlo simulation with $10^5$ paths in terms of computational complexity, keeping the comparable accuracy.
翻訳日:2024-05-14 21:13:38 公開日:2024-05-13
# メタコミュニケーショングラウンド法と教師付き学習の限界について

It Couldn't Help But Overhear: On the Limits of Modelling Meta-Communicative Grounding Acts with Supervised Learning ( http://arxiv.org/abs/2405.01139v2 )

ライセンス: Link先を確認
Brielen Madureira, David Schlangen, (参考訳) 理解はプロデューサーと受取人によって共同で調整されるので、会話の活発な参加は共通基盤の構築の鍵となる。 オーバーハーサルは、根拠となる行為を行う特権を剥奪され、意図した意味についてしか推測できない。 それでも、NLP対話モデルのデータ生成とアノテーション、モデリング、トレーニング、評価は、過度な聴覚パラダイムに依存している。 その結果、基盤となる接地プロセスのどれ程が禁止されるのか? このように、人間のメタコミュニケーション行為をデータ駆動学習モデルで適切にモデル化することは不可能であることを示す証拠がある。 本稿では, この課題について考察し, 明確化を求める人的意思決定の多様性に関する予備的分析を行う。 最も重要なことは、このトピックをコミュニティのテーブルに持ち帰り、モデルが“参加”するようにデザインされた結果について、議論を奨励したいということです。

Active participation in a conversation is key to building common ground, since understanding is jointly tailored by producers and recipients. Overhearers are deprived of the privilege of performing grounding acts and can only conjecture about intended meanings. Still, data generation and annotation, modelling, training and evaluation of NLP dialogue models place reliance on the overhearing paradigm. How much of the underlying grounding processes are thereby forfeited? As we show, there is evidence pointing to the impossibility of properly modelling human meta-communicative acts with data-driven learning models. In this paper, we discuss this issue and provide a preliminary analysis on the variability of human decisions for requesting clarification. Most importantly, we wish to bring this topic back to the community's table, encouraging discussion on the consequences of having models designed to only "listen in".
翻訳日:2024-05-14 21:13:38 公開日:2024-05-13
# 線形光量子回路における光子損失の軽減--ポストセレクションよりも優れた古典的後処理法

Mitigating photon loss in linear optical quantum circuits: classical postprocessing methods outperforming postselection ( http://arxiv.org/abs/2405.02278v2 )

ライセンス: Link先を確認
James Mills, Rawad Mezher, (参考訳) 光子損失速度は、現在の線形光量子デバイスで実行できる計算サイズに有効な上限を設定する。 我々は,光子の損失が出力確率と期待値の両方に与える影響を,n$光子,m$モード干渉計,m$単光子検出器の入力からなる雑音の多い線形光回路から推定する。 これらの技術の中心はリサイクル確率と呼ばれる物体の構築である。 リサイクル確率は損失に影響される出力統計から構成され、理想的(ロスレス)確率のシグナルを増幅するように設計されている。 古典的な後処理技術は、リサイクルされた確率を入力として、損失軽減された確率または期待値のセットを出力する。 提案手法は, 離散可変光量子回路からサンプリングする際の光子損失に対処する標準的な方法である, ポストセレクションから得られたものよりも高精度な出力を得られるように, 試料サイズまで, 解析的および数値的証拠を提供する。 対照的に、一般的なゼロノイズ補間技術は、光子損失率に対するポストセレクションの性能を改善することができないという強い証拠を提供する。

Photon loss rates set an effective upper limit on the size of computations that can be run on current linear optical quantum devices. We present a family of techniques to mitigate the effects of photon loss on both output probabilities and expectation values derived from noisy linear optical circuits composed of an input of $n$ photons, an $m$-mode interferometer, and $m$ single photon detectors. Central to these techniques is the construction of objects called recycled probabilities. Recycled probabilities are constructed from output statistics affected by loss, and are designed to amplify the signal of the ideal (lossless) probabilities. Classical postprocessing techniques then take recycled probabilities as input and output a set of loss-mitigated probabilities, or expectation values. We provide analytical and numerical evidence that these methods can be applied, up to large sample sizes, to produce more accurate outputs than those obtained from postselection - which is currently the standard method of coping with photon loss when sampling from discrete variable linear optical quantum circuits. In contrast, we provide strong evidence that the popular zero noise extrapolation technique cannot improve on on the performance of postselection for any photon loss rate.
翻訳日:2024-05-14 21:03:09 公開日:2024-05-13
# ハーフウェイエスケープ最適化:複雑な最適化問題に対する量子インスパイアされた解法

Halfway Escape Optimization: A Quantum-Inspired Solution for Complex Optimization Problems ( http://arxiv.org/abs/2405.02850v2 )

ライセンス: Link先を確認
Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, (参考訳) 本稿ではまず,高次収束率で高次元の地形を特徴とする複雑な最適化問題に対処するために,量子に着想を得た新しいメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。 本研究では,粒子群最適化 (PSO), 遺伝的アルゴリズム (GA), 人工魚群アルゴリズム (AFSA), グレイウルフ最適化 (GWO), 量子行動群最適化 (QPSO) など,確立された最適化アルゴリズムに対するHEOの性能を総合的に比較した。 一次分析は、次元30の14のベンチマーク関数を含み、複雑な最適化ランドスケープをナビゲートし、そのパフォーマンスに関する貴重な洞察を提供するHEOの有効性と適応性を示す。 旅行セールスマン問題(TSP)におけるHEOの簡単なテストは、リアルタイムアプリケーションにおけるその実現可能性も推測する。

This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a novel quantum-inspired metaheuristic designed to address complex optimization problems characterized by rugged landscapes and high-dimensionality with an efficient convergence rate. The study presents a comprehensive comparative evaluation of HEO's performance against established optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating complex optimization landscapes and providing valuable insights into its performance. The simple test of HEO in Traveling Salesman Problem (TSP) also infers its feasibility in real-time applications.
翻訳日:2024-05-14 21:03:09 公開日:2024-05-13
# トポロジカル量子電池

Topological Quantum Batteries ( http://arxiv.org/abs/2405.03675v2 )

ライセンス: Link先を確認
Zhi-Guang Lu, Guoqing Tian, Xin-You Lü, Cheng Shang, (参考訳) 本稿では,2つの原子をトポロジ的特徴を持つ1次元格子に結合するトポロジカル量子電池の革新的な設計法を提案する。 本手法を用いて, 量子電池(QB)の熱力学特性を解析的に検討した。 まず、コヒーレントな境界状態のみがQBの貯蔵エネルギーに大きく寄与することを示す。 我々は、位相的に非自明な位相において、量子充電器から量子電池(QB)へのほぼ完全なエネルギー移動を観測する。 逆に、位相的に自明な位相において、マルコフ極限の下では、退化ゼロエネルギー境界状態の出現によりQBの充電過程はほぼ完全に禁止される。 さらに, 最大エネルギー貯蔵量は相境界における特異な挙動を示す。 第2に、QBと量子チャージャーの直接結合は、暗黒状態と空孔様の着衣状態の存在によって促進されるエルゴトロピー免疫を亜格子散逸に誘導する。 さらに,量子ゼノ効果の出現とともに散逸が増大するにつれて,QBsの帯電力は過渡的に増強されることを示す。 本研究は, 構造型貯水池工学を通してQBの性能向上を図るための洞察に富んだガイドラインを提供する。

We propose an innovative design for topological quantum batteries that involves coupling two atoms to a one-dimensional lattice with topological features. Employing the resolvent method, we analytically explore the thermodynamic performances of quantum batteries (QBs). First, we demonstrate that only coherent bound states significantly contribute to the stored energy of QBs. We observe near-perfect energy transfer from the quantum charger to the quantum battery (QB) in the topologically nontrivial phase. Conversely, in the topologically trivial phase, we reveal that under the Markov limit, the charging process of the QB is almost completely prohibited due to the emergence of degenerate zero-energy bound states. Moreover, we discover that the maximum energy storage exhibits singular behavior at the phase boundaries. Second, we find that direct coupling between the QB and quantum charger renders the ergotropy immune to sublattice dissipation, facilitated by the presence of a dark state and vacancy-like dressed bound state. Further, we show that as dissipation intensifies along with the emergence of the quantum Zeno effect, the charging power of QBs is transiently enhanced. Our findings provide insightful guidelines for practically enhancing the performance of QBs through structured reservoir engineering.
翻訳日:2024-05-14 20:52:15 公開日:2024-05-13
# PETでゲームをする: 部分探索ツールを確率ゲームに拡張

Playing Games with your PET: Extending the Partial Exploration Tool to Stochastic Games ( http://arxiv.org/abs/2405.03885v2 )

ライセンス: Link先を確認
Tobias Meggendorfer, Maximilian Weininger, (参考訳) 本稿では,確率システムの検証ツールである部分探索ツール(PET)のバージョン2.0を提案する。 我々は,最近,音価反復アルゴリズムの統一化フレームワークに基づいて,確率ゲームのサポートを追加することで,前バージョンを拡張した。 これにより、PET2は、型到達性と安全性、平均ペイオフを目標とした確率ゲームを解決するための、音質と効率のよいアプローチを最初に実装したツールである。 我々は,3つの目的すべてに対して部分探索に基づく変種を開発し,実装することで,このアプローチを補完する。 実験の結果,PET2は最も効率的な部分探索に基づくアルゴリズムであり,SG上では最も有効なツールであり,非音響ツールよりも優れていた。

We present version 2.0 of the Partial Exploration Tool (PET), a tool for verification of probabilistic systems. We extend the previous version by adding support for stochastic games, based on a recent unified framework for sound value iteration algorithms. Thereby, PET2 is the first tool implementing a sound and efficient approach for solving stochastic games with objectives of the type reachability/safety and mean payoff. We complement this approach by developing and implementing a partial-exploration based variant for all three objectives. Our experimental evaluation shows that PET2 offers the most efficient partial-exploration based algorithm and is the most viable tool on SGs, even outperforming unsound tools.
翻訳日:2024-05-14 20:52:15 公開日:2024-05-13
# FRACTAL: 横ランドスケープの3次元セマンティックセマンティックセグメンテーションのための超大規模空中ライダーデータセット

FRACTAL: An Ultra-Large-Scale Aerial Lidar Dataset for 3D Semantic Segmentation of Diverse Landscapes ( http://arxiv.org/abs/2405.04634v2 )

ライセンス: Link先を確認
Charles Gaydon, Michel Daab, Floryne Roche, (参考訳) マッピング機関は、領域を監視し、公共政策をサポートするための新しいツールとして、Aerial Lidar Scanning(ALS)をますます採用している。 ALSデータを大規模に処理するには、高度に多様な領域でよく機能する効率的なポイント分類方法が必要である。 それらを評価するには、研究者は大きな注釈付きLidarデータセットが必要であるが、現在のLidarベンチマークデータセットはスコープが制限されており、しばしば1つの都市領域をカバーする。 このデータギャップを埋めるために、FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: Ultra-large-scale air Lidar dataset of 100,000 dense point clouds with high-quality labels for 7 semantic class and spaning 250 km$^2$。 FRACTALはフランスの全国的オープンライダーデータに基づいて構築されている。 サンプリングスキームによって空間的・意味的な多様性を達成し、5つのフランス地域からの希少なクラスと挑戦的な景観を明示的に集中させる。 大規模土地モニタリングのための3次元深層学習手法の開発を支援する必要がある。 本稿では,ソースデータの性質,サンプリングワークフロー,得られたデータセットの内容について述べるとともに,実演型3Dニューラルアーキテクチャを用いたセグメンテーション性能の初期評価を行う。

Mapping agencies are increasingly adopting Aerial Lidar Scanning (ALS) as a new tool to monitor territory and support public policies. Processing ALS data at scale requires efficient point classification methods that perform well over highly diverse territories. To evaluate them, researchers need large annotated Lidar datasets, however, current Lidar benchmark datasets have restricted scope and often cover a single urban area. To bridge this data gap, we present the FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: an ultra-large-scale aerial Lidar dataset made of 100,000 dense point clouds with high-quality labels for 7 semantic classes and spanning 250 km$^2$. FRACTAL is built upon France's nationwide open Lidar data. It achieves spatial and semantic diversity via a sampling scheme that explicitly concentrates rare classes and challenging landscapes from five French regions. It should support the development of 3D deep learning approaches for large-scale land monitoring. We describe the nature of the source data, the sampling workflow, the content of the resulting dataset, and provide an initial evaluation of segmentation performance using a performant 3D neural architecture.
翻訳日:2024-05-14 20:52:15 公開日:2024-05-13
# スペクトル正規化結合エネルギーを用いたマルチラベル分布検出

Multi-Label Out-of-Distribution Detection with Spectral Normalized Joint Energy ( http://arxiv.org/abs/2405.04759v2 )

ライセンス: Link先を確認
Yihan Mei, Xinyu Wang, Dell Zhang, Xiaoling Wang, (参考訳) 今日の相互接続の世界では、信頼性の高いアウト・オブ・ディストリビューション(OOD)検出を実現することが、マシンラーニングモデルにとって大きな課題となっている。 多くの研究がマルチクラスOOD検出タスクの改善アプローチを導入しているが、マルチラベルOOD検出タスクの研究は顕著に限られている。 エネルギーベース関数の理論的に正当化された概念を通じて,複数のラベルにまたがるラベル固有情報を集約する手法であるスペクトル正規化結合エネルギー(SNoJoE)を紹介する。 トレーニング過程を通じて,モデルの特徴空間を管理するためにスペクトル正規化を用い,モデルの有効性と一般化を高め,ロバスト性を高める。 以上の結果から, スペクトル正規化を結合エネルギースコアに適用することにより, OOD検出能力が向上することが示唆された。 我々は,PASCAL-VOCを分布内データセットとし,ImageNet-22KまたはTextureを分布外データセットとしてOOD検出実験を行う。 実験結果から,SNoJoEは従来のトップパフォーマンスと比較して,各OODデータセットにおけるFPR95の11%と54%の相対的な減少を達成し,この領域における新たな最先端技術の定義が得られた。

In today's interconnected world, achieving reliable out-of-distribution (OOD) detection poses a significant challenge for machine learning models. While numerous studies have introduced improved approaches for multi-class OOD detection tasks, the investigation into multi-label OOD detection tasks has been notably limited. We introduce Spectral Normalized Joint Energy (SNoJoE), a method that consolidates label-specific information across multiple labels through the theoretically justified concept of an energy-based function. Throughout the training process, we employ spectral normalization to manage the model's feature space, thereby enhancing model efficacy and generalization, in addition to bolstering robustness. Our findings indicate that the application of spectral normalization to joint energy scores notably amplifies the model's capability for OOD detection. We perform OOD detection experiments utilizing PASCAL-VOC as the in-distribution dataset and ImageNet-22K or Texture as the out-of-distribution datasets. Our experimental results reveal that, in comparison to prior top performances, SNoJoE achieves 11% and 54% relative reductions in FPR95 on the respective OOD datasets, thereby defining the new state of the art in this field of study.
翻訳日:2024-05-14 20:52:15 公開日:2024-05-13
# ガウス微分作用素のハイブリッド離散化に対する連続スケール空間に対する近似特性

Approximation properties relative to continuous scale space for hybrid discretizations of Gaussian derivative operators ( http://arxiv.org/abs/2405.05095v2 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 本稿では,正規化されたガウスカーネルあるいはガウスカーネルとの畳み込みに基づいて,ガウス微分の2つのハイブリッド離散化法の特性を解析し,中心的な相違について述べる。 これらの離散化法を研究する動機は、異なる順序の空間微分が同じスケールレベルで必要となる状況において、サンプル化されたガウス核またはガウス核との明示的な畳み込みに基づくより直接的な微分近似と比較して、より効率的に計算することができることである。 これらの計算的利点は、ガウスの核の離散的アナログとの畳み込みに基づくガウスの微分の離散的アナログを計算するための真に離散的なアプローチにも当てはまるが、ガウスの核の離散的アナログに対する基礎となる数学的原始は、整数順序のベッセル関数(英語版)(Bessel function of integer order)という観点から、ガウスの微分のスケールパラメタライズドフィルタ(英語版)(scale-parameterized filters)に基づくディープラーニングの実行やスケールレベルの学習など、画像処理の特定のフレームワークでは利用できないかもしれない。 本稿では,これらのハイブリッド離散化手法の特性について,空間平滑化量に関する定量的な評価と,スケール不変な特徴量検出器から得られるスケール推定値の相対的整合性,および自動スケール選択によるスケールパラメータの非常に小さな値に対する挙動に着目し,完全連続スケール空間理論から得られる対応する結果と,異なるタイプの離散化法とを比較検討した。

This paper presents an analysis of properties of two hybrid discretization methods for Gaussian derivatives, based on convolutions with either the normalized sampled Gaussian kernel or the integrated Gaussian kernel followed by central differences. The motivation for studying these discretization methods is that in situations when multiple spatial derivatives of different order are needed at the same scale level, they can be computed significantly more efficiently compared to more direct derivative approximations based on explicit convolutions with either sampled Gaussian kernels or integrated Gaussian kernels. While these computational benefits do also hold for the genuinely discrete approach for computing discrete analogues of Gaussian derivatives, based on convolution with the discrete analogue of the Gaussian kernel followed by central differences, the underlying mathematical primitives for the discrete analogue of the Gaussian kernel, in terms of modified Bessel functions of integer order, may not be available in certain frameworks for image processing, such as when performing deep learning based on scale-parameterized filters in terms of Gaussian derivatives, with learning of the scale levels. In this paper, we present a characterization of the properties of these hybrid discretization methods, in terms of quantitative performance measures concerning the amount of spatial smoothing that they imply, as well as the relative consistency of scale estimates obtained from scale-invariant feature detectors with automatic scale selection, with an emphasis on the behaviour for very small values of the scale parameter, which may differ significantly from corresponding results obtained from the fully continuous scale-space theory, as well as between different types of discretization methods.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-13
# クレイル・MT:ラテンアメリカ、カリブ、コロニアル・アフリカ・クレオール語のためのMTを構築する

Kreyòl-MT: Building MT for Latin American, Caribbean and Colonial African Creole Languages ( http://arxiv.org/abs/2405.05376v2 )

ライセンス: Link先を確認
Nathaniel R. Robinson, Raj Dabre, Ammon Shurtz, Rasul Dent, Onenamiyi Onesi, Claire Bizon Monroc, Loïc Grobol, Hasan Muhammad, Ashi Garg, Naome A. Etori, Vijay Murari Tiyyala, Olanrewaju Samuel, Matthew Dean Stutzman, Bismarck Bamfo Odoom, Sanjeev Khudanpur, Stephen D. Richardson, Kenton Murray, (参考訳) 大部分の言語技術は少数の高リソース言語に向いているが、比較的多くの低リソース言語は無視されている。 そのようなグループであるクレオール語は、機械翻訳(MT)の恩恵を受けることができるが、学術研究において長い間辺境化されてきた。 これらの言語は主にラテンアメリカ、アフリカ、カリブ海で使われている。 並列翻訳を備えた14.5万のユニークなCreole文 -- 公開リリースの11.6万 -- を含む、Creole言語MTではこれまでで最大の累積データセットを示します。 さらに、41のクレオール言語を172の翻訳方向でサポートするMTモデルも提供する。 我々の多様なデータセットから、これまで以上にジャンルの多様性に晒されたクレオール言語MTのモデルを作成し、34の翻訳方向のうち26のベンチマークでジャンル固有のクレオールMTモデルより優れています。

A majority of language technologies are tailored for a small number of high-resource languages, while relatively many low-resource languages are neglected. One such group, Creole languages, have long been marginalized in academic study, though their speakers could benefit from machine translation (MT). These languages are predominantly used in much of Latin America, Africa and the Caribbean. We present the largest cumulative dataset to date for Creole language MT, including 14.5M unique Creole sentences with parallel translations -- 11.6M of which we release publicly, and the largest bitexts gathered to date for 41 languages -- the first ever for 21. In addition, we provide MT models supporting all 41 Creole languages in 172 translation directions. Given our diverse dataset, we produce a model for Creole language MT exposed to more genre diversity than ever before, which outperforms a genre-specific Creole MT model on its own benchmark for 26 of 34 translation directions.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-13
# 量子力学からの自由落下の創発的普遍性

Emergent universality of free fall from quantum mechanics ( http://arxiv.org/abs/2405.07403v1 )

ライセンス: Link先を確認
Juan A. Cañas, A. Martín-Ruiz, J. Bernal, (参考訳) 運動の古典的および量子力学的記述は根本的に異なる。 自由落下の普遍性(英: universality of free fall、UFF)は古典的な運動(驚くべき精度で検証されている)の特徴であり、量子理論は確率と不確実性だけでUFFを破る。 古典的な記述は量子力学から、妥当な仮説の下で出現しなければならないと信じる大きな理由がある。 このエッセイでは、UFFは創発的な現象であり、高エネルギーレベルの粗粒の量子分布は、古典的な分布を最低次+量子補正として導く。 E\"otv\"osパラメータでこれらの補正のサイズを推定し、物理的意味を議論する。

Classical and quantum mechanical descriptions of motion are fundamentally different. The universality of free fall (UFF) is a distinguishing feature of the classical motion (which has been verified with astonishing precision), while quantum theory tell us only about probabilities and uncertainties thus breaking the UFF. There are strong reasons to believe that the classical description must emerge, under plausible hypothesis, from quantum mechanics. In this Essay we show that the UFF is an emergent phenomenon: the coarse-grained quantum distribution for high energy levels leads to the classical distribution as the lowest order plus quantum corrections. We estimate the size of these corrections on the E\"otv\"os parameter and discuss the physical implications.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 室内PM2.5予測と屋外大気汚染との関連性:オーストラリアにおけるセンサデータに基づくモデル化研究

Indoor PM2.5 forecasting and the association with outdoor air pollution: a modelling study based on sensor data in Australia ( http://arxiv.org/abs/2405.07404v1 )

ライセンス: Link先を確認
Wenhua Yu, Bahareh Nakisa, Seng W. Loke, Svetlana Stevanovic, Yuming Guo, Mohammad Naim Rastgoo, (参考訳) 室内空気質の悪さは重大な健康リスクをもたらし、関連する危険を緩和するために徹底的な評価を必要とする。 本研究は, オーストラリアの24の建物において, 毎時室内微粒子物質(PM2.5)濃度を予測し, 屋外PM2.5濃度との相関について検討することを目的とする。 室内空気質データは、2019年から2022年までの8都市で91個の監視センサーから収集された。 3つのベースモデル(Support Vector Machine, Random Forest, eXtreme Gradient Boosting)と2つのメタモデル(Random Forest, Generalized Linear Model)からなる3段階深層学習フレームワーク(DEML)を用いて, 時間内PM2.5濃度を予測した。 このモデルの精度は、その性能を3つのベンチマークアルゴリズム(SVM、RF、XGBoost)と比較し、ローリングウインドウアプローチを用いて評価した。 さらに,室内PM2.5濃度と屋外PM2.5濃度の相関分析を行った。 結果は、DEMLモデルはベンチマークモデルよりも一貫して優れており、ほとんどのセンサーで0.63から0.99までのR2と0.01から0.663mg/m3までのRMSEを実現していることを示している。 特に屋外PM2.5濃度が室内の空気質に大きく影響した。 本研究は, 室内空気質の正確な予測の重要性, 位置特定早期警報システムの開発, 効果的な介入の実施に不可欠であることを示す。 保護行動の促進により、これらの取り組みは公衆衛生の成果の向上に寄与する。

Exposure to poor indoor air quality poses significant health risks, necessitating thorough assessment to mitigate associated dangers. This study aims to predict hourly indoor fine particulate matter (PM2.5) concentrations and investigate their correlation with outdoor PM2.5 levels across 24 distinct buildings in Australia. Indoor air quality data were gathered from 91 monitoring sensors in eight Australian cities spanning 2019 to 2022. Employing an innovative three-stage deep ensemble machine learning framework (DEML), comprising three base models (Support Vector Machine, Random Forest, and eXtreme Gradient Boosting) and two meta-models (Random Forest and Generalized Linear Model), hourly indoor PM2.5 concentrations were predicted. The model's accuracy was evaluated using a rolling windows approach, comparing its performance against three benchmark algorithms (SVM, RF, and XGBoost). Additionally, a correlation analysis assessed the relationship between indoor and outdoor PM2.5 concentrations. Results indicate that the DEML model consistently outperformed benchmark models, achieving an R2 ranging from 0.63 to 0.99 and RMSE from 0.01 to 0.663 mg/m3 for most sensors. Notably, outdoor PM2.5 concentrations significantly impacted indoor air quality, particularly evident during events like bushfires. This study underscores the importance of accurate indoor air quality prediction, crucial for developing location-specific early warning systems and informing effective interventions. By promoting protective behaviors, these efforts contribute to enhanced public health outcomes.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 機械学習: 総合的な調査

Machine Unlearning: A Comprehensive Survey ( http://arxiv.org/abs/2405.07406v1 )

ライセンス: Link先を確認
Weiqi Wang, Zhiyi Tian, Shui Yu, (参考訳) 忘れられる権利は世界中で合法化されているため、多くの研究は機械学習サービスプラットフォームを離れたい場合、ユーザのプライバシを保護する未学習メカニズムを設計しようと試みている。 具体的には、マシンラーニングとは、トレーニングデータセットの削除されたサブセットのコントリビューションを削除するための、トレーニングモデルを作成することだ。 この調査は、幅広い機械学習を体系的に分類し、それらの違い、つながり、オープンな問題について議論することを目的としている。 現在のアンラーニング手法は,集中型アンラーニング,分散および不規則なデータアンラーニング,アンラーニング検証,およびアンラーニングにおけるプライバシとセキュリティの問題の4つのシナリオに分類する。 まず、集中型アンラーニングを正確なアンラーニングと近似型アンラーニングに分類し、次に、これらの手法の詳細を紹介する。 集中型アンラーニングの他に、分散および不規則なデータアンラーニングに関するいくつかの研究や、フェデレーション付きアンラーニングとグラフアンラーニングを2つの代表的な方向として導入している。 アンラーニング手法を導入した後、未学習検証に関する研究をレビューする。 さらに,機械学習に必要なプライバシとセキュリティの問題を考察し,最新の文献を整理する。 最後に、様々な未学習シナリオの課題について議論し、潜在的研究の方向性に対処する。

As the right to be forgotten has been legislated worldwide, many studies attempt to design unlearning mechanisms to protect users' privacy when they want to leave machine learning service platforms. Specifically, machine unlearning is to make a trained model to remove the contribution of an erased subset of the training dataset. This survey aims to systematically classify a wide range of machine unlearning and discuss their differences, connections and open problems. We categorize current unlearning methods into four scenarios: centralized unlearning, distributed and irregular data unlearning, unlearning verification, and privacy and security issues in unlearning. Since centralized unlearning is the primary domain, we use two parts to introduce: firstly, we classify centralized unlearning into exact unlearning and approximate unlearning; secondly, we offer a detailed introduction to the techniques of these methods. Besides the centralized unlearning, we notice some studies about distributed and irregular data unlearning and introduce federated unlearning and graph unlearning as the two representative directions. After introducing unlearning methods, we review studies about unlearning verification. Moreover, we consider the privacy and security issues essential in machine unlearning and organize the latest related literature. Finally, we discuss the challenges of various unlearning scenarios and address the potential research directions.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# PitcherNet: 野球のビデオ分析におけるマネーボールの進化

PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics ( http://arxiv.org/abs/2405.07407v1 )

ライセンス: Link先を確認
Jerrin Bright, Bavesh Balaji, Yuhao Chen, David A Clausi, John S Zelek, (参考訳) 野球の世界では、ピッチャーのメカニックのすべてのニュアンスは、パフォーマンスの最大化とランの最小化の鍵を握る。 従来の分析手法は、しばしば事前記録されたオフラインの数値データに依存しており、ライブゲームの動的環境におけるそれらの応用を妨げる。 放送ビデオの分析は理想的と思われるが、動きのぼやけや解像度の低さなど、大きな課題に直面している。 これらの課題に対処するため,我々は,ピッチャーキネマティクスを直接生放送ビデオから分析し,速度,リリースポイント,ピッチ位置,リリース拡張といった貴重なピッチ統計を抽出するエンドツーエンド自動システムであるPitcherNetを紹介した。 本システムは,(1)プレイヤーの運動学からの行動分離によるプレイヤー追跡と識別,(2)分布と深度を考慮した3次元人体モデリング,(3)キネマティック駆動型ピッチ統計の3つの重要な要素を活用する。 PitcherNetは、ピッチャーのトラックレット同定において96.82%の精度で頑健な解析結果を達成し、関節位置誤差を1.8mm削減し、ベースライン法よりも優れた分析結果を得た。 PitcherNetは、放送ビデオからパフォーマンスクリティカルなキネマティック分析を可能にすることで、投球戦略を最適化し、怪我を防ぎ、ピッチャーメカニックの深い理解を解き、永久にゲームを変革することで、野球分析の未来への道を開く。

In the high-stakes world of baseball, every nuance of a pitcher's mechanics holds the key to maximizing performance and minimizing runs. Traditional analysis methods often rely on pre-recorded offline numerical data, hindering their application in the dynamic environment of live games. Broadcast video analysis, while seemingly ideal, faces significant challenges due to factors like motion blur and low resolution. To address these challenges, we introduce PitcherNet, an end-to-end automated system that analyzes pitcher kinematics directly from live broadcast video, thereby extracting valuable pitch statistics including velocity, release point, pitch position, and release extension. This system leverages three key components: (1) Player tracking and identification by decoupling actions from player kinematics; (2) Distribution and depth-aware 3D human modeling; and (3) Kinematic-driven pitch statistics. Experimental validation demonstrates that PitcherNet achieves robust analysis results with 96.82% accuracy in pitcher tracklet identification, reduced joint position error by 1.8mm and superior analytics compared to baseline methods. By enabling performance-critical kinematic analysis from broadcast video, PitcherNet paves the way for the future of baseball analytics by optimizing pitching strategies, preventing injuries, and unlocking a deeper understanding of pitcher mechanics, forever transforming the game.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# MoVL:医療画像における事前訓練モデルのドメイン適応的利用のための融合戦略の探索

MoVL:Exploring Fusion Strategies for the Domain-Adaptive Application of Pretrained Models in Medical Imaging Tasks ( http://arxiv.org/abs/2405.07411v1 )

ライセンス: Link先を確認
Haijiang Tian, Jingkun Yue, Xiaohong Liu, Guoxing Yang, Zeyu Jiang, Guangyu Wang, (参考訳) 医療画像は、機器や技術の特殊性のため、自然画像よりも取得が難しい場合が多く、医療画像のデータセットが少なくなる。 したがって、強い事前訓練された医療ビジョンモデルを訓練することは困難である。 自然に訓練済みの視覚モデルを最大限に活用し、医療領域に適応する方法は、今でも変わりません。 画像分類ではリニアプローブ (Line probe, LP) が一般的である。 しかし、LPは特徴抽出後の出力のみを考慮する。 しかし、入力医療画像と自然予知視覚モデルの間にはギャップがある。 ギャップを埋めるために視覚的プロンプト(VP)を導入し、LPとVPの結合戦略を分析する。 我々は,この連立学習戦略MoVL (Mixture of Visual Prompting and Linear Probe) を命名し,連立学習損失と連立学習損失を含む連立学習損失関数を設計した。 本研究では、ResNetとCLIPの2つの主流アーキテクチャを用いて、4つの医用画像分類データセットを実験した。 その結果、バックボーンモデルのパラメータやアーキテクチャを変更することなく、より少ないパラメータでは、完全な微細な(FF)精度を達成する可能性がある(4つの医学データセットでは、平均90.91%がMoVL、91.13%がFF)。 分布医学データセットの内訳では, FF (85.15%) を5.18 %リードで上回り, FF (85.15%) を上回った。

Medical images are often more difficult to acquire than natural images due to the specialism of the equipment and technology, which leads to less medical image datasets. So it is hard to train a strong pretrained medical vision model. How to make the best of natural pretrained vision model and adapt in medical domain still pends. For image classification, a popular method is linear probe (LP). However, LP only considers the output after feature extraction. Yet, there exists a gap between input medical images and natural pretrained vision model. We introduce visual prompting (VP) to fill in the gap, and analyze the strategies of coupling between LP and VP. We design a joint learning loss function containing categorisation loss and discrepancy loss, which describe the variance of prompted and plain images, naming this joint training strategy MoVL (Mixture of Visual Prompting and Linear Probe). We experiment on 4 medical image classification datasets, with two mainstream architectures, ResNet and CLIP. Results shows that without changing the parameters and architecture of backbone model and with less parameters, there is potential for MoVL to achieve full finetune (FF) accuracy (on four medical datasets, average 90.91% for MoVL and 91.13% for FF). On out of distribution medical dataset, our method(90.33%) can outperform FF (85.15%) with absolute 5.18 % lead.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# プレテキストタスクとしてのバインディング: タブラルドメインにおける自己指導型学習の改善

Binning as a Pretext Task: Improving Self-Supervised Learning in Tabular Domains ( http://arxiv.org/abs/2405.07414v1 )

ライセンス: Link先を確認
Kyungeun Lee, Ye Seul Sim, Hye-Seung Cho, Moonjung Eo, Suhee Yoon, Sanghyu Yoon, Woohyung Lim, (参考訳) ディープネットワークが優れた表現を学習する能力は、データセット固有の特性を考慮して、適切な帰納的バイアスを活用することにある。 表領域では、一意的に不均一な特徴(カテゴリー的特徴と数値的特徴の両方)を効果的に扱い、断片的定数関数のような不規則な関数を把握することが重要である。 自己教師型学習フレームワークにおける課題に対処するために,古典的双対法に基づく新しいプレテキストタスクを提案する。 その考え方は単純で、元の値ではなく、binインデックス(順序またはクラス)を再構築する。 このプリテキストタスクは、不規則な依存関係をキャプチャし、連続的な入力から離散化されたビンにマッピングし、すべての特徴をカテゴリタイプのターゲットに設定することで特徴の不均一性を緩和するインコーダに誘導バイアスを与える。 我々の実証研究は、不規則な関数のキャプチャ、エンコーダアーキテクチャとの互換性、追加の修正、すべての機能を同じセットに標準化、機能内で同様の値をグループ化、順序付け情報の提供など、ビンニングのいくつかの利点を実証している。 多様な表表データセットの包括的評価は,幅広い下流タスクに対する表表表現学習性能を一貫して向上させることを裏付けるものである。 コードはhttps://github.com/kyungeun-lee/tabularbinning.comで入手できる。

The ability of deep networks to learn superior representations hinges on leveraging the proper inductive biases, considering the inherent properties of datasets. In tabular domains, it is critical to effectively handle heterogeneous features (both categorical and numerical) in a unified manner and to grasp irregular functions like piecewise constant functions. To address the challenges in the self-supervised learning framework, we propose a novel pretext task based on the classical binning method. The idea is straightforward: reconstructing the bin indices (either orders or classes) rather than the original values. This pretext task provides the encoder with an inductive bias to capture the irregular dependencies, mapping from continuous inputs to discretized bins, and mitigates the feature heterogeneity by setting all features to have category-type targets. Our empirical investigations ascertain several advantages of binning: capturing the irregular function, compatibility with encoder architecture and additional modifications, standardizing all features into equal sets, grouping similar values within a feature, and providing ordering information. Comprehensive evaluations across diverse tabular datasets corroborate that our method consistently improves tabular representation learning performance for a wide range of downstream tasks. The codes are available in https://github.com/kyungeun-lee/tabularbinning.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 確率被覆最適化のための構造強化学習

Structured Reinforcement Learning for Incentivized Stochastic Covert Optimization ( http://arxiv.org/abs/2405.07415v1 )

ライセンス: Link先を確認
Adit Jain, Vikram Krishnamurthy, (参考訳) 本稿では,確率勾配アルゴリズム(SG)を用いて,局所定常点の推定値を盗聴者から隠蔽する方法について検討する。 このような問題は、フェデレートラーニングや在庫管理といった分散最適化設定に大きな関心を寄せている。 学習者は確率的オラクルを問合せし、オラクルにインセンティブを与えてノイズのある勾配測定を行い、SGを実行する。 オラクルは、オラクルの状態とインセンティブに応じて、関数の雑音的な勾配または非形式的な測定を確率的に返す。 学習者のクエリとインセンティブは、静止点を見積もる盗聴者によって見ることができる。 本稿では,確率的オラクルを動的にインセンティブ化し,盗聴者を有限水平マルコフ決定プロセス(MDP)として難読化することで,包括的最適化を行う学習者の問題を定式化する。 コストと遷移確率構造における区間支配条件を用いて, MDP の最適ポリシがモノトーン閾値構造を持つことを示す。 本稿では,確率近似アルゴリズムとマルチアームバンディット手法を用いて,しきい値構造を用いた最適定常ポリシーの探索を提案する。 本手法の有効性は,隠れた学習ヘイト音声分類タスクにおいて数値的に実証される。

This paper studies how a stochastic gradient algorithm (SG) can be controlled to hide the estimate of the local stationary point from an eavesdropper. Such problems are of significant interest in distributed optimization settings like federated learning and inventory management. A learner queries a stochastic oracle and incentivizes the oracle to obtain noisy gradient measurements and perform SG. The oracle probabilistically returns either a noisy gradient of the function} or a non-informative measurement, depending on the oracle state and incentive. The learner's query and incentive are visible to an eavesdropper who wishes to estimate the stationary point. This paper formulates the problem of the learner performing covert optimization by dynamically incentivizing the stochastic oracle and obfuscating the eavesdropper as a finite-horizon Markov decision process (MDP). Using conditions for interval-dominance on the cost and transition probability structure, we show that the optimal policy for the MDP has a monotone threshold structure. We propose searching for the optimal stationary policy with the threshold structure using a stochastic approximation algorithm and a multi-armed bandit approach. The effectiveness of our methods is numerically demonstrated on a covert federated learning hate-speech classification task.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 機械学習モデルによる映像解析による屋外・屋外集団密度推定

Indoor and Outdoor Crowd Density Level Estimation with Video Analysis through Machine Learning Models ( http://arxiv.org/abs/2405.07419v1 )

ライセンス: Link先を確認
Mahira Arefin, Md. Anwar Hussen Wadud, Anichur Rahman, (参考訳) 群衆密度レベル推定は、過密や必要条件の可能性のある領域を特定するのに役立つため、群衆の安全にとって不可欠な側面である。 今日では、AIシステムはさまざまな分野で役に立つ。 ここでは、安全上の目的や、公共サービスによる群衆の検出、追跡、あるいは群衆レベルの推定が不可欠である。 そこで私たちは、目的を達成するためにAIプロジェクトを構築することにしました。 このプロジェクトは、画像、ビデオ、ウェブカメラから群衆を検出する。 これらの画像、ビデオ、ウェブカメラから、このシステムは人間を検出し、追跡し、特定することができる。 このシステムは、群衆レベルを推定することもできる。 このプロジェクトはシンプルですが、非常に効果的で、ユーザフレンドリで、コストも少なくなります。 また、データセットを使ってシステムをトレーニングしました。 私たちのシステムは、群衆を予測することもできます。 AIシステムは100パーセント以上正確ではないが、このプロジェクトは97%以上正確だ。 また、グラフィカルな方法でデータセットを表現します。

Crowd density level estimation is an essential aspect of crowd safety since it helps to identify areas of probable overcrowding and required conditions. Nowadays, AI systems can help in various sectors. Here for safety purposes or many for public service crowd detection, tracking or estimating crowd level is essential. So we decided to build an AI project to fulfil the purpose. This project can detect crowds from images, videos, or webcams. From these images, videos, or webcams, this system can detect, track and identify humans. This system also can estimate the crowd level. Though this project is simple, it is very effective, user-friendly, and less costly. Also, we trained our system with a dataset. So our system also can predict the crowd. Though the AI system is not a hundred percent accurate, this project is more than 97 percent accurate. We also represent the dataset in a graphical way.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 一次元格子における二アニオン問題に対する直交基底ベクトルの必要性

Necessity of orthogonal basis vectors for the two-anyon problem in one-dimensional lattice ( http://arxiv.org/abs/2405.07424v1 )

ライセンス: Link先を確認
Cuicui Zheng, Jiahui Xie, Ming Zhang, Yajiang Chen, Yunbo Zhang, (参考訳) 量子ウォークや2つのアニオン状態のブロッホ振動を含む、エノン-ハバードモデルにおいて、エノンの物理はほとんど研究されていない。 しかし、1次元格子における2つのアニオン状態の理論的提案と実験シミュレーションは、波動関数を非直交基底ベクトル(英語版)によって拡張し、余分な非物理的自由度を導入した。 本研究では、直交基底ベクトルを持つシュリンガー方程式を解くことにより、一次元格子における二アニオン状態に対する有限差分方程式を導出する。 このような直交スキームは、時間非依存の2-アニオンシュル「オーディンガー方程式」に対するすべての直交的物理的固有状態を与えるが、一方、従来の(非直交)手法は、成分が正準関係に反する多くの非物理的冗長固有解を生成する。 十分に大きな格子中の2つのアニオン状態の動的性質について、直交的および従来のスキームの両方で検討し、初期状態に決定的に依存することが証明された。 同一部位に2つのエノンを持つ初期状態または(next-)隣り合う部位が、正の係数関係に適合するように好適に選択された場合、再生確率、確率密度関数、および2体相関を含む2つのスキームにおいて全く同じ動的挙動を観察し、そうでなければ、従来のスキームは、もはやエノンを記述しない誤った結果を生成する。 擬フェルミオン限界におけるブロッホ振動の周期はボソニック限界の2倍であり、その間に統計的パラメータの振動が消える。 我々の発見は、格子にエノンを配置した数体物理学の量子シミュレーションに不可欠である。

Few-body physics for anyons has been intensively studied within the anyon-Hubbard model, including the quantum walk and Bloch oscillations of two-anyon states. However, the known theoretical proposal and experimental simulations of two-anyon states in one-dimensional lattice have been carried out by expanding the wavefunction in terms of non-orthogonal basis vectors, which introduces extra non-physical degrees of freedom. In the present work, we deduce the finite difference equations for the two-anyon state in the one-dimensional lattice by solving the Schr\"odinger equation with orthogonal basis vectors. Such an orthogonal scheme gives all the orthogonal physical eigenstates for the time-independent two-anyon Schr\"odinger equation, while the conventional (non-orthogonal) method produces a lot of non-physical redundant eigen-solutions whose components violate the anyonic relations. The dynamical property of the two-anyon states in a sufficiently large lattice has been investigated and compared in both the orthogonal and conventional schemes, which proves to depend crucially on the initial states. When the initial states with two anyons on the same site or (next-)neighboring sites are suitably chosen to be in accordance with the anyonic coefficient relation, we observe exactly the same dynamical behavior in the two schemes, including the revival probability, the probability density function, and the two-body correlation, otherwise, the conventional scheme will produce erroneous results which not any more describe anyons. The period of the Bloch oscillation in the pseudo-fermionic limit is found to be twice that in the bosonic limit, while the oscillations disappear for statistical parameters in between. Our findings are vital for quantum simulations of few-body physics with anyons in the lattice.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# Sakuga-42Mデータセット:カートゥーン研究の規模拡大

Sakuga-42M Dataset: Scaling Up Cartoon Research ( http://arxiv.org/abs/2405.07425v1 )

ライセンス: Link先を確認
Zhenglin Pan, Yu Zhu, Yuxuan Mu, (参考訳) 手描き漫画のアニメーションは、スケッチとフラットカラーのセグメントを使って、動きの錯覚を生み出している。 CLIP、SVD、Soraといった最近の進歩は、大規模なデータセットで大規模モデルをスケーリングすることで、自然ビデオの理解と生成において驚くべき結果を示しているが、漫画ではそれほど効果的ではない。 実験的な実験を通して、この非効率性は自然映像の配信から分岐する手描き漫画の顕著なバイアスに起因すると論じる。 スケーリングパラダイムの成功を利用して漫画研究に役立てることができるか? 残念ながら、これまで大規模なマンガのデータセットは公開されていない。 本研究では,最初の大規模アニメーションデータセットであるSakuga-42Mデータセットを提案する。 Sakuga-42Mは、さまざまな芸術様式、地域、年数をカバーする4400万のキーフレームで構成され、ビデオテキスト記述ペア、アニメタグ、コンテンツ分類など、包括的な意味アノテーションを備えている。 映像CLIP, Video Mamba, SVDなどの現代基盤モデルを微調整し, 漫画関連タスクにおいて優れたパフォーマンスを達成し, 理解と生成タスクに対する大規模な漫画データセットの利点を開拓した。 我々のモチベーションは、漫画研究に大規模スケーリングを導入し、将来の漫画応用における一般化と堅牢性を促進することである。 Dataset、Code、Pretrained Modelsが公開される。

Hand-drawn cartoon animation employs sketches and flat-color segments to create the illusion of motion. While recent advancements like CLIP, SVD, and Sora show impressive results in understanding and generating natural video by scaling large models with extensive datasets, they are not as effective for cartoons. Through our empirical experiments, we argue that this ineffectiveness stems from a notable bias in hand-drawn cartoons that diverges from the distribution of natural videos. Can we harness the success of the scaling paradigm to benefit cartoon research? Unfortunately, until now, there has not been a sizable cartoon dataset available for exploration. In this research, we propose the Sakuga-42M Dataset, the first large-scale cartoon animation dataset. Sakuga-42M comprises 42 million keyframes covering various artistic styles, regions, and years, with comprehensive semantic annotations including video-text description pairs, anime tags, content taxonomies, etc. We pioneer the benefits of such a large-scale cartoon dataset on comprehension and generation tasks by finetuning contemporary foundation models like Video CLIP, Video Mamba, and SVD, achieving outstanding performance on cartoon-related tasks. Our motivation is to introduce large-scaling to cartoon research and foster generalization and robustness in future cartoon applications. Dataset, Code, and Pretrained Models will be publicly available.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 注意をそらすな! 機能推論によるロングテールソフトウェアのテキスト脆弱性記述における重要な側面の欠如

Don't Chase Your Tail! Missing Key Aspects Augmentation in Textual Vulnerability Descriptions of Long-tail Software through Feature Inference ( http://arxiv.org/abs/2405.07430v1 )

ライセンス: Link先を確認
Linyi Han, Shidong Pan, Zhenchang Xing, Jiamou Sun, Sofonias Yitagesu, Xiaowang Zhang, Zhiyong Feng, (参考訳) 大規模なユーザベース(非ロングテールソフトウェアと呼ばれる)を持つソフトウェアのテクスチャ脆弱性記述(TVD)に欠落する重要な側面を増すことで、脆弱性分析とソフトウェアセキュリティ研究が大幅に進歩した。 しかし、これらの手法は、制限されたTVD、ソフトウェア機能のバリエーション、脆弱性分析やソフトウェア修復を妨げるドメイン固有のjargonにより、限られたユーザーベース(ロングテールソフトウェアと呼ばれる)を持つソフトウェアインスタンスを見落としていることが多い。 本稿では,長テールソフトウェアにおけるTVDの欠落する重要な側面を補うために,新しいソフトウェア機能推論フレームワークを提案する。 まず,CVE(Common Vulnerabilities and Exposures)を用いた政府データベースの相互参照により,コミュニティが管理する脆弱性データベースに見られる非標準ソフトウェア名の問題に取り組む。 次に、欠けている重要な側面を生成するために、LLM(Large Language Models)を使用します。 しかし、歴史的なTVDの入手が限られているため、様々な例が制限されている。 この制限を克服するために、我々はCWE(Common Weakness Enumeration)を用いて、すべてのTVDを分類し、クラスタセンターを代表例として選択する。 そこで本研究では,自然言語推論(NLI)モデルを提案する。 これらのモデルは、誤った応答を特定し、排除する。 さらに、プロプライエタリな用語の説明を提供するためにwikiリポジトリを使用します。 本手法は,ログテールソフトウェアにおけるTVDの欠落点を0.27から0.56(+107%)に拡大する精度を大幅に向上することを示す。 興味深いことに、非ロングテールソフトウェアの精度も64%から71%に向上している。 その結果,本手法は,完全なTVD情報を必要とする様々な下流業務において有用であることがわかった。

Augmenting missing key aspects in Textual Vulnerability Descriptions (TVDs) for software with a large user base (referred to as non-long-tail software) has greatly advanced vulnerability analysis and software security research. However, these methods often overlook software instances that have a limited user base (referred to as long-tail software) due to limited TVDs, variations in software features, and domain-specific jargon, which hinders vulnerability analysis and software repairs. In this paper, we introduce a novel software feature inference framework designed to augment the missing key aspects of TVDs for long-tail software. Firstly, we tackle the issue of non-standard software names found in community-maintained vulnerability databases by cross-referencing government databases with Common Vulnerabilities and Exposures (CVEs). Next, we employ Large Language Models (LLMs) to generate the missing key aspects. However, the limited availability of historical TVDs restricts the variety of examples. To overcome this limitation, we utilize the Common Weakness Enumeration (CWE) to classify all TVDs and select cluster centers as representative examples. To ensure accuracy, we present Natural Language Inference (NLI) models specifically designed for long-tail software. These models identify and eliminate incorrect responses. Additionally, we use a wiki repository to provide explanations for proprietary terms. Our evaluations demonstrate that our approach significantly improves the accuracy of augmenting missing key aspects of TVDs for log-tail software from 0.27 to 0.56 (+107%). Interestingly, the accuracy of non-long-tail software also increases from 64% to 71%. As a result, our approach can be useful in various downstream tasks that require complete TVD information.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 条件付き平均埋め込みの圧縮オンライン学習

Compressed Online Learning of Conditional Mean Embedding ( http://arxiv.org/abs/2405.07432v1 )

ライセンス: Link先を確認
Boya Hou, Sina Sanjari, Alec Koppel, Subhonmesh Bose, (参考訳) 条件平均埋め込み (CME) はマルコフ確率核を、再生されたカーネルヒルベルト空間 (RKHS) 内に埋め込まれた確率分布の作用を通じて符号化する。 CMEは強化学習、動的システムの解析など、よく知られた機械学習タスクにおいて重要な役割を果たす。 演算子評価確率勾配勾配を用いたデータからCMEを漸進的に学習するアルゴリズムを提案する。 有名なように、RKHSの関数学習は、大規模データによるスケーラビリティの課題に悩まされている。 我々は圧縮機構を利用してスケーラビリティの課題に対処する。 本論文のコアコントリビューションは、ターゲットCMEが仮説空間に含まれない場合、高速混合マルコフサンプルを用いたオンライン圧縮演算子学習アルゴリズムの最終繰り返しにおける有限サンプル性能保証である。 実例力学系の解析に適用し,本アルゴリズムの有効性について述べる。

The conditional mean embedding (CME) encodes Markovian stochastic kernels through their actions on probability distributions embedded within the reproducing kernel Hilbert spaces (RKHS). The CME plays a key role in several well-known machine learning tasks such as reinforcement learning, analysis of dynamical systems, etc. We present an algorithm to learn the CME incrementally from data via an operator-valued stochastic gradient descent. As is well-known, function learning in RKHS suffers from scalability challenges from large data. We utilize a compression mechanism to counter the scalability challenge. The core contribution of this paper is a finite-sample performance guarantee on the last iterate of the online compressed operator learning algorithm with fast-mixing Markovian samples, when the target CME may not be contained in the hypothesis space. We illustrate the efficacy of our algorithm by applying it to the analysis of an example dynamical system.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 表面符号に対する効率的なソフトアウトプットデコーダ

Efficient soft-output decoders for the surface code ( http://arxiv.org/abs/2405.07433v1 )

ライセンス: Link先を確認
Nadine Meister, Christopher A. Pattison, John Preskill, (参考訳) エラーシンドローム(ソフトアウトプットデコーダ)に条件付けられた論理的故障の確率を推定するデコーダは、フォールトトレラントな量子メモリと計算のオーバーヘッドコストを削減できる。 本研究では,最小重みマッチングとUnion-Findデコーダから導かれる表面コードに対して,効率的なソフトアウトプットデコーダを構築する。 内部符号が曲面符号であり,外部符号が高レートの量子低密度パリティチェック符号である連結スキームである階層符号(hierarchical code)の性能を向上させることができることを示す。 あるいは、ソフトアウトプット復号法は、論理誤差の確率が耐え難いため破棄すべき動作をフラグ付けすることで、フォールトトレラント回路サンプリングの信頼性を向上させることができる。

Decoders that provide an estimate of the probability of a logical failure conditioned on the error syndrome ("soft-output decoders") can reduce the overhead cost of fault-tolerant quantum memory and computation. In this work, we construct efficient soft-output decoders for the surface code derived from the Minimum-Weight Perfect Matching and Union-Find decoders. We show that soft-output decoding can improve the performance of a "hierarchical code," a concatenated scheme in which the inner code is the surface code, and the outer code is a high-rate quantum low-density parity-check code. Alternatively, the soft-output decoding can improve the reliability of fault-tolerant circuit sampling by flagging those runs that should be discarded because the probability of a logical error is intolerably large.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 言語モデルは独自の分類行動を説明することができるか?

Can Language Models Explain Their Own Classification Behavior? ( http://arxiv.org/abs/2405.07436v1 )

ライセンス: Link先を確認
Dane Sherburn, Bilal Chughtai, Owain Evans, (参考訳) 大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。 本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。 これを調べるために、簡単なルールで生成されたテキストベースの分類タスクを数ショットで分類するArticulateRulesというデータセットを紹介した。 各規則は単純な自然言語の説明に関連付けられている。 入力を有能に分類する学習をしたモデル(in-of-distributionとout-of-distriionの両方)が、その分類行動に適合する自由形式の自然言語説明を具体化できるかどうかを検証する。 私たちのデータセットは、コンテキスト内および微調整評価の両方に使用できます。 本研究は, GPT-3 から GPT-4 への顕著な増加とともに, 調音精度がモデルによって大きく変化することを示す。 そこで我々は, GPT-3の調音精度を, 様々な手法を用いて改善できるかどうかを検討した。 GPT-3は、正しい説明のさらなる微調整をした後でも、我々のテストで7/10のルールを具体化するのに完全に失敗する。 私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。

Large language models (LLMs) perform well at a myriad of tasks, but explaining the processes behind this performance is a challenge. This paper investigates whether LLMs can give faithful high-level explanations of their own internal processes. To explore this, we introduce a dataset, ArticulateRules, of few-shot text-based classification tasks generated by simple rules. Each rule is associated with a simple natural-language explanation. We test whether models that have learned to classify inputs competently (both in- and out-of-distribution) are able to articulate freeform natural language explanations that match their classification behavior. Our dataset can be used for both in-context and finetuning evaluations. We evaluate a range of LLMs, demonstrating that articulation accuracy varies considerably between models, with a particularly sharp increase from GPT-3 to GPT-4. We then investigate whether we can improve GPT-3's articulation accuracy through a range of methods. GPT-3 completely fails to articulate 7/10 rules in our test, even after additional finetuning on correct explanations. We release our dataset, ArticulateRules, which can be used to test self-explanation for LLMs trained either in-context or by finetuning.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# 検索機能強化ジェネレーションの評価:サーベイ

Evaluation of Retrieval-Augmented Generation: A Survey ( http://arxiv.org/abs/2405.07437v1 )

ライセンス: Link先を確認
Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, Zhaofeng Liu, (参考訳) Retrieval-Augmented Generation (RAG) は自然言語処理において重要な革新であり、外部情報検索を取り入れて生成モデルを向上させる。 しかしながら、RAGシステムの評価は、そのハイブリッド構造と動的知識源への依存により、異なる課題を生んでいる。 そこで我々は,RAGR (Retrieval, Generation, additional Requirement) と呼ばれるRAGRシステムのベンチマーク分析フレームワークを提案し,測定可能な出力に着目してRAGRベンチマークを体系的に解析し,真理を確立した。 具体的には、現在のRAG評価手法における内部リンクの関連性、正確性、忠実性など、検索および生成コンポーネントの複数の定量化指標を精査し、対比し、出力と基底真理のペアを網羅する。 また、異なる作業の追加要件の統合を分析し、現在のベンチマークの限界について議論し、これらの欠点に対処し、RAG評価の分野を前進させるための潜在的方向性を提案する。 本稿では,RAG評価に関わる課題を整理する。 提案したRGARフレームワークに基づいて,RAGベンチマーク設計のための既存手法の徹底的な分析と検証を行う。

Retrieval-Augmented Generation (RAG) has emerged as a pivotal innovation in natural language processing, enhancing generative models by incorporating external information retrieval. Evaluating RAG systems, however, poses distinct challenges due to their hybrid structure and reliance on dynamic knowledge sources. We consequently enhanced an extensive survey and proposed an analysis framework for benchmarks of RAG systems, RAGR (Retrieval, Generation, Additional Requirement), designed to systematically analyze RAG benchmarks by focusing on measurable outputs and established truths. Specifically, we scrutinize and contrast multiple quantifiable metrics of the Retrieval and Generation component, such as relevance, accuracy, and faithfulness, of the internal links within the current RAG evaluation methods, covering the possible output and ground truth pairs. We also analyze the integration of additional requirements of different works, discuss the limitations of current benchmarks, and propose potential directions for further research to address these shortcomings and advance the field of RAG evaluation. In conclusion, this paper collates the challenges associated with RAG evaluation. It presents a thorough analysis and examination of existing methodologies for RAG benchmark design based on the proposed RGAR framework.
翻訳日:2024-05-14 15:04:30 公開日:2024-05-13
# プライバシーを考慮したメール異常のアクティブラーニングにおける情報ゲインの最大化

Maximizing Information Gain in Privacy-Aware Active Learning of Email Anomalies ( http://arxiv.org/abs/2405.07440v1 )

ライセンス: Link先を確認
Mu-Huan Miles Chung, Sharon Li, Jaturong Kongmanee, Lu Wang, Yuhong Yang, Calvin Giang, Khilan Jerath, Abhay Raman, David Lie, Mark Chignell, (参考訳) 再実行されたメールは、ほとんどのプライバシー要件を満たすが、データの流出を示す可能性のある異常なメールを検出することがより困難になる。 本稿では,情報ゲイン最大化ヒューリスティックを用いたアクティブラーニングの強化手法を開発し,プライバシ上の懸念から,メールの再実行版のみを人間アナリストによってラベル付けできる実環境において,その有効性を評価する。 最初のケーススタディでは,アクティブラーニングの実施方法について検討した。 モデルのパフォーマンスは、1人の高度に熟練した(ラベル付けタスクの観点で)アナリストがラベルを提供したときに最もよいことがわかった。 第2のケーススタディでは、信頼性評価を用いて、アナリストのラベル付けの不確実性を推定し、各インスタンスのラベル付けによって提供される期待される情報ゲイン(モデル不確実性とアナリストの不確実性の違い)に基づいてラベル付けのインスタンスを優先順位付けしました。 その結果,アクティブラーニングのための既存のサンプリング手法よりも,情報最大化によるヒューリスティックなモデル性能の向上が得られた。 得られた結果に基づいて、サイバーセキュリティアプリケーションでActive Learningを実装する前に、アナリストをスクリーニングし、おそらく訓練することを推奨する。 また,情報ゲインの最大化(専門家の信頼度に基づく)をアクティブラーニングの初期段階で行うことを推奨する。 また、より低いラベル付けスキルを持つアナリストは、ラベルに対する(過剰な)信頼度が低かったため、Active Learningの前にアナリストの専門知識を評価するべきだとも指摘しています。

Redacted emails satisfy most privacy requirements but they make it more difficult to detect anomalous emails that may be indicative of data exfiltration. In this paper we develop an enhanced method of Active Learning using an information gain maximizing heuristic, and we evaluate its effectiveness in a real world setting where only redacted versions of email could be labeled by human analysts due to privacy concerns. In the first case study we examined how Active Learning should be carried out. We found that model performance was best when a single highly skilled (in terms of the labelling task) analyst provided the labels. In the second case study we used confidence ratings to estimate the labeling uncertainty of analysts and then prioritized instances for labeling based on the expected information gain (the difference between model uncertainty and analyst uncertainty) that would be provided by labelling each instance. We found that the information maximization gain heuristic improved model performance over existing sampling methods for Active Learning. Based on the results obtained, we recommend that analysts should be screened, and possibly trained, prior to implementation of Active Learning in cybersecurity applications. We also recommend that the information gain maximizing sample method (based on expert confidence) should be used in early stages of Active Learning, providing that well-calibrated confidence can be obtained. We also note that the expertise of analysts should be assessed prior to Active Learning, as we found that analysts with lower labelling skill had poorly calibrated (over-) confidence in their labels.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# OpenFOAM組み込みディープラーニングフレームワークを用いた粗大CFDシミュレーションにおける空間離散化誤差の低減

Reducing Spatial Discretization Error on Coarse CFD Simulations Using an OpenFOAM-Embedded Deep Learning Framework ( http://arxiv.org/abs/2405.07441v1 )

ライセンス: Link先を確認
Jesus Gonzalez-Sieiro, David Pardo, Vincenzo Nava, Victor M. Calo, Markus Towara, (参考訳) 粗い計算流体力学(CFD)問題における空間的離散化誤差を,高品質なデータを入力したディープラーニングモデルを用いて,低分解能シミュレーションの品質を高めることによって低減する手法を提案する。 我々は、セル中心から顔の値への速度を補間するフィードフォワードニューラルネットワークにより、対流項のデフォルトの差分法を置き換え、精細なデータをよく近似する速度を生成する。 ディープラーニングフレームワークには、オープンソースのCFDコードOpenFOAMが組み込まれており、エンドツーエンドの差別化モデルとなっている。 我々は、離散随伴符号バージョンを用いてCFD物理を自動的に区別する。 トレーニングプロセスを高速化するTensorFlow(Python)とOpenFOAM(c++)の高速通信方式を提案する。 8x粗いメッシュを用いたx-およびy-速度成分の従来の解法と比較して, トレーニング分布外のシミュレーションでは, 誤差を約50%削減した。 アーキテクチャは物理の局所的な特徴を利用しながら、中期シミュレーションの安定した予測を生成するため、時間とデータサンプルの観点からは、このトレーニングは安価である。

We propose a method for reducing the spatial discretization error of coarse computational fluid dynamics (CFD) problems by enhancing the quality of low-resolution simulations using a deep learning model fed with high-quality data. We substitute the default differencing scheme for the convection term by a feed-forward neural network that interpolates velocities from cell centers to face values to produce velocities that approximate the fine-mesh data well. The deep learning framework incorporates the open-source CFD code OpenFOAM, resulting in an end-to-end differentiable model. We automatically differentiate the CFD physics using a discrete adjoint code version. We present a fast communication method between TensorFlow (Python) and OpenFOAM (c++) that accelerates the training process. We applied the model to the flow past a square cylinder problem, reducing the error to about 50% for simulations outside the training distribution compared to the traditional solver in the x- and y-velocity components using an 8x coarser mesh. The training is affordable in terms of time and data samples since the architecture exploits the local features of the physics while generating stable predictions for mid-term simulations.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# Rene: 呼吸器疾患の鎮静のためのトレーニング済みマルチモーダルアーキテクチャ

Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases ( http://arxiv.org/abs/2405.07442v1 )

ライセンス: Link先を確認
Pengfei Zhang, Zhihang Zheng, Shichen Zhang, Minghao Yang, Shaojun Tang, (参考訳) 本研究では,事前学習した音声認識モデルを用いて呼吸音データを処理する手法を提案する。 医療記録情報を組み込むことにより,従来の呼吸器疾患に焦点を絞ったリアルタイム臨床診断応答における,理解性の低下と過小評価の課題に対処する,Reneという,革新的なマルチモーダル深層学習アーキテクチャを導入する。 提案されたReneアーキテクチャは、それぞれ10.24%、16.15%、15.29%、および18.90%の大幅な改善を示した。 ICBHIデータベースの患者疾患予測試験では,平均スコアの平均値とハーモニックスコアの平均値が23%向上した。 さらに,同時マイクロホン記録とリアルタイム動的復号のための2スレッド設計と圧縮モデルパラメータを特徴とするReneアーキテクチャに基づく実時間呼吸音識別システムを開発した。 最先端のEdge AI技術を利用することで、呼吸音の聴取に対する迅速かつ正確な応答を可能にし、ウェアラブルな臨床検出デバイスへの展開を容易にしてインクリメンタルデータをキャプチャし、ダウンストリームタスクのためにクラウドサーバにデプロイされた大規模なモデルと相乗的に進化させることができる。

This study presents a novel methodology utilizing a pre-trained speech recognition model for processing respiratory sound data. By incorporating medical record information, we introduce an innovative multi-modal deep-learning architecture, named Rene, which addresses the challenges of poor interpretability and underperformance in real-time clinical diagnostic response observed in previous respiratory disease-focused models. The proposed Rene architecture demonstrated significant improvements of 10.24%, 16.15%, 15.29%, and 18.90% respectively, compared to the baseline across four tasks related to respiratory event detection and audio record classification on the SPRSound database. In patient disease prediction tests on the ICBHI database, the architecture exhibited improvements of 23% in the mean of average score and harmonic score compared to the baseline. Furthermore, we developed a real-time respiratory sound discrimination system based on the Rene architecture, featuring a dual-thread design and compressed model parameters for simultaneous microphone recording and real-time dynamic decoding. Employing state-of-the-art Edge AI technology, this system enables rapid and accurate responses for respiratory sound auscultation, facilitating deployment on wearable clinical detection devices to capture incremental data, which can be synergistically evolved with large-scale models deployed on cloud servers for downstream tasks.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# 時間的に一貫した点群サンプリングと再構成による人骨格の運動鍵盤補間

Motion Keyframe Interpolation for Any Human Skeleton via Temporally Consistent Point Cloud Sampling and Reconstruction ( http://arxiv.org/abs/2405.07444v1 )

ライセンス: Link先を確認
Clinton Mo, Kun Hu, Chengjiang Long, Dong Yuan, Zhiyong Wang, (参考訳) キャラクターアニメーションの分野では、現代の教師付きキーフレーム補間モデルは、スパースポーズ定義から自然な人間の動きを構築する際、例外的な性能を示した。 教師付きモデルとして、学習プロセスを促進するためには大きな動きデータセットが必要であるが、動きは固定された階層的な骨格で表現されているため、そのようなデータセットはデータセットのネイティブな構成外の骨格と互換性がない。 その結果、所望の骨格に対する運動データセットの利用可能性は、実際に学習された補間が実現可能であることを著しく妨げている。 この制限に対処するため,運動補間学習のための骨格間の相互互換性を実現するための教師なしアプローチとして,ポイントクラウドを用いた運動表現学習(PC-MRL)を提案する。 PC-MRLは、時間点雲サンプリングを用いた骨格難読化戦略と、点雲からの教師なし骨格復元法からなる。 教師なし学習のための時間的ポイントワイドKアネレスの損失を考案する。 さらに,教師なしのクラウド・ツー・骨格運動プロセスに必要な制限を克服するために,第1フレームオフセット四元数(FOQ)とRPA(Rest Pose Augmentation)戦略を提案する。 包括的実験は、ネイティブデータセットの監督なしに、所望の骨格に対する運動補間におけるPC-MRLの有効性を示す。

In the character animation field, modern supervised keyframe interpolation models have demonstrated exceptional performance in constructing natural human motions from sparse pose definitions. As supervised models, large motion datasets are necessary to facilitate the learning process; however, since motion is represented with fixed hierarchical skeletons, such datasets are incompatible for skeletons outside the datasets' native configurations. Consequently, the expected availability of a motion dataset for desired skeletons severely hinders the feasibility of learned interpolation in practice. To combat this limitation, we propose Point Cloud-based Motion Representation Learning (PC-MRL), an unsupervised approach to enabling cross-compatibility between skeletons for motion interpolation learning. PC-MRL consists of a skeleton obfuscation strategy using temporal point cloud sampling, and an unsupervised skeleton reconstruction method from point clouds. We devise a temporal point-wise K-nearest neighbors loss for unsupervised learning. Moreover, we propose First-frame Offset Quaternion (FOQ) and Rest Pose Augmentation (RPA) strategies to overcome necessary limitations of our unsupervised point cloud-to-skeletal motion process. Comprehensive experiments demonstrate the effectiveness of PC-MRL in motion interpolation for desired skeletons without supervision from native datasets.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# プラグイン開発のための言語ベースのセキュリティの評価

Evaluating the Language-Based Security for Plugin Development ( http://arxiv.org/abs/2405.07448v1 )

ライセンス: Link先を確認
Naisheng Liang, Alex Potanin, (参考訳) プラグインベースのソフトウェアシステムの人気が高まっているため、プラグインのセキュリティを確保することが重要な問題となっている。 ユーザが信頼できないソースからプラグインをインストールしたり、Webサイトをブラウジングする場合、彼らが暗黙的に望ましくない機能を持っていることをどうやって確認できますか? 本研究では,プラグイン開発のための言語ベースのセキュリティ機構について包括的に研究する。 我々は,プラグインのアクセス制御脆弱性の理解を深め,機能ベースのシステムを導入することで,効果的なセキュリティ対策を探究することを目的としている。 また、IntelliJ IDEAやVisual Studio Codeのような一般的な開発環境におけるセキュリティメカニズムを評価するために、Java、JavaScript、関連するAPIやフレームワークを利用してテストプラグインを開発し、評価した。 また、プラグインセキュリティに代わるアプローチとして、機能ベースのモジュールシステムの概念についても検討する。 初期のセクションで特定されたアクセス制御脆弱性に対処する能力ベースシステムの有効性を評価するために比較分析を行った。 最後に、プラグインのセキュリティプラクティスとツールを改善するための推奨事項が提示され、ソフトウェアプラグインの進化を続ける状況における堅牢なセキュリティ対策の重要性を強調します。

With the increasing popularity of plugin-based software systems, ensuring the security of plugins has become a critical concern. When users install plugins or browse websites with plugins from an untrusted source, how can we be sure that they do have any undesirable functions implicitly? In this research, we present a comprehensive study on language-based security mechanisms for plugin development. We aim to enhance the understanding of access control vulnerabilities in plugins and explore effective security measures by introducing a capability-based system. We also developed and evaluated test plugins to assess the security mechanisms in popular development environments such as IntelliJ IDEA and Visual Studio Code by utilising Java, JavaScript, and associated APIs and frameworks. We also explore the concept of capability-based module systems as an alternative approach to plugin security. A comparative analysis is conducted to evaluate the effectiveness of capability-based systems in addressing access control vulnerabilities identified in earlier sections. Finally, recommendations for improving plugin security practices and tools will be presented, emphasizing the importance of robust security measures in the ever-evolving landscape of software plugins.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# CLIP-Powered TASS:オーディオ・ビジュアル質問応答のためのターゲット対応シングルストリームネットワーク

CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering ( http://arxiv.org/abs/2405.07451v1 )

ライセンス: Link先を確認
Yuanyuan Jiang, Jianqin Yin, (参考訳) 視覚言語事前学習モデル(VLM)は、様々なマルチモーダル理解タスクにおいて優れているが、特に音声-視覚的質問応答(AVQA)において、細粒度の音声-視覚的推論(英語版)においてその可能性はほとんど未解明のままである。 AVQAは、領域レベルでの視覚的理解とオーディオモダリティとのシームレスな統合が要求されるため、VLMに固有の課題を提示する。 以前のVLMベースのAVQA手法では、CLIPを機能エンコーダとしてのみ使用していたが、その知識を過小評価し、オーディオとビデオは、ほとんどのAVQA手法として、デュアルストリームフレームワーク内の別個のエンティティとして扱われていた。 本稿では,AVQAの音声・視覚的マッチング特性を用いて,事前学習したモデルの画像・テキストマッチング知識を用いて,AVQAのための新しいCLIP方式のターゲット・アウェア・シングルストリーム(TASS)ネットワークを提案する。 ターゲット認識空間接地モジュール(TSG+)と単一ストリーム関節時間接地モジュール(JTG)の2つの重要な構成要素から構成される。 具体的には,画像テキストマッチングの知識をCLIPモデルから領域テキストマッチングプロセスに転送するTSG+モジュールを提案する。 さらに、オーディオ-視覚融合モジュールの追加を必要とする以前の分離されたデュアルストリームネットワークとは異なり、JTGは単純化された単一ストリームアーキテクチャにおいて、音声-視覚融合と質問-認識の時間的グラウンドを統一する。 音声と映像を凝集体として扱うとともに、提案したクロスモーダル同期(CMS)損失と時間的相関を保ち、事前訓練された画像テキスト知識を音声テキストマッチングに拡張する。 MUSIC-AVQAベンチマークにより,提案手法の有効性を実証した。

While vision-language pretrained models (VLMs) excel in various multimodal understanding tasks, their potential in fine-grained audio-visual reasoning, particularly for audio-visual question answering (AVQA), remains largely unexplored. AVQA presents specific challenges for VLMs due to the requirement of visual understanding at the region level and seamless integration with audio modality. Previous VLM-based AVQA methods merely used CLIP as a feature encoder but underutilized its knowledge, and mistreated audio and video as separate entities in a dual-stream framework as most AVQA methods. This paper proposes a new CLIP-powered target-aware single-stream (TASS) network for AVQA using the image-text matching knowledge of the pretrained model through the audio-visual matching characteristic of nature. It consists of two key components: the target-aware spatial grounding module (TSG+) and the single-stream joint temporal grounding module (JTG). Specifically, we propose a TSG+ module to transfer the image-text matching knowledge from CLIP models to our region-text matching process without corresponding ground-truth labels. Moreover, unlike previous separate dual-stream networks that still required an additional audio-visual fusion module, JTG unifies audio-visual fusion and question-aware temporal grounding in a simplified single-stream architecture. It treats audio and video as a cohesive entity and further extends the pretrained image-text knowledge to audio-text matching by preserving their temporal correlation with our proposed cross-modal synchrony (CMS) loss. Extensive experiments conducted on the MUSIC-AVQA benchmark verified the effectiveness of our proposed method over existing state-of-the-art methods.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# PLA-SGCN:類似ペアと半教師付きグラフ畳み込みネットワークの統合によるタンパク質-リガンド結合親和性予測

PLA-SGCN: Protein-Ligand Binding Affinity Prediction by Integrating Similar Pairs and Semi-supervised Graph Convolutional Network ( http://arxiv.org/abs/2405.07452v1 )

ライセンス: Link先を確認
Karim Abbasi, Parvin Razzaghi, Amin Ghareyazi, Hamid R. Rabiee, (参考訳) タンパク質リガンド結合親和性(PLA)予測目標は、リガンドがタンパク質配列に結合するかどうかを予測することである。 近年,PLA予測では,ディープラーニングが注目されている。 深層学習に基づくアプローチには,機能抽出とタスク予測という2つのステップがある。 多くのディープラーニングベースのアプローチは、新機能抽出ネットワークの導入、タンパク質とタンパク質の相互作用ネットワークや遺伝子オントロジーの知識といった補助的な知識の統合に重点を置いている。 すると、タスク予測ネットワークは、完全に接続されたレイヤをシンプルに設計する。 本稿では,検索した類似のタンパク質-リガンドペアを,半教師付きグラフ畳み込みネットワーク(GCN)を用いてPLA予測(タスク予測ステップ)に統合することを目的とする。 多様体の滑らか度制約に基づいて、入力クエリサンプル毎にハードタンパク質-リガンドペアを検索する。 そして、各ノードがタンパク質-リガンド対であるグラフを自動的に学習し、各エッジがペア間の類似性を表す。 言い換えれば、ハードな類似のサンプルを同時に検索し、タンパク質リガンド記述子を学習し、検索した類似のハードなサンプル(学習隣接行列)で入力されたサンプルのグラフトポロジーを学習し、半教師付きGCNを学習して、結合親和性(タスク予測子)を予測するエンド・ツー・エンドのフレームワークが提案される。 トレーニングステップはパラメータ値を調整し、推論ステップでは、各入力サンプルに対して学習されたモデルを微調整する。 提案手法を評価するために、有名な4つのPDBbind、Davis、KIBA、BindingDBデータセットに適用する。 その結果,提案手法は同等の手法よりも優れた性能を示した。

The protein-ligand binding affinity (PLA) prediction goal is to predict whether or not the ligand could bind to a protein sequence. Recently, in PLA prediction, deep learning has received much attention. Two steps are involved in deep learning-based approaches: feature extraction and task prediction step. Many deep learning-based approaches concentrate on introducing new feature extraction networks or integrating auxiliary knowledge like protein-protein interaction networks or gene ontology knowledge. Then, a task prediction network is designed simply using some fully connected layers. This paper aims to integrate retrieved similar hard protein-ligand pairs in PLA prediction (i.e., task prediction step) using a semi-supervised graph convolutional network (GCN). Hard protein-ligand pairs are retrieved for each input query sample based on the manifold smoothness constraint. Then, a graph is learned automatically in which each node is a protein-ligand pair, and each edge represents the similarity between pairs. In other words, an end-to-end framework is proposed that simultaneously retrieves hard similar samples, learns protein-ligand descriptor, learns the graph topology of the input sample with retrieved similar hard samples (learn adjacency matrix), and learns a semi-supervised GCN to predict the binding affinity (as task predictor). The training step adjusts the parameter values, and in the inference step, the learned model is fine-tuned for each input sample. To evaluate the proposed approach, it is applied to the four well-known PDBbind, Davis, KIBA, and BindingDB datasets. The results show that the proposed method significantly performs better than the comparable approaches.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# da Vinci Research Kit Si システムにおけるベースラインとニューラルネットワークに基づく力推定手法の有効性の検討

An Effectiveness Study Across Baseline and Neural Network-based Force Estimation Methods on the da Vinci Research Kit Si System ( http://arxiv.org/abs/2405.07453v1 )

ライセンス: Link先を確認
Hao Yang, Ayberk Acar, Keshuai Xu, Anton Deguet, Peter Kazanzides, Jie Ying Wu, (参考訳) 本研究では,da Vinci Research Kit Si (dVRK-Si)を用いて,ニューラルネットワーク(NN)に基づく力推定手法の堅牢性と一般化能力について検討した。 提案手法の性能を評価するため, 力推定精度をいくつかのベースライン法と比較した。 我々は,これらの手法の有効性をベンチマークするために,dVRKクラシックシステムとdVRK-Siシステムの比較研究を行う。 NN法は, 平均根平均二乗誤差(RMSE)がdVRK古典では約3.07%, dVRK-Siでは5.27%である。 dVRK-Siでは, ベースライン法全体の力推定RMSEはNN法に比べて全方向の2~4倍である。 一つの考えられる理由は、静的な力が同じか、動的に時間不変かというベースラインの手法で仮定したことである。 これらの仮定は、重量をプリロードし、水平の自己バランスを維持するため、dVRK Classicに当てはまるかもしれない。 dVRK-Si構成は、この性質を持っていないため、仮定はもはや保たないため、NNベースの手法は大幅に性能が向上する。

In this study, we further investigate the robustness and generalization ability of an neural network (NN) based force estimation method, using the da Vinci Research Kit Si (dVRK-Si). To evaluate our method's performance, we compare the force estimation accuracy with several baseline methods. We conduct comparative studies between the dVRK classic and dVRK-Si systems to benchmark the effectiveness of these approaches. We conclude that the NN-based method provides comparable force estimation accuracy across the two systems, as the average root mean square error (RMSE) over the average range of force ratio is approximately 3.07% for the dVRK classic, and 5.27% for the dVRK-Si. On the dVRK-Si, the force estimation RMSEs for all the baseline methods are 2 to 4 times larger than the NN-based method in all directions. One possible reason is, we made assumptions in the baseline methods that static forces remain the same or dynamics is time-invariant. These assumptions may hold for the dVRK Classic, as it has pre-loaded weight and maintains horizontal self balance. Since the dVRK-Si configuration does not have this property, assumptions do not hold anymore, therefore the NN-based method significantly outperforms.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# マルチヘッドゲーテッドアテンションによる住宅価格評価

Boosting House Price Estimations with Multi-Head Gated Attention ( http://arxiv.org/abs/2405.07456v1 )

ライセンス: Link先を確認
Zakaria Abdellah Sellam, Cosimo Distante, Abdelmalik Taleb-Ahmed, Pier Luigi Mazzeo, (参考訳) 住宅価格の評価は、住宅所有者、投資家、政策立案者を含む様々な利害関係者にとって重要である。 しかし、従来の空間補間法は、特性値に影響を与える複雑な空間関係を捉えるのに限界がある。 これらの課題に対処するため,空間補間のためのマルチヘッドGated Attentionと呼ばれる新しい手法を開発した。 提案手法は、注意に基づく補間モデルに基づいて、複数の注意ヘッドとゲーティング機構を組み込んで、空間的依存や文脈情報をよりよく捉える。 重要なことは、我々のモデルはデータの次元を小さくする埋め込みを生成し、線形回帰のような単純なモデルが複雑なエンハンブルモデルより優れていることである。 我々は,本モデルとベースライン法,および本来の注意に基づく補間モデルとの比較のために,広範囲な実験を行った。 その結果,住宅価格予測の精度が向上し,提案手法の有効性が検証された。 本研究は,空間補間分野を推し進め,より正確な住宅価格評価のための堅牢なツールを提供する。 当社のGitHubリポジトリには,すべてのデータセットのデータとコードが含まれています。

Evaluating house prices is crucial for various stakeholders, including homeowners, investors, and policymakers. However, traditional spatial interpolation methods have limitations in capturing the complex spatial relationships that affect property values. To address these challenges, we have developed a new method called Multi-Head Gated Attention for spatial interpolation. Our approach builds upon attention-based interpolation models and incorporates multiple attention heads and gating mechanisms to capture spatial dependencies and contextual information better. Importantly, our model produces embeddings that reduce the dimensionality of the data, enabling simpler models like linear regression to outperform complex ensembling models. We conducted extensive experiments to compare our model with baseline methods and the original attention-based interpolation model. The results show a significant improvement in the accuracy of house price predictions, validating the effectiveness of our approach. This research advances the field of spatial interpolation and provides a robust tool for more precise house price evaluation. Our GitHub repository.contains the data and code for all datasets, which are available for researchers and practitioners interested in replicating or building upon our work.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# DualFocus: テキストベースの人物検索における肯定的および否定的記述子の統合フレームワーク

DualFocus: A Unified Framework for Integrating Positive and Negative Descriptors in Text-based Person Retrieval ( http://arxiv.org/abs/2405.07459v1 )

ライセンス: Link先を確認
Yuchuan Deng, Zhanpeng Hu, Jiakun Han, Chuang Deng, Qijun Zhao, (参考訳) テキストベースの人物検索(TPR)は、与えられたテキスト記述に基づいて、広範囲の候補から人物の画像を検索することを目的としている。 主な課題は、視覚的およびテキスト的データを統一された潜在空間にマッピングすることである。 既存のTPR法は明示的および肯定的な特徴を認識することに重点を置いているが、それらはしばしば負の記述子の批判的な影響を無視し、正の基準を満たすが負の記述子によって除外される可能性のある偽陽性をもたらす。 これらの問題を緩和するため,テキストクエリに関する視覚言語基礎モデルの解釈精度を高めるために,肯定的および否定的記述子を統合する統合フレームワークであるDualFocusを導入する。 DualFocusはDual (Positive/Negative) Attribute Prompt Learning (DAPL)を採用しており、Dual Image-Attribute Contrastive (DIAC) LearningとSensitive Image-Attributes Matching (SIAM) Learningを統合している。 この方法でDualFocusは未確認属性の検出を強化し、検索精度を向上する。 視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを改善するために,マッチング記述と非マッチング記述の両方の表現を洗練し,詳細かつ適応可能な類似性評価によってマッチングプロセスを向上するダイナミック・トケンワイズ・類似性(DTS)損失を提案する。 トークンレベルの比較に焦点を合わせることで、DualFocusは精度と堅牢性の両方で既存のテクニックを著しく上回っている。 実験結果は、CUHK-PEDES、ICFG-PEDES、RSTPReidにおけるDualFocusの優れたパフォーマンスを強調した。

Text-based person retrieval (TPR) aims to retrieve images of a person from an extensive array of candidates based on a given textual description. The core challenge lies in mapping visual and textual data into a unified latent space. While existing TPR methods concentrate on recognizing explicit and positive characteristics, they often neglect the critical influence of negative descriptors, resulting in potential false positives that fulfill positive criteria but could be excluded by negative descriptors. To alleviate these issues, we introduce DualFocus, a unified framework for integrating positive and negative descriptors to enhance the interpretative accuracy of vision-language foundational models regarding textual queries. DualFocus employs Dual (Positive/Negative) Attribute Prompt Learning (DAPL), which integrates Dual Image-Attribute Contrastive (DIAC) Learning and Sensitive Image-Attributes Matching (SIAM) Learning. This way DualFocus enhances the detection of unseen attributes, thereby boosting retrieval precision. To further achieve a balance between coarse and fine-grained alignment of visual and textual embeddings, we propose the Dynamic Tokenwise Similarity (DTS) loss, which refines the representation of both matching and non-matching descriptions, thereby enhancing the matching process through a detailed and adaptable similarity assessment. By focusing on token-level comparisons, DualFocus significantly outperforms existing techniques in both precision and robustness. The experiment results highlight DualFocus's superior performance on CUHK-PEDES, ICFG-PEDES, and RSTPReid.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# HoneyBee: 基本埋め込みモデルによるマルチモーダルオンコロジーデータセット作成のためのスケーラブルなモジュールフレームワーク

HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models ( http://arxiv.org/abs/2405.07460v1 )

ライセンス: Link先を確認
Aakash Tripathi, Asim Waqas, Yasin Yilmaz, Ghulam Rasool, (参考訳) オンコロジーのための正確な機械学習モデルを開発するには、大規模で高品質なマルチモーダルデータセットが必要である。 しかし、医療データの複雑さと不均一性のため、そのようなデータセットの作成は依然として困難である。 この課題に対処するため、我々はHoneyBeeを紹介した。HoneyBeeはマルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークで、基礎モデルを活用して代表的な埋め込みを生成する。 HoneyBeeは、臨床記録、画像データ、患者の結果など、さまざまなデータモダリティを統合している。 データ前処理技術とトランスフォーマーベースのアーキテクチャを使用して、生の医療データの本質的な特徴と関係をキャプチャする埋め込みを生成する。 生成された埋め込みは、アクセシビリティのためにHugging FaceデータセットとPyTorchデータローダを使用して構造化形式で格納される。 ベクトルデータベースは機械学習アプリケーションの効率的なクエリと検索を可能にする。 埋め込みの質と代表性を評価する実験を通じて,ハニービーの有効性を実証した。 このフレームワークは、他の医療領域に拡張可能なように設計されており、高品質で機械学習対応のデータセットを提供することで、腫瘍研究を加速することを目指している。 HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。

Developing accurate machine learning models for oncology requires large-scale, high-quality multimodal datasets. However, creating such datasets remains challenging due to the complexity and heterogeneity of medical data. To address this challenge, we introduce HoneyBee, a scalable modular framework for building multimodal oncology datasets that leverages foundational models to generate representative embeddings. HoneyBee integrates various data modalities, including clinical records, imaging data, and patient outcomes. It employs data preprocessing techniques and transformer-based architectures to generate embeddings that capture the essential features and relationships within the raw medical data. The generated embeddings are stored in a structured format using Hugging Face datasets and PyTorch dataloaders for accessibility. Vector databases enable efficient querying and retrieval for machine learning applications. We demonstrate the effectiveness of HoneyBee through experiments assessing the quality and representativeness of the embeddings. The framework is designed to be extensible to other medical domains and aims to accelerate oncology research by providing high-quality, machine learning-ready datasets. HoneyBee is an ongoing open-source effort, and the code, datasets, and models are available at the project repository.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# 二重接合におけるジョセフソン効果とソートゥース電流に関するファインマン・パラドックス

Feynman Paradox about the Josephson effect and a sawtooth current in the double junction ( http://arxiv.org/abs/2405.07462v1 )

ライセンス: Link先を確認
Zhi-Lei Zhang, Guo-Jian Qiao, C. P. Sun, (参考訳) 我々は、そのモデリングに一対の線形結合方程式を用いるジョセフソン効果に対するファインマンのアプローチを再検討する。 結合強度が電圧よりも著しく低い場合、正確な解は交流ジョセフソン効果を考慮できるが、実際のシナリオでは直流ジョセフソン効果を生成できないことが判明した。 この基本的な相違に対処するために、BCS理論に基づく2つの相互接続超伝導体に対する結合ギンズバーグ・ランダウ方程式(GL)を導出する。 これらの方程式は、ファインマン法で見過ごされる非線形結合が超伝導体の自発的対称性の破れを記述するのに不可欠であることが示され、これは直流ジョセフソン効果を達成するための重要な要素である。 結合したGL方程式を二重接合に適用すると、ソートゥース電流パターンが出現し、ファインマンのアプローチでは達成できない。

We revisit the Feynman approach to the Josephson effect, which employs a pair of linear coupling equations for its modeling. It is found that while the exact solutions can account for the AC Josephson effect when the coupling strength is significantly less than the voltage, they fail to produce the DC Josephson effect in any practical scenario. To address this fundamental discrepancy, we derive the coupled Ginzburg-Landau (GL) equations for two interconnected superconductors based on BCS theory. These equations reveal that the nonlinear coupling, which is overlooked in the Feynman method, is crucial in describing the spontaneous symmetry breaking in superconductors, a critical factor for achieving the DC Josephson effect. When the coupled GL equations are applied to a double junction, a sawtooth current pattern emerges, a result unattainable via the Feynman approach.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# MCS-SQL: 複数プロンプトの活用とテキストからSQL生成のための複数選択

MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation ( http://arxiv.org/abs/2405.07467v1 )

ライセンス: Link先を確認
Dongjun Lee, Choongwon Park, Jaehyuk Kim, Heesoo Park, (参考訳) 大規模言語モデル(LLM)の最近の進歩により、テキストからSQLへのタスクの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法が実現されている。 しかしながら、BIRDのような複雑なスキーマやクエリを含むベンチマークでは、そのパフォーマンスは人間のものよりもかなり低い。 そこで本研究では,複数のプロンプトを有効利用してより広い探索空間を探索し,有効に集約する手法を提案する。 具体的には、複数のプロンプトを使用したスキーマリンクを通じて、データベーススキーマを堅牢に洗練する。 その後、改良されたスキーマと多様なプロンプトに基づいて、様々な候補SQLクエリを生成する。 最後に、その信頼性スコアに基づいて候補クエリをフィルタリングし、LLMに提示される多重選択により最適なクエリを得る。 BIRDとスパイダーのベンチマークで評価すると、提案手法は65.5\%と89.6\%の実行精度を達成し、従来のICL法よりも大幅に向上した。 さらに、生成したクエリの精度と効率の両面から、BIRD上での新しいSOTA性能を確立した。

Recent advancements in large language models (LLMs) have enabled in-context learning (ICL)-based methods that significantly outperform fine-tuning approaches for text-to-SQL tasks. However, their performance is still considerably lower than that of human experts on benchmarks that include complex schemas and queries, such as BIRD. This study considers the sensitivity of LLMs to the prompts and introduces a novel approach that leverages multiple prompts to explore a broader search space for possible answers and effectively aggregate them. Specifically, we robustly refine the database schema through schema linking using multiple prompts. Thereafter, we generate various candidate SQL queries based on the refined schema and diverse prompts. Finally, the candidate queries are filtered based on their confidence scores, and the optimal query is obtained through a multiple-choice selection that is presented to the LLM. When evaluated on the BIRD and Spider benchmarks, the proposed method achieved execution accuracies of 65.5\% and 89.6\%, respectively, significantly outperforming previous ICL-based methods. Moreover, we established a new SOTA performance on the BIRD in terms of both the accuracy and efficiency of the generated queries.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# 医療応用における大規模言語モデルの評価--アンケート調査から

Evaluating large language models in medical applications: a survey ( http://arxiv.org/abs/2405.07468v1 )

ライセンス: Link先を確認
Xiaolan Chen, Jiayang Xiang, Shanfu Lu, Yexin Liu, Mingguang He, Danli Shi, (参考訳) 大規模言語モデル(LLM)は、医療や医療など、多くの領域にわたる変革の可能性を持つ強力なツールとして登場した。 医療分野では、LSMは臨床決定支援から患者教育まで幅広い課題を約束する。 しかし, 医学的文脈におけるLCMの性能評価は, 医療情報の複雑で批判的な性質から, 独特な課題を呈している。 本稿では,医学的LCM評価の展望を概観し,既存の研究から洞察を合成し,評価データソース,タスクシナリオ,評価方法の強調を行う。 さらに、LSMの医療的評価における重要な課題と機会を特定し、LSMの臨床的実践への責任ある統合を保証するための継続的な研究と革新の必要性を強調している。

Large language models (LLMs) have emerged as powerful tools with transformative potential across numerous domains, including healthcare and medicine. In the medical domain, LLMs hold promise for tasks ranging from clinical decision support to patient education. However, evaluating the performance of LLMs in medical contexts presents unique challenges due to the complex and critical nature of medical information. This paper provides a comprehensive overview of the landscape of medical LLM evaluation, synthesizing insights from existing studies and highlighting evaluation data sources, task scenarios, and evaluation methods. Additionally, it identifies key challenges and opportunities in medical LLM evaluation, emphasizing the need for continued research and innovation to ensure the responsible integration of LLMs into clinical practice.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# 単一状態プロトコルに基づく位相符号化半量子鍵分布系

Phase coding semi-quantum key distribution system based on the Single-state protocol ( http://arxiv.org/abs/2405.07469v1 )

ライセンス: Link先を確認
Qincheng Hou, Siying Huang, Naida Mo, Jindong Wang, Zhengjun Wei, Yafei Yu, Tianming Zhao, Zhiming Zhang, (参考訳) 半量子鍵分布(SQKD)は、量子ユーザと古典的ユーザの間でランダムな鍵を共有することができる。 しかし、古典的なユーザ操作の実装は困難であり、シングルステートプロトコルを実現する上でハードルとなる。 選択的変調法を用いて、SQKDの有効性を原則として検証する。 選択変調法の提案により、SQKDのための他のプロトコルの実現が可能となる。 そこで我々は,SQKDの実験的な進歩を推し進めるために,SQKDの単一状態プロトコルと「選択変調法」に基づく位相符号化半量子鍵分布システムを提案し,実装する。 このシステムは100MHzの周波数で動作し、平均光子数は0.1である。 干渉コントラストは96.52%、平均量子ビット誤り率は1.19%、生の鍵レートは88Kbpsに達した。 実験の結果,提案した相符号化半量子鍵分布系の有効性と安定性が示された。 さらに,本論文で提案する「選択的変調」手法を利用して,選択的変調の包括的理論的記述を開発する。 量子状態の進化を分析することによって、システムのセキュリティを評価し、最終的に量子状態をターゲットにした攻撃に対するレジリエンスを実証する。 従来のシステムでは2つの光学デバイスしか必要とせず、機器の要求を大幅に減らし、応用可能性を高める。 本研究は、半量子鍵分布実験の実現可能性を検証するとともに、半量子鍵分布実験およびセキュリティ研究に関する将来の研究のためのアイデアを提供する。

Semi-quantum key distribution (SQKD) allows sharing random keys between a quantum user and a classical user. However, implementing classical user operations is challenging, posing a hurdle to achieving the Single-state protocol. By using the "selective modulation" method, the feasibility of SQKD is verified in principle. The proposal of the selective modulation method enables the realization of other protocols for SQKD. To advance experimental progress in SQKD, we propose and implement a phase-encoded semi-quantum key distribution system based on the Single-state protocol and the "selective modulation" method. The system operates at a frequency of 100MHz and an average photon number of 0.1. The interference contrast achieved 96.52%, the average quantum bit error rate was 1.19%, and the raw key rate reached 88Kbps. Our experimental results demonstrate the feasibility and stability of the proposed phase-encoded semi-quantum key distribution system. Furthermore, by leveraging the "selective modulation" scheme proposed in this paper, we develop a comprehensive theoretical description of selective modulation. Through an analysis of quantum state evolution, we assess the security of our system, ultimately demonstrating its resilience against attacks targeting quantum states. The classical user of our system requires only two optical devices, significantly reducing the equipment requirements and enhancing its application potential. This work validates the feasibility of semi-quantum key distribution experiments and provides ideas for future research on semi-quantum key distribution experiments and security studies.
翻訳日:2024-05-14 14:54:35 公開日:2024-05-13
# GaussianVTON:画像プロンプトによる多段ガウス切削による3次元バーチャルトライ-ON

GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting ( http://arxiv.org/abs/2405.07472v1 )

ライセンス: Link先を確認
Haodong Chen, Yongle Huang, Haojian Huang, Xiangsheng Ge, Dian Shao, (参考訳) 電子商取引の普及により、バーチャルトライオン(VTON)の重要性が強調されている。 しかし、以前の研究では主に2D領域に焦点をあて、訓練のための広範なデータに大きく依存していた。 3次元VTONの研究は、主に2次元VTONで広く取り上げられる衣服体形状の整合性に焦点を当てている。 3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。 本稿では,2次元VTONでGaussian Splatting(GS)編集を統合する革新的な3次元VTONパイプラインであるGaussianVTONを提案する。 2次元VTONから3次元VTONへのシームレスな遷移を容易にするため,画像のみを3次元編集のための編集プロンプトとして用いることを提案する。 さらに, 顔のぼやけ, 衣服の不正確さ, 編集中の視点品質の低下といった問題に対処するため, 潜在的な問題を段階的に緩和する3段階改良戦略を考案した。 さらに,編集リコール再構成(ERR)と呼ばれる新しい編集戦略を導入し,従来の編集戦略の限界に対処し,複雑な幾何学的変化をもたらす。 我々の総合実験はガウスVTONの優位性を実証し、3DVTONの新たな視点を提供するとともに、3Dシーン編集の新たな出発点を確立した。

The increasing prominence of e-commerce has underscored the importance of Virtual Try-On (VTON). However, previous studies predominantly focus on the 2D realm and rely heavily on extensive data for training. Research on 3D VTON primarily centers on garment-body shape compatibility, a topic extensively covered in 2D VTON. Thanks to advances in 3D scene editing, a 2D diffusion model has now been adapted for 3D editing via multi-viewpoint editing. In this work, we propose GaussianVTON, an innovative 3D VTON pipeline integrating Gaussian Splatting (GS) editing with 2D VTON. To facilitate a seamless transition from 2D to 3D VTON, we propose, for the first time, the use of only images as editing prompts for 3D editing. To further address issues, e.g., face blurring, garment inaccuracy, and degraded viewpoint quality during editing, we devise a three-stage refinement strategy to gradually mitigate potential issues. Furthermore, we introduce a new editing strategy termed Edit Recall Reconstruction (ERR) to tackle the limitations of previous editing strategies in leading to complex geometric changes. Our comprehensive experiments demonstrate the superiority of GaussianVTON, offering a novel perspective on 3D VTON while also establishing a novel starting point for image-prompting 3D scene editing.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# 観測騒音によるハームのない探査の本質的リワード:自由エネルギー原理に基づくシミュレーション研究

Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle ( http://arxiv.org/abs/2405.07473v1 )

ライセンス: Link先を確認
Theodore Jerome Tinker, Kenji Doya, Jun Tani, (参考訳) 強化学習(Reinforcement Learning, RL)では、タスクを実行することで数値報酬を最大化するために、人工エージェントを訓練する。 エージェントは情報を利用する前に情報を発見する必要があるため、RLでは探索が不可欠である。 効率的な探索を促進する2つの報酬は、行動方針のエントロピーと情報獲得の好奇心である。 エントロピーは文学において確立されており、ランダム化された行動選択を促進する。 好奇心は文学において様々な方法で定義され、新しい経験の発見を促進する。 例えば、予測エラー好奇心は、正確に予測できない観察を発見するためにエージェントに報酬を与える。 しかし、そのようなエージェントは好奇心トラップとして知られる予測不可能な観測ノイズに邪魔される可能性がある。 The Free Energy Principle (FEP) に基づいて, 潜伏変数の予測的事前確率と後続確率の間のKL分散によるエージェントの報酬を付与する隠れ状態好奇性を提案する。 迷路をナビゲートするために、6種類のエージェントを訓練した: エントロピーや好奇心の報酬のないベースラインエージェント、エントロピーや/または予測エラー好奇心または隠れ状態好奇心の報酬を受けるエージェント。 エントロピーと好奇心は効率的な探索をもたらす。 特に、隠れた状態好奇心を持つエージェントは好奇心トラップに対するレジリエンスを示し、予測エラー好奇心を持つエージェントを妨げる。 このことは、FEPの実装によってRLモデルの堅牢性と一般化が促進され、人工エージェントと生物学的エージェントの学習プロセスが整合する可能性があることを示唆している。

In Reinforcement Learning (RL), artificial agents are trained to maximize numerical rewards by performing tasks. Exploration is essential in RL because agents must discover information before exploiting it. Two rewards encouraging efficient exploration are the entropy of action policy and curiosity for information gain. Entropy is well-established in literature, promoting randomized action selection. Curiosity is defined in a broad variety of ways in literature, promoting discovery of novel experiences. One example, prediction error curiosity, rewards agents for discovering observations they cannot accurately predict. However, such agents may be distracted by unpredictable observational noises known as curiosity traps. Based on the Free Energy Principle (FEP), this paper proposes hidden state curiosity, which rewards agents by the KL divergence between the predictive prior and posterior probabilities of latent variables. We trained six types of agents to navigate mazes: baseline agents without rewards for entropy or curiosity, and agents rewarded for entropy and/or either prediction error curiosity or hidden state curiosity. We find entropy and curiosity result in efficient exploration, especially both employed together. Notably, agents with hidden state curiosity demonstrate resilience against curiosity traps, which hinder agents with prediction error curiosity. This suggests implementing the FEP may enhance the robustness and generalization of RL models, potentially aligning the learning processes of artificial and biological agents.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# ヒューマンインストラクションからの行動木生成のためのインテント理解と最適行動計画の統合

Integrating Intent Understanding and Optimal Behavior Planning for Behavior Tree Generation from Human Instructions ( http://arxiv.org/abs/2405.07474v1 )

ライセンス: Link先を確認
Xinglin Chen, Yishuai Cai, Yunxin Mao, Minglong Li, Wenjing Yang, Weixia Xu, Ji Wang, (参考訳) 家庭や産業環境で人間の指示に従ってタスクを実行するロボットは、基本的に適応性と信頼性の両方を必要とする。 振舞い木(BT)は、モジュラリティと反応性のためにこれらのシナリオに対して適切な制御アーキテクチャとして現れる。 しかし、既存のBT生成法は自然言語の解釈を伴わないか、理論上BTの成功を保証できないかのいずれかである。 本稿では,まず大規模言語モデル(LLM)を用いて高レベルの命令から目標を解釈し,次に最適行動木拡張アルゴリズム(OBTEA)を用いて効率的な目標固有BTを構築する,BT生成のための2段階フレームワークを提案する。 我々は、一階述語論理における目的と十分に整形された公式を表現し、意図の理解と最適な行動計画を効果的にブリッジする。 サービスロボットにおける実験は,文法的に正確かつ正確に解釈された目標を生成する上でのLLMの習熟度を検証し,様々な指標においてBT拡張アルゴリズムよりもOCTEAの方が優れていることを実証し,最終的に本フレームワークの実用的展開性を確認した。 プロジェクトのWebサイトはhttps://dids-ei.github.io/Project/LLM-OBTEA/である。

Robots executing tasks following human instructions in domestic or industrial environments essentially require both adaptability and reliability. Behavior Tree (BT) emerges as an appropriate control architecture for these scenarios due to its modularity and reactivity. Existing BT generation methods, however, either do not involve interpreting natural language or cannot theoretically guarantee the BTs' success. This paper proposes a two-stage framework for BT generation, which first employs large language models (LLMs) to interpret goals from high-level instructions, then constructs an efficient goal-specific BT through the Optimal Behavior Tree Expansion Algorithm (OBTEA). We represent goals as well-formed formulas in first-order logic, effectively bridging intent understanding and optimal behavior planning. Experiments in the service robot validate the proficiency of LLMs in producing grammatically correct and accurately interpreted goals, demonstrate OBTEA's superiority over the baseline BT Expansion algorithm in various metrics, and finally confirm the practical deployability of our framework. The project website is https://dids-ei.github.io/Project/LLM-OBTEA/.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# テキスト・グルーピング・アダプタ:レイアウト解析のための事前学習されたテキスト・ディテクタの適応

Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis ( http://arxiv.org/abs/2405.07481v1 )

ライセンス: Link先を確認
Tianci Bi, Xiaoyi Zhang, Zhizheng Zhang, Wenxuan Xie, Cuiling Lan, Yan Lu, Nanning Zheng, (参考訳) 深層学習の台頭以来,シーンテキスト検出モデルにおいて顕著な進展が見られたが,検出されたテキストを段落としてグループ化することを目的としたシーンテキストレイアウト解析は,そのペースを保っていない。 以前の作業では、別々のモデルを使用してテキストの検出とグループ化を行ったり、統一されたモデルを使用してモデルをスクラッチからトレーニングしたりしていた。 これらすべてはまだ、十分に訓練されたテキスト検出と、容易に検出可能なデータセットを十分に利用していない。 本稿では,事前学習したテキスト検出器のレイアウト解析を学習できるモジュールであるText Grouping Adapter(TGA)を提案する。 様々なテキスト検出アーキテクチャと互換性があるように設計されたTGAは、検出されたテキスト領域と画像特徴を普遍的な入力として取り込んで、テキストインスタンスの機能を組み立てる。 レイアウト解析のためのより広いコンテキスト情報を取得するために,テキスト・ツー・マン・アサインによってテキスト・インスタンスの特徴からテキスト・グループ・マスクを予測することを提案する。 我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、レイアウト解析性能が向上し、同時に事前学習から一般化されたテキスト検出能力を継承できることを実証している。 パラメータの微調整を行う場合、レイアウト解析性能をさらに向上させることができる。

Significant progress has been made in scene text detection models since the rise of deep learning, but scene text layout analysis, which aims to group detected text instances as paragraphs, has not kept pace. Previous works either treated text detection and grouping using separate models, or train a model from scratch while using a unified one. All of them have not yet made full use of the already well-trained text detectors and easily obtainable detection datasets. In this paper, we present Text Grouping Adapter (TGA), a module that can enable the utilization of various pre-trained text detectors to learn layout analysis, allowing us to adopt a well-trained text detector right off the shelf or just fine-tune it efficiently. Designed to be compatible with various text detector architectures, TGA takes detected text regions and image features as universal inputs to assemble text instance features. To capture broader contextual information for layout analysis, we propose to predict text group masks from text instance features by one-to-many assignment. Our comprehensive experiments demonstrate that, even with frozen pre-trained models, incorporating our TGA into various pre-trained text detectors and text spotters can achieve superior layout analysis performance, simultaneously inheriting generalized text detection ability from pre-training. In the case of full parameter fine-tuning, we can further improve layout analysis performance.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# マージナルフェアネススライスワッサースタインバリーセンタ

Marginal Fairness Sliced Wasserstein Barycenter ( http://arxiv.org/abs/2405.07482v1 )

ライセンス: Link先を確認
Khai Nguyen, Hai Nguyen, Nhat Ho, (参考訳) スライスされたワッサーシュタインバリセンタ(SWB)は、確率測度空間における平均演算を効率的に一般化するための広く知られている方法である。 しかし、辺縁フェアネス SWB を達成することで、バリ中心から辺縁までの距離がほぼ等しく、まだ探索されていない。 均一重み付きSWBは、辺面の不均一な構造と最適化の非最適性のために、所望の辺縁性バリセンタを得るための最適選択であるとは限らない。 この問題に最初に取り組む試みとして、ワッサーシュタイン・バリセンタ (MFSWB) を制約付きSWB問題として定義する。 形式的定義の計算上の欠点から, 2つの超パラメータフリーかつ計算的にトラクタブルなMSSWB問題を提案する。 さらに効率を向上するため、我々はスライシング分布の選択を行い、スライシング分布を導入して第3のサロゲート定義を得る。 提案した3つの問題とスライスされたマルチマージナルワッサースタイン距離との関係について論じる。 最後に,スライスしたワッサースタインオートエンコーダの3次元点雲平均化,色調和,および,クラスフェア表現によるトレーニングを行い,提案した代用サロゲート MFSWB 問題の良好な性能を示す。

The sliced Wasserstein barycenter (SWB) is a widely acknowledged method for efficiently generalizing the averaging operation within probability measure spaces. However, achieving marginal fairness SWB, ensuring approximately equal distances from the barycenter to marginals, remains unexplored. The uniform weighted SWB is not necessarily the optimal choice to obtain the desired marginal fairness barycenter due to the heterogeneous structure of marginals and the non-optimality of the optimization. As the first attempt to tackle the problem, we define the marginal fairness sliced Wasserstein barycenter (MFSWB) as a constrained SWB problem. Due to the computational disadvantages of the formal definition, we propose two hyperparameter-free and computationally tractable surrogate MFSWB problems that implicitly minimize the distances to marginals and encourage marginal fairness at the same time. To further improve the efficiency, we perform slicing distribution selection and obtain the third surrogate definition by introducing a new slicing distribution that focuses more on marginally unfair projecting directions. We discuss the relationship of the three proposed problems and their relationship to sliced multi-marginal Wasserstein distance. Finally, we conduct experiments on finding 3D point-clouds averaging, color harmonization, and training of sliced Wasserstein autoencoder with class-fairness representation to show the favorable performance of the proposed surrogate MFSWB problems.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# 室温固体メーザ増幅器

A Room-Temperature Solid-State Maser Amplifier ( http://arxiv.org/abs/2405.07486v1 )

ライセンス: Link先を確認
Tom Day, Maya Isarov, William J. Pappas, Brett C. Johnson, Hiroshi Abe, Takeshi Ohshima, Dane R. McCamey, Arne Laucht, Jarryd J. Pla, (参考訳) メイザーズはかつて低ノイズマイクロ波増幅技術において最先端の最先端を表現していたが、低温冷却の必要性から結局は廃れた。 固体スピン系に基づくメーザーは、スピンの密度が大きく、したがって比較的高いパワーで動作できるため、増幅器として最も効果的に機能する。 固体メーザー発振器は室温で実証されているが、これらの系の連続波増幅は極低温でしか実現されていない。 ここでは室温で動作する連続波固体メーザ増幅器について報告する。 ダイヤモンド結晶中の窒素空孔中心スピンのアンサンブル、強い永久磁石、単純なレーザーダイオードを含む実用的装置を用いて、この偉業を成し遂げる。 本稿では、利得、帯域幅、圧縮電力、雑音温度などの重要な増幅器特性について述べるとともに、室温近量子雑音制限増幅器を本システムで実現する可能性について論じる。 最後に、異なる動作モードでスピンを用いて外部回路のシステムノイズを冷却し、物理的冷却を必要とせずに極低温レベルにすることができることを示す。

Masers once represented the state-of-the-art in low noise microwave amplification technology, but eventually became obsolete due to their need for cryogenic cooling. Masers based on solid-state spin systems perform most effectively as amplifiers, since they provide a large density of spins and can therefore operate at relatively high powers. Whilst solid-state masers oscillators have been demonstrated at room temperature, continuous-wave amplification in these systems has only ever been realized at cryogenic temperatures. Here we report on a continuous-wave solid-state maser amplifier operating at room temperature. We achieve this feat using a practical setup that includes an ensemble of nitrogen-vacancy center spins in a diamond crystal, a strong permanent magnet and simple laser diode. We describe important amplifier characteristics including gain, bandwidth, compression power and noise temperature and discuss the prospects of realizing a room-temperature near-quantum-noise-limited amplifier with this system. Finally, we show that in a different mode of operation the spins can be used to cool the system noise in an external circuit to cryogenic levels, all without the requirement for physical cooling.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# Kolmogorov-Arnoldネットワークを用いたフレキシブルEHDポンプの予測モデリング

Predictive Modeling of Flexible EHD Pumps using Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.07488v1 )

ライセンス: Link先を確認
Yanhong Peng, Miao He, Fangchao Hu, Zebing Mao, Xia Huang, Jun Ding, (参考訳) 我々は,コルモゴロフ・アルノルドネットワークを用いて,フレキシブル電気流体ポンプの圧力と流量を予測する新しい手法を提案する。 コルモゴロフ・アルノルドの表現定理に着想を得たカンは、固定活性化関数を学習可能なスプラインベースの活性化関数に置き換え、多層パーセプトロンやランダムフォレストのような従来のモデルよりもより効率的に複素非線形関数を近似することができる。 フレキシブルEHDポンプパラメータのデータセットを用いてkanを評価し,その性能をRFモデルとMPPモデルと比較した。 カンは予測精度が優れ、平均正方形誤差は12.186、圧力と流量の予測は0.001である。 kanから抽出した記号式は入力パラメータとポンプ性能の非線形関係に関する洞察を与える。 これらの結果から,kanは例外的な精度と解釈可能性を示し,電気流体ポンプの予測モデルとして有望な選択肢であることがわかった。

We present a novel approach to predicting the pressure and flow rate of flexible electrohydrodynamic pumps using the Kolmogorov-Arnold Network. Inspired by the Kolmogorov-Arnold representation theorem, KAN replaces fixed activation functions with learnable spline-based activation functions, enabling it to approximate complex nonlinear functions more effectively than traditional models like Multi-Layer Perceptron and Random Forest. We evaluated KAN on a dataset of flexible EHD pump parameters and compared its performance against RF, and MLP models. KAN achieved superior predictive accuracy, with Mean Squared Errors of 12.186 and 0.001 for pressure and flow rate predictions, respectively. The symbolic formulas extracted from KAN provided insights into the nonlinear relationships between input parameters and pump performance. These findings demonstrate that KAN offers exceptional accuracy and interpretability, making it a promising alternative for predictive modeling in electrohydrodynamic pumping.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# 弾性ネット規則化によるスパースドメイン転送

Sparse Domain Transfer via Elastic Net Regularization ( http://arxiv.org/abs/2405.07489v1 )

ライセンス: Link先を確認
Jingwei Zhang, Farzan Farnia, (参考訳) 異なるドメインにまたがるサンプルの移動は、いくつかの機械学習問題において中心的なタスクである。 コンピュータビジョンと言語領域におけるドメイン転送タスクの適切な要件は、転送マップの幅であり、すなわち、転送アルゴリズムは、ソースとターゲットドメインをまたいでサンプルを輸送しながら、最小限の入力特徴を変更することを目的としている。 本研究では,スパース分布伝達問題に対処するため,EROT(Elastic Net Optimal Transport)を提案する。 ENOTフレームワークは、$L_1$-normと$L_2$-norm正規化メカニズムを使用して、ソースとターゲットドメインの間のスパースで安定したトランスポートマップを見つける。 ENOTトランスポートマップを計算するために、ENOT最適化タスクの双対定式化を検討し、ENOTの双対表現における最適ポテンシャル関数のスパース化勾配がENOTトランスポートマップを提供することを示す。 さらに、スパースドメイン転送のための特徴選択を行うためのENOTフレームワークの適用を実演する。 合成ガウス混合および実画像およびテキストデータに対するENOTをいくつかの領域転送問題に適用した数値結果を示す。 実験結果から,スパースドメイントランスポートマップの同定におけるENOTフレームワークの成功が示唆された。

Transportation of samples across different domains is a central task in several machine learning problems. A sensible requirement for domain transfer tasks in computer vision and language domains is the sparsity of the transportation map, i.e., the transfer algorithm aims to modify the least number of input features while transporting samples across the source and target domains. In this work, we propose Elastic Net Optimal Transport (ENOT) to address the sparse distribution transfer problem. The ENOT framework utilizes the $L_1$-norm and $L_2$-norm regularization mechanisms to find a sparse and stable transportation map between the source and target domains. To compute the ENOT transport map, we consider the dual formulation of the ENOT optimization task and prove that the sparsified gradient of the optimal potential function in the ENOT's dual representation provides the ENOT transport map. Furthermore, we demonstrate the application of the ENOT framework to perform feature selection for sparse domain transfer. We present the numerical results of applying ENOT to several domain transfer problems for synthetic Gaussian mixtures and real image and text data. Our empirical results indicate the success of the ENOT framework in identifying a sparse domain transport map.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# 戦略データ順序付け:カリキュラム学習による大規模言語モデルの性能向上

Strategic Data Ordering: Enhancing Large Language Model Performance through Curriculum Learning ( http://arxiv.org/abs/2405.07490v1 )

ライセンス: Link先を確認
Jisu Kim, Juhwan Lee, (参考訳) LLM(Large Language Models)の急速な進歩は、テキストの理解と生成を改善したが、計算資源の課題を引き起こしている。 本研究では,より単純なタスクから始まり,より複雑なタスクへと進むカリキュラム学習型データ中心型トレーニング戦略を提案する。 Mistral-7B (Jiang et al , 2023) と Gemma-7B (Team et al , 2024) を用いた実験では、カリキュラム学習は従来のランダムデータシャッフルよりも若干性能が向上することが示された。 特に,提案した注意基準に基づいてデータをソートすると,性能が向上することがわかった。 このアプローチは、モデルサイズやデータセットボリュームを増大させることなくLLM性能を向上させるための持続可能な方法を提供し、LLMトレーニングにおけるスケーラビリティの課題に対処する。

The rapid advancement of Large Language Models (LLMs) has improved text understanding and generation but poses challenges in computational resources. This study proposes a curriculum learning-inspired, data-centric training strategy that begins with simpler tasks and progresses to more complex ones, using criteria such as prompt length, attention scores, and loss values to structure the training data. Experiments with Mistral-7B (Jiang et al., 2023) and Gemma-7B (Team et al., 2024) models demonstrate that curriculum learning slightly improves performance compared to traditional random data shuffling. Notably, we observed that sorting data based on our proposed attention criteria generally led to better performance. This approach offers a sustainable method to enhance LLM performance without increasing model size or dataset volume, addressing scalability challenges in LLM training.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# レーザー塗装された空洞を介する量子気体の相互作用

Laser-painted cavity-mediated interactions in a quantum gas ( http://arxiv.org/abs/2405.07492v1 )

ライセンス: Link先を確認
Mariano Bonifacio, Francesco Piazza, Tobias Donner, (参考訳) 超低温の原子ガスを基盤とした実験プラットフォームは複雑なシステムの量子シミュレーションを著しく進歩させたが、長距離相互作用によって引き起こされる現象の探索は依然として困難な課題である。 現在利用可能な双極性量子ガスまたは多モードキャビティを利用する方法は、1/r^3$文字または原子を取り囲む真空電磁場のモード構造によって固定された空間プロファイルとの長距離相互作用を実装することができる。 本稿では,レーザー塗布された空洞を介する相互作用を応用した実験手法を提案する。 提案手法はキャビティ量子力学の汎用性とレーザー操作の精度を組み合わせることで,量子多体系における長距離相互作用をシミュレーションし理解するための,高柔軟性なプラットフォームを提供する。 我々の解析的予測は、原子、レーザー、空洞のフルダイナミックスを記述する数値シミュレーションによって支持される。 後者は、我々のプロトコルが最適に機能する広範囲かつ実験的に利用できるパラメータ構造があることを実証する。 この手法は、量子シミュレーションにおいて新しい領域を探索する方法を舗装するだけでなく、基礎物理学の理解を深め、新しい量子状態や位相の発見につながる可能性がある。

Experimental platforms based on ultracold atomic gases have significantly advanced the quantum simulation of complex systems, yet the exploration of phenomena driven by long-range interactions remains a formidable challenge. Currently available methods utilizing dipolar quantum gases or multi-mode cavities allow to implement long-range interactions with a $1/r^3$ character or with a spatial profile fixed by the mode-structure of the vacuum electromagnetic field surrounding the atoms, respectively. Here we propose an experimental scheme employing laser-painted cavity-mediated interactions, which enables the realization of atom-atom interactions that are fully tunable in range, shape, and sign. Our approach combines the versatility of cavity quantum electrodynamics with the precision of laser manipulation, thus providing a highly flexible platform for simulating and understanding long-range interactions in quantum many-body systems. Our analytical predictions are supported by numerical simulations describing the full dynamics of atoms, laser, and cavity. The latter demonstrate that there is a wide and experimentally accessible parameter regime where our protocol optimally works. The methodology not only paves the way for exploring new territories in quantum simulation but also enhances the understanding of fundamental physics, potentially leading to the discovery of novel quantum states and phases.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# MacBehaviour: 大規模言語モデル上での行動実験のためのRパッケージ

MacBehaviour: An R package for behavioural experimentation on large language models ( http://arxiv.org/abs/2405.07495v1 )

ライセンス: Link先を確認
Xufeng Duan, Shixuan Li, Zhenguang G. Cai1, (参考訳) 大規模言語モデル (LLM) と LLM を利用したチャットボットの心理実験において, LLM を参加者として扱うことにより, 大規模言語モデル (LLM) と LLM を利用したチャットボットの振る舞いを調べることへの関心が高まっている。 そこで我々は,60以上の言語モデル(OpenAIのGPTファミリ,Claudeファミリ,Gemini,Llamaファミリ,オープンソースモデルなど)を1パッケージで操作することを目的として,MacBehaviourというRパッケージを開発した。 このパッケージは、実験設計、刺激提示、モデル行動操作、ロギング応答、トークン確率をカバーし、LLM実験のために設計された包括的な関数セットを提供する。 MacBehaviour の有効性と有効性を示すため,3つの LLM (GPT-3.5, Llama-2 7B, Vicuna-1.5 13B) を用いて3つの LLM の音響・ジェンダー関係の再現実験を行った。 その結果, 前述したように, 新たな人名から性別を推測する傾向が, 一貫して示された(Cai et al , 2023)。 要約すると、"MacBehaviour"は、ユーザーフレンドリーなインターフェースと、実験プロセスの簡素化と標準化のための包括的な機能を提供するマシン行動研究のためのRパッケージである。

There has been increasing interest in investigating the behaviours of large language models (LLMs) and LLM-powered chatbots by treating an LLM as a participant in a psychological experiment. We therefore developed an R package called "MacBehaviour" that aims to interact with more than 60 language models in one package (e.g., OpenAI's GPT family, the Claude family, Gemini, Llama family, and open-source models) and streamline the experimental process of LLMs behaviour experiments. The package offers a comprehensive set of functions designed for LLM experiments, covering experiment design, stimuli presentation, model behaviour manipulation, logging response and token probability. To demonstrate the utility and effectiveness of "MacBehaviour," we conducted three validation experiments on three LLMs (GPT-3.5, Llama-2 7B, and Vicuna-1.5 13B) to replicate sound-gender association in LLMs. The results consistently showed that they exhibit human-like tendencies to infer gender from novel personal names based on their phonology, as previously demonstrated (Cai et al., 2023). In summary, "MacBehaviour" is an R package for machine behaviour studies which offers a user-friendly interface and comprehensive features to simplify and standardize the experimental process.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# Oedipus: LLMを改良したCAPTCHAソルバー

Oedipus: LLM-enchanced Reasoning CAPTCHA Solver ( http://arxiv.org/abs/2405.07496v1 )

ライセンス: Link先を確認
Gelei Deng, Haoran Ou, Yi Liu, Jie Zhang, Tianwei Zhang, Yang Liu, (参考訳) CAPTCHAは、自動化されたボットからアプリケーションを保護するためのユビキタスなツールになっている。 時間が経つにつれ、CAPTCHA開発と回避技術の間の武器競争は、ますます高度で多様な設計へと繋がった。 CAPTCHAを推論する最新のイテレーションでは、人間にとって直感的にシンプルだが、従来のAI技術では難しいタスクを活用し、セキュリティ対策を強化する。 進化するAI能力、特にLarge Language Models(LLMs)の進歩によって駆動される我々は、現代的な推論CAPTCHAを解決するためのマルチモーダルLLMの可能性について検討する。 先進的な推論能力にもかかわらず、LCMはこれらのCAPTCHAを効果的に解くのに苦労している。 Oedipusは、CAPTCHAの自動推論のための革新的なエンドツーエンドフレームワークである。 このフレームワークの中心は、複雑で人間に近いAIタスクを、シンプルでAIに近い一連のステップに分解する、新しい戦略である。 これはCAPTCHAチャレンジ毎に実行可能なサブステップを生成するためにLCMをガイドするCAPTCHA用のドメイン固有言語(DSL)の開発によって実現される。 DSLは、前回の実証研究で明らかになった、各ユニットの操作が高度に解決可能なサブタスクであることを確実にするためにカスタマイズされます。 これらのサブステップは、Chain-of-Thought(CoT)方法論を使って順次取り組まれる。 評価の結果,オエディプスはCAPTCHAを効果的に解決し,平均成功率は63.5\%であることがわかった。 注目すべきは、2023年後半に導入された最新のCAPTCHA設計への適応性である。 これにより、高度なAIソリューションを効果的に対抗できるCAPTCHAを設計するための今後の戦略に関する議論が進められる。

CAPTCHAs have become a ubiquitous tool in safeguarding applications from automated bots. Over time, the arms race between CAPTCHA development and evasion techniques has led to increasingly sophisticated and diverse designs. The latest iteration, reasoning CAPTCHAs, exploits tasks that are intuitively simple for humans but challenging for conventional AI technologies, thereby enhancing security measures. Driven by the evolving AI capabilities, particularly the advancements in Large Language Models (LLMs), we investigate the potential of multimodal LLMs to solve modern reasoning CAPTCHAs. Our empirical analysis reveals that, despite their advanced reasoning capabilities, LLMs struggle to solve these CAPTCHAs effectively. In response, we introduce Oedipus, an innovative end-to-end framework for automated reasoning CAPTCHA solving. Central to this framework is a novel strategy that dissects the complex and human-easy-AI-hard tasks into a sequence of simpler and AI-easy steps. This is achieved through the development of a Domain Specific Language (DSL) for CAPTCHAs that guides LLMs in generating actionable sub-steps for each CAPTCHA challenge. The DSL is customized to ensure that each unit operation is a highly solvable subtask revealed in our previous empirical study. These sub-steps are then tackled sequentially using the Chain-of-Thought (CoT) methodology. Our evaluation shows that Oedipus effectively resolves the studied CAPTCHAs, achieving an average success rate of 63.5\%. Remarkably, it also shows adaptability to the most recent CAPTCHA designs introduced in late 2023, which are not included in our initial study. This prompts a discussion on future strategies for designing reasoning CAPTCHAs that can effectively counter advanced AI solutions.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# グラフカーネルを用いた部分グラフ同型計算に向けて

Towards Subgraph Isomorphism Counting with Graph Kernels ( http://arxiv.org/abs/2405.07497v1 )

ライセンス: Link先を確認
Xin Liu, Weiqi Wang, Jiaxin Bai, Yangqiu Song, (参考訳) 部分グラフ同型カウントは #P-完全 (#P-complete) と呼ばれ、正確な解を見つけるのに指数時間を必要とする。 表現学習の利用は、サブストラクチャを表現し、解を近似するための有望な方向として示されてきた。 様々なグラフのサブ構造間の相関関係を暗黙的に捉えるグラフカーネルは、グラフ分類において大きな識別力を発揮しているため、サブグラフ同型を数えることにおけるそれらのポテンシャルを先駆的に研究し、多項式やガウスのカーネルを含む様々な変種によるカーネル能力の増大を探求する。 包括的解析により,周辺情報を組み込んでグラフカーネルを強化する。 最後に,拡張グラフカーネルの有効性を実証する広範な実験結果を示し,今後の研究の方向性について論じる。

Subgraph isomorphism counting is known as #P-complete and requires exponential time to find the accurate solution. Utilizing representation learning has been shown as a promising direction to represent substructures and approximate the solution. Graph kernels that implicitly capture the correlations among substructures in diverse graphs have exhibited great discriminative power in graph classification, so we pioneeringly investigate their potential in counting subgraph isomorphisms and further explore the augmentation of kernel capability through various variants, including polynomial and Gaussian kernels. Through comprehensive analysis, we enhance the graph kernels by incorporating neighborhood information. Finally, we present the results of extensive experiments to demonstrate the effectiveness of the enhanced graph kernels and discuss promising directions for future research.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# 量子ネットワーク上での最小回路実行時間による分散量子計算

Distributed Quantum Computation with Minimum Circuit Execution Time over Quantum Networks ( http://arxiv.org/abs/2405.07499v1 )

ライセンス: Link先を確認
Ranjani G Sundaram, Himanshu Gupta, C. R. Ramakrishnan, (参考訳) 現在の量子コンピュータは、量子ビット容量の制限と物理的接続の制限により制約されており、大規模な量子計算の課題に繋がる。 量子コンピュータのネットワークに量子計算を分散させることは、これらの課題を回避し、大規模な量子計算を促進するための有望な方法である。 しかし、分散量子計算では(リモートゲートを実行するために)絡み合いが必要であり、これは大きな生成遅延を引き起こし、従って量子ビットのデコヒーレンスを引き起こす。 本研究では,実行時間を最小限に抑えるために,量子回路を量子ネットワークに分散する問題を考察する。 この問題は、コンピュータ内の限られた接続が回路実行時間に影響を与える可能性があるため、各コンピュータを含む回路キュービットをネットワークメモリにマッピングすることを必要とする。 最初のステップでは、推定実行時間を最小化するためにqubitをメモリに割り当て、このステップでは、最大二乗割当問題に対する近似アルゴリズムに基づく効率的なアルゴリズムを設計する。 第2のステップでは,ネットワークリソースの下で最小レイテンシで必要な絡み合いを生成し,デコヒーレンス制約を発生させるような効率的な実行方式を決定し,このステップでは,特定の設定や仮定の下で適切な性能を保証する2つのアルゴリズムを開発する。 遠隔ゲート,viz.,telgate,cat-entanglements を実行するための複数のプロトコルを検討する。 量子ネットワークシミュレータであるNetSquid上での広範囲なシミュレーションにより、開発した手法の有効性を実証し、従来の作業に基づくスキームを最大95%上回ることを示す。

Present quantum computers are constrained by limited qubit capacity and restricted physical connectivity, leading to challenges in large-scale quantum computations. Distributing quantum computations across a network of quantum computers is a promising way to circumvent these challenges and facilitate large quantum computations. However, distributed quantum computations require entanglements (to execute remote gates) which can incur significant generation latency and, thus, lead to decoherence of qubits. In this work, we consider the problem of distributing quantum circuits across a quantum network to minimize the execution time. The problem entails mapping the circuit qubits to network memories, including within each computer since limited connectivity within computers can affect the circuit execution time. We provide two-step solutions for the above problem: In the first step, we allocate qubits to memories to minimize the estimated execution time; for this step, we design an efficient algorithm based on an approximation algorithm for the max-quadratic-assignment problem. In the second step, we determine an efficient execution scheme, including generating required entanglements with minimum latency under the network resource and decoherence constraints; for this step, we develop two algorithms with appropriate performance guarantees under certain settings or assumptions. We consider multiple protocols for executing remote gates, viz., telegates and cat-entanglements. With extensive simulations over NetSquid, a quantum network simulator, we demonstrate the effectiveness of our developed techniques and show that they outperform a scheme based on prior work by up to 95%.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# PromptLink: クロスソースなバイオメディカルコンセプトリンクのための大規模言語モデルを活用する

PromptLink: Leveraging Large Language Models for Cross-Source Biomedical Concept Linking ( http://arxiv.org/abs/2405.07500v1 )

ライセンス: Link先を確認
Yuzhang Xie, Jiaying Lu, Joyce Ho, Fadi Nahab, Xiao Hu, Carl Yang, (参考訳) 多様なデータソースにバイオメディカルな概念をリンク(調整)することで、様々な統合分析が可能になるが、概念命名規則の相違により困難である。 この課題を克服するために,文字列マッチングルールに基づくもの,手作業による手作業によるテザウリ,マシンラーニングモデルなど,さまざまな戦略が開発されている。 しかし、これらの手法は生物医学の知識が限られており、限られた量のルールやテッサウリ、トレーニングサンプル以外には一般化がほとんどない。 近年,大規模言語モデル (LLMs) は,生物医学的NLPタスクにおいて,前例のない豊富な事前知識と強いゼロショット予測能力により,顕著な成果を上げている。 しかし、LSMは高コスト、コンテキスト長の制限、信頼性の低い予測といった問題に悩まされている。 本研究では,LLMを利用した新しいバイオメディカルな概念リンクフレームワークであるPromptLinkを提案する。 まず、LLMコンテキストウィンドウに適合する候補概念を生成するために、バイオメディカル特化事前訓練言語モデルを使用する。 次に、LLMを使用して概念を2段階のプロンプトを通じてリンクし、第1段階のプロンプトは概念リンクタスクのためにLSMから生物医学的な事前知識を引き出すことを目的としており、第2段階のプロンプトはLSMに自身の予測を反映させ、信頼性をさらに向上させる。 2つのEHRデータセットと外部バイオメディカルKGのリンクタスクの概念に関する実証的な結果から,PromptLinkの有効性が示された。 さらに、PromptLinkは、追加の事前知識、コンテキスト、トレーニングデータに依存しない汎用的なフレームワークであり、さまざまなタイプのデータソースをまたがる概念に適している。 ソースコードはhttps://github.com/constantjxyz/PromptLinkで入手できる。

Linking (aligning) biomedical concepts across diverse data sources enables various integrative analyses, but it is challenging due to the discrepancies in concept naming conventions. Various strategies have been developed to overcome this challenge, such as those based on string-matching rules, manually crafted thesauri, and machine learning models. However, these methods are constrained by limited prior biomedical knowledge and can hardly generalize beyond the limited amounts of rules, thesauri, or training samples. Recently, large language models (LLMs) have exhibited impressive results in diverse biomedical NLP tasks due to their unprecedentedly rich prior knowledge and strong zero-shot prediction abilities. However, LLMs suffer from issues including high costs, limited context length, and unreliable predictions. In this research, we propose PromptLink, a novel biomedical concept linking framework that leverages LLMs. It first employs a biomedical-specialized pre-trained language model to generate candidate concepts that can fit in the LLM context windows. Then it utilizes an LLM to link concepts through two-stage prompts, where the first-stage prompt aims to elicit the biomedical prior knowledge from the LLM for the concept linking task and the second-stage prompt enforces the LLM to reflect on its own predictions to further enhance their reliability. Empirical results on the concept linking task between two EHR datasets and an external biomedical KG demonstrate the effectiveness of PromptLink. Furthermore, PromptLink is a generic framework without reliance on additional prior knowledge, context, or training data, making it well-suited for concept linking across various types of data sources. The source code is available at https://github.com/constantjxyz/PromptLink.
翻訳日:2024-05-14 14:44:50 公開日:2024-05-13
# スワップ操作のリアルタイム順序付けによる絡み合いの最適生成

Optimized Generation of Entanglement by Real-Time Ordering of Swapping Operations ( http://arxiv.org/abs/2405.07501v1 )

ライセンス: Link先を確認
Ranjani G Sundaram, Himanshu Gupta, (参考訳) 量子ネットワークにおける長距離量子通信は、非閉鎖定理によって課される制約のために大きな課題に直面している。 既存の量子通信プロトコルの多くは、エンタングルメントペア(EP)の事前分布に依存している。 本研究では,量子ネットワークにおける一対のノード間でEPを確立する際のレイテンシを最小化する問題を考察する。 従来の研究では,待ち行列や木を事前に選択することで,期待される生成遅延を最小化することに重点を置いているが,本手法では,確率的イベントの実行成功/障害に基づいて,エンハングメント・スワッピング操作の順序(つまり,使用する木をスワッピングする)を段階的に決定する,リアルタイム適応戦略を検討する。 この文脈では、現在のネットワークに基づいて各段階で実行するための最適な経路と/または絡み込み動作を反復的に決定する欲求アルゴリズムを提案する。 提案手法をランダムに生成したネットワーク上で評価し、最適オフラインアプローチから最大40%のレイテンシの低減を観測する。

Long-distance quantum communication in quantum networks faces significant challenges due to the constraints imposed by the no-cloning theorem. Most existing quantum communication protocols rely on the a priori distribution of entanglement pairs (EPs), a process known to incur considerable latency due to its stochastic nature. In this work, we consider the problem of minimizing the latency of establishing an EP across a pair of nodes in a quantum network. While prior research has primarily focused on minimizing the expected generation latency by selecting {\em static} entanglement routes and/or swapping trees in advance, our approach considers a real-time adaptive strategy -- wherein the order of entanglement-swapping operations (hence, the swapping tree used) is progressively determined at runtime based on the runtime success/failure of the stochastic events. In this context, we present a greedy algorithm that iteratively determines the best route and/or entanglement-swapping operation to perform at each stage based on the current network. We evaluate our schemes on randomly generated networks and observe a reduction in latency of up to 40% from the optimal offline approach.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# 一貫性政策 : 一貫性蒸留による覚醒剤の促進

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation ( http://arxiv.org/abs/2405.07503v1 )

ライセンス: Link先を確認
Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg, (参考訳) 移動マニピュレータや四極子などの多くのロボットシステムは、空間、重量、電力の制約によりハイエンドのGPUを装備できない。 これらの制約により、これらのシステムは、高速なポリシー推論を達成するためにハイエンドGPUを必要とするビジュモータポリシーアーキテクチャの最近の発展を活用することができない。 本稿では,移動ロボット制御学習のための拡散ポリシーの高速かつ類似した代替手段である一貫性ポリシーを提案する。 高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。 拡散政策は、拡散政策の学習軌道に沿って自己整合を強制することにより、事前訓練された拡散政策から蒸留される。 6つのシミュレーションタスクにまたがる一貫性ポリシと拡散ポリシ,その他の関連するスピードアップメソッド,およびラップトップGPU上で推論を実世界の2つのタスクを比較した。 これらすべてのタスクに対して、一貫性ポリシーは、最速の代替手法と比較して桁違いに推論をスピードアップし、競争的な成功率を維持する。 また, 整合性政策の訓練手順は, 事前訓練された拡散政策の品質に対して堅牢であり, 専門家が事前訓練されたモデルの広範なテストを避けるのに役立つことを示す。 このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。 コードとトレーニングの詳細は公開されます。

Many robotic systems, such as mobile manipulators or quadrotors, cannot be equipped with high-end GPUs due to space, weight, and power constraints. These constraints prevent these systems from leveraging recent developments in visuomotor policy architectures that require high-end GPUs to achieve fast policy inference. In this paper, we propose Consistency Policy, a faster and similarly powerful alternative to Diffusion Policy for learning visuomotor robot control. By virtue of its fast inference speed, Consistency Policy can enable low latency decision making in resource-constrained robotic setups. A Consistency Policy is distilled from a pretrained Diffusion Policy by enforcing self-consistency along the Diffusion Policy's learned trajectories. We compare Consistency Policy with Diffusion Policy and other related speed-up methods across 6 simulation tasks as well as two real-world tasks where we demonstrate inference on a laptop GPU. For all these tasks, Consistency Policy speeds up inference by an order of magnitude compared to the fastest alternative method and maintains competitive success rates. We also show that the Conistency Policy training procedure is robust to the pretrained Diffusion Policy's quality, a useful result that helps practioners avoid extensive testing of the pretrained model. Key design decisions that enabled this performance are the choice of consistency objective, reduced initial sample variance, and the choice of preset chaining steps. Code and training details will be released publicly.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# オープンソースソフトウェアプロジェクトのライフスパン予測におけるリポジトリ中心性の価値について

Revealing the value of Repository Centrality in lifespan prediction of Open Source Software Projects ( http://arxiv.org/abs/2405.07508v1 )

ライセンス: Link先を確認
Runzhi He, Hengzhi Ye, Minghui Zhou, (参考訳) 背景: オープンソースソフトウェアは現代のソフトウェアの構成要素です。 しかし、オープンソースプロジェクトにおけるプロジェクト非推奨の流行は、下流システムと広範なエコシステムの整合性を弱める。 そのため、プロジェクト非推奨を監視・予測し、利害関係者に積極的な措置を取るよう促すことが求められている。 課題: 既存のテクニックは主に予測を行う時点の静的機能に重点を置いており、結果として影響は限られている。 Goal: ユーザリポジトリネットワークから新たなメトリックを提案し,そのメトリックを活用してプロジェクトの非推奨予測に適合させ,その実生活への影響を実証する。 メソッド: 2011年から2023年までの103,354の非フォークのGitHub OSSプロジェクトを含む包括的なデータセットを確立する。 本稿では,レポジトリ・ユーザ・スターネットワークにおけるレポジトリの人気の変化を捉えたHITS重みのファミリーであるレポジトリ・集中性を提案する。 さらに, 勾配向上と深層学習の進歩を利用して, 生存率分析モデルに適合し, プロジェクト寿命や生存リスクを予測する。 結果: HITS中央値とリポジトリの非推奨リスクとの間には相関が認められた。 リポジトリのHITS重量の減少は、その中央値と有病率の低下を示し、沈降リスクが増加し、寿命が減少することを示している。 リポジトリの集中度やその他のリポジトリ機能を利用した予測モデルは、テストセット上で満足のいく精度を実現します。 本研究はOSSリポジトリの非推奨化に対する有病率の影響を理解するための新しい視点を提供する。 リポジトリの非推奨化を予測するアプローチは,プロジェクトの健全性を検知し,事前に行動を取る上で有効であり,よりレジリエントなOSSエコシステムを育む。

Background: Open Source Software is the building block of modern software. However, the prevalence of project deprecation in the open source world weakens the integrity of the downstream systems and the broad ecosystem. Therefore it calls for efforts in monitoring and predicting project deprecations, empowering stakeholders to take proactive measures. Challenge: Existing techniques mainly focus on static features on a point in time to make predictions, resulting in limited effects. Goal: We propose a novel metric from the user-repository network, and leverage the metric to fit project deprecation predictors and prove its real-life implications. Method: We establish a comprehensive dataset containing 103,354 non-fork GitHub OSS projects spanning from 2011 to 2023. We propose repository centrality, a family of HITS weights that captures shifts in the popularity of a repository in the repository-user star network. Further with the metric, we utilize the advancements in gradient boosting and deep learning to fit survival analysis models to predict project lifespan or its survival hazard. Results: Our study reveals a correlation between the HITS centrality metrics and the repository deprecation risk. A drop in the HITS weights of a repository indicates a decline in its centrality and prevalence, leading to an increase in its deprecation risk and a decrease in its expected lifespan. Our predictive models powered by repository centrality and other repository features achieve satisfactory accuracy on the test set, with repository centrality being the most significant feature among all. Implications: This research offers a novel perspective on understanding the effect of prevalence on the deprecation of OSS repositories. Our approach to predict repository deprecation help detect health status of project and take actions in advance, fostering a more resilient OSS ecosystem.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# RESTAD: 時系列異常検出のための再構成と類似性に基づく変換器

RESTAD: REconstruction and Similarity based Transformer for time series Anomaly Detection ( http://arxiv.org/abs/2405.07509v1 )

ライセンス: Link先を確認
Ramin Ghorbani, Marcel J. T. Reinders, David M. J. Tax, (参考訳) 時系列データの異常検出は、様々な領域で重要である。 このような課題に対するラベル付きデータの不足により,教師なし学習手法への注目が高まっている。 これらのアプローチは、しばしば再構成エラーにのみ依存するが、通常、複雑なデータセットの微妙な異常を検出するのに失敗する。 これを解決するために、アーキテクチャに放射基底関数(RBF)ニューロンの層を組み込むことにより、トランスフォーマーモデルの適応であるRESTADを導入する。 この層は遅延表現における非パラメトリック密度に適合し、高いRBF出力は、主に通常のトレーニングデータと類似性を示す。 RESTADはRBF類似度スコアと再構成エラーを統合し、異常に対する感度を高める。 実証的な評価では、RESTADは複数のベンチマークデータセットで、さまざまな確立されたベースラインよりも優れています。

Anomaly detection in time series data is crucial across various domains. The scarcity of labeled data for such tasks has increased the attention towards unsupervised learning methods. These approaches, often relying solely on reconstruction error, typically fail to detect subtle anomalies in complex datasets. To address this, we introduce RESTAD, an adaptation of the Transformer model by incorporating a layer of Radial Basis Function (RBF) neurons within its architecture. This layer fits a non-parametric density in the latent representation, such that a high RBF output indicates similarity with predominantly normal training data. RESTAD integrates the RBF similarity scores with the reconstruction errors to increase sensitivity to anomalies. Our empirical evaluations demonstrate that RESTAD outperforms various established baselines across multiple benchmark datasets.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# PeRFlow:Universal Plug-and-Play AcceleratorとしてのPiecewise Rectified Flow

PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator ( http://arxiv.org/abs/2405.07510v1 )

ライセンス: Link先を確認
Hanshu Yan, Xingchao Liu, Jiachun Pan, Jun Hao Liew, Qiang Liu, Jiashi Feng, (参考訳) 拡散モデルを高速化するフローベース手法であるPecewise Rectified Flow(PeRFlow)を提案する。 PeRFlowは、生成フローのサンプリングプロセスを複数の時間ウィンドウに分割し、リフロー操作を通じて各間隔の軌跡を直線化し、断片的な線形フローに近づく。 PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。 さらに、専用のパラメータ化により、得られたPeRFlowモデルは、事前訓練された拡散モデルに基づいて様々なワークフローと互換性のある普遍的なプラグアンドプレイアクセラレータとして機能する、有利な転送能力を示す。 トレーニングと推論の実装は完全にオープンソースである。 https://github.com/magic-research/piecewise-rectified-flow

We present Piecewise Rectified Flow (PeRFlow), a flow-based method for accelerating diffusion models. PeRFlow divides the sampling process of generative flows into several time windows and straightens the trajectories in each interval via the reflow operation, thereby approaching piecewise linear flows. PeRFlow achieves superior performance in a few-step generation. Moreover, through dedicated parameterizations, the obtained PeRFlow models show advantageous transfer ability, serving as universal plug-and-play accelerators that are compatible with various workflows based on the pre-trained diffusion models. The implementations of training and inference are fully open-sourced. https://github.com/magic-research/piecewise-rectified-flow
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# 文と文書の埋め込みのためのSwissBERTエンコーダモデルの微調整

Fine-tuning the SwissBERT Encoder Model for Embedding Sentences and Documents ( http://arxiv.org/abs/2405.07513v1 )

ライセンス: Link先を確認
Juri Grosjean, Jannis Vamvas, (参考訳) 文や短い文書の埋め込みのために訓練されたエンコーダモデルは、セマンティック検索やトピックモデリングといったタスクに有用であることが証明されている。 本稿では,SwissBERTエンコーダモデルについて述べる。 スイスの4つの国語(ドイツ語、フランス語、イタリア語、ロマンシュ語)の言語アダプタがSwissBERTに含まれており、これらの言語で多くのニュース記事に事前訓練されている。 これらの記事のサブセットに基づいた対照的な学習を使用して、SentenceSwissBERTと呼ばれる微調整バージョンをトレーニングしました。 スイス固有のセッティングにおける文書検索とテキスト分類に関する多言語実験により、SentenceSwissBERTは元のSwissBERTモデルの精度と同等のベースラインの精度を上回っていることが示された。 このモデルは研究用に公開されている。

Encoder models trained for the embedding of sentences or short documents have proven useful for tasks such as semantic search and topic modeling. In this paper, we present a version of the SwissBERT encoder model that we specifically fine-tuned for this purpose. SwissBERT contains language adapters for the four national languages of Switzerland -- German, French, Italian, and Romansh -- and has been pre-trained on a large number of news articles in those languages. Using contrastive learning based on a subset of these articles, we trained a fine-tuned version, which we call SentenceSwissBERT. Multilingual experiments on document retrieval and text classification in a Switzerland-specific setting show that SentenceSwissBERT surpasses the accuracy of the original SwissBERT model and of a comparable baseline. The model is openly available for research use.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# OpenBot-Fleet: リアルロボットによる集合学習システム

OpenBot-Fleet: A System for Collective Learning with Real Robots ( http://arxiv.org/abs/2405.07515v1 )

ライセンス: Link先を確認
Matthias Müller, Samarth Brahmbhatt, Ankur Deka, Quentin Leboutet, David Hafner, Vladlen Koltun, (参考訳) ナビゲーションのための総合的なオープンソースクラウドロボティクスシステムであるOpenBot-Fleetを紹介する。 OpenBot-Fleetは、センサー、ローカルコンピューティング、通信にスマートフォン、セキュアなクラウドストレージとオフボードコンピューティングにGoogle Firebase、現実世界の環境では堅牢だが低コストの車輪付きロボットトアクティベートを提供する。 ロボットはタスクデータを収集してクラウドにアップロードし、ナビゲーションポリシーをオフラインでもオンラインでも学べる。 実験では、72台のロボットを家庭で操作する労働者の群集に配布し、OpenBot-Fleetが、成功率を80%以下で、目に見えない家庭に一般化する堅牢なナビゲーションポリシーを学習できることを示しました。 OpenBot-Fleetは、クラウドロボティクスにおける重要な一歩であり、大規模で継続的に学習するロボット群を、コスト効率とスケーラブルな方法で展開できるようにする。 すべての資料はhttps://www.openbot.orgで見ることができる。 ビデオはhttps://youtu.be/wiv2oaDgDi8で公開されている。

We introduce OpenBot-Fleet, a comprehensive open-source cloud robotics system for navigation. OpenBot-Fleet uses smartphones for sensing, local compute and communication, Google Firebase for secure cloud storage and off-board compute, and a robust yet low-cost wheeled robot toact in real-world environments. The robots collect task data and upload it to the cloud where navigation policies can be learned either offline or online and can then be sent back to the robot fleet. In our experiments we distribute 72 robots to a crowd of workers who operate them in homes, and show that OpenBot-Fleet can learn robust navigation policies that generalize to unseen homes with >80% success rate. OpenBot-Fleet represents a significant step forward in cloud robotics, making it possible to deploy large continually learning robot fleets in a cost-effective and scalable manner. All materials can be found at https://www.openbot.org. A video is available at https://youtu.be/wiv2oaDgDi8
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# Few-shot Medical Image Segmentationのためのサポートクエリプロトタイプ核融合ネットワーク

Support-Query Prototype Fusion Network for Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2405.07516v1 )

ライセンス: Link先を確認
Xiaoxiao Wu, Zhenguo Gao, Xiaowei Chen, Yakai Wang, Shulei Qu, Na Li, (参考訳) 近年,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングは多くのアプリケーションで顕著な成功を収めている。 しかし、広範囲なラベル付きデータに大きく依存し、未確認クラスに対する限定的な一般化能力は、医療画像処理タスクに適合する可能性に課題をもたらす。 少人数のラベル付きデータを利用して見知らぬクラスに一般化する写真学習は、重要な研究領域として現れ、大きな注目を集めている。 現在、ほとんどの研究はプロトタイプベースのアプローチを採用しており、プロトタイプネットワークを用いてサポートセットからプロトタイプを構築し、クエリセットの処理を指導して最終的な結果を得る。 効果的な方法ではあるが、このアプローチはクエリセットを無視しながらサポートセットに大きく依存する。 この欠点を軽減するために,新しいSQPFNet(Support-Query Prototype Fusion Network)を提案する。 SQPFNetは当初、サポート画像の前景領域のサポートプロトタイプを複数生成し、粗いセグメンテーションマスクを生成する。 その後、粗いセグメンテーションマスクに基づいてクエリプロトタイプを構築し、クエリセットのパターン情報を活用する。 このように、SQPFNetは高品質なサポートクエリ融合プロトタイプを構築し、クエリイメージをセグメント化して最終的な洗練されたクエリマスクを得る。 SABSとCMRの2つの公開データセットの評価結果は、SQPFNetが最先端のパフォーマンスを達成することを示している。

In recent years, deep learning based on Convolutional Neural Networks (CNNs) has achieved remarkable success in many applications. However, their heavy reliance on extensive labeled data and limited generalization ability to unseen classes pose challenges to their suitability for medical image processing tasks. Few-shot learning, which utilizes a small amount of labeled data to generalize to unseen classes, has emerged as a critical research area, attracting substantial attention. Currently, most studies employ a prototype-based approach, in which prototypical networks are used to construct prototypes from the support set, guiding the processing of the query set to obtain the final results. While effective, this approach heavily relies on the support set while neglecting the query set, resulting in notable disparities within the model classes. To mitigate this drawback, we propose a novel Support-Query Prototype Fusion Network (SQPFNet). SQPFNet initially generates several support prototypes for the foreground areas of the support images, thus producing a coarse segmentation mask. Subsequently, a query prototype is constructed based on the coarse segmentation mask, additionally exploiting pattern information in the query set. Thus, SQPFNet constructs high-quality support-query fused prototypes, upon which the query image is segmented to obtain the final refined query mask. Evaluation results on two public datasets, SABS and CMR, show that SQPFNet achieves state-of-the-art performance.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# SambaNova SN40L: データフローによるAIメモリウォールのスケーリングとエキスパートのコンポジション

SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts ( http://arxiv.org/abs/2405.07518v1 )

ライセンス: Link先を確認
Raghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun, (参考訳) GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。 しかし、大規模にモノリシックLLMを訓練し、提供し、維持することは違法に高価で困難である。 現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、AIをデプロイする新しい方法を必要とするメモリウォールを生み出した。 コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。 しかし,本手法では, 従来のハードウェアを使用する場合, 1) 小型モデルでは操作強度が低く, 高い利用率を実現することが困難であり, (2) 動的に切り替える場合, 大量のモデルをホストすることは違法にコストがかかるか遅いかのどちらかである。 本稿では,CoE,ストリーミングデータフロー,および3層メモリシステムを組み合わせることで,AIメモリウォールをスケールする方法について述べる。 我々は150のエキスパートと1兆の総パラメータを持つCoEシステムであるSamba-CoEについて述べる。 SambaNova SN40L Reconfigurable Dataflow Unit (RDU)にSamba-CoEをデプロイします。 このチップは、オンチップ分散SRAM、オンパッケージHBM、オフパッケージDDR DRAMを備えた新しい3層メモリシステムを導入している。 専用のRDUネットワークは、複数のソケットのスケールアップとスケールアウトを可能にする。 本研究では,8つのRDUソケット上で動作しているベンチマークにおいて,未使用のベースラインと比較して2倍から13倍のスピードアップを示す。 CoEの推論デプロイメントでは、8ソケットRDUノードがマシンフットプリントを最大19倍に削減し、モデルの切り替え時間を15倍から31倍に短縮し、DGX H100よりも3.7倍、DGX A100よりも6.6倍のスピードアップを実現している。

Monolithic large language models (LLMs) like GPT-4 have paved the way for modern generative AI applications. Training, serving, and maintaining monolithic LLMs at scale, however, remains prohibitively expensive and challenging. The disproportionate increase in compute-to-memory ratio of modern AI accelerators have created a memory wall, necessitating new methods to deploy AI. Composition of Experts (CoE) is an alternative modular approach that lowers the cost and complexity of training and serving. However, this approach presents two key challenges when using conventional hardware: (1) without fused operations, smaller models have lower operational intensity, which makes high utilization more challenging to achieve; and (2) hosting a large number of models can be either prohibitively expensive or slow when dynamically switching between them. In this paper, we describe how combining CoE, streaming dataflow, and a three-tier memory system scales the AI memory wall. We describe Samba-CoE, a CoE system with 150 experts and a trillion total parameters. We deploy Samba-CoE on the SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - a commercial dataflow accelerator architecture that has been co-designed for enterprise inference and training applications. The chip introduces a new three-tier memory system with on-chip distributed SRAM, on-package HBM, and off-package DDR DRAM. A dedicated inter-RDU network enables scaling up and out over multiple sockets. We demonstrate speedups ranging from 2x to 13x on various benchmarks running on eight RDU sockets compared with an unfused baseline. We show that for CoE inference deployments, the 8-socket RDU Node reduces machine footprint by up to 19x, speeds up model switching time by 15x to 31x, and achieves an overall speedup of 3.7x over a DGX H100 and 6.6x over a DGX A100.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# リモートセンシングとUAV画像のデハージング:Dehazing Remote Sensing and UAV Imagery: A review of Deep Learning, Prior-based and Hybrid Approaches

Dehazing Remote Sensing and UAV Imagery: A Review of Deep Learning, Prior-based, and Hybrid Approaches ( http://arxiv.org/abs/2405.07520v1 )

ライセンス: Link先を確認
Gao Yu Lee, Jinkuan Chen, Tanmoy Dam, Md Meftahul Ferdaus, Daniel Puiu Poenar, Vu N Duong, (参考訳) 高品質の画像はリモートセンシングやUAVの応用には欠かせないが、大気汚染は画像の質を著しく低下させ、画像の劣化を重要な研究領域にしている。 深層畳み込みニューラルネットワークの導入以来、多くのアプローチが提案され、さらにビジョントランスフォーマーやコントラスト/ファウショット学習の開発が進んでいる。 同時に、様々なリモートセンシング(RS)ドメインに適用可能なデハージングアーキテクチャを記述する論文も発表されている。 このレビューは、従来のベンチマークされたヘイズデータセットよりも、リモートセンシングとUAVデータセットへのデハージングテクニックの適用を探求し、これらのドメインにおけるディープラーニングと事前ベースの両方のアプローチの包括的な概要を提供する。 大規模なRSデータセットの欠如や、より堅牢な評価指標の必要性など、主要な課題を特定し、それらに取り組むための潜在的なソリューションと今後の研究方向性を概説する。 このレビューは、我々の知る限り、UAVベースの画像を含むベンチマークおよびRSデータセットに関する既存のおよび非常に最近のデハージングアプローチ(2024年現在)について、包括的な議論を行う最初のものです。

High-quality images are crucial in remote sensing and UAV applications, but atmospheric haze can severely degrade image quality, making image dehazing a critical research area. Since the introduction of deep convolutional neural networks, numerous approaches have been proposed, and even more have emerged with the development of vision transformers and contrastive/few-shot learning. Simultaneously, papers describing dehazing architectures applicable to various Remote Sensing (RS) domains are also being published. This review goes beyond the traditional focus on benchmarked haze datasets, as we also explore the application of dehazing techniques to remote sensing and UAV datasets, providing a comprehensive overview of both deep learning and prior-based approaches in these domains. We identify key challenges, including the lack of large-scale RS datasets and the need for more robust evaluation metrics, and outline potential solutions and future research directions to address them. This review is the first, to our knowledge, to provide comprehensive discussions on both existing and very recent dehazing approaches (as of 2024) on benchmarked and RS datasets, including UAV-based imagery.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# ポリープセグメンテーションにおける不確実領域に対する識別セマンティクスの適応

Adaptation of Distinct Semantics for Uncertain Areas in Polyp Segmentation ( http://arxiv.org/abs/2405.07523v1 )

ライセンス: Link先を確認
Quang Vinh Nguyen, Van Thong Huynh, Soo-Hyung Kim, (参考訳) 大腸内視鏡はポリープの検出と治療のための一般的で実用的な方法である。 大腸内視鏡像からのポリープの分離は診断と手術の進行に有用である。 それでも、形状、色、条件、周囲の文脈からの明らかな非識別といったポリプ特性のため、優れたセグメンテーション性能を達成することは依然として困難である。 本研究は,ポリプセグメンテーションにおける不確定領域に対する識別セマンティックス適応(Adaptation of Distinct Semantics for Uncertain Areas in Polyp Segmentation, ADSNet)という新しいアーキテクチャを提案する。 アーキテクチャは、初期のグローバルマップを生成するために、補完的な三辺デコーダで構成されている。 連続注目モジュールは、初期グローバルマップの2つの別々のセマンティクスを分析するために、高レベルの特徴のセマンティクスを変更する。 提案手法は, 学習能力および一般化能力のポリプベンチマークにおいて経験し, 実験結果から, ポリプ画像分割作業における他の最先端技術と比較して, セグメンテーション性能が向上することを示す。 特に、提案アーキテクチャは、他のCNNベースのエンコーダ、トランスフォーマーベースのエンコーダ、デコーダバックボーンに対して柔軟に実験することができる。

Colonoscopy is a common and practical method for detecting and treating polyps. Segmenting polyps from colonoscopy image is useful for diagnosis and surgery progress. Nevertheless, achieving excellent segmentation performance is still difficult because of polyp characteristics like shape, color, condition, and obvious non-distinction from the surrounding context. This work presents a new novel architecture namely Adaptation of Distinct Semantics for Uncertain Areas in Polyp Segmentation (ADSNet), which modifies misclassified details and recovers weak features having the ability to vanish and not be detected at the final stage. The architecture consists of a complementary trilateral decoder to produce an early global map. A continuous attention module modifies semantics of high-level features to analyze two separate semantics of the early global map. The suggested method is experienced on polyp benchmarks in learning ability and generalization ability, experimental results demonstrate the great correction and recovery ability leading to better segmentation performance compared to the other state of the art in the polyp image segmentation task. Especially, the proposed architecture could be experimented flexibly for other CNN-based encoders, Transformer-based encoders, and decoder backbones.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# HybridHash: 画像検索のためのハイブリッド畳み込みと自己注意型ディープハッシュ

HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval ( http://arxiv.org/abs/2405.07524v1 )

ライセンス: Link先を確認
Chao He, Hongxi Wei, (参考訳) ディープイメージハッシュは、入力画像をディープニューラルネットワークを介して単純なバイナリハッシュコードにマッピングすることを目的としている。 近年、畳み込みとトランスフォーマーを組み合わせたハイブリッドネットワークは、様々なコンピュータタスクにおいて優れた性能を発揮しており、研究者から広く注目を集めている。 それでも、画像検索におけるそのようなハイブリッドネットワークの潜在的な利点は、まだ検証する必要がある。 この目的のために,HybridHashとして知られるハイブリッド畳み込み型・自己注意型ディープハッシュ法を提案する。 具体的には,ブロック集約関数を導入し,局所的な自己アテンションの効果を達成し,計算複雑性を低減する,段階的アーキテクチャによるバックボーンネットワークを提案する。 インタラクションモジュールは、画像ブロック間の情報通信を促進し、視覚的表現を強化するために、精巧に設計されている。 我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。 実験の結果,提案手法は最先端の深層ハッシュ法よりも優れた性能を示した。 ソースコードはhttps://github.com/shuaichaochao/HybridHashで入手できる。

Deep image hashing aims to map input images into simple binary hash codes via deep neural networks and thus enable effective large-scale image retrieval. Recently, hybrid networks that combine convolution and Transformer have achieved superior performance on various computer tasks and have attracted extensive attention from researchers. Nevertheless, the potential benefits of such hybrid networks in image retrieval still need to be verified. To this end, we propose a hybrid convolutional and self-attention deep hashing method known as HybridHash. Specifically, we propose a backbone network with stage-wise architecture in which the block aggregation function is introduced to achieve the effect of local self-attention and reduce the computational complexity. The interaction module has been elaborately designed to promote the communication of information between image blocks and to enhance the visual representations. We have conducted comprehensive experiments on three widely used datasets: CIFAR-10, NUS-WIDE and IMAGENET. The experimental results demonstrate that the method proposed in this paper has superior performance with respect to state-of-the-art deep hashing methods. Source code is available https://github.com/shuaichaochao/HybridHash.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# 列車の高速化と性能向上 - 過パラメータモデルによるモジュール適応トレーニング

Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models ( http://arxiv.org/abs/2405.07527v1 )

ライセンス: Link先を確認
Yubin Shi, Yixuan Chen, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Yujiang Wang, Robert P. Dick, Qin Lv, Yingying Zhao, Fan Yang, Tun Lu, Ning Gu, Li Shang, (参考訳) ディープラーニングコミュニティで普及しているにもかかわらず、過度にパラメータ化されたモデルは、適切なトレーニングのための計算コストの高い要求を伝達する。 この研究は、より効率的で実りあるトレーニング戦略を達成するために、過度にパラメータ化されたモデルのきめ細かいモジュールレベルの学習力学を研究する。 実証的な証拠は、自己注意モデルにおけるヘッドのようなネットワークモジュールへのスケールダウンでは、各モジュールのトレーニング容易性に暗黙的に関連付けられたさまざまな学習パターンを観察できることを示している。 このようなモジュールレベルの学習能力を説明するために,モジュール型ニューラルネットワークカーネル (mNTK) と呼ばれる新しい概念を導入し,モジュールの学習の質がmNTKの主固有値$\lambda_{\max}$と密接に関連していることを示す。 大きな$\lambda_{\max}$は、モジュールがより収束した特徴を学習することを示しているが、これらのミニチュアなものは一般化に悪影響を及ぼす可能性がある。 この発見に触発されて、我々は、モジュールを動的しきい値を超え、共通の特徴を学習し、一貫性のないものを無視してモデルを集中させる、MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。 すべてのネットワークモジュールに完全なBPサイクルを持つ既存のトレーニングスキームとは異なり、MATはその部分更新戦略によって計算を著しく削減し、パフォーマンスをさらに向上させることができる。 実験により、MATはモデルトレーニングの計算コストをほぼ半分にし、ベースラインの精度より優れていることが示された。

Despite their prevalence in deep-learning communities, over-parameterized models convey high demands of computational costs for proper training. This work studies the fine-grained, modular-level learning dynamics of over-parameterized models to attain a more efficient and fruitful training strategy. Empirical evidence reveals that when scaling down into network modules, such as heads in self-attention models, we can observe varying learning patterns implicitly associated with each module's trainability. To describe such modular-level learning capabilities, we introduce a novel concept dubbed modular neural tangent kernel (mNTK), and we demonstrate that the quality of a module's learning is tightly associated with its mNTK's principal eigenvalue $\lambda_{\max}$. A large $\lambda_{\max}$ indicates that the module learns features with better convergence, while those miniature ones may impact generalization negatively. Inspired by the discovery, we propose a novel training strategy termed Modular Adaptive Training (MAT) to update those modules with their $\lambda_{\max}$ exceeding a dynamic threshold selectively, concentrating the model on learning common features and ignoring those inconsistent ones. Unlike most existing training schemes with a complete BP cycle across all network modules, MAT can significantly save computations by its partially-updating strategy and can further improve performance. Experiments show that MAT nearly halves the computational cost of model training and outperforms the accuracy of baselines.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# 複数検索型Augmented GenerationによるPromptベースのコード補完

Prompt-based Code Completion via Multi-Retrieval Augmented Generation ( http://arxiv.org/abs/2405.07530v1 )

ライセンス: Link先を確認
Hanzhuo Tan, Qi Luo, Ling Jiang, Zizheng Zhan, Jing Li, Haotian Zhang, Yuqun Zhang, (参考訳) 未完成のコードから後のトークンを生成することを目的とした自動コード補完は、トレーニング済みの大規模言語モデル(LLM)の最近の進歩から大きな恩恵を受けている。 しかしながら、これらのモデルは、複雑なコードロジックを扱う場合や、トレーニングデータを超えて外挿する場合、コヒーレンスの問題や幻覚に悩まされることが多い。 既存のRAG(Retrieval Augmented Generation)技術は、検索したスニペットがコード補完のコンテキスト参照として機能する別のエンコードモデルで関連コードを取得することで、これらの問題に部分的に対処する。 しかし、それらの検索範囲は符号化モデルによって定義された特異な視点の対象であり、コード意味論に固有の複雑さと多様性を概ね見落としている。 この制限に対処するために,プロファイリングフレームワークであるProCCを提案する。 ProCCは、まずプロンプトベースのマルチレトリバーシステムを使用し、複数の検索パースペクティブを持つコードセマンティクスを理解するために、LCMの知識を引き出すプロンプトテンプレートを使用する。 そして、適応的な検索選択アルゴリズムを採用し、コード類似性を意思決定プロセスに組み込んで、LCMがコードを完成させる上で最も適した検索視点を決定する。 実験の結果,ProCCはオープンソースベンチマークスイートで8.6%,プライベートドメインベンチマークスイートで10.1%,エクササイズマッチで10億人のeコマース企業で収集したコード補完技術より優れていることがわかった。 ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。

Automated code completion, aiming at generating subsequent tokens from unfinished code, has been significantly benefited from recent progress in pre-trained Large Language Models (LLMs). However, these models often suffer from coherence issues and hallucinations when dealing with complex code logic or extrapolating beyond their training data. Existing Retrieval Augmented Generation (RAG) techniques partially address these issues by retrieving relevant code with a separate encoding model where the retrieved snippet serves as contextual reference for code completion. However, their retrieval scope is subject to a singular perspective defined by the encoding model, which largely overlooks the complexity and diversity inherent in code semantics. To address this limitation, we propose ProCC, a code completion framework leveraging prompt engineering and the contextual multi-armed bandits algorithm to flexibly incorporate and adapt to multiple perspectives of code. ProCC first employs a prompt-based multi-retriever system which crafts prompt templates to elicit LLM knowledge to understand code semantics with multiple retrieval perspectives. Then, it adopts the adaptive retrieval selection algorithm to incorporate code similarity into the decision-making process to determine the most suitable retrieval perspective for the LLM to complete the code. Experimental results demonstrate that ProCC outperforms state-of-the-art code completion technique by 8.6% on our collected open-source benchmark suite and 10.1% on the private-domain benchmark suite collected from a billion-user e-commerce company in terms of Exact Match. ProCC also allows augmenting fine-tuned techniques in a plug-and-play manner, yielding 5.6% improvement over our studied fine-tuned model.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# DID接続:分散識別子と検証クレデンシャルを用いたTLSにおける認証

DID Connect: Authentication in TLS with Decentralized Identifiers and Verifiable Credentials ( http://arxiv.org/abs/2405.07533v1 )

ライセンス: Link先を確認
Sandro Rodriguez Garzon, Dennis Natusch, Artur Philipp, Axel Küpper, Hans Joachim Einsiedler, Daniela Schneider, (参考訳) TLSの認証は、認証当局(CA)が発行するX.509デジタル証明書で優先的に行われる。 しかし、現在の公共の鍵となるインフラの中央集権的な性質は、単一障害点やサイバー攻撃への感受性などの深刻なリスクとともに、システム全体のセキュリティと信頼性を損なう可能性がある。 Decentralized Identifiers (DID) と分散台帳技術を組み合わせることで、証明の公開鍵を中央集権的で脆弱なCAで証明する必要なしに、ユニークな識別子の所有権を証明することは技術的に可能である。 本稿では,TLS 1.3の新たな認証方式であるDID Connectについて述べる。これは,CA発行の識別子の代わりに台帳付きDIDを備えた自己発行のX.509証明書を用いて,TLS準拠の認証を可能にするものだ。 TLSハンドシェイク後のDID-bound Verifiable Credentialsという形で、タンパー保護と第三者認証のクレームの交換を容易にし、通信相手の完全な識別で認証を完了する。 原型実装では、検証材料がキャッシュされている場合、DID ConnectのTLSハンドシェイク期間と、台帳から取得された場合、合理的な長期化を示す。 アプリケーション層上で広く使用されているDIDベースの代替トランスポートプロトコルよりも、TLSチャネルの大幅な高速化は、分散管理されたデジタルIDとセキュアで信頼性の高いエンドツーエンド通信リンクを確立するための、DID Connectの可能性を実証している。

Authentication in TLS is predominately carried out with X.509 digital certificates issued by certificate authorities (CA). The centralized nature of current public key infrastructures, however, comes along with severe risks, such as single points of failure and susceptibility to cyber-attacks, potentially undermining the security and trustworthiness of the entire system. With Decentralized Identifiers (DID) alongside distributed ledger technology, it becomes technically feasible to prove ownership of a unique identifier without requiring an attestation of the proof's public key by a centralized and therefore vulnerable CA. This article presents DID Connect, a novel authentication scheme for TLS 1.3 that empowers entities to authenticate in a TLS-compliant way with self-issued X.509 certificates that are equipped with ledger-anchored DIDs instead of CA-issued identifiers. It facilitates the exchange of tamper-proof and 3rd-party attested claims in the form of DID-bound Verifiable Credentials after the TLS handshake to complete the authentication with a full identification of the communication partner. A prototypical implementation shows comparable TLS handshake durations of DID Connect if verification material is cached and reasonable prolongations if it is obtained from a ledger. The significant speed improvement of the resulting TLS channel over a widely used, DID-based alternative transport protocol on the application layer demonstrates the potential of DID Connect to become a viable solution for the establishment of secure and trustful end-to-end communication links with decentrally managed digital identities.
翻訳日:2024-05-14 14:34:42 公開日:2024-05-13
# 探索コスト最小化制約を排除して逆2乗歩行を普遍的に生成するランダムウォークモデル

Random walk model that universally generates inverse square Lévy walk by eliminating search cost minimization constraint ( http://arxiv.org/abs/2405.07541v1 )

ライセンス: Link先を確認
Shuji Shinohara, Daiki Morita, Hayato Hirai, Ryosuke Kuribayashi, Nobuhito Manome, Toru Moriyama, Hiroshi Okamoto, Yoshihiro Nakajima, Pegio-Yukio Gunji, Ung-il Chung, (参考訳) L''evy ウォーク(L'evy walk)は、細菌からヒトまで、様々な生物の移動行動において、力の分布に追従する線形ステップの長さを特徴とするランダムウォークの一種である。 特に、L''evyは2倍近いパワー指数を持つ歩行を頻繁に観察するが、その根本原因は解明されていない。 本研究では、逆2乗歩行(Cauchy walk)と呼ばれる逆2乗歩行(L''evy walk)を生成するために設計された、単純化された抽象的なランダムウォークモデルを導入し、これらの現象を促進する条件を探索する。 モデルでは,エージェントは多次元空間においてランダムに選択された目的地に向かって移動し,その移動戦略は最短経路を追求する範囲によってパラメータ化される。 探索コストが走行距離に比例すると、このパラメータは探索コストの最小化を効果的に反映する。 以上の結果より,このコスト最小化制約への厳密な固着は,ブラウン歩行パターンをもたらすことが明らかとなった。 しかし、この制約を取り除くことは、運動を逆正方形 L\'evy ウォークに遷移させる。 したがって,探索コストの優先順位付けを調節することにより,Bownian と Cauchy の歩行動態をシームレスに切り替えることができる。 このモデルは最適化問題のパラメータ空間の探索に利用できる可能性がある。

The L\'evy walk, a type of random walk characterized by linear step lengths that follow a power-law distribution, is observed in the migratory behaviors of various organisms, ranging from bacteria to humans. Notably, L\'evy walks with power exponents close to two are frequently observed, though their underlying causes remain elusive. This study introduces a simplified, abstract random walk model designed to produce inverse square L\'evy walks, also known as Cauchy walks and explores the conditions that facilitate these phenomena. In our model, agents move toward a randomly selected destination in multi-dimensional space, and their movement strategy is parameterized by the extent to which they pursue the shortest path. When the search cost is proportional to the distance traveled, this parameter effectively reflects the emphasis on minimizing search costs. Our findings reveal that strict adherence to this cost minimization constraint results in a Brownian walk pattern. However, removing this constraint transitions the movement to an inverse square L\'evy walk. Therefore, by modulating the prioritization of search costs, our model can seamlessly alternate between Brownian and Cauchy walk dynamics. This model has the potential to be utilized for exploring the parameter space of an optimization problem.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# EMS-SD:大規模言語モデルの高速化のための効率的なマルチサンプル投機デコーディング

EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models ( http://arxiv.org/abs/2405.07542v1 )

ライセンス: Link先を確認
Yunsheng Ni, Chuanjian Liu, Yehui Tang, Kai Han, Yunhe Wang, (参考訳) 投機的復号化は,Large Language Models (LLMs) の推論速度を向上させる重要な手法として現れる。 予測効率の向上を目的とした最近の研究にもかかわらず、検証フェーズにおけるバッチ内のトークン数の変化により、マルチサンプル投機復号化は見過ごされている。 Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。 しかし、これにより計算とメモリアクセスのオーバーヘッドが増大し、スピードアップ比が低下する。 本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。 さらに,本提案手法は,異なるサンプルの予測トークンがパディングトークンを付加することなく不整合である状況に対処することができる。 本手法の有効性を示す十分な実験を行った。 私たちのコードはhttps://github.com/niyunsheng/EMS-SDで利用可能です。

Speculative decoding emerges as a pivotal technique for enhancing the inference speed of Large Language Models (LLMs). Despite recent research aiming to improve prediction efficiency, multi-sample speculative decoding has been overlooked due to varying numbers of accepted tokens within a batch in the verification phase. Vanilla method adds padding tokens in order to ensure that the number of new tokens remains consistent across samples. However, this increases the computational and memory access overhead, thereby reducing the speedup ratio. We propose a novel method that can resolve the issue of inconsistent tokens accepted by different samples without necessitating an increase in memory or computing overhead. Furthermore, our proposed method can handle the situation where the prediction tokens of different samples are inconsistent without the need to add padding tokens. Sufficient experiments demonstrate the efficacy of our method. Our code is available at https://github.com/niyunsheng/EMS-SD.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# 授業学習によるパーソナライズされた車線変更の進化の促進

Accelerating the Evolution of Personalized Automated Lane Change through Lesson Learning ( http://arxiv.org/abs/2405.07543v1 )

ライセンス: Link先を確認
Jia Hu, Mingyue Lei, Duo Li, Zhenning Li, Jaehyun, So, Haoran Wang, (参考訳) 高度運転支援システムの普及にはパーソナライゼーションが不可欠である。 各ユーザの好みに合わせて、オンラインの進化能力は必須です。 しかし、従来の進化的手法は、多くの計算能力を必要とし、オンラインでは適用できない自然主義的な駆動データから学習する。 この課題に対処するために,本研究では,ドライバーの乗っ取り介入から学ぶことを目的とした授業学習アプローチを提案する。 オンラインの乗っ取りデータを活用することにより、ガウス判別分析を用いて認識された安全性を確保するために、駆動ゾーンを生成する。 軌道計画報酬に対するリアルタイム補正は、見習いの学習を通じて行われる。 駆動ゾーンの制約内での報酬の最適化を目的とし,軌道計画にモデル予測制御を用いる。 このレッスン学習フレームワークは、より高速な進化能力、蓄積された経験への適応性、認識された安全性の保証、計算効率について強調されている。 シミュレーションの結果,提案方式は,さらなるテイクオーバ介入を伴わずに,一貫したカスタマイズを実現していることがわかった。 累積経験により、進化効率が24%向上する。 学習回数は13.8回である。 平均計算時間は0.08秒である。

Personalization is crucial for the widespread adoption of advanced driver assistance system. To match up with each user's preference, the online evolution capability is a must. However, conventional evolution methods learn from naturalistic driving data, which requires a lot computing power and cannot be applied online. To address this challenge, this paper proposes a lesson learning approach: learning from driver's takeover interventions. By leveraging online takeover data, the driving zone is generated to ensure perceived safety using Gaussian discriminant analysis. Real-time corrections to trajectory planning rewards are enacted through apprenticeship learning. Guided by the objective of optimizing rewards within the constraints of the driving zone, this approach employs model predictive control for trajectory planning. This lesson learning framework is highlighted for its faster evolution capability, adeptness at experience accumulating, assurance of perceived safety, and computational efficiency. Simulation results demonstrate that the proposed system consistently achieves a successful customization without further takeover interventions. Accumulated experience yields a 24% enhancement in evolution efficiency. The average number of learning iterations is only 13.8. The average computation time is 0.08 seconds.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# スパース点雲からのオドメトリーレスオープンドライブ生成

Automatic Odometry-Less OpenDRIVE Generation From Sparse Point Clouds ( http://arxiv.org/abs/2405.07544v1 )

ライセンス: Link先を確認
Leon Eisemann, Johannes Maucher, (参考訳) 高解像度道路表現は(高度に)自動運転機能の成功の鍵となる要素である。 これらの表現、例えばHDマップは、道路形状、車線情報、交通標識など、様々な要因に関する正確な情報を含んでいる。 自動運転機能の複雑さと機能の向上を通じて、テストと評価の要件も継続的に増加します。 これにより、評価目的の仮想テストドライブへの関心が高まっている。 道路は交通流において重要な役割を担っているため、特に現実的な運転行動データを引き出す際には、正確な実世界の表現が必要である。 本稿では,LiDARセンサに依存せず,計測データやマルチセンサフュージョン,機械学習,高精度キャリブレーションを必要とせずに,点雲情報のみに基づいて現実的な道路表現を生成する手法を提案する。 主なユースケースはシミュレーションであるので、評価にはOpenDRIVEフォーマットを使用します。

High-resolution road representations are a key factor for the success of (highly) automated driving functions. These representations, for example, high-definition (HD) maps, contain accurate information on a multitude of factors, among others: road geometry, lane information, and traffic signs. Through the growing complexity and functionality of automated driving functions, also the requirements on testing and evaluation grow continuously. This leads to an increasing interest in virtual test drives for evaluation purposes. As roads play a crucial role in traffic flow, accurate real-world representations are needed, especially when deriving realistic driving behavior data. This paper proposes a novel approach to generate realistic road representations based solely on point cloud information, independent of the LiDAR sensor, mounting position, and without the need for odometry data, multi-sensor fusion, machine learning, or highly-accurate calibration. As the primary use case is simulation, we use the OpenDRIVE format for evaluation.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# 蹴られた量子カオススピンのランダム行列絡み合い統計からの逸脱-1/2$鎖

Deviations from random matrix entanglement statistics for kicked quantum chaotic spin-$1/2$ chains ( http://arxiv.org/abs/2405.07545v1 )

ライセンス: Link先を確認
Tabea Herrmann, Roland Brandau, Arnd Bäcker, (参考訳) 量子カオス的な多くの身体系では、統計的性質が系のサイズを増大させるときにランダム行列に近づくことが一般的に期待されている。 平均固有状態の絡み合いが実際にランダムな行列結果に近づくような様々なスピン-1/2$チェーンモデルを示す。 しかし、固有状態の絡み合いの分布は著しく異なる。 自律システムについては、そのような偏差は期待されているが、よりスクランブルなキックドシステムには驚きだ。 偏差の起源は局所的な2次元ヒルベルト空間に帰着する。 これはまた、大域対角結合を持つ局所ランダム行列モデルにおける同様の偏差によっても支持される。

It is commonly expected that for quantum chaotic many body systems the statistical properties approach those of random matrices when increasing the system size. We demonstrate for various kicked spin-$1/2$ chain models that the average eigenstate entanglement indeed approaches the random matrix result. However, the distribution of the eigenstate entanglement differs significantly. While for autonomous systems such deviations are expected, they are surprising for the more scrambling kicked systems. We attribute the origin of the deviations to the local two-dimensional Hilbert spaces. This is also supported by similar deviations occurring in a local random matrix model with global diagonal coupling.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# ドローンによるフィンランドの森林・泥炭地帯における野生ベリー画像の収集

Wild Berry image dataset collected in Finnish forests and peatlands using drones ( http://arxiv.org/abs/2405.07550v1 )

ライセンス: Link先を確認
Luigi Riz, Sergio Povoli, Andrea Caraffa, Davide Boscaini, Mohamed Lamine Mekhalfi, Paul Chippendale, Marjut Turtiainen, Birgitta Partanen, Laura Smith Ballester, Francisco Blanes Noguera, Alessio Franchi, Elisa Castelli, Giacomo Piccinini, Luca Marchesotti, Micael Santos Couceiro, Fabio Poiesi, (参考訳) ベリーピッキングはフィンランドでは長年の伝統があるが、困難であり、潜在的に危険である可能性がある。 高度な撮像技術を備えたドローンの統合は、変革的な飛躍であり、収穫を最適化し、持続可能なプラクティスを約束する。 われわれは、フィンランドの森林の天蓋の下、泥炭地帯で捕獲された野生のベリーをドローンで撮影した最初の画像データセットであるWildBeを提案する。 従来および関連するデータセットとは異なり、WildBeはビルベリー、クラウドベリー、リンゴンベリー、クローベリーなどの新しい種類のベリーを含んでいる。 WildBeには3,516枚の画像があり、合計18,468個の注釈付きバウンディングボックスが含まれている。 6つの人気オブジェクト検出器を用いてWildBeの総合的な解析を行い、異なる森林地域とカメラタイプにわたるベリー検出の有効性を評価した。 WildBeを公開します。

Berry picking has long-standing traditions in Finland, yet it is challenging and can potentially be dangerous. The integration of drones equipped with advanced imaging techniques represents a transformative leap forward, optimising harvests and promising sustainable practices. We propose WildBe, the first image dataset of wild berries captured in peatlands and under the canopy of Finnish forests using drones. Unlike previous and related datasets, WildBe includes new varieties of berries, such as bilberries, cloudberries, lingonberries, and crowberries, captured under severe light variations and in cluttered environments. WildBe features 3,516 images, including a total of 18,468 annotated bounding boxes. We carry out a comprehensive analysis of WildBe using six popular object detectors, assessing their effectiveness in berry detection across different forest regions and camera types. We will release WildBe publicly.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# MuMath-Code: マルチパースペクティブデータ拡張とツール利用大言語モデルの組み合わせによる数学的推論

MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning ( http://arxiv.org/abs/2405.07551v1 )

ライセンス: Link先を確認
Shuo Yin, Weihao You, Zhilong Ji, Guoqiang Zhong, Jinfeng Bai, (参考訳) 外部Pythonインタプリタと統合したツール利用のLarge Language Models (LLM) は、オープンソースのLLMの数学的推論能力を著しく向上させ、ツールフリーメソッドは別のトラックを選択した。 しかし、上記の2つの研究経路を統合し、それらの利点を組み合わせるための優れた方法が検討されている。 そこで本研究では,まず,マルチパースペクティブなデータ拡張手法を用いて新しい数学質問を抽出し,その解を合成する。 オープンなLLM(すなわちLlama-2)は、拡張データセット上で微調整され、結果のモデルであるMuMath-Code(\mu$-Math-Code)を取得する。 推論フェーズでは、 MuMath-Code がコードを生成し、外部のpythonインタプリタと対話して実行結果を取得する。 したがって、MuMath-Codeは外部ツールとデータ拡張の両方の利点を活用している。 拡張データの利点をフル活用するために、私たちは2段階のトレーニング戦略を提案します。Stage-1では、純粋なCoTデータにLlama-2を精細化し、中間モデルを取得し、Stage-2のコードネストデータに基づいてトレーニングを行い、結果のMuMath-Codeを得る。 私たちの MuMath-Code-7B は GSM8K では83.8、MATHでは52.4、オープンメソッドでは MuMath-Code-70B モデルは新しい最先端のパフォーマンスを達成しており、GSM8K では90.7%、MATHでは55.1% である。 大規模な実験は、ツールの使用とデータ拡張の組み合わせ、および2段階のトレーニング戦略を検証する。 提案されたデータセットと関連するコードを公開するためにリリースします。

The tool-use Large Language Models (LLMs) that integrate with external Python interpreters have significantly enhanced mathematical reasoning capabilities for open-source LLMs, while tool-free methods chose another track: augmenting math reasoning data. However, a great method to integrate the above two research paths and combine their advantages remains to be explored. In this work, we firstly include new math questions via multi-perspective data augmenting methods and then synthesize code-nested solutions to them. The open LLMs (i.e., Llama-2) are finetuned on the augmented dataset to get the resulting models, MuMath-Code ($\mu$-Math-Code). During the inference phase, our MuMath-Code generates code and interacts with the external python interpreter to get the execution results. Therefore, MuMath-Code leverages the advantages of both the external tool and data augmentation. To fully leverage the advantages of our augmented data, we propose a two-stage training strategy: In Stage-1, we finetune Llama-2 on pure CoT data to get an intermediate model, which then is trained on the code-nested data in Stage-2 to get the resulting MuMath-Code. Our MuMath-Code-7B achieves 83.8 on GSM8K and 52.4 on MATH, while MuMath-Code-70B model achieves new state-of-the-art performance among open methods -- achieving 90.7% on GSM8K and 55.1% on MATH. Extensive experiments validate the combination of tool use and data augmentation, as well as our two-stage training strategy. We release the proposed dataset along with the associated code for public use.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# 分散高次元量子回帰:推定効率と回復支援

Distributed High-Dimensional Quantile Regression: Estimation Efficiency and Support Recovery ( http://arxiv.org/abs/2405.07552v1 )

ライセンス: Link先を確認
Caixing Wang, Ziliang Shen, (参考訳) 本稿では,高次元線形量子化レグレッションのための分散推定とサポートリカバリに着目した。 量子回帰は、外れ値とデータ不均一性に対するロバスト性に対する最小二乗回帰に対する一般的な代替ツールである。 しかし、チェックロス関数の非滑らかさは、分散環境での計算と理論の両方に大きな課題をもたらす。 これらの問題に対処するため、元の量子レグレッションを最小二乗最適化に変換する。 二重平滑化アプローチを適用することで、エラー項と共変量の間の制約的な独立な仮定を伴わずに、ニュートン型分散アプローチを拡張した。 効率的なアルゴリズムを開発し、高い計算と通信効率を享受する。 理論的には、提案した分散推定器は、一定回数の繰り返しの後、ほぼ円の収束率と高いサポート回復精度を達成する。 合成例と実データを用いた大規模実験により,提案手法の有効性がさらに示された。

In this paper, we focus on distributed estimation and support recovery for high-dimensional linear quantile regression. Quantile regression is a popular alternative tool to the least squares regression for robustness against outliers and data heterogeneity. However, the non-smoothness of the check loss function poses big challenges to both computation and theory in the distributed setting. To tackle these problems, we transform the original quantile regression into the least-squares optimization. By applying a double-smoothing approach, we extend a previous Newton-type distributed approach without the restrictive independent assumption between the error term and covariates. An efficient algorithm is developed, which enjoys high computation and communication efficiency. Theoretically, the proposed distributed estimator achieves a near-oracle convergence rate and high support recovery accuracy after a constant number of iterations. Extensive experiments on synthetic examples and a real data application further demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# 大規模言語モデルを用いた死亡データの歴史的原因の符号化

Coding historical causes of death data with Large Language Models ( http://arxiv.org/abs/2405.07560v1 )

ライセンス: Link先を確認
Bjørn Pedersen, Maisha Islam, Doris Tove Kristoffersen, Lars Ailo Bongo, Eilidh Garrett, Alice Reid, Hilde Sommerseth, (参考訳) 本稿では,事前学習した生成型大規模言語モデル(LLM)を用いて,過去の死因に対するICD-10符号の割り当てを自動化する可能性について検討する。 歴史的死因でしばしば見られる複雑な物語のため、この作業は伝統的にコーディングの専門家によって手作業で行われてきた。 Ipswich, Kilmarnock, the Isle of Skye from the UK-1901, Ipswich, Kilmarnock, and the Isle of Skye from the UK。 以上より, GPT-3.5, GPT-4, Llama 2はそれぞれ69%, 83%, 40%の正解率を示した。 しかし,標準的な機械学習技術により,最大89%の精度が得られる。 全てのLSMは、現在使われている用語を含む死の原因に対して、古来の用語よりも優れた性能を発揮した。 また、短い原因(1-2語)に対して、長い原因よりも優れている。 したがって、LLMは歴史的ICD-10のコード割り当てタスクでは十分に機能しない。 適切なパフォーマンスを達成するために、さらに微調整や代替のフレームワークを提案する。

This paper investigates the feasibility of using pre-trained generative Large Language Models (LLMs) to automate the assignment of ICD-10 codes to historical causes of death. Due to the complex narratives often found in historical causes of death, this task has traditionally been manually performed by coding experts. We evaluate the ability of GPT-3.5, GPT-4, and Llama 2 LLMs to accurately assign ICD-10 codes on the HiCaD dataset that contains causes of death recorded in the civil death register entries of 19,361 individuals from Ipswich, Kilmarnock, and the Isle of Skye from the UK between 1861-1901. Our findings show that GPT-3.5, GPT-4, and Llama 2 assign the correct code for 69%, 83%, and 40% of causes, respectively. However, we achieve a maximum accuracy of 89% by standard machine learning techniques. All LLMs performed better for causes of death that contained terms still in use today, compared to archaic terms. Also they perform better for short causes (1-2 words) compared to longer causes. LLMs therefore do not currently perform well enough for historical ICD-10 code assignment tasks. We suggest further fine-tuning or alternative frameworks to achieve adequate performance.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# GLiRA:知識蒸留によるブラックボックスメンバーシップ推論攻撃

GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation ( http://arxiv.org/abs/2405.07562v1 )

ライセンス: Link先を確認
Andrey V. Galichin, Mikhail Pautov, Alexey Zhavoronkin, Oleg Y. Rogov, Ivan Oseledets, (参考訳) ディープニューラルネットワーク(DNN)は、知覚と制御に関連するタスクにおいて顕著なパフォーマンスを示しているが、トレーニングデータのプライバシ、特にメンバーシップ推論攻撃(MIA)の脆弱性に関して、まだ未解決の懸念がいくつかある。 本稿では,メンバシップ推論攻撃に対する感受性と,蒸留機能盗難攻撃に対する脆弱性との関係について検討する。 特に,ブラックボックスニューラルネットワークに対するメンバシップ推論攻撃に対する蒸留誘導型アプローチである {GLiRA} を提案する。 知識蒸留は,特にブラックボックス設定において,攻撃者に対して対象モデルのアーキテクチャが不明な場合において,会員推論攻撃の確率比の効率を著しく向上させる。 提案手法は,複数の画像分類データセットおよびモデルにまたがって評価され,知識蒸留によって誘導された場合の確率比が,ブラックボックス設定における現在の最先端メンバシップ推論攻撃よりも優れていることを示す。

While Deep Neural Networks (DNNs) have demonstrated remarkable performance in tasks related to perception and control, there are still several unresolved concerns regarding the privacy of their training data, particularly in the context of vulnerability to Membership Inference Attacks (MIAs). In this paper, we explore a connection between the susceptibility to membership inference attacks and the vulnerability to distillation-based functionality stealing attacks. In particular, we propose {GLiRA}, a distillation-guided approach to membership inference attack on the black-box neural network. We observe that the knowledge distillation significantly improves the efficiency of likelihood ratio of membership inference attack, especially in the black-box setting, i.e., when the architecture of the target model is unknown to the attacker. We evaluate the proposed method across multiple image classification datasets and models and demonstrate that likelihood ratio attacks when guided by the knowledge distillation, outperform the current state-of-the-art membership inference attacks in the black-box setting.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# TattTRN: タブー検索のためのテンプレート再構築ネットワーク

TattTRN: Template Reconstruction Network for Tattoo Retrieval ( http://arxiv.org/abs/2405.07571v1 )

ライセンス: Link先を確認
Lazaro Janier Gonzalez-Soler, Maciej Salwowski, Christian Rathgeb, Daniel Fischer, (参考訳) タトゥーは、差別的な情報を含むとして、犯罪者や被害者の識別において法執行機関を支援するために、ソフトバイオメトリックスとして効果的に用いられており、犯罪組織や組織のメンバーを特定するのに有用な指標である。 タトゥーを含む画像の取得にはさまざまなプライバシー上の問題があるため、限られた数のデータベースしか存在しない。 このデータベースの欠如は、潜在的な容疑者のタトゥー画像を候補ギャラリーから効果的に検索する新しい手法の開発を遅らせている。 この問題を緩和するために、我々の研究では、教師なし生成手法を用いて、571のタトゥーカテゴリの半合成画像を含む28,550の半合成画像からなるバランスの取れたデータベースを作成しました。 さらに,タトゥーテンプレート再構築ネットワーク(TattTRN)を導入し,入力したタトゥーサンプルをそれぞれのタトゥーテンプレートにマッピングすることで,最終特徴埋め込みの識別特性を高める。 実データ、すなわちWebTattooとBIVTattデータベースによる実験結果は、提示されたアプローチの健全性を示している。

Tattoos have been used effectively as soft biometrics to assist law enforcement in the identification of offenders and victims, as they contain discriminative information, and are a useful indicator to locate members of a criminal gang or organisation. Due to various privacy issues in the acquisition of images containing tattoos, only a limited number of databases exists. This lack of databases has delayed the development of new methods to effectively retrieve a potential suspect's tattoo images from a candidate gallery. To mitigate this issue, in our work, we use an unsupervised generative approach to create a balanced database consisting of 28,550 semi-synthetic images with tattooed subjects from 571 tattoo categories. Further, we introduce a novel Tattoo Template Reconstruction Network (TattTRN), which learns to map the input tattoo sample to its respective tattoo template to enhance the distinguishing attributes of the final feature embedding. Experimental results with real data, i.e., WebTattoo and BIVTatt databases, demonstrate the soundness of the presented approach: an accuracy of up to 99% is achieved for checking at most the first 20 entries of the candidate list.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# MaskFuser: エンド・ツー・エンド自動運転のためのマルチモーダル複合化のマスク付き融合

MaskFuser: Masked Fusion of Joint Multi-Modal Tokenization for End-to-End Autonomous Driving ( http://arxiv.org/abs/2405.07573v1 )

ライセンス: Link先を確認
Yiqun Duan, Xianda Guo, Zheng Zhu, Zhen Wang, Yu-Kai Wang, Chin-Teng Lin, (参考訳) 現在のマルチモダリティ駆動フレームワークは、通常、単一モダリティブランチ間の注意を生かして表現を融合する。 しかし、既存のネットワークはイメージとLiDARのブランチが独立しており、統一された観察表現がないため、駆動性能を抑え続けている。 そこで本稿では,様々なモダリティを統一的な意味的特徴空間にトークン化するMaskFuserを提案する。 統一されたトークン表現を考えると、MaskFuserは、クロスモダリティのマスク付きオートエンコーダトレーニングを導入する最初の作業である。 マスク付きトレーニングは、マスク付きトークンの再構成による融合表現を強化する。 初期核融合の段階では、分岐間で単調-BEV変換の注意をすることでモダリティを融合させ、後期核融合は様々なモダリティを共通のエンコーディングで統一トークン空間にトークン化する。 MaskFuser は CARLA LongSet6 ベンチマークでそれぞれ 49.05 のドライブスコアと 92.85% のルート完了を達成した。 仮面融合は、損傷した感覚入力下での駆動安定性を高める。 MaskFuserは以前のベースラインよりも6.55(27.8%)、1.53(13.8%)、1.57(30.9%)、感覚マスキング比25%、50%、75%を達成している。

Current multi-modality driving frameworks normally fuse representation by utilizing attention between single-modality branches. However, the existing networks still suppress the driving performance as the Image and LiDAR branches are independent and lack a unified observation representation. Thus, this paper proposes MaskFuser, which tokenizes various modalities into a unified semantic feature space and provides a joint representation for further behavior cloning in driving contexts. Given the unified token representation, MaskFuser is the first work to introduce cross-modality masked auto-encoder training. The masked training enhances the fusion representation by reconstruction on masked tokens. Architecturally, a hybrid-fusion network is proposed to combine advantages from both early and late fusion: For the early fusion stage, modalities are fused by performing monotonic-to-BEV translation attention between branches; Late fusion is performed by tokenizing various modalities into a unified token space with shared encoding on it. MaskFuser respectively reaches a driving score of 49.05 and route completion of 92.85% on the CARLA LongSet6 benchmark evaluation, which improves the best of previous baselines by 1.74 and 3.21%. The introduced masked fusion increases driving stability under damaged sensory inputs. MaskFuser outperforms the best of previous baselines on driving score by 6.55 (27.8%), 1.53 (13.8%), 1.57 (30.9%), respectively given sensory masking ratios 25%, 50%, and 75%.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# DynLLM: 大規模言語モデルが動的グラフレコメンデーションに直面するとき

DynLLM: When Large Language Models Meet Dynamic Graph Recommendation ( http://arxiv.org/abs/2405.07580v1 )

ライセンス: Link先を確認
Ziwei Zhao, Fake Lin, Xi Zhu, Zhi Zheng, Tong Xu, Shitian Shen, Xueying Li, Zikai Yin, Enhong Chen, (参考訳) 昨年、リコメンデータシステムにおける潜在的なアプリケーションに対するLarge Language Models (LLMs) のかなりの関心を目の当たりにした。 より優れたグラフベースのレコメンデーションパフォーマンスを備えたユーザイットグラフ強化のための大きな取り組みが実施されているが、時間進化データ処理において本質的に複雑となる構造グラフと時間グラフのダイナミクスの両方を含む、動的グラフレコメンデーションタスクに対処できない可能性がある。 本稿では,このギャップを埋めるために,LLMを用いた動的グラフレコメンデーションタスクを扱う新しいフレームワークDynLLMを提案する。 特に、DynLLMはLLMの力を利用して、群衆セグメント、個人的関心事、好まれるカテゴリー、好まれるブランドなど、歴史的購入記録の豊富なテキスト的特徴に基づく多面的ユーザプロファイルを生成し、ユーザとアイテム間の基礎的関係を補完し、強化する。 この線に沿って、多面体プロファイルを時間グラフ埋め込みで融合させるため、LLMを係合させて対応するプロファイル埋め込みを導出し、さらに、連続時間動的グラフ(CTDGs)からの時間グラフ埋め込みとのシームレスな統合のために、各蒸留面体埋め込みの関連性を評価し調整しながら、LLM生成プロファイル埋め込みを改良する蒸留アテンション機構を用いる。 2つの実際のeコマースデータセットに対する大規模な実験は、幅広い最先端のベースライン手法よりも優れたDynLLMの改善を実証した。

Last year has witnessed the considerable interest of Large Language Models (LLMs) for their potential applications in recommender systems, which may mitigate the persistent issue of data sparsity. Though large efforts have been made for user-item graph augmentation with better graph-based recommendation performance, they may fail to deal with the dynamic graph recommendation task, which involves both structural and temporal graph dynamics with inherent complexity in processing time-evolving data. To bridge this gap, in this paper, we propose a novel framework, called DynLLM, to deal with the dynamic graph recommendation task with LLMs. Specifically, DynLLM harnesses the power of LLMs to generate multi-faceted user profiles based on the rich textual features of historical purchase records, including crowd segments, personal interests, preferred categories, and favored brands, which in turn supplement and enrich the underlying relationships between users and items. Along this line, to fuse the multi-faceted profiles with temporal graph embedding, we engage LLMs to derive corresponding profile embeddings, and further employ a distilled attention mechanism to refine the LLM-generated profile embeddings for alleviating noisy signals, while also assessing and adjusting the relevance of each distilled facet embedding for seamless integration with temporal graph embedding from continuous time dynamic graphs (CTDGs). Extensive experiments on two real e-commerce datasets have validated the superior improvements of DynLLM over a wide range of state-of-the-art baseline methods.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# FRRffusion: 拡散に基づく顔のリタッチによる認証の無効化

FRRffusion: Unveiling Authenticity with Diffusion-Based Face Retouching Reversal ( http://arxiv.org/abs/2405.07582v1 )

ライセンス: Link先を確認
Fengchuang Xing, Xiaowen Shi, Yuan-Gen Wang, Chunsheng Yang, (参考訳) 悪意のあるユーザーが欺く広告や経済詐欺を阻止するために、修正された顔が実際に現れることは、デジタル経済の時代においてますます懸念されている。 本稿では,FRR(face retouching Reversal)問題について検討する。 このデータセットは、5万個のStyleGAN生成した高解像度(1024*1024)の顔画像と、それに対応する修正された画像を商用オンラインAPIで収集する。 我々の知る限り、DeepFRRは、ディープFRRモデルのトレーニングに適した最初のFRRデータセットです。 次に,FRRタスクに対する新しい拡散型FRRアプローチ(FRRffusion)を提案する。 拡散型ファシアル・モフォ・アーキテクト・レゾラー(FMAR)は第1段階で低解像度の顔の基本的な輪郭を生成するために構築され、トランスフォーマーベースのハイパーリアリスティック・ファシアル・ディテール・ジェネレータ(HFDG)は第2段階で高解像度の顔の詳細を生成するように設計されています。 DeepFRRでテストした結果、FRRffusionはGP-UNIT法と安定拡散法を4つのメトリクスで大きく上回っている。 特に, FRRffusion による脱着画像は, 修正顔画像とGP-UNIT 法, 安定拡散法で復元された顔画像より, 生顔画像に近い視認性が高い。 これらの結果は,FRRと一般的な画像復元タスクとのギャップを埋めることによって,作業の有効性を十分に検証する。 データセットとコードはhttps://github.com/GZHU-DVL/FRRffusionで公開されている。

Unveiling the real appearance of retouched faces to prevent malicious users from deceptive advertising and economic fraud has been an increasing concern in the era of digital economics. This article makes the first attempt to investigate the face retouching reversal (FRR) problem. We first collect an FRR dataset, named deepFRR, which contains 50,000 StyleGAN-generated high-resolution (1024*1024) facial images and their corresponding retouched ones by a commercial online API. To our best knowledge, deepFRR is the first FRR dataset tailored for training the deep FRR models. Then, we propose a novel diffusion-based FRR approach (FRRffusion) for the FRR task. Our FRRffusion consists of a coarse-to-fine two-stage network: A diffusion-based Facial Morpho-Architectonic Restorer (FMAR) is constructed to generate the basic contours of low-resolution faces in the first stage, while a Transformer-based Hyperrealistic Facial Detail Generator (HFDG) is designed to create high-resolution facial details in the second stage. Tested on deepFRR, our FRRffusion surpasses the GP-UNIT and Stable Diffusion methods by a large margin in four widespread quantitative metrics. Especially, the de-retouched images by our FRRffusion are visually much closer to the raw face images than both the retouched face images and those restored by the GP-UNIT and Stable Diffusion methods in terms of qualitative evaluation with 85 subjects. These results sufficiently validate the efficacy of our work, bridging the recently-standing gap between the FRR and generic image restoration tasks. The dataset and code are available at https://github.com/GZHU-DVL/FRRffusion.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# タイのユニバーサル依存ツリーバンク

Thai Universal Dependency Treebank ( http://arxiv.org/abs/2405.07586v1 )

ライセンス: Link先を確認
Panyur Sriwirote, Wei Qi Leong, Charin Polpanumas, Santhawat Thanyawong, William Chandra Tjhi, Wirote Aroonmanakun, Attapol T. Rutherford, (参考訳) タイ語の文の自動係り受け解析は、完全な従属構造を持つタイ語の従属木バンクの欠如や、最先端のモデル、特にトランスフォーマーベースのパーサーの体系的な評価の欠如など、調査が過小評価されている。 本研究は,3,627本の木からなるタイ国最大のツリーバンクであるThai Universal Dependency Treebank (TUD)を導入し,これらの課題に対処するものである。 次に、事前学習したトランスフォーマーをエンコーダとして組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。 評価の結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存性解析に含めるコンポーネントの最適な選択についての洞察を提供することができる。 新しいtreebankと、我々の実験で生成されたすべてのモデルの完全な予測は、さらなる研究のためにGitHubリポジトリで公開されている。

Automatic dependency parsing of Thai sentences has been underexplored, as evidenced by the lack of large Thai dependency treebanks with complete dependency structures and the lack of a published systematic evaluation of state-of-the-art models, especially transformer-based parsers. In this work, we address these problems by introducing Thai Universal Dependency Treebank (TUD), a new largest Thai treebank consisting of 3,627 trees annotated in accordance with the Universal Dependencies (UD) framework. We then benchmark dependency parsing models that incorporate pretrained transformers as encoders and train them on Thai-PUD and our TUD. The evaluation results show that most of our models can outperform other models reported in previous papers and provide insight into the optimal choices of components to include in Thai dependency parsers. The new treebank and every model's full prediction generated in our experiment are made available on a GitHub repository for further study.
翻訳日:2024-05-14 14:24:56 公開日:2024-05-13
# 軌道上の絡み合い:衛星量子リンクのケーススタディ

Entanglement Swapping in Orbit: a Satellite Quantum Link Case Study ( http://arxiv.org/abs/2405.07589v1 )

ライセンス: Link先を確認
Paolo Fittipaldi, Kentaro Teramoto, Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, Frédéric Grosshans, (参考訳) 衛星量子通信は、長距離量子リンクを構築するための有望な方法であり、大都市圏を超える量子インターネット作業のための光ファイバーの重要な補完となる。 衛星点対光リンクは、量的(高いレイテンシ、強い損失)と定性的(衛星通過時の不安定なパラメータ値、リンクの断続性、衛星と地上局の間のリピータの設定が不可能)の両方において、より一般的なファイバーリンクと多くの点で異なる。 本稿では,2つの地上局間の量子リンクの性能について,量子メモリ付き衛星を量子リピータとして検討する。 量子鍵分布衛星リンクとは対照的に、使用可能な量子メモリスロットmの数と、少なくとも数ミリ秒の避けられないラウンドトリップ通信遅延tは、予測可能な量子メモリの最大数キロヘルツにおいて、有効平均繰り返し速度をm/tに著しく減少させる。 我々の研究は2つのアプローチを用いており、互いに検証している。 1) 量子リンクの効果率の簡易解析モデル 2)Quantum Internet Simulation Package(QuISP)を用いたイベントベースシミュレーション。 衛星リンクとファイバーリンクの重大な違いは、QuISP自体の変更につながりました。 この研究は、異なる大都市圏を相互接続するハイブリッド衛星とファイバーベースの量子リピータネットワークの研究への道を開いた。

Satellite quantum communication is a promising way to build long distance quantum links, making it an essential complement to optical fiber for quantum internetworking beyond metropolitan scales. A satellite point to point optical link differs from the more common fiber links in many ways, both quantitative (higher latency, strong losses) and qualitative (nonconstant parameter values during satellite passage, intermittency of the link, impossibility to set repeaters between the satellite and the ground station). We study here the performance of a quantum link between two ground stations, using a quantum-memory-equipped satellite as a quantum repeater. In contrast with quantum key distribution satellite links, the number of available quantum memory slots m, together with the unavoidable round-trip communication latency t of at least a few milliseconds, severely reduces the effective average repetition rate to m/t -- at most a few kilohertz for foreseeable quantum memories. Our study uses two approaches, which validate each other: 1) a simple analytical model of the effective rate of the quantum link; 2) an event-based simulation using the open source Quantum Internet Simulation Package (QuISP). The important differences between satellite and fiber links led us to modify QuISP itself. This work paves the way to the study of hybrid satellite- and fiber-based quantum repeater networks interconnecting different metropolitan areas.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 新生児時系列データを用いたブレス分類のための説明可能なAI手法Grad-CAMの評価

Evaluating the Explainable AI Method Grad-CAM for Breath Classification on Newborn Time Series Data ( http://arxiv.org/abs/2405.07590v1 )

ライセンス: Link先を確認
Camelia Oprea, Mike Grüne, Mateusz Buglowski, Lena Olivier, Thorsten Orlikowsky, Stefan Kowalewski, Mark Schoberer, André Stollenwerk, (参考訳) 医療システムのデジタル化により、人工知能は医療においてより存在感を増す。 特に機械学習は、時系列分類のような複雑なタスクには大きな可能性を秘めている。 これは、人間による信頼の欠如を招き、活発な使用を妨げる。 説明可能な人工知能は、意思決定プロセスに関する洞察を提供することで、このギャップを埋めようとしている。 本稿では,Grad-CAMの説明手法のユーザスタディに基づく評価と,時系列新生児換気データにおける呼吸の分類のためのニューラルネットワークへの応用を提案する。 本稿では,様々な利害関係者による説明可能性手法の有用性について考察し,実際の透明性を達成することの難しさと,多くの参加者によるより深い説明の希望を明らかにする。

With the digitalization of health care systems, artificial intelligence becomes more present in medicine. Especially machine learning shows great potential for complex tasks such as time series classification, usually at the cost of transparency and comprehensibility. This leads to a lack of trust by humans and thus hinders its active usage. Explainable artificial intelligence tries to close this gap by providing insight into the decision-making process, the actual usefulness of its different methods is however unclear. This paper proposes a user study based evaluation of the explanation method Grad-CAM with application to a neural network for the classification of breaths in time series neonatal ventilation data. We present the perceived usefulness of the explainability method by different stakeholders, exposing the difficulty to achieve actual transparency and the wish for more in-depth explanations by many of the participants.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 密度行列ベクトル化による無条件デコヒーレンスフリー量子誤差緩和

Unconditionally decoherence-free quantum error mitigation by density matrix vectorization ( http://arxiv.org/abs/2405.07592v1 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Cai-Sheng Cheng, (参考訳) NISQデバイスが実用的な量子応用を実証するためには、ノイズに対する闘いが不可欠である。 本研究では,密度行列のベクトル化に基づく量子誤差緩和の新しいパラダイムを提案する。 ノイズのない情報をノイズの多い量子状態から抽出しようとする既存の量子誤差緩和法とは異なり,本提案では,ノイズの多い量子状態の密度行列をノイズのない純粋状態に直接変換する。 我々のプロトコルは、ノイズモデルに関する知識、ノイズ強度を調整する能力、複雑な制御ユニタリのためのアンシラキュービットを必要としない。 我々のエンコーディングでは、NISQデバイスは、多くのタスクにおいて優れたパフォーマンスを持つように、変分量子アルゴリズムに非常に望ましいリソースである純粋量子状態を準備している。 我々は、このプロトコルを変分量子アルゴリズムにどのように適合させるかを示す。 本提案に適合するいくつかの具体的なアンザッツ構造を提示し,サンプリング複雑性,表現性,訓練性に関する理論的解析を行った。 また、このプロトコルが大きなノイズの影響や、他の量子エラー軽減プロトコルとどのようにうまく組み合わせられるかについても論じる。 本提案の有効性は, 種々の数値実験により実証された。

Fighting against noise is crucial for NISQ devices to demonstrate practical quantum applications. In this work, we give a new paradigm of quantum error mitigation based on the vectorization of density matrices. Different from the ideas of existing quantum error mitigation methods that try to distill noiseless information from noisy quantum states, our proposal directly changes the way of encoding information and maps the density matrices of noisy quantum states to noiseless pure states, which is realized by a novel and NISQ-friendly measurement protocol and a classical post-processing procedure. Our protocol requires no knowledge of the noise model, no ability to tune the noise strength, and no ancilla qubits for complicated controlled unitaries. Under our encoding, NISQ devices are always preparing pure quantum states which are highly desired resources for variational quantum algorithms to have good performance in many tasks. We show how this protocol can be well-fitted into variational quantum algorithms. We give several concrete ansatz constructions that are suitable for our proposal and do theoretical analysis on the sampling complexity, the expressibility, and the trainability. We also give a discussion on how this protocol is influenced by large noise and how it can be well combined with other quantum error mitigation protocols. The effectiveness of our proposal is demonstrated by various numerical experiments.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# RGBD-Glue:ロバストなRGB-Dポイントクラウド登録のための一般的な機能の組み合わせ

RGBD-Glue: General Feature Combination for Robust RGB-D Point Cloud Registration ( http://arxiv.org/abs/2405.07594v1 )

ライセンス: Link先を確認
Congjia Chen, Xiaoyu Jia, Yanhong Zheng, Yufu Qu, (参考訳) ポイントクラウド登録は、ポイントクラウド間の厳密な変換を推定するための基本的なタスクである。 これまでの研究では、幾何学的情報を用いて特徴の抽出、マッチング、および変換を推定してきた。 近年,RGB-Dセンサの進歩により,視覚情報を利用した登録性能の向上が試みられている。 しかし,これらの研究は,各特徴の弱さの負の効果を効果的に解決できず,有効情報を十分に活用できない,深い特徴融合による特徴抽出に焦点を当てた。 本稿では,より緩やかだがより効果的な融合を施し,より優れた性能を実現する機能の組み合わせフレームワークを提案する。 変換一貫性に基づいた明示的なフィルタは,各機能の弱点を克服可能な組み合わせフレームワーク用に設計されている。 また,2種類の特徴からより有効な情報を抽出するために,誤差分布によって決定される適応しきい値を提案する。 特徴的設計のため,提案フレームワークはより正確な対応を推定でき,手書き・学習ベースの特徴記述子にも適用可能である。 ScanNetの実験により,本手法は最先端性能と回転精度99.1%を実現していることがわかった。

Point cloud registration is a fundamental task for estimating rigid transformations between point clouds. Previous studies have used geometric information for extracting features, matching and estimating transformation. Recently, owing to the advancement of RGB-D sensors, researchers have attempted to utilize visual information to improve registration performance. However, these studies focused on extracting distinctive features by deep feature fusion, which cannot effectively solve the negative effects of each feature's weakness, and cannot sufficiently leverage the valid information. In this paper, we propose a new feature combination framework, which applies a looser but more effective fusion and can achieve better performance. An explicit filter based on transformation consistency is designed for the combination framework, which can overcome each feature's weakness. And an adaptive threshold determined by the error distribution is proposed to extract more valid information from the two types of features. Owing to the distinctive design, our proposed framework can estimate more accurate correspondences and is applicable to both hand-crafted and learning-based feature descriptors. Experiments on ScanNet show that our method achieves a state-of-the-art performance and the rotation accuracy of 99.1%.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 無人航空機物体検出に対する環境整合攻撃

Environmental Matching Attack Against Unmanned Aerial Vehicles Object Detection ( http://arxiv.org/abs/2405.07595v1 )

ライセンス: Link先を確認
Dehong Kong, Siyuan Liang, Wenqi Ren, (参考訳) 無人航空機(UAV)の物体検出技術は、敵の攻撃に弱いディープニューラルネットワーク(DNN)に依存している。 それでも、UAVドメインの既存のアルゴリズムによって生成された敵パッチは、敵パッチの自然な性質にはほとんど注意を払わない。 さらに、対向パッチに直接制約を課すことにより、高い攻撃成功率を確保しつつ、人間の目に自然に見えるパッチを生成することが困難になる。 パッチが自然に見えるのは、全体的な色が環境と一致している時です。 そこで本研究では,環境マッチング攻撃(EMA)と呼ばれる新しい手法を提案する。 我々の知る限りでは、UAVの領域における自然なパッチを最初に検討する。 EMA法は、事前訓練された安定拡散の強い事前知識を利用して、テキストガイダンスがパッチの色を制限できる対向パッチの最適化方向を導出する。 環境に合うように、パッチのコントラストと明るさを適切に調整する。 敵パッチ自体を最適化する代わりに、敵の摂動パッチを最適化してゼロに初期化する。 DroneVehicleデータセットとCarpkデータセットで実施された実験によると、我々の研究はデジタルアタック(mAP$\%$で2以上)でほぼ同じ攻撃性能を達成でき、物理的な特定のシナリオにおけるベースラインメソッドを超え、環境との可視化と色差の自然性において大きな優位性を示す。

Object detection techniques for Unmanned Aerial Vehicles (UAVs) rely on Deep Neural Networks (DNNs), which are vulnerable to adversarial attacks. Nonetheless, adversarial patches generated by existing algorithms in the UAV domain pay very little attention to the naturalness of adversarial patches. Moreover, imposing constraints directly on adversarial patches makes it difficult to generate patches that appear natural to the human eye while ensuring a high attack success rate. We notice that patches are natural looking when their overall color is consistent with the environment. Therefore, we propose a new method named Environmental Matching Attack(EMA) to address the issue of optimizing the adversarial patch under the constraints of color. To the best of our knowledge, this paper is the first to consider natural patches in the domain of UAVs. The EMA method exploits strong prior knowledge of a pretrained stable diffusion to guide the optimization direction of the adversarial patch, where the text guidance can restrict the color of the patch. To better match the environment, the contrast and brightness of the patch are appropriately adjusted. Instead of optimizing the adversarial patch itself, we optimize an adversarial perturbation patch which initializes to zero so that the model can better trade off attacking performance and naturalness. Experiments conducted on the DroneVehicle and Carpk datasets have shown that our work can reach nearly the same attack performance in the digital attack(no greater than 2 in mAP$\%$), surpass the baseline method in the physical specific scenarios, and exhibit a significant advantage in terms of naturalness in visualization and color difference with the environment.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 言語組織を明らかにするためのモデル理論的アプローチ

Using Model-Theoretic Approaches to Uncover Linguistic Organization ( http://arxiv.org/abs/2405.07597v1 )

ライセンス: Link先を確認
Olivia Griffin, Jerry Sun, (参考訳) 本稿では,カクチケル,カルーク,ユロクのpluractional markerについて考察する。 バリネ語と同様に、これらの言語は、再帰によって一種類のプルアクティリティを示し、非複製的接尾辞によって異なる種類のプルアクティリティを示す。 本論文は,表に出ていない言語組織を認識するのに役立つレンズとして,モデル理論的アプローチを言語に適用するための概念実証として機能する。

In this paper, we consider pluractional markers in Kaqchikel, Karuk, and Yurok. Like Balinese, each of these languages marks one type of pluractionality via reduplication, and a different type of pluractionality via non-reduplicative affixation. This paper serves as a proof-of-concept for applying model-theoretic approaches to language as a lens that can help us to recognize linguistic organization that is not apparent on the surface.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 固体の伝達可能なニューラル波動関数

Transferable Neural Wavefunctions for Solids ( http://arxiv.org/abs/2405.07599v1 )

ライセンス: Link先を確認
Leon Gerard, Michael Scherbela, Halvard Sutterud, Matthew Foulkes, Philipp Grohs, (参考訳) 深層学習に基づく変分モンテカルロ(DL-VMC)は、最近、多電子シュリンガー方程式の近似解を見つけるための高精度なアプローチとして登場した。 電子の数で好適なスケーリングである$\mathcal{O}(n_\text{el}^{4})$にもかかわらず、DL-VMCの実用値は、研究対象のシステム毎にニューラルネットワーク重みを最適化するコストによって制限される。 この問題を軽減するため、最近の研究では、複数のシステムにまたがる単一ニューラルネットワークの最適化を提案し、システム当たりのコストを削減している。 ここでは、このアプローチを固体に拡張し、異なるジオメトリー、境界条件、スーパーセルサイズを用いた類似の計算がしばしば必要となる。 これらすべてのバリエーションに対して1つのアンサッツを最適化する方法を示し、必要な最適化ステップの数を桁違いに削減する。 さらに,事前学習ネットワークの転送機能を利用する。 我々は,LiHの2x2x2スーパーセル上で事前学習したネットワークを3x3x3スーパーセルに転送することに成功した。 これにより、大規模なシステムのシミュレートに必要な最適化ステップの数を、以前の作業と比べて50倍削減できる。

Deep-Learning-based Variational Monte Carlo (DL-VMC) has recently emerged as a highly accurate approach for finding approximate solutions to the many-electron Schr\"odinger equation. Despite its favorable scaling with the number of electrons, $\mathcal{O}(n_\text{el}^{4})$, the practical value of DL-VMC is limited by the high cost of optimizing the neural network weights for every system studied. To mitigate this problem, recent research has proposed optimizing a single neural network across multiple systems, reducing the cost per system. Here we extend this approach to solids, where similar but distinct calculations using different geometries, boundary conditions, and supercell sizes are often required. We show how to optimize a single ansatz across all of these variations, reducing the required number of optimization steps by an order of magnitude. Furthermore, we exploit the transfer capabilities of a pre-trained network. We successfully transfer a network, pre-trained on 2x2x2 supercells of LiH, to 3x3x3 supercells. This reduces the number of optimization steps required to simulate the large system by a factor of 50 compared to previous work.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 生活性化パターンと空間フィルタリングを用いた自動運転システムにおける3次元物体検出の積分モニタリング

Integrity Monitoring of 3D Object Detection in Automated Driving Systems using Raw Activation Patterns and Spatial Filtering ( http://arxiv.org/abs/2405.07600v1 )

ライセンス: Link先を確認
Hakan Yekta Yatbaz, Mehrdad Dianati, Konstantinos Koufos, Roger Woodman, (参考訳) ディープニューラルネットワーク(DNN)モデルは、自動運転システム(ADS)における物体検出に広く利用されている。 しかし、そのようなモデルは、重大な安全性に影響を及ぼす可能性のあるエラーを起こしやすい。 このようなエラーを検知することを目的とした検査・自己評価モデルは、ADSの安全な配置において最重要となる。 この話題に関する最近の研究は、ADSにおける知覚メカニズムの完全性を監視する技術に焦点を当てている。 しかし、既存のイントロスペクションモデルでは、入力データフレームのすべての部分に同じ重要性を認識モジュールに割り当てることで、認識エラーを検出することに主に集中している。 このジェネリックアプローチは、シーン内のさまざまなオブジェクトのさまざまな安全性の重要性を見落とし、安全クリティカルなエラーの認識を曖昧にし、特定の重要なインスタンスにおける認識の信頼性を評価する上での課題を提起する。 そこで本研究では, 認識モジュールが生み出すDNNの活性化パターンを統合し, 空間フィルタリング技術を用いて解析する手法を提案する。 この手法は,データに対する関心領域を選択的に注目することにより,DNNに基づく3次元オブジェクト検出のランタイムイントロスペクションの精度を高め,ADS知覚自己評価プロセスの安全性と有効性に寄与する。

The deep neural network (DNN) models are widely used for object detection in automated driving systems (ADS). Yet, such models are prone to errors which can have serious safety implications. Introspection and self-assessment models that aim to detect such errors are therefore of paramount importance for the safe deployment of ADS. Current research on this topic has focused on techniques to monitor the integrity of the perception mechanism in ADS. Existing introspection models in the literature, however, largely concentrate on detecting perception errors by assigning equal importance to all parts of the input data frame to the perception module. This generic approach overlooks the varying safety significance of different objects within a scene, which obscures the recognition of safety-critical errors, posing challenges in assessing the reliability of perception in specific, crucial instances. Motivated by this shortcoming of state of the art, this paper proposes a novel method integrating raw activation patterns of the underlying DNNs, employed by the perception module, analysis with spatial filtering techniques. This novel approach enhances the accuracy of runtime introspection of the DNN-based 3D object detections by selectively focusing on an area of interest in the data, thereby contributing to the safety and efficacy of ADS perception self-assessment processes.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# TinyMLシステムのオンデバイスオンライン学習と意味管理

On-device Online Learning and Semantic Management of TinyML Systems ( http://arxiv.org/abs/2405.07601v1 )

ライセンス: Link先を確認
Haoyu Ren, Xue Li, Darko Anicic, Thomas A. Runkler, (参考訳) Tiny Machine Learning(TinyML)の最近の進歩は、リアルタイムオンデバイス機械学習のためのローフットプリント組み込みデバイスに力を与える。 TinyMLの潜在的なメリットを認めている人は多いが、その実践的実装にはユニークな課題がある。 本研究の目的は,単一TinyMLモデルのプロトタイピングと信頼性の高いTinyMLシステムの開発のギャップを埋めることである。 既存のTinyMLソリューションは主に推論に重点を置いており、モデルは強力なマシン上でオフラインでトレーニングされ、静的オブジェクトとしてデプロイされる。 しかし、静的モデルは、入力データ分布の進化により実世界では性能が劣る可能性がある。 我々は,制約のあるデバイス上でのトレーニングを可能にするオンライン学習を提案し,最新のフィールド条件に局所モデルを適用する。 2)現在のデバイス上での学習手法は,異種展開条件や多数のデバイスに適用した場合のラベル付きデータの不足に苦慮している。 オンライン学習を取り入れたフェデレーション型メタラーニングを導入し、モデル一般化を強化し、迅速な学習を容易にする。 このアプローチは、知識共有による分散デバイス間の最適性能を保証する。 (3) TinyMLの主な利点は広く採用されていることである。 組み込みデバイスとTinyMLモデルは極端な効率を優先し、メモリやセンサーからモデルアーキテクチャまでさまざまな特性をもたらす。 多様性と非標準化された表現を考えると、TinyMLシステムがスケールアップするにつれて、これらのリソースの管理は困難になる。 モデルとデバイスを大規模に管理するためのセマンティックマネジメントを提案する。 提案手法を基本的な回帰例を用いて実証し,手書き文字画像分類,キーワード音声分類,スマートビルディング存在検出の3つの現実的TinyMLアプリケーションで評価し,提案手法の有効性を確認した。

Recent advances in Tiny Machine Learning (TinyML) empower low-footprint embedded devices for real-time on-device Machine Learning. While many acknowledge the potential benefits of TinyML, its practical implementation presents unique challenges. This study aims to bridge the gap between prototyping single TinyML models and developing reliable TinyML systems in production: (1) Embedded devices operate in dynamically changing conditions. Existing TinyML solutions primarily focus on inference, with models trained offline on powerful machines and deployed as static objects. However, static models may underperform in the real world due to evolving input data distributions. We propose online learning to enable training on constrained devices, adapting local models towards the latest field conditions. (2) Nevertheless, current on-device learning methods struggle with heterogeneous deployment conditions and the scarcity of labeled data when applied across numerous devices. We introduce federated meta-learning incorporating online learning to enhance model generalization, facilitating rapid learning. This approach ensures optimal performance among distributed devices by knowledge sharing. (3) Moreover, TinyML's pivotal advantage is widespread adoption. Embedded devices and TinyML models prioritize extreme efficiency, leading to diverse characteristics ranging from memory and sensors to model architectures. Given their diversity and non-standardized representations, managing these resources becomes challenging as TinyML systems scale up. We present semantic management for the joint management of models and devices at scale. We demonstrate our methods through a basic regression example and then assess them in three real-world TinyML applications: handwritten character image classification, keyword audio classification, and smart building presence detection, confirming our approaches' effectiveness.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# インターフェロメトリパワーの突発死に対するロバスト性

Robustness of Interferometric Power to Sudden Death ( http://arxiv.org/abs/2405.07602v1 )

ライセンス: Link先を確認
D. Zhu, F. L. Zhang, J. L. Chen, (参考訳) 本研究では,マルコフ環境における不協和性尺度としてのインターフェロメトリパワーの散逸ダイナミクス,例えばデフォーカス,デポーラライゼーション,一般化振幅減衰について検討する。 さらに、適切な初期条件を選択することにより、干渉力と絡み合いのダイナミクスを比較する。 我々の研究は、絡み合いの突然の死が現れるすべてのケースにおいて、インターフェロメトリのパワーは漸近的に崩壊することを示している。 したがって、干渉力に基づく量子メロロジーは絡み合いよりも頑丈である。

We study the dissipative dynamics of interferometric power as a discordlike measure in Markovian environments, such as dephasing, depolarizing, and generalized amplitude damping. Moreover, we compare the dynamics of interferometric power and entanglement by choosing proper initial conditions. Our study shows that in all cases where the sudden death of entanglement appears, interferometric power decays asymptotically. Therefore, quantum metrology based on interferometric power is more robust than entanglement.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 拡散モデルを用いた補助強化学習のリスク軽減

Reducing Risk for Assistive Reinforcement Learning Policies with Diffusion Models ( http://arxiv.org/abs/2405.07603v1 )

ライセンス: Link先を確認
Andrii Tytarenko, (参考訳) AIの進歩によって推進される介護支援ロボティクスは、ケア需要の増加、特に援助を必要とする個人の増加に対応するための、有望なソリューションを提供する。 これにより、特に戦争関連の負傷による需要の高まりから、効率的で安全な補助装置の需要が押し上げられる。 コストはアクセシビリティの障壁となっているが、技術的進歩はこれらのソリューションを民主化することができる。 特に補助ロボットと人間との複雑な相互作用を考えると、安全は依然として最重要課題である。 本研究では,強化学習(RL)と模倣学習を補助ロボットのポリシー設計に応用することを検討した。 提案手法は,環境相互作用を伴わないリスク政策をより安全にする。 シミュレーション環境を用いた実験により, 補助ロボット工学に関わる課題における従来のRLアプローチの強化が示された。

Care-giving and assistive robotics, driven by advancements in AI, offer promising solutions to meet the growing demand for care, particularly in the context of increasing numbers of individuals requiring assistance. This creates a pressing need for efficient and safe assistive devices, particularly in light of heightened demand due to war-related injuries. While cost has been a barrier to accessibility, technological progress is able to democratize these solutions. Safety remains a paramount concern, especially given the intricate interactions between assistive robots and humans. This study explores the application of reinforcement learning (RL) and imitation learning, in improving policy design for assistive robots. The proposed approach makes the risky policies safer without additional environmental interactions. Through experimentation using simulated environments, the enhancement of the conventional RL approaches in tasks related to assistive robotics is demonstrated.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# ランキングエラーの低減による分類器に基づくソフトウェア欠陥予測の改善

Improving classifier-based effort-aware software defect prediction by reducing ranking errors ( http://arxiv.org/abs/2405.07604v1 )

ライセンス: Link先を確認
Yuchen Guo, Martin Shepperd, Ning Li, (参考訳) コンテキスト: ソフトウェア欠陥予測は、ソフトウェア品質保証リソースを潜在的に問題のあるコンポーネントに誘導するために、履歴データを利用する。 EA(Effort-aware)の欠陥予測は、コスト効率を考慮して、よりバグのようなコンポーネントを優先します。 言い換えれば、これはランキング問題であるが、既存の分類に基づくランキング戦略は、ランキングエラーを限定的に考慮している。 目的: ランキングエラーに着目して分類器ベースのEAランキング手法の性能を向上させる。 方法: EA-Zと呼ばれるランキングスコア計算手法を提案する。 16の分類学習者による4つの主要なEAランキング戦略を調査し、EA-Zおよび他の4つの既存戦略の実験を行った。 結果: 72データセットによる実験結果から, EA-Zは16人の学習者すべてを考慮した場合, Recall@20% と Popt で最高のスコア計算戦略であることがわかった。 特に,アンサンブル学習者のUBag-svmとUBst-rfはEA-Zで最高の成績を収めている。 結論: 本研究は, 分類器による作業認識欠陥予測におけるランキング誤差の低減効果を示す。 不均衡なアンサンブル学習でEA-Zを使うことを推奨する。

Context: Software defect prediction utilizes historical data to direct software quality assurance resources to potentially problematic components. Effort-aware (EA) defect prediction prioritizes more bug-like components by taking cost-effectiveness into account. In other words, it is a ranking problem, however, existing ranking strategies based on classification, give limited consideration to ranking errors. Objective: Improve the performance of classifier-based EA ranking methods by focusing on ranking errors. Method: We propose a ranking score calculation strategy called EA-Z which sets a lower bound to avoid near-zero ranking errors. We investigate four primary EA ranking strategies with 16 classification learners, and conduct the experiments for EA-Z and the other four existing strategies. Results: Experimental results from 72 data sets show EA-Z is the best ranking score calculation strategy in terms of Recall@20% and Popt when considering all 16 learners. For particular learners, imbalanced ensemble learner UBag-svm and UBst-rf achieve top performance with EA-Z. Conclusion: Our study indicates the effectiveness of reducing ranking errors for classifier-based effort-aware defect prediction. We recommend using EA-Z with imbalanced ensemble learning.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# AIris:視覚障害者のためのAIを利用したウェアラブル補助デバイス

AIris: An AI-powered Wearable Assistive Device for the Visually Impaired ( http://arxiv.org/abs/2405.07606v1 )

ライセンス: Link先を確認
Dionysia Danai Brilli, Evangelos Georgaras, Stefania Tsilivaki, Nikos Melanitis, Konstantina Nikita, (参考訳) 視覚障害者のための補助技術は、複雑でダイナミックな世界との相互作用を促進するために進化してきた。 本稿では,視覚障害者に環境認識とインタラクション機能を提供する,AIを活用したウェアラブルデバイスであるAIrisを紹介する。 AIrisは、眼鏡に装着された洗練されたカメラと自然言語処理インターフェースを組み合わせることで、ユーザーは周囲の聴覚的記述をリアルタイムで受信することができる。 我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。 AIrisは、オブジェクトを正確に識別し、シーンを解釈する能力を示し、従来の補助装置では達成不可能な空間認識をユーザに提供する。 このシステムは費用対効果が高くユーザフレンドリで、顔認識、シーン記述、テキスト読取、オブジェクト認識、マネーカウント、メモ取り、バーコードスキャンといった、一般的および特殊なタスクをサポートするように設計されている。 AIrisは変革的なステップであり、AIの強化を補助技術に持ち込み、人間のような感覚とリッチな対話を可能にする。

Assistive technologies for the visually impaired have evolved to facilitate interaction with a complex and dynamic world. In this paper, we introduce AIris, an AI-powered wearable device that provides environmental awareness and interaction capabilities to visually impaired users. AIris combines a sophisticated camera mounted on eyewear with a natural language processing interface, enabling users to receive real-time auditory descriptions of their surroundings. We have created a functional prototype system that operates effectively in real-world conditions. AIris demonstrates the ability to accurately identify objects and interpret scenes, providing users with a sense of spatial awareness previously unattainable with traditional assistive devices. The system is designed to be cost-effective and user-friendly, supporting general and specialized tasks: face recognition, scene description, text reading, object recognition, money counting, note-taking, and barcode scanning. AIris marks a transformative step, bringing AI enhancements to assistive technology, enabling rich interactions with a human-like feel.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# NoiseBench: 名前付きエンティティ認識における実ラベルノイズの影響のベンチマーク

NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition ( http://arxiv.org/abs/2405.07609v1 )

ライセンス: Link先を確認
Elena Merdjanovska, Ansar Aynetdinov, Alan Akbik, (参考訳) 名前付きエンティティ認識(NER)のためのトレーニングデータには、エンティティタイプやエンティティ境界に対する誤ったラベルのかなりの割合が含まれていることが多い。 このようなラベルノイズは教師付き学習の課題を引き起こし、モデル品質を著しく劣化させる可能性がある。 これを解決するために、先行研究は、部分的に不正確なラベルを持つデータから学習できる様々なノイズロバスト学習手法を提案した。 これらのアプローチは通常、クリーンデータセットのラベルが自動的に破損するシミュレーションノイズを使用して評価される。 しかし、本稿で示すように、これは人間の誤りや半自動アノテーションによる実際のノイズよりも扱いやすい非現実的なノイズにつながる。 各種実雑音の影響について検討するために,エキスパートエラー,クラウドソーシングエラー,自動アノテーションエラー,LLMエラーを含む6種類の実雑音で破損したクリーントレーニングデータからなるNERベンチマークであるNossBenchを紹介する。 本研究では, 実雑音が実雑音よりもはるかに困難であることを示す解析を行い, 理論的に達成可能な上界よりも, 現状のノイズロスト学習モデルの方がはるかに劣っていることを示す。 我々は研究コミュニティにNossBenchをリリースします。

Available training data for named entity recognition (NER) often contains a significant percentage of incorrect labels for entity types and entity boundaries. Such label noise poses challenges for supervised learning and may significantly deteriorate model quality. To address this, prior work proposed various noise-robust learning approaches capable of learning from data with partially incorrect labels. These approaches are typically evaluated using simulated noise where the labels in a clean dataset are automatically corrupted. However, as we show in this paper, this leads to unrealistic noise that is far easier to handle than real noise caused by human error or semi-automatic annotation. To enable the study of the impact of various types of real noise, we introduce NoiseBench, an NER benchmark consisting of clean training data corrupted with 6 types of real noise, including expert errors, crowdsourcing errors, automatic annotation errors and LLM errors. We present an analysis that shows that real noise is significantly more challenging than simulated noise, and show that current state-of-the-art models for noise-robust learning fall far short of their theoretically achievable upper bound. We release NoiseBench to the research community.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# 航空地図UAVによるGNSS干渉の解明

Uncovering GNSS Interference with Aerial Mapping UAV ( http://arxiv.org/abs/2405.07611v1 )

ライセンス: Link先を確認
Marco Spanghero, Filip Geib, Ronny Panier, Panos Papadimitratos, (参考訳) グローバル・ナビゲーション・サテライト・システム(GNSS)は、ユビキタスで正確な位置、ナビゲーション、時間(PNT)を、幅広い民間および戦術的なインフラや装置に提供します。 低GNSS受信信号パワーのため、低出力電波干渉(RFI)源でさえ、GNSSの完全性と可用性に対する深刻な脅威である。 それでも、RFIのソースローカライゼーションは、特に広い地域では、依然として最重要である。 マルチローター無人航空機(UAV)に基づく手法は存在するが、ホバリング時間によって制限されることが多く、特定のアンテナや検出器を必要とする。 対照的に、固定翼機は長いミッションを許すが、運用と展開がより複雑である。 垂直離着陸(VTOL)UAVは、高い操作性、長期のミッションタイム、高度に統合された制御システム、単純な操作と展開の両プラットフォームの肯定的な側面を組み合わせたものである。 このようなプラットフォームで許容される柔軟性を基盤として,高度飛行力学と高性能消費者受信機を組み合わせることで,大面積での干渉を検知し,操作者との対話を最小限に抑える手法を提案する。 提案システムは、複数の干渉源を検出し、その影響領域をマッピングし、GNSSの品質の低下や否定された環境に対する状況認識を得る。 さらに、干渉源の相対的な方向と位置を数十m以内で推定することができる。 提案手法は実測値を用いて検証し、2つの干渉影響領域をマッピングし、不随意の帯域内干渉を引き起こす無線機器を露光する。

Global Navigation Satellite System (GNSS) receivers provide ubiquitous and precise position, navigation, and time (PNT) to a wide gamut of civilian and tactical infrastructures and devices. Due to the low GNSS received signal power, even low-power radiofrequency interference (RFI) sources are a serious threat to the GNSS integrity and availability. Nonetheless, RFI source localization is paramount yet hard, especially over large areas. Methods based on multi-rotor unmanned aerial vehicles (UAV) exist but are often limited by hovering time, and require specific antenna and detectors. In comparison, fixed-wing planes allow longer missions but are more complex to operate and deploy. A vertical take-off and landing (VTOL) UAV combines the positive aspects of both platforms: high maneuverability, and long mission time and, jointly with highly integrated control systems, simple operation and deployment. Building upon the flexibility allowed by such a platform, we propose a method that combines advanced flight dynamics with high-performance consumer receivers to detect interference over large areas, with minimal interaction with the operator. The proposed system can detect multiple interference sources and map their area of influence, gaining situational awareness of poor GNSS quality or denied environments. Furthermore, it can estimate the relative heading and position of the interference source within tens of meters. The proposed method is validated with real-life measurements, successfully mapping two interference-affected areas and exposing radio equipment causing involuntary in-band interference.
翻訳日:2024-05-14 14:15:10 公開日:2024-05-13
# トラップイオン量子コンピュータにおけるフロケスクランブル回路のシミュレーション

Simulating Floquet scrambling circuits on trapped-ion quantum computers ( http://arxiv.org/abs/2405.07613v1 )

ライセンス: Link先を確認
Kazuhiro Seki, Yuta Kikuchi, Tomoya Hayata, Seiji Yunoki, (参考訳) 複雑な量子多体ダイナミクスは、最初はシステム全体に局在した量子情報を拡散した。 情報スクランブル(英: information scrambling)とは、量子コンピューティングの有望な応用の1つであるシミュレーションをいう。 本研究では,20量子ビットトラップイオン量子プロセッサ上での1次元キックドイシングモデルのスクランブル特性を解析するために,Hayden-Preskillリカバリプロトコルと,時間外相関器を計算するためのインターフェロメトリプロトコルを実証する。 シミュレーションされた量子回路は、幾何学的に局所的な構造を持ち、絡み合いの弾道的な成長を示し、結果として回路深さは、状態全体をスクランブルするクォービットの数で線形となる。 我々は,Hayden-Preskillリカバリプロトコルにおける信号の増大と,近年の時間外相関器の崩壊を実験的に確認した。 生成したスクランブル回路の応用として、熱純量子状態の考え方を採用した局所演算子のマイクロカノニカル期待値の計算を実験的に実証する。

Complex quantum many-body dynamics spread initially localized quantum information across the entire system. Information scrambling refers to such a process, whose simulation is one of the promising applications of quantum computing. We demonstrate the Hayden-Preskill recovery protocol and the interferometric protocol for calculating out-of-time-ordered correlators to study the scrambling property of a one-dimensional kicked-Ising model on 20-qubit trapped-ion quantum processors. The simulated quantum circuits have a geometrically local structure that exhibits the ballistic growth of entanglement, resulting in the circuit depth being linear in the number of qubits for the entire state to be scrambled. We experimentally confirm the growth of signals in the Hayden-Preskill recovery protocol and the decay of out-of-time-ordered correlators at late times. As an application of the created scrambling circuits, we also experimentally demonstrate the calculation of the microcanonical expectation values of local operators adopting the idea of thermal pure quantum states.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# ViWikiFC:ベトナム語ウィキペディアベースのテキスト知識ソースのためのFact-Checking

ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source ( http://arxiv.org/abs/2405.07615v1 )

ライセンス: Link先を確認
Hung Tuan Le, Long Truong To, Manh Trong Nguyen, Kiet Van Nguyen, (参考訳) ファクトチェックは、メディアエコシステムにおける誤報の爆発のために不可欠である。 偽情報はあらゆる言語や国に存在しているが、この問題を解決するためのほとんどの研究は、主に英語や中国語のような巨大なコミュニティに集中している。 ベトナム語のような低リソース言語は、事実検証のためのコーパスやモデルを探究する必要がある。 このギャップを埋めるために、ベトナム語ウィキペディアファクトのための最初の手動注釈付きオープンドメインコーパスであるViWikiFCを構築し、ウィキペディアの記事から抽出されたエビデンス文を変換して20万件以上のクレームを検証した。 我々は、新しい依存率、新しいn-gramレート、新しい単語レートから、多くの言語的側面からコーパスを分析する。 ベトナムのファクトチェックについて,エビデンス検索や検証予測など,様々な実験を行った。 BM25とInfoXLM(ラージ)は2つのタスクで最高の成績を収め、BM25は88.30%、REFUTESは86.93%、NEIラベルは56.67%、InfoXLM(ラージ)は86.51%のスコアを得た。 さらに我々は,InfoXLM (Large) とBM25を用いた場合,67.00%の厳密な精度しか達成できなかったパイプラインアプローチも実施した。 これらの結果から,ベトナム語モデルのファクトチェック作業では,データセットが困難であることが示唆された。

Fact-checking is essential due to the explosion of misinformation in the media ecosystem. Although false information exists in every language and country, most research to solve the problem mainly concentrated on huge communities like English and Chinese. Low-resource languages like Vietnamese are necessary to explore corpora and models for fact verification. To bridge this gap, we construct ViWikiFC, the first manual annotated open-domain corpus for Vietnamese Wikipedia Fact Checking more than 20K claims generated by converting evidence sentences extracted from Wikipedia articles. We analyze our corpus through many linguistic aspects, from the new dependency rate, the new n-gram rate, and the new word rate. We conducted various experiments for Vietnamese fact-checking, including evidence retrieval and verdict prediction. BM25 and InfoXLM (Large) achieved the best results in two tasks, with BM25 achieving an accuracy of 88.30% for SUPPORTS, 86.93% for REFUTES, and only 56.67% for the NEI label in the evidence retrieval task, InfoXLM (Large) achieved an F1 score of 86.51%. Furthermore, we also conducted a pipeline approach, which only achieved a strict accuracy of 67.00% when using InfoXLM (Large) and BM25. These results demonstrate that our dataset is challenging for the Vietnamese language model in fact-checking tasks.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 勾配降下法で学習した過パラメータ畳み込みニューラルネットワーク画像分類器の収束速度の解析

Analysis of the rate of convergence of an over-parametrized convolutional neural network image classifier learned by gradient descent ( http://arxiv.org/abs/2405.07619v1 )

ライセンス: Link先を確認
Michael Kohler, Adam Krzyzak, Benjamin Walter, (参考訳) グローバル平均プール層を用いた過度パラメータ化畳み込みニューラルネットワークに基づく画像分類について検討する。 ネットワークの重みは勾配降下によって学習される。 新たに導入された畳み込みニューラルネットワーク推定の誤分類リスクと最小限の可能な値との差の収束率に依存する。

Image classification based on over-parametrized convolutional neural networks with a global average-pooling layer is considered. The weights of the network are learned by gradient descent. A bound on the rate of convergence of the difference between the misclassification risk of the newly introduced convolutional neural network estimate and the minimal possible value is derived.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 適応IMFに向けて --多エージェントフレームワークにおけるユーティリティ機能の一般化

Towards Adaptive IMFs -- Generalization of utility functions in Multi-Agent Frameworks ( http://arxiv.org/abs/2405.07621v1 )

ライセンス: Link先を確認
Kaushik Dey, Satheesh K. Perepu, Abir Das, (参考訳) Intent Management Function(IMF)は、次世代ネットワークの不可欠な部分である。 近年、対立する意図に対処し、実用機能の定義に基づいて世界目標を優先順位付けし、競合する意図に優先順位を付けるAIベースのIMFに関する研究が進められている。 初期の研究では、マルチエージェント強化学習(MARL)技術とAdHoc Teaming(AHT)アプローチを使ってIMFの効率的な紛争処理を行っている。 しかし、そのようなフレームワークが現実のシナリオで成功するためには、ビジネスの状況に柔軟である必要があります。 意図の優先順位が変化し、意図の充足度を測定するユーティリティ関数も定義において異なる場合がある。 本稿では,IMFが様々なユーティリティ機能に一般化し,追加のトレーニングを伴わずに実行時に意図の優先順位を変更するメカニズムを提案する。 このような一般化能力は、追加のトレーニングの必要なく、顧客の意図や優先順位が頻繁に変わるライブネットワークにIMFを配置するのに役立ちます。 ネットワークエミュレータの結果は、アプローチの有効性、新しい意図に対するスケーラビリティ、同じ柔軟性を達成するために追加のトレーニングを必要とする既存の技術よりも優れており、コストを削減し、効率性と適応性を高めている。

Intent Management Function (IMF) is an integral part of future-generation networks. In recent years, there has been some work on AI-based IMFs that can handle conflicting intents and prioritize the global objective based on apriori definition of the utility function and accorded priorities for competing intents. Some of the earlier works use Multi-Agent Reinforcement Learning (MARL) techniques with AdHoc Teaming (AHT) approaches for efficient conflict handling in IMF. However, the success of such frameworks in real-life scenarios requires them to be flexible to business situations. The intent priorities can change and the utility function, which measures the extent of intent fulfilment, may also vary in definition. This paper proposes a novel mechanism whereby the IMF can generalize to different forms of utility functions and change of intent priorities at run-time without additional training. Such generalization ability, without additional training requirements, would help to deploy IMF in live networks where customer intents and priorities change frequently. Results on the network emulator demonstrate the efficacy of the approach, scalability for new intents, outperforming existing techniques that require additional training to achieve the same degree of flexibility thereby saving cost, and increasing efficiency and adaptability.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# SE(3)拡散を用いたデノボ抗体の設計

De novo antibody design with SE(3) diffusion ( http://arxiv.org/abs/2405.07622v1 )

ライセンス: Link先を確認
Daniel Cutting, Frédéric A. Dreyer, David Errington, Constantin Schneider, Charlotte M. Deane, (参考訳) IgDiffは、複数の鎖を扱うために拡張された、一般的なタンパク質のバックボーン拡散フレームワークに基づく、抗体変数ドメイン拡散モデルである。 IgDiffは新規な結合領域を含む高度に設計可能な抗体を産生する。 試料構造物の背骨二面角は基準抗体分布とよく一致している。 我々はこれらの抗体を実験的に検証し、全ての抗体が高収率で発現していることを発見した。 最後に,本モデルと,既存の重鎖との相補性決定領域の設計や光鎖のペア化など,さまざまな抗体設計タスクにおける最先端のバックボーン拡散モデルを比較し,特性と設計性を示す。

We introduce IgDiff, an antibody variable domain diffusion model based on a general protein backbone diffusion framework which was extended to handle multiple chains. Assessing the designability and novelty of the structures generated with our model, we find that IgDiff produces highly designable antibodies that can contain novel binding regions. The backbone dihedral angles of sampled structures show good agreement with a reference antibody distribution. We verify these designed antibodies experimentally and find that all express with high yield. Finally, we compare our model with a state-of-the-art generative backbone diffusion model on a range of antibody design tasks, such as the design of the complementarity determining regions or the pairing of a light chain to an existing heavy chain, and show improved properties and designability.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# COBiasとDebias:非線形整数プログラミングによる言語モデルのペアワイズ精度バイアスの最小化

COBias and Debias: Minimizing Language Model Pairwise Accuracy Bias via Nonlinear Integer Programming ( http://arxiv.org/abs/2405.07623v1 )

ライセンス: Link先を確認
Ruixi Lin, Yang You, (参考訳) 言語モデルの分類については、1つの実行可能なクラスしか持たないか、あるいはすべてのクラスが機能するのか? 後者の方が実用性が高い。 特に,大規模言語モデル (LLM) では,テキスト内学習 (ICL) による全体的な精度が良好であるという事実は,個々のクラスの精度の大きな違いを曖昧にしている。 本研究では,言語モデルによるクラスごとの予測精度の不均衡を,文脈オダニティバイアス (COBias) として再認識することで発見し,対処する。 簡単に言えば、COBiasはクラスAの誤予測を多く持つ'odd'クラスと比較して、クラスAによる精度の差を指す。 次に、非線形整数計画法(DNIP)としてデバイアス化を提案し、より低いバイアスとより高い全体的な精度でクラスごとのICLを補正する。 最適化の目的は,COBiasによる評価スコアと,シミュレーションアニーリングにより解いた精度測定値に基づいている。 7つのNLP分類タスクにおける3つのLCMの評価は、DNIPが従来のICLアプローチよりもCOBiasの大幅な削減(-27\%$)と精度の向上(+12\%$)を同時に達成していることを示している。

For language model classification, would you prefer having only one workable class or having every class working? The latter makes more practical uses. Especially for large language models (LLMs), the fact that they achieve a fair overall accuracy by in-context learning (ICL) obscures a large difference in individual class accuracies. In this work, we uncover and tackle language models' imbalance in per-class prediction accuracy by reconceptualizing it as the Contextual Oddity Bias (COBias), and we are the first to engage nonlinear integer programming (NIP) to debias it. Briefly, COBias refers to the difference in accuracy by a class A compared to its ''odd'' class, which holds the majority wrong predictions of class A. With the COBias metric, we reveal that LLMs of varied scales and families exhibit large per-class accuracy differences. Then we propose Debiasing as Nonlinear Integer Programming (DNIP) to correct ICL per-class probabilities for lower bias and higher overall accuracy. Our optimization objective is directly based on the evaluation scores by COBias and accuracy metrics, solved by simulated annealing. Evaluations on three LLMs across seven NLP classification tasks show that DNIP simultaneously achieves significant COBias reduction ($-27\%$) and accuracy improvement ($+12\%$) over the conventional ICL approach, suggesting that modeling pairwise class accuracy differences is a direction in pushing forward more accurate, more reliable LLM predictions.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 量子最適化アルゴリズムのロバストベンチマークに向けて

Towards Robust Benchmarking of Quantum Optimization Algorithms ( http://arxiv.org/abs/2405.07624v1 )

ライセンス: Link先を確認
David Bucher, Nico Kraus, Jonas Blenninger, Michael Lachner, Jonas Stein, Claudia Linnhoff-Popien, (参考訳) 量子最適化アルゴリズムのパフォーマンスのベンチマークは、産業関連ユースケースの実用性を特定するために不可欠である。 ベンチマークプロセスは最適化アプリケーションによって異なり、ユーザ指定の目標に依存します。 量子アルゴリズムのヒューリスティックな性質は、特に古典的なアルゴリズムと比較した場合、問題を引き起こす。 既存のベンチマークフレームワークにおける重要な問題は、それぞれが古典的なアプローチで最高の量子を最適化するのと同じ努力をしていないことである。 本稿では,公正なベンチマークに向けての普遍的な手順を包括的にまとめたガイドラインについて述べる。 本稿では,(1)アプリケーション固有のアルゴリズムの選択,各解法が問題の最も適した数学的定式化を備えることを保証すること,(2)ハードインスタンスや実世界のサンプルを含むベンチマークデータの選択,(3)時間制約内での解法や解法品質などのメリットの総合的な図形の選択,(4)特定の方法に対する偏見を排除するための均等なハイパーパラメータトレーニングについて論じる。 提案するガイドラインは, MC(Max-Cut)とTSP(Travelling Salesperson Problem)の3つのベンチマークシナリオで検証される。 ベンチマークでは、ブランチ・アンド・カット(BNC)、古典的ヒューリスティックス、量子アニーリング(QA)、量子近似最適化アルゴリズム(QAOA)などの古典的な数学的アルゴリズムが使用されている。

Benchmarking the performance of quantum optimization algorithms is crucial for identifying utility for industry-relevant use cases. Benchmarking processes vary between optimization applications and depend on user-specified goals. The heuristic nature of quantum algorithms poses challenges, especially when comparing to classical counterparts. A key problem in existing benchmarking frameworks is the lack of equal effort in optimizing for the best quantum and, respectively, classical approaches. This paper presents a comprehensive set of guidelines comprising universal steps towards fair benchmarks. We discuss (1) application-specific algorithm choice, ensuring every solver is provided with the most fitting mathematical formulation of a problem; (2) the selection of benchmark data, including hard instances and real-world samples; (3) the choice of a suitable holistic figure of merit, like time-to-solution or solution quality within time constraints; and (4) equitable hyperparameter training to eliminate bias towards a particular method. The proposed guidelines are tested across three benchmarking scenarios, utilizing the Max-Cut (MC) and Travelling Salesperson Problem (TSP). The benchmarks employ classical mathematical algorithms, such as Branch-and-Cut (BNC) solvers, classical heuristics, Quantum Annealing (QA), and the Quantum Approximate Optimization Algorithm (QAOA).
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 未知のユニタリ演算の決定論的正確な変換におけるブラックボックスユニタリ演算に対するクエリ数に関する解析的下界

Analytical lower bound on the number of queries to a black-box unitary operation in deterministic exact transformations of unknown unitary operations ( http://arxiv.org/abs/2405.07625v1 )

ライセンス: Link先を確認
Tatsuki Odake, Satoshi Yoshida, Mio Murao, (参考訳) 決定論的かつ正確な複素共役、逆転、一般$d$次元未知のユニタリ演算の転置は、ブラックボックスユニタリ演算の有限個のクエリで実装可能である。 しかし、必要となるクエリの最小値は、$d=2$のユニタリ反転とユニタリ変換(数値)とユニタリ共役(分析)を除いては知られていない。 本研究では、あるクエリ数の下での$d$次元未知のユニタリ演算の逆転と転置を決定論的かつ正確に実装するための補的no-go定理を導出する。 得られたno-go定理は、ユニタリ反転のクエリ数の解析的下界が$d^2$であり、ユニタリ変換は$d=2$と$d+3$が$d \geq 3$であることを示している。 我々は,一元演算を他のユニタリ演算にマッピングする一般微分可能関数によって与えられる変換を実装するのに必要なブラックボックスのユニタリ演算に対するクエリ数に対する解析的下界を求めるために,微分を利用した新しいフレームワークを開発した。 結論として,下界の密接度と最適触媒変換の存在の関係について述べる。これは決定論的および正確なユニタリ反転の研究で最近発見された新しい側面である。 さらに,このフレームワークを,ある確率で変換を成功させるために必要な確率的設定にまで拡張し,クエリ数と要求される成功確率とのトレードオフ関係を示す。

Several counter-intuitive go-theorems have recently been shown for transformations of unknown unitary operations; deterministic and exact complex conjugation, inversion, and transposition of a general $d$-dimensional unknown unitary operation are implementable with a finite number of queries of the black-box unitary operation. However, the minimum numbers of the required queries are not known except for $d=2$ unitary inversion and unitary transposition (numerical) and unitary conjugation (analytic). In this work, we derive complementary no-go theorems for deterministic and exact implementations of inversion and transposition of a $d$-dimensional unknown unitary operation under certain numbers of queries. The obtained no-go theorem indicates that the analytical lower bound of the number of queries for unitary inversion is $d^2$ and that for unitary transposition is $4$ for $d=2$ and $d+3$ for $d \geq 3$. We have developed a new framework that utilizes differentiation to obtain the analytical lower bounds on the number of queries to the black-box unitary operation required to implement a transformation given by a general differentiable function mapping a unitary operation to another unitary operation, which reproduces the lower bound of the number of queries for unitary complex conjugation $d-1$. As a corollary, we show the relationship between the tightness of the lower bounds and the existence of optimal catalytic transformations, which is a new aspect recently identified in the study of deterministic and exact unitary inversion. Furthermore, we extend our framework to the probabilistic setting where the transformation is required to succeed with a certain probability, thereby showing a possible tradeoff relation between query numbers and the required success probability.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# AnomalyLLM:大規模言語モデルを用いた動的グラフに対するFew-shot Anomaly Edge Detection

AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Language Models ( http://arxiv.org/abs/2405.07626v1 )

ライセンス: Link先を確認
Shuo Liu, Di Yao, Lanting Fang, Zhetao Li, Wenbin Li, Kaiyu Feng, XiaoWen Ji, Jingping Bi, (参考訳) 動的グラフの異常エッジの検出は、通常のパターンから著しく逸脱したエッジを特定し、サイバーセキュリティ、金融トランザクション、AIOpsなどのさまざまなドメインに適用することを目的としている。 時間の経過とともに、異常エッジのタイプが出現し、ラベル付き異常サンプルは各タイプで少ない。 現在の手法はランダムに挿入されたエッジを検出するように設計されているか、モデルトレーニングに十分なラベル付きデータを必要とする。 本稿では,大規模言語モデル(LLM)に符号化された豊富な知識と協調してこの問題を考察し,AnomalyLLMという手法を提案する。 動的グラフをLLMに合わせるため、AnomalyLLMは動的認識エンコーダを事前訓練してエッジの表現を生成し、単語埋め込みのプロトタイプを使用してエッジを再プログラムする。 エンコーダとともに、いくつかのラベル付きサンプルの情報を統合して、数発の異常検出を実現する、コンテキスト内学習フレームワークを設計する。 4つのデータセットの実験により、AnomalyLLMは、数発の異常検出のパフォーマンスを著しく改善できるだけでなく、モデルパラメータを更新することなく、新しい異常に対して優れた結果を得ることができることが明らかになった。

Detecting anomaly edges for dynamic graphs aims to identify edges significantly deviating from the normal pattern and can be applied in various domains, such as cybersecurity, financial transactions and AIOps. With the evolving of time, the types of anomaly edges are emerging and the labeled anomaly samples are few for each type. Current methods are either designed to detect randomly inserted edges or require sufficient labeled data for model training, which harms their applicability for real-world applications. In this paper, we study this problem by cooperating with the rich knowledge encoded in large language models(LLMs) and propose a method, namely AnomalyLLM. To align the dynamic graph with LLMs, AnomalyLLM pre-trains a dynamic-aware encoder to generate the representations of edges and reprograms the edges using the prototypes of word embeddings. Along with the encoder, we design an in-context learning framework that integrates the information of a few labeled samples to achieve few-shot anomaly detection. Experiments on four datasets reveal that AnomalyLLM can not only significantly improve the performance of few-shot anomaly detection, but also achieve superior results on new anomalies without any update of model parameters.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# InAs on Insulator: The New Platform for Cryogenic Hybrid Superconducting Electronics

InAs on Insulator: A New Platform for Cryogenic Hybrid Superconducting Electronics ( http://arxiv.org/abs/2405.07630v1 )

ライセンス: Link先を確認
Alessandro Paghi, Giacomo Trupiano, Giorgio De Simoni, Omer Arif, Lucia Sorba, Francesco Giazotto, (参考訳) ハイブリッドInAs Josephson Junctions (JJs) に基づく超伝導回路は、高速で超低消費電力の固体量子エレクトロニクスの設計や、新しい物理現象の探索において重要な役割を担っている。 従来、3D基板、2D量子井戸(QW)、1Dナノワイヤ(NW)をInAsで製造し、ハイブリッドJJを用いた超伝導回路を製造する。 各プラットフォームには長所と短所がある。 InAs-on-insulator (InAsOI) を超伝導エレクトロニクス開発のための基盤プラットフォームとして提案した。 電子密度の異なる半導体InAsのエピレイヤーをInAlAs変成バッファ層上に成長させ, 隣接する素子を電気的に分離するために低温絶縁体として効率的に利用した。 様々な長さと幅のJJを超伝導体としてAlと電子密度の異なるInAsを用いて作製した。 スイッチング電流密度は7.3 uA/um,臨界電圧は50-80 uV,臨界温度は超伝導体と同等であった。 全てのJJに対して、スイッチング電流は、外面磁場を持つ特徴的なフラウンホーファーパターンに従う。 これらの成果により、InAsOIを用いた表面暴露されたジョセフソン電界効果トランジスタの設計および製造が可能となり、臨界電流密度と優れたゲーティング特性を有する。

Superconducting circuits based on hybrid InAs Josephson Junctions (JJs) play a starring role in the design of fast and ultra-low power consumption solid-state quantum electronics and exploring novel physical phenomena. Conventionally, 3D substrates, 2D quantum wells (QWs), and 1D nanowires (NWs) made of InAs are employed to create superconductive circuits with hybrid JJs. Each platform has its advantages and disadvantages. Here, we proposed the InAs-on-insulator (InAsOI) as a groundbreaking platform for developing superconducting electronics. An epilayer of semiconductive InAs with different electron densities was grown onto an InAlAs metamorphic buffer layer, efficiently used as a cryogenic insulator to decouple adjacent devices electrically. JJs with various lengths and widths were fabricated employing Al as a superconductor and InAs with different electron densities. We achieved a switching current density of 7.3 uA/um, a critical voltage of 50-to-80 uV, and a critical temperature equal to that of the superconductor used. For all the JJs, the switching current follows a characteristic Fraunhofer pattern with an out-of-plane magnetic field. These achievements enable the use of InAsOI to design and fabricate surface-exposed Josephson Field Effect Transistors with high critical current densities and superior gating properties.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# Aggregate Bandit Feedback を用いた線形MDPの準最適回帰

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback ( http://arxiv.org/abs/2405.07637v1 )

ライセンス: Link先を確認
Asaf Cassel, Haipeng Luo, Aviv Rosenberg, Dmitry Sotnikov, (参考訳) 多くの実世界のアプリケーションでは、強化学習(RL)プロセスの各ステップに報奨信号を提供することは困難であり、エピソードが終わるとフィードバックがより自然になる。 この目的のために,最近提案されたRLモデルとアグリゲート帯域フィードバック(Aggregate Bandit Feedback, RL-ABF)について検討した。 以前の研究では、RL-ABFは表の設定でのみ研究され、状態の数は少ないと仮定された。 本稿では,ABFを線形関数近似に拡張し,Q関数アンサンブルを持つ新しいランダム化手法に基づく値に基づく楽観的アルゴリズムと,新しいヘッジ方式を用いたポリシー最適化アルゴリズムを提案する。

In many real-world applications, it is hard to provide a reward signal in each step of a Reinforcement Learning (RL) process and more natural to give feedback when an episode ends. To this end, we study the recently proposed model of RL with Aggregate Bandit Feedback (RL-ABF), where the agent only observes the sum of rewards at the end of an episode instead of each reward individually. Prior work studied RL-ABF only in tabular settings, where the number of states is assumed to be small. In this paper, we extend ABF to linear function approximation and develop two efficient algorithms with near-optimal regret guarantees: a value-based optimistic algorithm built on a new randomization technique with a Q-functions ensemble, and a policy optimization algorithm that uses a novel hedging scheme over the ensemble.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# DoLLM: 大規模言語モデルによるネットワークフローデータ理解によるカーペット爆弾のDDoS検出

DoLLM: How Large Language Models Understanding Network Flow Data to Detect Carpet Bombing DDoS ( http://arxiv.org/abs/2405.07638v1 )

ライセンス: Link先を確認
Qingyang Li, Yihang Zhang, Zhidong Jia, Yannan Hu, Lei Zhang, Jianrong Zhang, Yongming Xu, Yong Cui, Zongming Guo, Xinggong Zhang, (参考訳) Can and How Large Language Models (LLM)は、非言語ネットワークデータを理解し、未知の悪意のあるフローを検出するのに役立ちます。 本稿では,カーペット爆弾を事例として,ネットワーク領域におけるLLMの強力な能力を活用する方法について述べる。 Carpet BombingはDDoS攻撃で、近年劇的に増加し、ネットワークインフラストラクチャーを著しく脅かしている。 サブネット内の複数の被害者IPをターゲットにしており、アクセスリンクが混雑し、多くのユーザーにとってネットワークサービスを混乱させる。 低レートでマルチベクターによって特徴付けられるこれらの攻撃は、従来のDDoS防御に挑戦する。 本研究では,オープンソースのLDMをバックボーンとして利用するDDoS検出モデルであるDoLLMを提案する。 非コンテキストのネットワークフローをFlow-Sequenceに再編成し、トークン埋め込みとしてLLMの意味空間に投影することで、DLLMはLLMのコンテキスト理解を活用して、全体のネットワークコンテキストにおけるフロー表現を抽出する。 この表現はDDoS検出性能を改善するために使用される。 我々は,DLLMを公共データセットCIC-DDoS2019とTop-3の国全体のISPからの本当のNetFlowトレースで評価した。 テストの結果、DoLLMは強力な検出能力を持っていることが証明された。 F1のスコアはゼロショットのシナリオでは33.3%、実際のISPトレースでは少なくとも20.6%まで上昇した。

It is an interesting question Can and How Large Language Models (LLMs) understand non-language network data, and help us detect unknown malicious flows. This paper takes Carpet Bombing as a case study and shows how to exploit LLMs' powerful capability in the networking area. Carpet Bombing is a new DDoS attack that has dramatically increased in recent years, significantly threatening network infrastructures. It targets multiple victim IPs within subnets, causing congestion on access links and disrupting network services for a vast number of users. Characterized by low-rates, multi-vectors, these attacks challenge traditional DDoS defenses. We propose DoLLM, a DDoS detection model utilizes open-source LLMs as backbone. By reorganizing non-contextual network flows into Flow-Sequences and projecting them into LLMs semantic space as token embeddings, DoLLM leverages LLMs' contextual understanding to extract flow representations in overall network context. The representations are used to improve the DDoS detection performance. We evaluate DoLLM with public datasets CIC-DDoS2019 and real NetFlow trace from Top-3 countrywide ISP. The tests have proven that DoLLM possesses strong detection capabilities. Its F1 score increased by up to 33.3% in zero-shot scenarios and by at least 20.6% in real ISP traces.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 多目的オートMLにおけるハイパーパラメータの重要度解析

Hyperparameter Importance Analysis for Multi-Objective AutoML ( http://arxiv.org/abs/2405.07640v1 )

ライセンス: Link先を確認
Daphne Theodorakopoulos, Frederic Stahl, Marius Lindauer, (参考訳) ハイパーパラメータ最適化は、MLモデルの予測性能と一般化能力を高める上で重要な役割を果たす。 しかし、多くのアプリケーションでは、予測性能だけでなく、推測時間、メモリ、エネルギー消費といった目的も気にしています。 このようなMOOシナリオでは、矛盾する目的間の複雑な相互作用により、ハイパーパラメーターの重要性を決定することが大きな課題となる。 本稿では,多目的ハイパーパラメータ最適化の文脈におけるハイパーパラメータの重要性を評価するための最初の手法を提案する。 提案手法は, 過度パラメータが最適化目標に与える影響を明らかにするため, HPI(Surrogate-based hyperparameter importance)尺度(fANOVA)とアブレーションパス(ablation paths)を利用する。 具体的には、目的のa-prioriスキャラライゼーションを計算し、異なる目的のトレードオフに対するハイパーパラメータの重要性を決定する。 提案手法の有効性とロバスト性を実証するために,3つの異なる目的を持つベンチマークデータセットを,時間,人口密度,エネルギー消費の精度と組み合わせた実験的な評価を行い,提案手法の有効性とロバスト性を実証した。 この結果は,MOOタスクにおけるハイパーパラメータチューニングのための貴重なガイダンスを提供するだけでなく,複雑な最適化シナリオにおけるHPI理解の促進にも寄与する。

Hyperparameter optimization plays a pivotal role in enhancing the predictive performance and generalization capabilities of ML models. However, in many applications, we do not only care about predictive performance but also about objectives such as inference time, memory, or energy consumption. In such MOO scenarios, determining the importance of hyperparameters poses a significant challenge due to the complex interplay between the conflicting objectives. In this paper, we propose the first method for assessing the importance of hyperparameters in the context of multi-objective hyperparameter optimization. Our approach leverages surrogate-based hyperparameter importance (HPI) measures, i.e. fANOVA and ablation paths, to provide insights into the impact of hyperparameters on the optimization objectives. Specifically, we compute the a-priori scalarization of the objectives and determine the importance of the hyperparameters for different objective tradeoffs. Through extensive empirical evaluations on diverse benchmark datasets with three different objectives paired with accuracy, namely time, demographic parity, and energy consumption, we demonstrate the effectiveness and robustness of our proposed method. Our findings not only offer valuable guidance for hyperparameter tuning in MOO tasks but also contribute to advancing the understanding of HPI in complex optimization scenarios.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# CDFormer:Blind Image Super-Resolutionのための拡散モデルを考慮した劣化予測時

CDFormer:When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution ( http://arxiv.org/abs/2405.07648v1 )

ライセンス: Link先を確認
Qingguo Liu, Chenyi Zhuang, Pan Gao, Jie Qin, (参考訳) 既存のBlind Image Super-Resolution (BSR)法は、カーネルまたは劣化情報を推定することに重点を置いているが、重要な内容の詳細を長い間見落としてきた。 本稿では,コンテンツ認識型劣化駆動トランスフォーマ (CDFormer) を用いた新しいBSR手法を提案する。 しかし、低解像度画像は十分な内容の詳細を提供できないため、拡散ベースのモジュールである$CDFormer_{diff}$を導入し、低解像度画像と高解像度画像の両方でコンテンツ劣化優先順位(CDP)を学習し、低解像度情報のみを与えられた実分布を近似する。 さらに,適応SRネットワーク$CDFormer_{SR}$を適用し,CDPを有効活用して機能を洗練する。 従来の拡散型SR法と比較して,拡散モデルを高価なサンプリング時間と過剰な多様性の限界を克服できる推定器として扱う。 実験によると、CDFormerは既存のメソッドよりも優れており、ブラインド設定下で様々なベンチマークで新しい最先端のパフォーマンスを確立することができる。 コードとモデルは \href{https://github.com/I2-Multimedia-Lab/CDFormer}{https://github.com/I2-Multimedia-Lab/CDFormer} で入手できる。

Existing Blind image Super-Resolution (BSR) methods focus on estimating either kernel or degradation information, but have long overlooked the essential content details. In this paper, we propose a novel BSR approach, Content-aware Degradation-driven Transformer (CDFormer), to capture both degradation and content representations. However, low-resolution images cannot provide enough content details, and thus we introduce a diffusion-based module $CDFormer_{diff}$ to first learn Content Degradation Prior (CDP) in both low- and high-resolution images, and then approximate the real distribution given only low-resolution information. Moreover, we apply an adaptive SR network $CDFormer_{SR}$ that effectively utilizes CDP to refine features. Compared to previous diffusion-based SR methods, we treat the diffusion model as an estimator that can overcome the limitations of expensive sampling time and excessive diversity. Experiments show that CDFormer can outperform existing methods, establishing a new state-of-the-art performance on various benchmarks under blind settings. Codes and models will be available at \href{https://github.com/I2-Multimedia-Lab/CDFormer}{https://github.com/I2-Multimedia-Lab/CDFormer}.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# 家庭用反射器を用いた効率的なマトリックス因子化

Efficient Matrix Factorization Via Householder Reflections ( http://arxiv.org/abs/2405.07649v1 )

ライセンス: Link先を確認
Anirudh Dash, Aditya Siripuram, (参考訳) 直交辞書学習問題によって動機づけられた行列分解の新しい手法として、データ行列 $\mathbf{Y}$ はハウステリア行列 $\mathbf{H}$ とバイナリ行列 $\mathbf{X}$ の積である。 まず、$\mathbf{H}$ および $\mathbf{X}$ から $\mathbf{Y}$ の正確な回復は、$\mathbf{Y}$ の$\Omega(1)$カラムで保証されることを示す。 次に、多項式時間($O(np)$)と$\Omega(\log n)$ columns in $\mathbf{Y}$ で近似回復($l\infty$ sense)が可能であることを示す。 この研究のテクニックが、直交辞書学習のための代替アルゴリズムの開発に役立つことを願っている。

Motivated by orthogonal dictionary learning problems, we propose a novel method for matrix factorization, where the data matrix $\mathbf{Y}$ is a product of a Householder matrix $\mathbf{H}$ and a binary matrix $\mathbf{X}$. First, we show that the exact recovery of the factors $\mathbf{H}$ and $\mathbf{X}$ from $\mathbf{Y}$ is guaranteed with $\Omega(1)$ columns in $\mathbf{Y}$ . Next, we show approximate recovery (in the $l\infty$ sense) can be done in polynomial time($O(np)$) with $\Omega(\log n)$ columns in $\mathbf{Y}$ . We hope the techniques in this work help in developing alternate algorithms for orthogonal dictionary learning.
翻訳日:2024-05-14 14:05:08 公開日:2024-05-13
# G-VOILA: 日常シナリオにおける注視情報クエリ

G-VOILA: Gaze-Facilitated Information Querying in Daily Scenarios ( http://arxiv.org/abs/2405.07652v1 )

ライセンス: Link先を確認
Zeyu Wang, Yuanchun Shi, Yuntao Wang, Yuchen Yao, Kun Yan, Yuhan Wang, Lei Ji, Xuhai Xu, Chun Yu, (参考訳) 現代の情報クエリシステムは、視覚やオーディオといったマルチモーダルな入力を徐々に取り入れている。 しかし、視線追跡ウェアラブルによる視線統合は、ユーザーの意図と深く結びついており、ますますアクセスしやすくなっている。 本稿では、より直感的なクエリ処理を容易にするために、ユーザの視線、視野、音声に基づく自然言語クエリを相乗化する、G-VOILAという新しい視線対応情報クエリパラダイムを提案する。 日常的な3つのシナリオ(p = 21, scene = 3)における21人の参加者を対象に,ユーザの問合せ言語におけるあいまいさと,G-VOILAを用いたユーザの自然な問合せ行動における視線・声調調整パターンを明らかにした。 本研究では,G-VOILAパラダイムの設計枠組みを構築し,視線データとその場クエリのコンテキストを効果的に統合した。 次に,最先端の深層学習技術を用いたG-VOILA概念証明を実装した。 フォローアップユーザスタディ(p = 16, scene = 2)は、視線データのないベースラインと比較して、高い客観的スコアと主観的スコアの両方を達成することにより、その効果を実証する。 我々はさらにインタビューを行い、将来の視線対応情報クエリシステムに対する洞察を提供した。

Modern information querying systems are progressively incorporating multimodal inputs like vision and audio. However, the integration of gaze -- a modality deeply linked to user intent and increasingly accessible via gaze-tracking wearables -- remains underexplored. This paper introduces a novel gaze-facilitated information querying paradigm, named G-VOILA, which synergizes users' gaze, visual field, and voice-based natural language queries to facilitate a more intuitive querying process. In a user-enactment study involving 21 participants in 3 daily scenarios (p = 21, scene = 3), we revealed the ambiguity in users' query language and a gaze-voice coordination pattern in users' natural query behaviors with G-VOILA. Based on the quantitative and qualitative findings, we developed a design framework for the G-VOILA paradigm, which effectively integrates the gaze data with the in-situ querying context. Then we implemented a G-VOILA proof-of-concept using cutting-edge deep learning techniques. A follow-up user study (p = 16, scene = 2) demonstrates its effectiveness by achieving both higher objective score and subjective score, compared to a baseline without gaze data. We further conducted interviews and provided insights for future gaze-facilitated information querying systems.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# ブラックスクリーン輝度キーを用いた物体検出・セグメンテーションのための高速学習データ取得

Fast Training Data Acquisition for Object Detection and Segmentation using Black Screen Luminance Keying ( http://arxiv.org/abs/2405.07653v1 )

ライセンス: Link先を確認
Thomas Pöllabauer, Volker Knauthe, André Boller, Arjan Kuijper, Dieter Fellner, (参考訳) ディープニューラルネットワーク(DNN)は、優れたパフォーマンスを得るために大量の注釈付きトレーニングデータを必要とする。 多くの場合、このデータは手動のラベリング(エラーや時間を要する)やレンダリング(幾何学や材料情報を必要とする)を使って生成される。 どちらのアプローチも、それらを多くの小規模アプリケーションに適用することは困難または非経済的である。 必要なトレーニングデータを取得するための、迅速で直接的なアプローチは、ディープラーニングの採用を、最小のアプリケーションでも可能にします。 クロマキー(英: Chroma keying)とは、色(通常青または緑)を別の背景に置き換える過程である。 色覚キーリングの代わりに,高速かつ簡単なトレーニング画像取得のための輝度キーニングを提案する。 光吸収率99.99\%の黒画面を配置し,対象物体の約1分間の映像を撮影し,背景色と対象色との色の重なりなど,クロマキーの典型的な問題を回避する。 次に、単純な輝度しきい値を使用してオブジェクトを自動的にマスキングし、手動のアノテーションを不要にします。 最後に、オブジェクトをランダムな背景に自動的に配置し、2Dオブジェクト検出器を訓練する。 広範に使用されているYCB-Vオブジェクトセットの性能を広範囲に評価し、3Dメッシュや材料その他の対象オブジェクトの情報を必要とせず、また、他のアプローチに必要な時間のごく一部でレンダリングなどの他の手法と比較した。 私たちの研究は、最先端ネットワークのトレーニングを数分で開始できる、高精度なトレーニングデータ取得を実証しています。

Deep Neural Networks (DNNs) require large amounts of annotated training data for a good performance. Often this data is generated using manual labeling (error-prone and time-consuming) or rendering (requiring geometry and material information). Both approaches make it difficult or uneconomic to apply them to many small-scale applications. A fast and straightforward approach of acquiring the necessary training data would allow the adoption of deep learning to even the smallest of applications. Chroma keying is the process of replacing a color (usually blue or green) with another background. Instead of chroma keying, we propose luminance keying for fast and straightforward training image acquisition. We deploy a black screen with high light absorption (99.99\%) to record roughly 1-minute long videos of our target objects, circumventing typical problems of chroma keying, such as color bleeding or color overlap between background color and object color. Next we automatically mask our objects using simple brightness thresholding, saving the need for manual annotation. Finally, we automatically place the objects on random backgrounds and train a 2D object detector. We do extensive evaluation of the performance on the widely-used YCB-V object set and compare favourably to other conventional techniques such as rendering, without needing 3D meshes, materials or any other information of our target objects and in a fraction of the time needed for other approaches. Our work demonstrates highly accurate training data acquisition allowing to start training state-of-the-art networks within minutes.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# V-D-T能動物体検出のための品質認識型選択核融合ネットワーク

Quality-aware Selective Fusion Network for V-D-T Salient Object Detection ( http://arxiv.org/abs/2405.07655v1 )

ライセンス: Link先を確認
Liuxin Bao, Xiaofei Zhou, Xiankai Lu, Yaoqi Sun, Haibing Yin, Zhenghui Hu, Jiyong Zhang, Chenggang Yan, (参考訳) 深度画像と熱画像は、空間幾何学情報と表面温度情報を含み、RGBモダリティの相補的な情報として機能する。 しかし、深度と熱画像の品質は、いくつかの困難なシナリオでは信頼できない場合が多く、それによって2モーダル・サリアン・オブジェクト検出(SOD)の性能劣化が生じる。 一方、RGB画像、深度画像、熱画像の相補性を探る三重モードSODタスクに注意を払っている研究者もいる。 しかし、既存の3重モードSOD法では、深度マップや熱画像の品質を認識できないため、低画質の深度画像や熱画像を扱う場合の性能劣化が生じる。 そこで本研究では,初期特徴抽出サブネット,品質認識領域選択サブネット,地域誘導型選択的融合サブネットを含む3つのサブネットを含む,VDTサリアントオブジェクト検出を行う品質認識型選択的融合ネットワーク(QSF-Net)を提案する。 まず、初期特徴抽出サブネットは、特徴抽出を除いて、縮小ピラミッドアーキテクチャを介して各モードから予備予測マップを生成することができる。 そして、弱教師付き品質認識領域選択サブネットを設計し、品質認識マップを生成する。 具体的には,まず,このサブネットのトレーニングに使用可能な擬似ラベルを構成する予備予測を用いて,高品質かつ低品質な領域を探索する。 最後に、領域誘導選択的核融合サブネットは、品質認識マップのガイダンスに基づいて初期特徴を浄化し、次に三重モード特徴を融合し、各モジュールのモード内およびモード間注意(IIA)モジュールおよびエッジ改善(ER)モジュールを介して予測マップのエッジ詳細を洗練する。 VDT-2048における大規模実験

Depth images and thermal images contain the spatial geometry information and surface temperature information, which can act as complementary information for the RGB modality. However, the quality of the depth and thermal images is often unreliable in some challenging scenarios, which will result in the performance degradation of the two-modal based salient object detection (SOD). Meanwhile, some researchers pay attention to the triple-modal SOD task, where they attempt to explore the complementarity of the RGB image, the depth image, and the thermal image. However, existing triple-modal SOD methods fail to perceive the quality of depth maps and thermal images, which leads to performance degradation when dealing with scenes with low-quality depth and thermal images. Therefore, we propose a quality-aware selective fusion network (QSF-Net) to conduct VDT salient object detection, which contains three subnets including the initial feature extraction subnet, the quality-aware region selection subnet, and the region-guided selective fusion subnet. Firstly, except for extracting features, the initial feature extraction subnet can generate a preliminary prediction map from each modality via a shrinkage pyramid architecture. Then, we design the weakly-supervised quality-aware region selection subnet to generate the quality-aware maps. Concretely, we first find the high-quality and low-quality regions by using the preliminary predictions, which further constitute the pseudo label that can be used to train this subnet. Finally, the region-guided selective fusion subnet purifies the initial features under the guidance of the quality-aware maps, and then fuses the triple-modal features and refines the edge details of prediction maps through the intra-modality and inter-modality attention (IIA) module and the edge refinement (ER) module, respectively. Extensive experiments are performed on VDT-2048
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 人工知能を用いた従来の磁気共鳴処理を超えて

Beyond traditional Magnetic Resonance processing with Artificial Intelligence ( http://arxiv.org/abs/2405.07657v1 )

ライセンス: Link先を確認
Amir Jahangiri, Vladislav Orekhov, (参考訳) 人工知能を用いたスマート信号処理アプローチはNMR応用において勢いを増している。 本研究では,AIが従来の手法による課題を超えて,新たな機会を提供することを示す。 我々は、従来のEcho/Anti-Echo方式から、Echo(またはアンチエコー)変調のみを用いた2次検出、任意の方法で処理されたスペクトルにおける各点における信号強度の不確実性へのアクセス、NMRスペクトル品質の定量的アクセスのための基準フリースコアの定義という3つの「不可能な」問題を解決するために、新しいツールボックスであるMR-Ai(Magnetic Resonance with Artificial Intelligence)を開発し、訓練した。 我々の発見は、NMR処理と分析に革命をもたらすAI技術の可能性を浮き彫りにしている。

Smart signal processing approaches using Artificial Intelligence are gaining momentum in NMR applications. In this study, we demonstrate that AI offers new opportunities beyond tasks addressed by traditional techniques. We developed and trained several artificial neural networks in our new toolbox Magnetic Resonance with Artificial intelligence (MR-Ai) to solve three "impossible" problems: quadrature detection using only Echo (or Anti-Echo) modulation from the traditional Echo/Anti-Echo scheme; accessing uncertainty of signal intensity at each point in a spectrum processed by any given method; and defining a reference-free score for quantitative access of NMR spectrum quality. Our findings highlight the potential of AI techniques to revolutionize NMR processing and analysis.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# ハマーを用いたスキューズレモン:データ・スカース分類のためのオートMLとタブラルディープラーニングの評価

Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications ( http://arxiv.org/abs/2405.07662v1 )

ライセンス: Link先を確認
Ricardo Knauer, Erik Rodner, (参考訳) 多くの業界では、小さなタブ形式のデータに直面しています。 この低データ構造では、単純なベースラインから最高のパフォーマンスを期待できるか、メタラーニングとアンサンブルを利用するより複雑な機械学習アプローチなのか、現時点では不明である。 サンプルサイズが$\leq$500の44のグラフ分類データセットでは、L2正規化ロジスティック回帰が、ほとんどのベンチマークデータセット上で、最先端の自動機械学習(AutoML)フレームワーク(AutoPrognosis、AutoGluon)やオフ・ザ・シェルフディープニューラルネットワーク(TabPFN、HyperFast)と同じようなパフォーマンスを発揮することが分かりました。 そこで本稿では,ロジスティック回帰を表型データを用いたデータ共有アプリケーションの第1選択として検討し,実践者にさらなるメソッド選択のためのベストプラクティスを提供することを推奨する。

Many industry verticals are confronted with small-sized tabular data. In this low-data regime, it is currently unclear whether the best performance can be expected from simple baselines, or more complex machine learning approaches that leverage meta-learning and ensembling. On 44 tabular classification datasets with sample sizes $\leq$ 500, we find that L2-regularized logistic regression performs similar to state-of-the-art automated machine learning (AutoML) frameworks (AutoPrognosis, AutoGluon) and off-the-shelf deep neural networks (TabPFN, HyperFast) on the majority of the benchmark datasets. We therefore recommend to consider logistic regression as the first choice for data-scarce applications with tabular data and provide practitioners with best practices for further method selection.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# Sign Stitching: 手話生産への新たなアプローチ

Sign Stitching: A Novel Approach to Sign Language Production ( http://arxiv.org/abs/2405.07663v1 )

ライセンス: Link先を確認
Harry Walsh, Ben Saunders, Richard Bowden, (参考訳) 手話生産(SLP)は、利用可能な限られたリソースと手話データに固有の多様性を考えると、難しい課題である。 その結果、従来の作業は平均への回帰の問題に悩まされ、未解決で理解不能な署名につながった。 本稿では,辞書の例と学習した表情のコードブックを用いて,表現力のある手話列を生成することを提案する。 しかし、単に記号を結合して顔を追加するだけで、ロボットと不自然なシーケンスが生成される。 これを解決するために,シーケンスを効果的に縫合する7段階の手法を提案する。 まず、各サインを標準のポーズに正規化し、トリミングし、縫合することで、連続的なシーケンスを生成します。 次に、周波数領域にフィルタリングを適用して各符号を再サンプリングすることにより、元のデータに現れる韻律を模倣する結合的な自然列を生成する。 我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナーにマッピングし、完全なText-to-Sign (T2S) SLPパイプラインを提示する。 提案手法の有効性を実証し,全データセットにまたがる最先端性能を示す。 最後に、ユーザ評価により、我々のアプローチはベースラインモデルよりも優れており、現実的な手話列を生成することができることを示す。

Sign Language Production (SLP) is a challenging task, given the limited resources available and the inherent diversity within sign data. As a result, previous works have suffered from the problem of regression to the mean, leading to under-articulated and incomprehensible signing. In this paper, we propose using dictionary examples and a learnt codebook of facial expressions to create expressive sign language sequences. However, simply concatenating signs and adding the face creates robotic and unnatural sequences. To address this we present a 7-step approach to effectively stitch sequences together. First, by normalizing each sign into a canonical pose, cropping, and stitching we create a continuous sequence. Then, by applying filtering in the frequency domain and resampling each sign, we create cohesive natural sequences that mimic the prosody found in the original data. We leverage a SignGAN model to map the output to a photo-realistic signer and present a complete Text-to-Sign (T2S) SLP pipeline. Our evaluation demonstrates the effectiveness of the approach, showcasing state-of-the-art performance across all datasets. Finally, a user evaluation shows our approach outperforms the baseline model and is capable of producing realistic sign language sequences.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 地理空間知識グラフ

Geospatial Knowledge Graphs ( http://arxiv.org/abs/2405.07664v1 )

ライセンス: Link先を確認
Rui Zhu, (参考訳) 地理空間知識グラフは地理空間情報の表現と推論のための新しいパラダイムとして登場した。 このフレームワークでは、場所、人、イベント、観察などのエンティティをノードとして表現し、それらの関係をエッジとして表現する。 このグラフベースのデータフォーマットは、地理的情報の管理と分析を容易にする「FAIR(Findable, Accessible, Interoperable, Reusable)」環境を作成する基盤となる。 このエントリではまず、知識グラフにおける重要な概念と、関連する標準化とツールを紹介します。 その後、地理・環境科学における知識グラフの応用に踏み込み、学際的な地理空間的課題に対処するために、象徴的で象徴的なGeoAIをブリッジする役割を強調した。 最後に,地理空間知識グラフに関する新たな研究の方向性について概説する。

Geospatial knowledge graphs have emerged as a novel paradigm for representing and reasoning over geospatial information. In this framework, entities such as places, people, events, and observations are depicted as nodes, while their relationships are represented as edges. This graph-based data format lays the foundation for creating a "FAIR" (Findable, Accessible, Interoperable, and Reusable) environment, facilitating the management and analysis of geographic information. This entry first introduces key concepts in knowledge graphs along with their associated standardization and tools. It then delves into the application of knowledge graphs in geography and environmental sciences, emphasizing their role in bridging symbolic and subsymbolic GeoAI to address cross-disciplinary geospatial challenges. At the end, new research directions related to geospatial knowledge graphs are outlined.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 情報ボトルネックとしての部分情報分解

Partial information decomposition as information bottleneck ( http://arxiv.org/abs/2405.07665v1 )

ライセンス: Link先を確認
Artemy Kolchinsky, (参考訳) 部分情報分解(PID)は、ソースのセットがターゲットに提供している冗長な情報の量を定量化することを目的としている。 ここでは、この目標を情報ボトルネック(IB)問題の一種として定式化できることを示し、これを「冗長ボトルネック(RB)」と呼ぶ。 RBは予測と圧縮のトレードオフを形式化し、情報を提供するソースを明らかにすることなく、ターゲットを予測するソースから情報を抽出する。 我々は以前,PID冗長性の原理的尺度として提案した「ブラックウェル冗長性」の一般化として理解することができる。 RB曲線」は、予測/圧縮トレードオフを複数のスケールで定量化する。 この曲線は個々のソースに対して定量化することもできるので、組合せ最適化なしで冗長なソースのサブセットを特定できる。 RB曲線を計算するための効率的な反復アルゴリズムを提案する。

The partial information decomposition (PID) aims to quantify the amount of redundant information that a set of sources provide about a target. Here we show that this goal can be formulated as a type of information bottleneck (IB) problem, which we term the "redundancy bottleneck" (RB). The RB formalizes a tradeoff between prediction and compression: it extracts information from the sources that predicts the target, without revealing which source provided the information. It can be understood as a generalization "Blackwell redundancy", which we previously proposed as a principled measure of PID redundancy. The "RB curve" quantifies the prediction/compression tradeoff at multiple scales. This curve can also be quantified for individual sources, allowing subsets of redundant sources to be identified without combinatorial optimization. We provide an efficient iterative algorithm for computing the RB curve.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 生成型大規模言語モデルのためのバックドア除去

Backdoor Removal for Generative Large Language Models ( http://arxiv.org/abs/2405.07667v1 )

ライセンス: Link先を確認
Haoran Li, Yulin Chen, Zihao Zheng, Qi Hu, Chunkit Chan, Heshan Liu, Yangqiu Song, (参考訳) 急速な進歩により、生成型大規模言語モデル(LLM)は理解から推論まで様々な自然言語処理(NLP)タスクを支配している。 しかし、言語モデル固有の脆弱性は、インターネットからの大量のテキストデータに対するアクセシビリティ向上と無制限なモデルトレーニングにより悪化する可能性がある。 悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。 バックドアのLCMは通常のクエリに対して無害に動作し、バックドアのトリガがアクティブになったときに有害な応答を生成する。 LLMの安全性問題に多大な努力を払っているにもかかわらず、LLMはバックドア攻撃に苦戦している。 Anthropicが最近明らかにしたように、教師付き微調整(SFT)や人間からのフィードバックからの強化学習(RLHF)を含む既存の安全訓練戦略は、事前訓練の段階でLLMがバックドアを外すと、バックドアを無効にしない。 本稿では、生成LDMの不要なバックドアマッピングを消去するためにSANDE(Simulate and Eliminate)を提案する。 トリガが検出された場合, バックドアを効果的に除去するためのOverwrite Supervised Fine-tuning (OSFT) を提案する。 次に、トリガパターンが未知のシナリオを扱うために、OSFTを2段階フレームワークであるSANDEに統合します。 バックドアの識別に重点を置いていた従来の研究とは異なり、我々の安全を増進したLSMは、正確なトリガーが活性化された場合でも正常に動作することができる。 我々は,提案するSANDEがバックドア攻撃に対して有効であることを示すとともに,非バックドアクリーンモデルへの追加アクセスを伴わずにLLMの強力な能力に最小限のダメージを与えることを示す包括的実験を行った。 再現可能なコードを公開します。

With rapid advances, generative large language models (LLMs) dominate various Natural Language Processing (NLP) tasks from understanding to reasoning. Yet, language models' inherent vulnerabilities may be exacerbated due to increased accessibility and unrestricted model training on massive textual data from the Internet. A malicious adversary may publish poisoned data online and conduct backdoor attacks on the victim LLMs pre-trained on the poisoned data. Backdoored LLMs behave innocuously for normal queries and generate harmful responses when the backdoor trigger is activated. Despite significant efforts paid to LLMs' safety issues, LLMs are still struggling against backdoor attacks. As Anthropic recently revealed, existing safety training strategies, including supervised fine-tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), fail to revoke the backdoors once the LLM is backdoored during the pre-training stage. In this paper, we present Simulate and Eliminate (SANDE) to erase the undesired backdoored mappings for generative LLMs. We initially propose Overwrite Supervised Fine-tuning (OSFT) for effective backdoor removal when the trigger is known. Then, to handle the scenarios where the trigger patterns are unknown, we integrate OSFT into our two-stage framework, SANDE. Unlike previous works that center on the identification of backdoors, our safety-enhanced LLMs are able to behave normally even when the exact triggers are activated. We conduct comprehensive experiments to show that our proposed SANDE is effective against backdoor attacks while bringing minimal harm to LLMs' powerful capability without any additional access to unbackdoored clean models. We will release the reproducible code.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# CrossCert:ディープラーニングモデルのためのパッチロバストネス認定のためのクロスチェッキング検出アプローチ

CrossCert: A Cross-Checking Detection Approach to Patch Robustness Certification for Deep Learning Models ( http://arxiv.org/abs/2405.07668v1 )

ライセンス: Link先を確認
Qilin Zhou, Zhengyuan Wei, Haipeng Wang, Bo Jiang, W. K. Chan, (参考訳) パッチ堅牢性認証は、証明可能な保証付き敵パッチ攻撃に対する、新たな防御技術である。 確認された回復と確認された検出の2つの研究線がある。 彼らは、証明可能な保証で悪意のあるサンプルをラベル付けし、証明可能な保証で良質でないラベルに予測される悪意のあるサンプルに対して警告を発することを目指している。 しかし、既存の認証された検出ディフェンダーは操作対象ラベルの保護に悩まされており、既存の認証されたリカバリディフェンダーは、そのラベルに関するサンプルを体系的に警告することはできない。 堅牢なラベルと、パッチ攻撃に対する体系的な警告を同時に提供する認証された防御が望ましい。 本稿ではCrossCertと呼ばれる新しい防御技術を提案する。 CrossCertは、2つの認定されたリカバリディフェンダーをクロスチェックして、不安定な認証と検出の認定を提供するという、新しいアプローチを定式化している。 アンウェーブリング認証は、認証されたサンプルが、パッチされた摂動を受けると、常に良心的なラベルで返され、証明可能な保証で警告を起こさないようにする。 私たちの知る限り、CrossCertはこの保証を提供する最初の認証検出テクニックです。 実験の結果,PatchCensorはVPよりも若干低い性能,PatchCensorと同等の性能を示した。

Patch robustness certification is an emerging kind of defense technique against adversarial patch attacks with provable guarantees. There are two research lines: certified recovery and certified detection. They aim to label malicious samples with provable guarantees correctly and issue warnings for malicious samples predicted to non-benign labels with provable guarantees, respectively. However, existing certified detection defenders suffer from protecting labels subject to manipulation, and existing certified recovery defenders cannot systematically warn samples about their labels. A certified defense that simultaneously offers robust labels and systematic warning protection against patch attacks is desirable. This paper proposes a novel certified defense technique called CrossCert. CrossCert formulates a novel approach by cross-checking two certified recovery defenders to provide unwavering certification and detection certification. Unwavering certification ensures that a certified sample, when subjected to a patched perturbation, will always be returned with a benign label without triggering any warnings with a provable guarantee. To our knowledge, CrossCert is the first certified detection technique to offer this guarantee. Our experiments show that, with a slightly lower performance than ViP and comparable performance with PatchCensor in terms of detection certification, CrossCert certifies a significant proportion of samples with the guarantee of unwavering certification.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# アナログエコー状態ニューラルネットワークにおける白色ガウス内部雑音の影響

Impact of white Gaussian internal noise on analog echo-state neural networks ( http://arxiv.org/abs/2405.07670v1 )

ライセンス: Link先を確認
Nadezhda Semenova, (参考訳) 近年では、ニューロンとそれらの接続がコンピュータ計算ではなく物理原理に基づいているような、人工知能のアナログ(ハードウェア)実装に、ますます多くの研究が注がれている。 このようなネットワークはエネルギー効率を向上し、場合によってはスケーラビリティを提供するが、内部ノイズの影響を受けやすい。 本稿では、訓練されたエコー状態ネットワーク(ESN)の例を用いて、リカレントネットワークの機能に及ぼすノイズの影響について検討する。 最も一般的な貯水池接続行列は、ランダムな均一性と異なる接続性を持つバンド行列の様々な位相として選択された。 ホワイト・ガウスのノイズが影響として選ばれ、その導入の仕方によっては加法的あるいは乗法的であり、相関的あるいは非相関的であった。 本稿では, 貯水池内の騒音の伝搬は, 平均および平均二乗の出力接続行列の統計的特性によって主に制御されていることを示す。 これらの値によって、より相関性のあるノイズや非相関性のあるノイズがネットワークに蓄積される。 また,10〜20ドルという強度のノイズさえも,有用信号を完全に失うのに十分であることを示す。 本稿では,活性化関数の異なるネットワーク(双曲タンジェント,シグモイド,リニア)において,どのノイズが最重要か,また,ネットワークが自己閉鎖されているかを示す。

In recent years, more and more works have appeared devoted to the analog (hardware) implementation of artificial neural networks, in which neurons and the connection between them are based not on computer calculations, but on physical principles. Such networks offer improved energy efficiency and, in some cases, scalability, but may be susceptible to internal noise. This paper studies the influence of noise on the functioning of recurrent networks using the example of trained echo state networks (ESNs). The most common reservoir connection matrices were chosen as various topologies of ESNs: random uniform and band matrices with different connectivity. White Gaussian noise was chosen as the influence, and according to the way of its introducing it was additive or multiplicative, as well as correlated or uncorrelated. In the paper, we show that the propagation of noise in reservoir is mainly controlled by the statistical properties of the output connection matrix, namely the mean and the mean square. Depending on these values, more correlated or uncorrelated noise accumulates in the network. We also show that there are conditions under which even noise with an intensity of $10^{-20}$ is already enough to completely lose the useful signal. In the article we show which types of noise are most critical for networks with different activation functions (hyperbolic tangent, sigmoid and linear) and if the network is self-closed.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# BPEトークン化DFAの構築

Constructing a BPE Tokenization DFA ( http://arxiv.org/abs/2405.07671v1 )

ライセンス: Link先を確認
Martin Berglund, Willeke Martens, Brink van der Merwe, (参考訳) 多くの自然言語処理システムは、オープン語彙問題に対処するためにテキストのトークン化を操作している。 本稿では,一般的なバイトペア符号化技術によって生成されるトークン化を直接操作するために設計された決定論的有限オートマトンを効率的に構築するためのアルゴリズムを提案し,解析する。 これにより、パターンマッチング、トークン化辞書の等価性チェック、トークン化言語を様々な方法で構成するといった、既存の技術やアルゴリズムをトークン化ケースに適用することができる。

Many natural language processing systems operate over tokenizations of text to address the open-vocabulary problem. In this paper, we give and analyze an algorithm for the efficient construction of deterministic finite automata designed to operate directly on tokenizations produced by the popular byte pair encoding technique. This makes it possible to apply many existing techniques and algorithms to the tokenized case, such as pattern matching, equivalence checking of tokenization dictionaries, and composing tokenized languages in various ways.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 大規模多言語ニューラルマシン翻訳のロバスト性に関する実証的研究

An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation ( http://arxiv.org/abs/2405.07673v1 )

ライセンス: Link先を確認
Supryadi, Leiyu Pan, Deyi Xiong, (参考訳) 多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。 本稿では,様々な自然発生雑音に直面したインドネシア・中国語翻訳の翻訳堅牢性について実験的に検討する。 これを評価するために、インドネシアと中国語の翻訳のための堅牢性評価ベンチマークデータセットを作成する。 このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。 私たちは自動評価と人的評価の両方を行います。 詳細な分析により,翻訳誤りの種類とノイズの種類との相関,モデルサイズの違いによる相関,自動評価指標と人的評価指標の関係が明らかになった。 データセットはhttps://github.com/tjunlp-lab/ID-ZH-MTRobustEvalで公開されている。

Massively multilingual neural machine translation (MMNMT) has been proven to enhance the translation quality of low-resource languages. In this paper, we empirically investigate the translation robustness of Indonesian-Chinese translation in the face of various naturally occurring noise. To assess this, we create a robustness evaluation benchmark dataset for Indonesian-Chinese translation. This dataset is automatically translated into Chinese using four NLLB-200 models of different sizes. We conduct both automatic and human evaluations. Our in-depth analysis reveal the correlations between translation error types and the types of noise present, how these correlations change across different model sizes, and the relationships between automatic evaluation indicators and human evaluation indicators. The dataset is publicly available at https://github.com/tjunlp-lab/ID-ZH-MTRobustEval.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# CoVScreen:胸部X線による新型コロナウイルススクリーニングの落とし穴と推奨

CoVScreen: Pitfalls and recommendations for screening COVID-19 using Chest X-rays ( http://arxiv.org/abs/2405.07674v1 )

ライセンス: Link先を確認
Sonit Singh, (参考訳) 新型コロナウイルス(COVID-19)は、SARS-CoV-2による感染性の高い呼吸器疾患で、前例のない医療危機となっている。 パンデミックは世界の人々の健康、幸福、経済に大きな影響を与えた。 症状患者の早期スクリーニングと診断は、患者を隔離する上で重要な役割を担い、コミュニティの感染を阻止し、早期治療によって死亡率の低下に寄与する。 RT-PCRテストは、新型コロナウイルス検査のゴールドスタンダードであるが、手作業で、手間がかかり、時間がかかり、不快で、侵襲的なプロセスである。 アクセシビリティ、可用性、低コスト、衛生の容易さ、ポータブルなセットアップのため、胸部X線撮影は効果的なスクリーニングおよび診断ツールとして機能する。 本研究では,データ品質,データ不均衡,評価戦略の観点から,既存のデータセットと研究の限界を最初に強調する。 第2に、公開されている多くの新型コロナウイルス画像データベースから、大規模な新型コロナウイルス胸部X線データセットをキュレートし、データセットの品質を改善するための前処理パイプラインを提案しました。 私たちは、キュレートされたデータセットをトレーニングし、テストするためのCNNアーキテクチャであるCoVScreenを提案しました。 各種評価指標を用いて, 異なる分類シナリオを適用した実験結果から, 新型コロナウイルス感染スクリーニングにおける提案手法の有効性が示された。

The novel coronavirus (COVID-19), a highly infectious respiratory disease caused by the SARS-CoV-2 has emerged as an unprecedented healthcare crisis. The pandemic had a devastating impact on the health, well-being, and economy of the global population. Early screening and diagnosis of symptomatic patients plays crucial role in isolation of patient to help stop community transmission as well as providing early treatment helping in reducing the mortality rate. Although, the RT-PCR test is the gold standard for COVID-19 testing, it is a manual, laborious, time consuming, uncomfortable, and invasive process. Due to its accessibility, availability, lower-cost, ease of sanitisation, and portable setup, chest X-Ray imaging can serve as an effective screening and diagnostic tool. In this study, we first highlight limitations of existing datasets and studies in terms of data quality, data imbalance, and evaluation strategy. Second, we curated a large-scale COVID-19 chest X-ray dataset from many publicly available COVID-19 imaging databases and proposed a pre-processing pipeline to improve quality of the dataset. We proposed CoVScreen, an CNN architecture to train and test the curated dataset. The experimental results applying different classification scenarios on the curated dataset in terms of various evaluation metrics demonstrate the effectiveness of proposed methodology in the screening of COVID-19 infection.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# 深発性深発性血管腫を呈するクラスワイド・アクティベーション

Class-wise Activation Unravelling the Engima of Deep Double Descent ( http://arxiv.org/abs/2405.07679v1 )

ライセンス: Link先を確認
Yufei Gu, (参考訳) 二重降下は機械学習領域において直感に反する側面を示し、研究者は様々なモデルやタスクでその現象を観察してきた。 特定の文脈において、この現象に関するいくつかの理論的説明が提案されているが、深層学習におけるその発生機構に関する受け入れられた理論はまだ確立されていない。 本研究では,二重降下現象を再考し,その発生状況について考察した。 本稿では、クラスアクティベーション行列の概念と、関数の有効複雑性を推定するための方法論を紹介し、過パラメータ化モデルが、過パラメータ化モデルよりも隠れアクティベーションにおいてより明瞭で単純なクラスパターンを示すことを示した。 さらに、クリーン表現におけるノイズラベル付きデータの補間について検討し、w.r.t.表現能力の過度な適合を実証した。 仮説を包括的に分析し、これらの仮説を検証または矛盾する経験的証拠を提示することにより、二重降下現象と良性過度化の新たな洞察を提供し、将来の探査を促進することを目指している。 異なる仮説とそれに対応する経験的証拠を包括的に研究することで、これらの仮説を支持したり、挑戦したりすることで、我々のゴールは、二重降下現象と良心的過パラメータ化の現象に対する新たな洞察を提供することであり、フィールドでのさらなる探索を可能にすることである。 ソースコードはhttps://github.com/Yufei-Gu-451/sparse- generalization.gitで公開されている。

Double descent presents a counter-intuitive aspect within the machine learning domain, and researchers have observed its manifestation in various models and tasks. While some theoretical explanations have been proposed for this phenomenon in specific contexts, an accepted theory for its occurring mechanism in deep learning remains yet to be established. In this study, we revisited the phenomenon of double descent and discussed the conditions of its occurrence. This paper introduces the concept of class-activation matrices and a methodology for estimating the effective complexity of functions, on which we unveil that over-parameterized models exhibit more distinct and simpler class patterns in hidden activations compared to under-parameterized ones. We further looked into the interpolation of noisy labelled data among clean representations and demonstrated overfitting w.r.t. expressive capacity. By comprehensively analysing hypotheses and presenting corresponding empirical evidence that either validates or contradicts these hypotheses, we aim to provide fresh insights into the phenomenon of double descent and benign over-parameterization and facilitate future explorations. By comprehensively studying different hypotheses and the corresponding empirical evidence either supports or challenges these hypotheses, our goal is to offer new insights into the phenomena of double descent and benign over-parameterization, thereby enabling further explorations in the field. The source code is available at https://github.com/Yufei-Gu-451/sparse-generalization.git.
翻訳日:2024-05-14 13:55:08 公開日:2024-05-13
# ヒューマンモーション生成のための統一評価フレームワークの構築:メトリクスの比較分析

Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics ( http://arxiv.org/abs/2405.07680v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Maxime Devanne, Stefano Berretti, Jonathan Weber, Germain Forestier, (参考訳) ヒューマンモーション生成のための生成人工知能の開発は急速に進展し、統一された評価枠組みが必要である。 本稿では,人体動作生成のための8つの評価指標について,その特徴と欠点を詳述する。 我々は一貫したモデル比較を容易にするため、統一的な評価設定を通じて標準化されたプラクティスを提案する。 さらに,変形する多様性を分析して時間歪みの多様性を評価する新しい指標を導入し,時間的データの評価を向上する。 また、公開されているデータセットを用いて3つの生成モデルを実験的に分析し、特定のケースシナリオにおける各指標の解釈に関する洞察を提供する。 私たちのゴールは、一般にアクセス可能なコードによって補完される、新規ユーザ向けの明確でユーザフレンドリな評価フレームワークを提供することです。

The development of generative artificial intelligence for human motion generation has expanded rapidly, necessitating a unified evaluation framework. This paper presents a detailed review of eight evaluation metrics for human motion generation, highlighting their unique features and shortcomings. We propose standardized practices through a unified evaluation setup to facilitate consistent model comparisons. Additionally, we introduce a novel metric that assesses diversity in temporal distortion by analyzing warping diversity, thereby enhancing the evaluation of temporal data. We also conduct experimental analyses of three generative models using a publicly available dataset, offering insights into the interpretation of each metric in specific case scenarios. Our goal is to offer a clear, user-friendly evaluation framework for newcomers, complemented by publicly accessible code.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# FastSAG: 高速な非自動歌唱伴奏生成を目指して

FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation ( http://arxiv.org/abs/2405.07682v1 )

ライセンス: Link先を確認
Jianyi Chen, Wei Xue, Xu Tan, Zhen Ye, Qifeng Liu, Yike Guo, (参考訳) Singing Accompaniment Generation (SAG) は,ヒト-AI共生アート作成システムの構築に不可欠である。 最新技術であるSingSongは、SAGのための多段階自己回帰(AR)モデルを使用しているが、この手法は意味的および音響的トークンを再帰的に生成するため非常に遅いため、リアルタイムアプリケーションでは不可能である。 本稿では,高品質でコヒーレントな伴奏を生成できる高速なSAG手法を提案する。 音声信号から推定される条件を慎重に設計することにより、ターゲット伴奏のメルスペクトログラムを直接生成する非AR拡散ベースフレームワークを開発した。 拡散とメルスペクトルモデリングにより,提案手法はARトークンベースのSingSongフレームワークを著しく単純化し,生成を著しく高速化する。 また、音声信号とのセマンティック・リズム整合性を確保するために、先行投影ブロックや損失関数のセットも設計する。 本研究では,本手法がSingSongよりも優れたサンプルを生成でき,少なくとも30倍の速度で生成を加速できることを実証した。 オーディオサンプルとコードはhttps://fastsag.github.io/.com/で公開されている。

Singing Accompaniment Generation (SAG), which generates instrumental music to accompany input vocals, is crucial to developing human-AI symbiotic art creation systems. The state-of-the-art method, SingSong, utilizes a multi-stage autoregressive (AR) model for SAG, however, this method is extremely slow as it generates semantic and acoustic tokens recursively, and this makes it impossible for real-time applications. In this paper, we aim to develop a Fast SAG method that can create high-quality and coherent accompaniments. A non-AR diffusion-based framework is developed, which by carefully designing the conditions inferred from the vocal signals, generates the Mel spectrogram of the target accompaniment directly. With diffusion and Mel spectrogram modeling, the proposed method significantly simplifies the AR token-based SingSong framework, and largely accelerates the generation. We also design semantic projection, prior projection blocks as well as a set of loss functions, to ensure the generated accompaniment has semantic and rhythm coherence with the vocal signal. By intensive experimental studies, we demonstrate that the proposed method can generate better samples than SingSong, and accelerate the generation by at least 30 times. Audio samples and code are available at https://fastsag.github.io/.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# MonoMAE:Depth-Aware Masked Autoencodersによる単眼3D検出の強化

MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders ( http://arxiv.org/abs/2405.07696v1 )

ライセンス: Link先を確認
Xueying Jiang, Sheng Jin, Xiaoqin Zhang, Ling Shao, Shijian Lu, (参考訳) モノクロ3Dオブジェクト検出は、単一視点画像からのオブジェクトの正確な3Dローカライゼーションと識別を目的としている。 最近の進歩にもかかわらず、オブジェクトの次元、深さ、方向の予測を複雑にし、分解する傾向がある広汎なオブジェクトの閉塞を扱うのに、しばしば苦労する。 我々は,モノクロ3D検出器MonoMAEを設計した。これはMasked Autoencodersにインスパイアされたモノクロ3D検出器で,特徴空間におけるオブジェクトのマスキングと再構成によってオブジェクトの隠蔽問題に対処する。 MonoMAEは2つの新しいデザインで構成されている。 1つ目はディープ・アウェア・マスキングで、ネットワークトレーニングのために隠蔽されたオブジェクトクエリをシミュレートするための特徴空間内の非隠蔽オブジェクトクエリの特定の部分を選択的にマスキングする。 隠蔽されたオブジェクトクエリを、奥行き情報に応じて適応的にマスクおよび保存されたクエリ部分のバランスをとることでマスクする。 2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。 提案したオブジェクトの閉塞と完成により,MonoMAEは,隠蔽対象と非隠蔽対象の両方に対して,質的かつ定量的に優れた単分子3D検出性能を実現するようなリッチな3D表現を学習する。 さらに、MonoMAEは新しいドメインでうまく機能する一般化可能な表現を学ぶ。

Monocular 3D object detection aims for precise 3D localization and identification of objects from a single-view image. Despite its recent progress, it often struggles while handling pervasive object occlusions that tend to complicate and degrade the prediction of object dimensions, depths, and orientations. We design MonoMAE, a monocular 3D detector inspired by Masked Autoencoders that addresses the object occlusion issue by masking and reconstructing objects in the feature space. MonoMAE consists of two novel designs. The first is depth-aware masking that selectively masks certain parts of non-occluded object queries in the feature space for simulating occluded object queries for network training. It masks non-occluded object queries by balancing the masked and preserved query portions adaptively according to the depth information. The second is lightweight query completion that works with the depth-aware masking to learn to reconstruct and complete the masked object queries. With the proposed object occlusion and completion, MonoMAE learns enriched 3D representations that achieve superior monocular 3D detection performance qualitatively and quantitatively for both occluded and non-occluded objects. Additionally, MonoMAE learns generalizable representations that can work well in new domains.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# OTTC:自律走行における運動推定のためのオブジェクトの時間対接触

oTTC: Object Time-to-Contact for Motion Estimation in Autonomous Driving ( http://arxiv.org/abs/2405.07698v1 )

ライセンス: Link先を確認
Abdul Hannan Khan, Syed Tahseen Raza Rizvi, Dheeraj Varma Chittari Macharavtu, Andreas Dengel, (参考訳) 自律運転システムは、そのルーチンを効果的に実行するために、近くの環境を迅速かつ堅牢に認識する必要がある。 衝突を避け安全に運転することを目的として、自律運転システムは物体検出に大きく依存している。 しかし、2次元物体検出だけでは不十分であり、より安全な計画には相対速度や距離などの情報が必要である。 モノクロ3Dオブジェクト検出器は、カメラ画像から3D境界ボックスと物体速度を直接予測することでこの問題を解決しようとする。 最近の研究では、ピクセルごとの時間対接触を推定し、速度と深さの組み合わせよりも効果的に測定できることが示唆されている。 しかし、画素ごとの時間対接触では、目的を効果的に果たすためにオブジェクト検出が必要であり、2つの異なるモデルを実行する必要があるため、全体的な計算要求が増大する。 この問題に対処するため,オブジェクト検出モデルを拡張したオブジェクトごとの時間対接触推定を提案し,各オブジェクトの時間対接触属性を付加的に予測する。 提案手法を既存の時間対接触法と比較し、よく知られたデータセット上でベンチマーク結果を提供する。 提案手法は,1枚の画像を用いて,先行技術と比較して精度の高い手法である。

Autonomous driving systems require a quick and robust perception of the nearby environment to carry out their routines effectively. With the aim to avoid collisions and drive safely, autonomous driving systems rely heavily on object detection. However, 2D object detections alone are insufficient; more information, such as relative velocity and distance, is required for safer planning. Monocular 3D object detectors try to solve this problem by directly predicting 3D bounding boxes and object velocities given a camera image. Recent research estimates time-to-contact in a per-pixel manner and suggests that it is more effective measure than velocity and depth combined. However, per-pixel time-to-contact requires object detection to serve its purpose effectively and hence increases overall computational requirements as two different models need to run. To address this issue, we propose per-object time-to-contact estimation by extending object detection models to additionally predict the time-to-contact attribute for each object. We compare our proposed approach with existing time-to-contact methods and provide benchmarking results on well-known datasets. Our proposed approach achieves higher precision compared to prior art while using a single image.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# 子ども向け音声の年齢依存分析と確率生成

Age-Dependent Analysis and Stochastic Generation of Child-Directed Speech ( http://arxiv.org/abs/2405.07700v1 )

ライセンス: Link先を確認
Okko Räsänen, Daniil Kocharov, (参考訳) チャイルド指向音声(Child-directed speech, CDS)は、大人が幼児に話しかけるときに使用する特定のタイプの音声である。 その性質は、対処される子供の年齢などの外言語的要因の関数としても変化する。 多数の代表的および多様なCDSへのアクセスは、幼児言語習得の制御された計算モデル実験を、品質と量の観点からリアルに入力できるので、児童言語研究に有用である。 本研究では,CDSの年齢依存言語特性を学習した言語モデル(LM)を用いて,CDSの年齢依存言語特性をモデル化するためのアプローチについて述べる。 作成されたLMは、年齢に適した方法で合成CDS転写を確率的に生成するために使用することができ、それによって元のデータセットを超えてスケールすることができる。 本研究は,CDSの年齢依存性の変化を実年齢の子供に提示した実音声と比較し,有効語彙の差を除いて,年齢依存性のCDSの変化を捉えていることを示す。 副産物として,CDSの年齢依存性言語特性の体系的評価も提供し,CDSの計測的側面が子どもの年齢とともにどのように変化するかを明らかにした。

Child-directed speech (CDS) is a particular type of speech that adults use when addressing young children. Its properties also change as a function of extralinguistic factors, such as age of the child being addressed. Access to large amounts of representative and varied CDS would be useful for child language research, as this would enable controlled computational modeling experiments of infant language acquisition with realistic input in terms of quality and quantity. In this study, we describe an approach to model age-dependent linguistic properties of CDS using a language model (LM) trained on CDS transcripts and ages of the recipient children, as obtained from North American English corpora of the CHILDES database. The created LM can then be used to stochastically generate synthetic CDS transcripts in an age-appropriate manner, thereby scaling beyond the original datasets in size. We compare characteristics of the generated CDS against the real speech addressed at children of different ages, showing that the LM manages to capture age-dependent changes in CDS, except for a slight difference in the effective vocabulary size. As a side product, we also provide a systematic characterization of age-dependent linguistic properties of CDS in CHILDES, illustrating how all measured aspects of the CDS change with children's age.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# FORESEE:がん生存率のロバスト予測のためのマルチモーダル・マルチビュー表現学習

FORESEE: Multimodal and Multi-view Representation Learning for Robust Prediction of Cancer Survival ( http://arxiv.org/abs/2405.07702v1 )

ライセンス: Link先を確認
Liangrui Pan, Yijun Peng, Yan Li, Yiyi Liang, Liwen Xu, Qingchun Liang, Shaoliang Peng, (参考訳) がん患者の異なるデータモダリティを統合することで、患者生存の予測性能を著しく向上させることができる。 しかし、既存のほとんどの手法は、病理画像の様々なスケールにおけるリッチセマンティックな特徴の同時利用を無視している。 マルチモーダルデータを収集して特徴を抽出する場合、マルチモーダルデータにノイズを導入して、モモーダル内欠落データに遭遇する可能性がある。 これらの課題に対処するために,マルチモーダル情報のマイニングにより患者生存を確実に予測する新しいエンドツーエンドフレームワークFOESEEを提案する。 具体的には、クロスフュージョントランスフォーマーは、細胞レベル、組織レベル、腫瘍の不均一度レベルの特徴を効果的に利用し、クロススケールなクロスフュージョン法によって予後を相関させる。 これにより、病理像の特徴表現の能力が向上する。 第二に、ハイブリットアテンションエンコーダ(HAE)は、分子データの文脈的関係特徴と局所的詳細特徴を得るために、視覚的コンテキストアテンションモジュールを使用する。 HAEのチャネルアテンションモジュールは、分子データのグローバルな特徴を取得する。 さらに,モダリティ内における情報欠落の問題に対処するため,モダリティ内における情報欠落を再現する非対称マスク型3重マスク型オートエンコーダを提案する。 提案手法は,4つのベンチマークデータセットに対して,完全かつ欠落した設定において,最先端の手法よりも優れていることを示す。

Integrating the different data modalities of cancer patients can significantly improve the predictive performance of patient survival. However, most existing methods ignore the simultaneous utilization of rich semantic features at different scales in pathology images. When collecting multimodal data and extracting features, there is a likelihood of encountering intra-modality missing data, introducing noise into the multimodal data. To address these challenges, this paper proposes a new end-to-end framework, FORESEE, for robustly predicting patient survival by mining multimodal information. Specifically, the cross-fusion transformer effectively utilizes features at the cellular level, tissue level, and tumor heterogeneity level to correlate prognosis through a cross-scale feature cross-fusion method. This enhances the ability of pathological image feature representation. Secondly, the hybrid attention encoder (HAE) uses the denoising contextual attention module to obtain the contextual relationship features and local detail features of the molecular data. HAE's channel attention module obtains global features of molecular data. Furthermore, to address the issue of missing information within modalities, we propose an asymmetrically masked triplet masked autoencoder to reconstruct lost information within modalities. Extensive experiments demonstrate the superiority of our method over state-of-the-art methods on four benchmark datasets in both complete and missing settings.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# OpenLLM-Ro -- Llama 2からトレーニングを受けたルーマニアのオープンソースLLMの技術レポート

OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs trained starting from Llama 2 ( http://arxiv.org/abs/2405.07703v1 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Dragos Corlatescu, Miruna Zavelca, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、ほとんどのトレーニングデータは英語で書かれている。 したがって、彼らの英語での演奏は、他の言語での演奏よりもはるかに多い。 本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English. Hence, their performance in English greatly exceeds their performance in other languages. This document presents our approach to training and evaluating the first foundational and chat LLM specialized for Romanian.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# 分散学習におけるセキュアアグリゲーション

Secure Aggregation Meets Sparsification in Decentralized Learning ( http://arxiv.org/abs/2405.07708v1 )

ライセンス: Link先を確認
Sayan Biswas, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma, Milos Vujasinovic, (参考訳) 分散学習(DL)は、機械学習(ML)モデルに対する高度な攻撃により、プライバシ侵害に対する脆弱性の増加に直面している。 セキュアアグリゲーション(Secure aggregate)は、複数のパーティが互いに中央のアグリゲータから個々の入力を隠蔽しながら、プライベートデータのアグリゲーションを計算できる計算効率のよい暗号技術である。 DLにおける通信効率を高めるため、モデルの最も重要なパラメータや勾配のみを選択的に共有するスペーシフィケーション技術を用いて、特に精度を損なうことなく効率を維持する。 しかし、異なるノードによる解離パラメータセットの送信により、DL内のスパース化モデルにセキュアなアグリゲーションを適用することは困難であり、マスクが効果的にキャンセルされるのを防ぐことができる。 本稿では,既存のスパーシフィケーション機構と互換性を持つように設計された,DLのための新しいセキュアアグリゲーションプロトコルであるCESARを紹介する。 CESARは、正直だが正反対の敵を確実に擁護し、両者の共謀に対処するために形式的に適応することができる。 本稿では,各ノードが行うスパシフィケーションと,CESARで共有されるパラメータの比率の相互関係に関する基礎的な理解を提供し,プロトコルの動作と適用性に関する分析的な洞察を提供する。 3つの規則的なトポロジで48ノードのネットワーク上での実験では、ランダムなサブサンプリングでは、CESARは常に分散並列確率勾配降下(D-PSGD)の0.5%以内であり、データのオーバーヘッドは11%に過ぎなかった。 さらに、TopKの精度を最大0.3%上回る。

Decentralized learning (DL) faces increased vulnerability to privacy breaches due to sophisticated attacks on machine learning (ML) models. Secure aggregation is a computationally efficient cryptographic technique that enables multiple parties to compute an aggregate of their private data while keeping their individual inputs concealed from each other and from any central aggregator. To enhance communication efficiency in DL, sparsification techniques are used, selectively sharing only the most crucial parameters or gradients in a model, thereby maintaining efficiency without notably compromising accuracy. However, applying secure aggregation to sparsified models in DL is challenging due to the transmission of disjoint parameter sets by distinct nodes, which can prevent masks from canceling out effectively. This paper introduces CESAR, a novel secure aggregation protocol for DL designed to be compatible with existing sparsification mechanisms. CESAR provably defends against honest-but-curious adversaries and can be formally adapted to counteract collusion between them. We provide a foundational understanding of the interaction between the sparsification carried out by the nodes and the proportion of the parameters shared under CESAR in both colluding and non-colluding environments, offering analytical insight into the working and applicability of the protocol. Experiments on a network with 48 nodes in a 3-regular topology show that with random subsampling, CESAR is always within 0.5% accuracy of decentralized parallel stochastic gradient descent (D-PSGD), while adding only 11% of data overhead. Moreover, it surpasses the accuracy on TopK by up to 0.3% on independent and identically distributed (IID) data.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# ミラー強化加速度誘導幾何位相-ウンルー効果の検出に向けて

Mirror-enhanced acceleration induced geometric phase: towards detection of Unruh effect ( http://arxiv.org/abs/2405.07711v1 )

ライセンス: Link先を確認
Dipankar Barman, Debasish Ghosh, Bibhas Ranjan Majhi, (参考訳) フルリング・ダヴィエ・ウンルー効果は、物理学の様々な分野において非常に重要な理論である。 非常に高い加速の必要性は、その実験的な証拠を妨げている。 本稿では,加速量子系のパンチャラトナム・ベリー位相(PBP)を測定することにより,この効果を実験的に捉える新しいモデルを提案する。 2つの平行ミラーの平行方向の1つに沿ってキュービットの運動を許容し、その間に保持することにより、PBPを大幅に拡張できる。 我々の研究は、現在の測定可能なBP($\sim 10^{-6}$ rad)では、量子ビットのエネルギーギャップ$\sim1$ GHz、二つのミラー間の距離$L\sim150$ (または300)\,m$と検出器の位置$z_0 \sim3.3\,m$は、量子ビットの必要な加速度が$a\sim 10^9~m/s^2$であることを示している。 この値は、現在の技術で非常に達成できる可能性があり、従って、前述の量子現象を実験的に検証するための非常に現実的なモデルを提供する。

Fulling-Davies-Unruh effect contains great amount of theoretical importance in various branches of physics. Requirement of very high acceleration hinders its experimental evidence. We propose a novel model to capture this effect experimentally through measuring the Pancharatnam-Berry phase (PBP) of the accelerated quantum system. We find that allowing the qubit's motion along one of the parallel directions of two parallel mirrors and by keeping it in between them, PBP can be greatly enhanced. Our investigation shows that for the current measurable PBP ($\sim 10^{-6}$ rad), energy gap $\sim1$ GHz of the qubit, distance between two mirrors $L\sim150$ (or $300)\,m$ and detector's position $z_0 \sim3.3\,m$ the required acceleration of the qubit can be as low as $a\sim 10^9~ m/s^2$. This value is potentially very achievable within the current technology and thereby providing a very close to realistic model for experimentally verify the aforesaid quantum phenomenon.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# 予測分析ツールにおけるアルゴリズムバイアスの役割

Evidence of What, for Whom? The Socially Contested Role of Algorithmic Bias in a Predictive Policing Tool ( http://arxiv.org/abs/2405.07715v1 )

ライセンス: Link先を確認
Marta Ziosi, Dasha Pruss, (参考訳) 本稿では,シカゴ犯罪予測アルゴリズムの文脈におけるアルゴリズムバイアスの社会的役割に関する批判的,質的な研究について述べる。 シカゴの18の地域社会団体、学術研究者、公共セクターアクターとのインタビューを通じて、異なるグループの利害関係者が、ツールのアルゴリズムバイアスの多様な問題診断を明確化し、利害関係者の立場や政治的目的に沿った刑事司法介入を促進する証拠として戦略的に用いていることを示す。 キャサリン・ディグナツィオの「データの再利用と利用」の分類学からインスピレーションを得て、ステークホルダーは、警察パトロールアロケーションに関する政策の改革にアルゴリズム的偏見の証拠を使用すること、アルゴリズムに基づく警察介入を拒否すること、犯罪を個人間問題ではなく構造的なものとして再編成すること、権力を覆すために権威のある人物のデータを明らかにすること、家族やコミュニティを修復し修復すること、そしてより強力なアクターの場合には、自身の権威または既存の権力構造を再確認すること、を見出した。 アルゴリズムバイアスの様々な使用の暗黙の仮定とスコープを証拠として特定し、警察とAIに関して異なる(時には矛盾する)価値を必要とすることを示す。 このばらつきは、しばしばシステムに影響を及ぼすコミュニティを中心とした解放と癒しの価値と、データ主導の改革措置でしばしばインスタンス化される監視と抑止の価値観の間の刑事司法改革の状況における長年の緊張を反映している。 我々は,アルゴリズム的偏見の証拠が現状に挑戦する手段として有効であることを確実にするために,投獄によって影響を受けるコミュニティの利益と経験的知識を集中させることを提唱する。

This paper presents a critical, qualitative study of the social role of algorithmic bias in the context of the Chicago crime prediction algorithm, a predictive policing tool that forecasts when and where in the city crime is most likely to occur. Through interviews with 18 Chicago-area community organizations, academic researchers, and public sector actors, we show that stakeholders from different groups articulate diverse problem diagnoses of the tool's algorithmic bias, strategically using it as evidence to advance criminal justice interventions that align with stakeholders' positionality and political ends. Drawing inspiration from Catherine D'Ignazio's taxonomy of "refusing and using" data, we find that stakeholders use evidence of algorithmic bias to reform the policies around police patrol allocation; reject algorithm-based policing interventions; reframe crime as a structural rather than interpersonal problem; reveal data on authority figures in an effort to subvert their power; repair and heal families and communities; and, in the case of more powerful actors, to reaffirm their own authority or existing power structures. We identify the implicit assumptions and scope of these varied uses of algorithmic bias as evidence, showing that they require different (and sometimes conflicting) values about policing and AI. This divergence reflects long-standing tensions in the criminal justice reform landscape between the values of liberation and healing often centered by system-impacted communities and the values of surveillance and deterrence often instantiated in data-driven reform measures. We advocate for centering the interests and experiential knowledge of communities impacted by incarceration to ensure that evidence of algorithmic bias can serve as a device to challenge the status quo.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# ロングコンテキスト生成AIのための統一シーケンス並列処理手法

A Unified Sequence Parallelism Approach for Long Context Generative AI ( http://arxiv.org/abs/2405.07719v1 )

ライセンス: Link先を確認
Jiarui Fang, Shangchun Zhao, (参考訳) 複数の計算装置にまたがって入力テンソルのシーケンス次元を分割するシーケンス並列性(SP)は、生成AIモデルの長いコンテキスト能力を解放する鍵となっている。 本稿では,最先端のSPアプローチであるDeepSpeed-UlyssesとRing-Attentionについて検討し,モデルアーキテクチャやネットワークハードウェアトポロジをより堅牢な統一SPアプローチを提案する。 本稿では,SPの通信コストと既存の並列性(データ/テンソル/ゼロ/エキスパート/パイプライン並列性を含む)を比較し,SPを含むハイブリッド4次元並列性の設計におけるベストプラクティスについて議論する。 LLAMA3-8Bモデルの配列長208KのSPを用いて、2つの8xA800ノードに対して86\% MFUを達成した。 我々のコードは \url{https://github.com/feifeibear/long-context-attention} で公開されています。

Sequence parallelism (SP), which divides the sequence dimension of input tensors across multiple computational devices, is becoming key to unlocking the long-context capabilities of generative AI models. This paper investigates the state-of-the-art SP approaches, i.e. DeepSpeed-Ulysses and Ring-Attention, and proposes a unified SP approach, which is more robust to transformer model architectures and network hardware topology. This paper compares the communication and memory cost of SP and existing parallelism, including data/tensor/zero/expert/pipeline parallelism, and discusses the best practices for designing hybrid 4D parallelism involving SP. We achieved 86\% MFU on two 8xA800 nodes using SP for sequence length 208K for the LLAMA3-8B model. Our code is publicly available on \url{https://github.com/feifeibear/long-context-attention}.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# FTQC初期におけるコスト-最適量子誤差緩和のための対称クリフォードツイリング

Symmetric Clifford twirling for cost-optimal quantum error mitigation in early FTQC regime ( http://arxiv.org/abs/2405.07720v1 )

ライセンス: Link先を確認
Kento Tsubouchi, Yosuke Mitsuhashi, Kunal Sharma, Nobuyuki Yoshioka, (参考訳) 量子ゲートに影響を与えるツイリングノイズは、誤りの理解と制御に不可欠であるが、ノイズに対する適用可能な操作は通常、量子ゲート固有の対称性によって制限される。 このレターでは、あるパウリ部分群と可換な対称クリフォード作用素のみを利用するクリフォードツワイリングである対称クリフォードツワイリングを提案する。 我々は、それぞれのパウリノイズがツイリングを通してどのように変換されるかを完全に特徴付け、あるパウリノイズが、グローバルなホワイトノイズに指数関数的に近いノイズにスクランブル可能であることを示す。 さらに,Trotterized Hamiltonian シミュレーション回路などの高構造回路の有効ノイズが大域ホワイトノイズにスクランブルされ,CNOT ゲートの単一使用さえもスクランブルを著しく加速することを示した。 これらの結果から,フォールトトレラント量子コンピューティングの初期段階において,非クリフォード演算の誤差を最小限のサンプリングオーバーヘッドで軽減することが可能となり,非クリフォード演算の実行はクリフォード演算よりもはるかに困難であることが期待される。 さらに、ランダム性や対称性が重要な役割を果たす物理学の様々な分野に対する新たな洞察を提供する。

Twirling noise affecting quantum gates is essential in understanding and controlling errors, but applicable operations to noise are usually restricted by symmetries inherent in quantum gates. In this Letter, we propose symmetric Clifford twirling, a Clifford twirling utilizing only symmetric Clifford operators that commute with certain Pauli subgroups. We fully characterize how each Pauli noise is converted through the twirling and show that certain Pauli noise can be scrambled to a noise exponentially close to the global white noise. We further demonstrate that the effective noise of some highly structured circuits, such as Trotterized Hamiltonian simulation circuits, is scrambled to global white noise, and even a single use of CNOT gate can significantly accelerate the scrambling. These findings enable us to mitigate errors in non-Clifford operations with minimal sampling overhead in the early stages of fault-tolerant quantum computing, where executing non-Clifford operations is expected to be significantly more challenging than Clifford operations. Furthermore, they offer new insights into various fields of physics where randomness and symmetry play crucial roles.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# 粗いか細いか?ラベルなしで行動終了状態を認識する

Coarse or Fine? Recognising Action End States without Labels ( http://arxiv.org/abs/2405.07723v1 )

ライセンス: Link先を確認
Davide Moltisanti, Hakan Bilen, Laura Sevilla-Lara, Frank Keller, (参考訳) 画像中の動作の終末状態を認識する問題に焦点をあて,どの動作が実行されるのか,どのような動作が実行されるのかを理解する上で重要な課題である。 本研究は,カットの粗さを予測する作業,すなわち,被切断物が「粗さ」か「細さ」かを決定することに焦点を当てたものである。 これらの注釈付き終末状態を持つデータセットは利用できないため、トレーニングデータを合成するための拡張手法を提案する。 本手法は,既存の行動認識データセットから抽出した行動の切断に適用する。 私たちのメソッドはオブジェクトに依存しない、すなわち、オブジェクトの位置を前提としますが、そのIDではありません。 オブジェクト全体の100枚未満の画像から始めて、視覚的に多様な粗いカットをシミュレートする数千の画像を生成することができる。 合成データを用いて、UNetに基づいてモデルをトレーニングし、粗大で微妙にカットされたオブジェクトを実画像でテストします。 その結果、トレーニングとテストのドメインギャップにもかかわらず、モデルがカット動作の終了状態を認識することができ、モデルは目に見えないオブジェクトにうまく一般化することを示した。

We focus on the problem of recognising the end state of an action in an image, which is critical for understanding what action is performed and in which manner. We study this focusing on the task of predicting the coarseness of a cut, i.e., deciding whether an object was cut "coarsely" or "finely". No dataset with these annotated end states is available, so we propose an augmentation method to synthesise training data. We apply this method to cutting actions extracted from an existing action recognition dataset. Our method is object agnostic, i.e., it presupposes the location of the object but not its identity. Starting from less than a hundred images of a whole object, we can generate several thousands images simulating visually diverse cuts of different coarseness. We use our synthetic data to train a model based on UNet and test it on real images showing coarsely/finely cut objects. Results demonstrate that the model successfully recognises the end state of the cutting action despite the domain gap between training and testing, and that the model generalises well to unseen objects.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# ペルソナによるロールプレイングにおけるグローバルな信条の定量化と最適化

Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing ( http://arxiv.org/abs/2405.07726v1 )

ライセンス: Link先を確認
Letian Peng, Jingbo Shang, (参考訳) ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。 残念なことに、PRPの既存の忠実度基準は、明確な定義や定式化なしに粗粒度LLMベースのスコアに限られている。 本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。 我々の基準は、まず、クエリーステートメントの関連性を特定することによって、ペルソナステートメントをアクティブかつパッシブな制約に識別する。 そして、AIキャラクタの応答が望ましいという原則に従って、すべての制約を組み込む。 (a) 能動的な(関連する)制約と関係のある (b)受動的(無関係)制約に矛盾しない。 我々はこの原理を数学的に、関連スコアで重み付けされた自然言語推論(NLI)の制約次和である、新しいアクティブ・パッシブ・制約スコア(APC)に変換する。 実例では, GPT-4 から小径の判別器を抽出し, 効率よく APC スコアリングシステムを構築する。 本研究では,APC スコアの品質を人体評価と比較し,数文の例に基づく評価を行い,高い相関性を示した。 さらに、より優れたAI文字に対して、直接選好最適化(DPO)の報奨システムとして活用する。 我々の実験は、既存のRPP技術とのきめ細やかで説明可能な比較を提供し、その利点と限界を明らかにします。 さらに、APCベースのDPOは、全ての制約に固執する最も競争力のある手法の1つであり、他の手法とうまく組み合わさることができると考えている。 次に、実験の規模を数百のステートメントを持つ現実の人に拡大し、一貫した結論に達します。

Persona-driven role-playing (PRP) aims to build AI characters that can respond to user queries by faithfully sticking with all persona statements. Unfortunately, existing faithfulness criteria for PRP are limited to coarse-grained LLM-based scoring without a clear definition or formulation. This paper presents a pioneering exploration to quantify PRP faithfulness as a fine-grained and explainable criterion, which also serves as a reliable reference for optimization. Our criterion first discriminates persona statements into active and passive constraints by identifying the query-statement relevance. Then, we incorporate all constraints following the principle that the AI character's response should be (a) entailed by active (relevant) constraints and (b) not contradicted by passive (irrelevant) constraints. We translate this principle mathematically into a novel Active-Passive-Constraint (APC) score, a constraint-wise sum of natural language inference (NLI) scores weighted by relevance scores. In practice, we build the APC scoring system by symbolically distilling small discriminators from GPT-4 for efficiency. We validate the quality of the APC score against human evaluation based on example personas with tens of statements, and the results show a high correlation. We further leverage it as a reward system in direct preference optimization (DPO) for better AI characters. Our experiments offer a fine-grained and explainable comparison between existing PRP techniques, revealing their advantages and limitations. We further find APC-based DPO to be one of the most competitive techniques for sticking with all constraints and can be well incorporated with other techniques. We then extend the scale of the experiments to real persons with hundreds of statements and reach a consistent conclusion.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# ヒンディー語における非標準語順は局所性によって予測されるか?

Does Dependency Locality Predict Non-canonical Word Order in Hindi? ( http://arxiv.org/abs/2405.07730v1 )

ライセンス: Link先を確認
Sidharth Ranjan, Marten van Schijndel, (参考訳) 従来の研究では、対象前オブジェクト(OSV)順序を持つ孤立した非標準文は、対象前オブジェクト(SOV)順序を持つ標準文よりも処理が難しいことが示されている。 この困難さは適切な会話の文脈で減少するが、OSV文の処理課題を軽減するための基礎となる認知的要因は依然として疑問である。 本研究では,依存性長最小化が非標準構文選択(OSV)の有意な予測因子であることを示す。 我々は、明確に定義された主題や対象を含むHUTB(Hindi-Urdu Treebank corpus)から文を抽出し、それらの文の前動詞構成を体系的にパーミュレートし、元のコーパス文と人工的に生成された代替品を区別するための分類器を配置する。 分類器は、依存性の長さ、前提、情報ステータスなど、様々な言論に基づく認知的特徴を活用して、その予測を知らせる。 結果より, 生成した変種の中では, 非標準コーパス文の係り受け長を最小化する傾向がみられたが, 本因子は, 上述のコーパス文の同定に大きく寄与していないことが示唆された。 特に、談話予測可能性が、構成順序の選好の主決定要因として現れる。 これらの知見は、ヒンディー語話者44名による人的評価によってさらに裏付けられている。 全体として、この研究は語順決定における期待適応の役割に光を当てている。 我々は、談話生成理論と情報局所性の理論にその結果を集中させることで結論付ける。

Previous work has shown that isolated non-canonical sentences with Object-before-Subject (OSV) order are initially harder to process than their canonical counterparts with Subject-before-Object (SOV) order. Although this difficulty diminishes with appropriate discourse context, the underlying cognitive factors responsible for alleviating processing challenges in OSV sentences remain a question. In this work, we test the hypothesis that dependency length minimization is a significant predictor of non-canonical (OSV) syntactic choices, especially when controlling for information status such as givenness and surprisal measures. We extract sentences from the Hindi-Urdu Treebank corpus (HUTB) that contain clearly-defined subjects and objects, systematically permute the preverbal constituents of those sentences, and deploy a classifier to distinguish between original corpus sentences and artificially generated alternatives. The classifier leverages various discourse-based and cognitive features, including dependency length, surprisal, and information status, to inform its predictions. Our results suggest that, although there exists a preference for minimizing dependency length in non-canonical corpus sentences amidst the generated variants, this factor does not significantly contribute in identifying corpus sentences above and beyond surprisal and givenness measures. Notably, discourse predictability emerges as the primary determinant of constituent-order preferences. These findings are further supported by human evaluations involving 44 native Hindi speakers. Overall, this work sheds light on the role of expectation adaptation in word-ordering decisions. We conclude by situating our results within the theories of discourse production and information locality.
翻訳日:2024-05-14 13:45:23 公開日:2024-05-13
# Federated Hierarchical Tensor Networks: ヘルスケアのための協調学習量子AI駆動フレームワーク

Federated Hierarchical Tensor Networks: a Collaborative Learning Quantum AI-Driven Framework for Healthcare ( http://arxiv.org/abs/2405.07735v1 )

ライセンス: Link先を確認
Amandeep Singh Bhatia, David E. Bernal Neira, (参考訳) 医療産業は機密データや独自データを扱うことが多く、厳格なプライバシー規制のため、直接データを共有することに消極的であることが多い。 今日の文脈では、フェデレーテッド・ラーニング(FL)は、データプライバシとガバナンスに関する重要な懸念を効果的に管理しながら、分散機械学習の急速な進歩を促進する重要な救済策として際立っている。 連合学習と量子コンピューティングの融合は、医療から金融まで、様々な産業に革命をもたらす大きな可能性を持つ、画期的な学際的アプローチである。 本研究では,多体量子物理学の原理を活用する量子テンソルネットワークに基づく連合学習フレームワークを提案する。 現在、フェデレートされた設定で実装された既知の古典テンソルネットワークは存在しない。 さらに,医療機関間の機密データのセキュリティを確保するために,差分プライバシー分析を行うことにより,提案手法の有効性と妥当性を検討した。 一般的な医用画像データセットを用いた実験により、連合量子テンソルネットワークモデルは、曲線(ROC-AUC)の平均受信特性領域を0.91-0.98の範囲で達成した。 実験により,高度に絡み合ったテンソルネットワーク構造からなる量子フェデレーショングローバルモデルにより,より一般化と堅牢性が向上し,医療機関間の不均衡なデータ分布下でのローカルトレーニングクライアントの性能を上回る高いテスト精度が得られた。

Healthcare industries frequently handle sensitive and proprietary data, and due to strict privacy regulations, they are often reluctant to share data directly. In today's context, Federated Learning (FL) stands out as a crucial remedy, facilitating the rapid advancement of distributed machine learning while effectively managing critical concerns regarding data privacy and governance. The fusion of federated learning and quantum computing represents a groundbreaking interdisciplinary approach with immense potential to revolutionize various industries, from healthcare to finance. In this work, we proposed a federated learning framework based on quantum tensor networks, which leverages the principles of many-body quantum physics. Currently, there are no known classical tensor networks implemented in federated settings. Furthermore, we investigated the effectiveness and feasibility of the proposed framework by conducting a differential privacy analysis to ensure the security of sensitive data across healthcare institutions. Experiments on popular medical image datasets show that the federated quantum tensor network model achieved a mean receiver-operator characteristic area under the curve (ROC-AUC) between 0.91-0.98. Experimental results demonstrate that the quantum federated global model, consisting of highly entangled tensor network structures, showed better generalization and robustness and achieved higher testing accuracy, surpassing the performance of locally trained clients under unbalanced data distributions among healthcare institutions.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# MoCo: アセンブリコードによるディープラーニングライブラリのファジィ化

MoCo: Fuzzing Deep Learning Libraries via Assembling Code ( http://arxiv.org/abs/2405.07744v1 )

ライセンス: Link先を確認
Pin Ji, Yang Feng, Duo Wu, Lingyue Yan, Pengling Chen, Jia Liu, Zhihong Zhao, (参考訳) 急速に発展するディープラーニング(DL)技術は、様々なアプリケーションシナリオを持つソフトウェアシステムに応用されている。 しかし、特に安全クリティカルな領域において、深刻な結果をもたらす可能性のある新たな安全上の脅威を生じさせる可能性がある。 DLライブラリは、DLシステムの基盤となる基盤であり、その中のバグは、DLシステムの振舞いに直接影響する予測不可能な影響を持つ可能性がある。 ファジィングDLライブラリに関するこれまでの研究は、テスト入力の多様性、テストオラクルの構築、検出精度に制限がある。 本稿では,組立コードによるDLライブラリのファジングテスト手法であるMoCoを提案する。 MoCoはまずシードコードファイルを分解してテンプレートとコードブロックを取得し、その後、コードブロック突然変異演算子(例えば、API置換、ランダム生成、バウンダリチェック)を使用して、テンプレートに適合した新しいコードブロックを生成する。 コンテキストに適したコードブロックを段階的にテンプレートに挿入することで、世代間関係のあるコードファイルのツリーを生成することができる。 この木と適用突然変異演算子の導出関係に基づき、実行状態の整合性に基づいてテストオラクルを構築する。 コードアセンブリと突然変異の粒度はランダムに分岐するのではなく制御されるので、バグのあるコード行とそれに対応するトリガー条件を素早く特定できます。 我々は、広く使われている3つのDLライブラリ(TensorFlow、PyTorch、Jittor)を使用して、MoCoの効率性と有効性を評価する包括的な実験を行う。 実験中、MoCoは3つのDLライブラリで4つのタイプの64の新しいバグを検出し、51のバグが確認され、13のバグが開発者によって修正された。

The rapidly developing deep learning (DL) techniques have been applied in software systems with various application scenarios. However, they could also pose new safety threats with potentially serious consequences, especially in safety-critical domains. DL libraries serve as the underlying foundation for DL systems, and bugs in them can have unpredictable impacts that directly affect the behaviors of DL systems. Previous research on fuzzing DL libraries still has limitations in the diversity of test inputs, the construction of test oracles, and the precision of detection. In this paper, we propose MoCo, a novel fuzzing testing method for DL libraries via assembling code. MoCo first disassembles the seed code file to obtain the template and code blocks, and then employs code block mutation operators (e.g., API replacement, random generation, and boundary checking) to generate more new code blocks adapted to the template. By inserting context-appropriate code blocks into the template step by step, MoCo can generate a tree of code files with intergenerational relations. According to the derivation relations in this tree and the applied mutation operators, we construct the test oracle based on the execution state consistency. Since the granularity of code assembly and mutation is controlled rather than randomly divergent, we can quickly pinpoint the lines of code where the bugs are located and the corresponding triggering conditions. We conduct a comprehensive experiment to evaluate the efficiency and effectiveness of MoCo using three widely-used DL libraries (i.e., TensorFlow, PyTorch, and Jittor). During the experiment, MoCo detects 64 new bugs of four types in three DL libraries, where 51 bugs have been confirmed, and 13 bugs have been fixed by developers.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# LlamaTurk: 低オープンソースの言語にオープンソースで生成する大規模言語モデルを適用する

LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language ( http://arxiv.org/abs/2405.07745v1 )

ライセンス: Link先を確認
Cagri Toraman, (参考訳) 英語に支配的な生成型大言語モデルの発展にもかかわらず、グローバルなアクセシビリティを高めるために低リソース言語にはさらなる開発が必要である。 これらの言語を表現する主要な方法は、単言語と多言語事前学習である。 単言語事前学習はハードウェア要件のため高価であり、多言語モデルは言語間で不均一なパフォーマンスを持つことが多い。 本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。 継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。 その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。 しかし、語彙を拡張しても大きな利益は得られない。 さらに、より大型のモデルでは、少数ショットチューニングによるタスクパフォーマンスが向上する一方、多言語モデルは、適応されたモノリンガルモデルよりもパフォーマンスが劣る。

Despite advancements in English-dominant generative large language models, further development is needed for low-resource languages to enhance global accessibility. The primary methods for representing these languages are monolingual and multilingual pretraining. Monolingual pretraining is expensive due to hardware requirements, and multilingual models often have uneven performance across languages. This study explores an alternative solution by adapting large language models, primarily trained on English, to low-resource languages. We assess various strategies, including continual training, instruction fine-tuning, task-specific fine-tuning, and vocabulary extension. The results show that continual training improves language comprehension, as reflected in perplexity scores, and task-specific tuning generally enhances performance of downstream tasks. However, extending the vocabulary shows no substantial benefits. Additionally, while larger models improve task performance with few-shot tuning, multilingual models perform worse than their monolingual counterparts when adapted.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# 強化学習課題のためのニューラルネットワーク圧縮

Neural Network Compression for Reinforcement Learning Tasks ( http://arxiv.org/abs/2405.07748v1 )

ライセンス: Link先を確認
Dmitry A. Ivanov, Denis A. Larionov, Oleg V. Maslennikov, Vladimir V. Voevodin, (参考訳) ロボット工学などの強化学習(RL)の実応用では、低レイテンシとエネルギー効率の推論が非常に望ましい。 ニューラルネット推論の最適化、特にエネルギーと遅延効率を改善するために、スパーシリティとプルーニングを使用することは、標準的なテクニックである。 本研究では、異なるRL環境におけるRLアルゴリズムに対するこれらの最適化手法の適用を系統的に検討し、ニューラルネットワークのサイズを最大400倍に削減する。

In real applications of Reinforcement Learning (RL), such as robotics, low latency and energy efficient inference is very desired. The use of sparsity and pruning for optimizing Neural Network inference, and particularly to improve energy and latency efficiency, is a standard technique. In this work, we perform a systematic investigation of applying these optimization techniques for different RL algorithms in different RL environments, yielding up to a 400-fold reduction in the size of neural networks.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# DeepHYDRA:動的システムにおける資源効率の良い時系列異常検出

DeepHYDRA: Resource-Efficient Time-Series Anomaly Detection in Dynamically-Configured Systems ( http://arxiv.org/abs/2405.07749v1 )

ライセンス: Link先を確認
Franz Kevin Stehle, Wainer Vandelli, Giuseppe Avolio, Felix Zahn, Holger Fröning, (参考訳) HPC(High-Performance Computing)クラスタのような分散システムにおける異常検出は、早期故障検出、パフォーマンス最適化、セキュリティ監視、全般的な信頼性、運用上の洞察に不可欠である。 ディープニューラルネットワークは、多次元データにおける長期的異常の検出に成功している。 このような方法の欠点は、静的な入力サイズを必要としたり、トリミング、サンプリング、その他の次元削減手法を通じてデータを失うことであり、コンピューティングクラスタのような監視されたデータチャネルに可変性を持つシステムへのデプロイが困難である。 これらの問題に対処するために,DBSCANと学習に基づく異常検出を組み合わせたDeepHYDRA(Deep Hybrid DBSCAN/reduction-based Anomaly Detection)を提案する。 DBSCANクラスタリングは、時系列データにおけるポイント異常を見つけるために使用され、入力データを一定数のチャネルに還元する際の情報損失による欠落率のリスクを軽減する。 次に, 深層学習に基づく時系列異常検出手法を適用し, 長期外れ値の同定を行う。 このハイブリッドアプローチは、削減プロセスによって通常のデータと区別不能になる可能性のある異常を減らし、同様にアルゴリズムをスケーラブルにし、検出能力を保ちながら部分的なシステム障害を許容することを可能にする。 Eclipseデータセットの修正版である有名なSMDデータセットファミリーのサブセットと、アクティブなデータチャネルに大きなばらつきを持つ社内データセットを使用して、この研究で公開され、さらに計算強度、メモリフットプリント、アクティベーション数を分析した。 DeepHYDRAは、大きなデータセットと複雑なデータセットの両方において、異なるタイプの異常を確実に検出する。

Anomaly detection in distributed systems such as High-Performance Computing (HPC) clusters is vital for early fault detection, performance optimisation, security monitoring, reliability in general but also operational insights. Deep Neural Networks have seen successful use in detecting long-term anomalies in multidimensional data, originating for instance from industrial or medical systems, or weather prediction. A downside of such methods is that they require a static input size, or lose data through cropping, sampling, or other dimensionality reduction methods, making deployment on systems with variability on monitored data channels, such as computing clusters difficult. To address these problems, we present DeepHYDRA (Deep Hybrid DBSCAN/Reduction-Based Anomaly Detection) which combines DBSCAN and learning-based anomaly detection. DBSCAN clustering is used to find point anomalies in time-series data, mitigating the risk of missing outliers through loss of information when reducing input data to a fixed number of channels. A deep learning-based time-series anomaly detection method is then applied to the reduced data in order to identify long-term outliers. This hybrid approach reduces the chances of missing anomalies that might be made indistinguishable from normal data by the reduction process, and likewise enables the algorithm to be scalable and tolerate partial system failures while retaining its detection capabilities. Using a subset of the well-known SMD dataset family, a modified variant of the Eclipse dataset, as well as an in-house dataset with a large variability in active data channels, made publicly available with this work, we furthermore analyse computational intensity, memory footprint, and activation counts. DeepHYDRA is shown to reliably detect different types of anomalies in both large and complex datasets.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# 教師なしおよび教師なしの学習アプローチの統合による重要なプロセス入力の公開

Integrating supervised and unsupervised learning approaches to unveil critical process inputs ( http://arxiv.org/abs/2405.07751v1 )

ライセンス: Link先を確認
Paris Papavasileiou, Dimitrios G. Giovanis, Gabriele Pozzetti, Martin Kathrein, Christoph Czettl, Ioannis G. Kevrekidis, Andreas G. Boudouvis, Stéphane P. A. Bordas, Eleni D. Koronaki, (参考訳) 本研究では,大規模産業プロセスに適した機械学習フレームワークを提案する。 フレームワークが目指すのは 一 出力及び出力に影響を与える臨界パラメータを識別すること (II)生産結果の正確な質的および定量的な予測を生成する。 具体的には, 産業用化学気相蒸着法(CVD)を例として, プロセス結果の形成における各入力の意義に関する重要な問題に対処する。 最初の目的は、反応器内の様々な位置におけるコーティング厚測定において、プロセス出力のみに対象物質の専門知識とクラスタリング技術を統合することである。 このアプローチは、フィルムの平均厚さや標準偏差などの類似した定性的特性を共有する生産工程のグループを特定する。 特に、異なるクラスタで表される結果の違いは、特定の入力の違いによるものであり、これらの入力が生産結果に重要であることを示す。 この知見を生かして、同定されたクリティカルプロセス入力を用いて、教師付き分類と回帰手法を実装した。 提案手法は,深層学習技術を直接適用する上で,多数の入力と不十分なデータを持つシナリオにおいて有用であることが証明され,基礎となるプロセスについて有意義な洞察を提供する。

This study introduces a machine learning framework tailored to large-scale industrial processes characterized by a plethora of numerical and categorical inputs. The framework aims to (i) discern critical parameters influencing the output and (ii) generate accurate out-of-sample qualitative and quantitative predictions of production outcomes. Specifically, we address the pivotal question of the significance of each input in shaping the process outcome, using an industrial Chemical Vapor Deposition (CVD) process as an example. The initial objective involves merging subject matter expertise and clustering techniques exclusively on the process output, here, coating thickness measurements at various positions in the reactor. This approach identifies groups of production runs that share similar qualitative characteristics, such as film mean thickness and standard deviation. In particular, the differences of the outcomes represented by the different clusters can be attributed to differences in specific inputs, indicating that these inputs are critical for the production outcome. Leveraging this insight, we subsequently implement supervised classification and regression methods using the identified critical process inputs. The proposed methodology proves to be valuable in scenarios with a multitude of inputs and insufficient data for the direct application of deep learning techniques, providing meaningful insights into the underlying processes.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# マルチ視点予測による360$$ビデオストリーミングのためのMADRLに基づくレート適応

MADRL-Based Rate Adaptation for 360$\degree$ Video Streaming with Multi-Viewpoint Prediction ( http://arxiv.org/abs/2405.07759v1 )

ライセンス: Link先を確認
Haopeng Wang, Zijian Long, Haiwei Dong, Abdulmotaleb El Saddik, (参考訳) ここ数年で、ネットワーク上の360$\degree$ビデオトラフィックは大幅に増加した。 360$\degree$ビデオ再生の重要な課題は、ネットワーク帯域幅が制限された高品質なエクスペリエンス(QoE)を保証することだ。 現在、ほとんどの研究は、単一のビューポート予測に基づいてタイルベースの適応ビットレート(ABR)ストリーミングに焦点を当てている。 しかし, 単一視点予測モデルの性能は, ユーザの突然の動きに対処できない頭部運動の不確実性によって著しく制限されている。 本稿ではまず,複数の視点軌跡を歴史的軌跡として生成する多モード空間的注意変換器を提案する。 提案手法は、視点予測を分類問題としてモデル化し、多視点予測のための入力ビデオフレームと視点軌跡の空間的・時間的特性をキャプチャするための注意機構を用いる。 その後、様々なネットワーク条件下でのQoE目標の最大化のために、360$\degree$ビデオストリーミングのマルチ視点予測を用いたマルチエージェントディープ強化学習(MADRL)に基づくABRアルゴリズムを提案する。 本稿では,ABR問題を分散部分観測可能マルコフ決定プロセス(Dec-POMDP)問題として定式化し,集中学習と分散実行(CTDE)に基づくMAPPOアルゴリズムを提案する。 実験の結果,提案手法は既存のABR法と比較して最大85.5倍のQoE値が得られた。

Over the last few years, 360$\degree$ video traffic on the network has grown significantly. A key challenge of 360$\degree$ video playback is ensuring a high quality of experience (QoE) with limited network bandwidth. Currently, most studies focus on tile-based adaptive bitrate (ABR) streaming based on single viewport prediction to reduce bandwidth consumption. However, the performance of models for single-viewpoint prediction is severely limited by the inherent uncertainty in head movement, which can not cope with the sudden movement of users very well. This paper first presents a multimodal spatial-temporal attention transformer to generate multiple viewpoint trajectories with their probabilities given a historical trajectory. The proposed method models viewpoint prediction as a classification problem and uses attention mechanisms to capture the spatial and temporal characteristics of input video frames and viewpoint trajectories for multi-viewpoint prediction. After that, a multi-agent deep reinforcement learning (MADRL)-based ABR algorithm utilizing multi-viewpoint prediction for 360$\degree$ video streaming is proposed for maximizing different QoE objectives under various network conditions. We formulate the ABR problem as a decentralized partially observable Markov decision process (Dec-POMDP) problem and present a MAPPO algorithm based on centralized training and decentralized execution (CTDE) framework to solve the problem. The experimental results show that our proposed method improves the defined QoE metric by up to 85.5\% compared to existing ABR methods.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# CAGES: 効率的な局所多重忠実ベイズ最適化のためのコスト対応勾配エントロピー探索

CAGES: Cost-Aware Gradient Entropy Search for Efficient Local Multi-Fidelity Bayesian Optimization ( http://arxiv.org/abs/2405.07760v1 )

ライセンス: Link先を確認
Wei-Ting Tang, Joel A. Paulson, (参考訳) ベイズ最適化(BO)は、コスト対評価のブラックボックス目的関数を最適化する一般的な手法である。 BOにおける重要な課題は、高次元探索空間への応用である。 この課題を克服する1つの方法は、強化学習(RL)におけるポリシー探索を含む多種多様な高次元問題に対して、効果的な勾配学習を目的とした局所BO手法に焦点を当てることである。 しかし、現在のローカルBO手法では、単一の高忠実度情報ソースのみへのアクセスを前提としているが、多くの工学的・制御的な問題では、目的のより安価な複数の近似にアクセスできる。 我々は,多要素ブラックボックス関数の局所BOのための新しいアルゴリズムであるCost-Aware Gradient Entropy Search (CAGES)を提案する。 CAGESは、異なる情報ソース間の関係を仮定せず、他の多要素法よりも柔軟である。 また、新しいタイプの情報理論獲得関数を用いて、評価のコスト当たりの未知の勾配に関する情報の獲得を最大化するサンプルの体系的な識別を可能にする。 我々は,CAGESが様々な合成およびベンチマークRL問題において,他の最先端手法と比較して,大幅な性能向上を達成できることを実証した。

Bayesian optimization (BO) is a popular approach for optimizing expensive-to-evaluate black-box objective functions. An important challenge in BO is its application to high-dimensional search spaces due in large part to the curse of dimensionality. One way to overcome this challenge is to focus on local BO methods that aim to efficiently learn gradients, which have shown strong empirical performance on a variety of high-dimensional problems including policy search in reinforcement learning (RL). However, current local BO methods assume access to only a single high-fidelity information source whereas, in many engineering and control problems, one has access to multiple cheaper approximations of the objective. We propose a novel algorithm, Cost-Aware Gradient Entropy Search (CAGES), for local BO of multi-fidelity black-box functions. CAGES makes no assumption about the relationship between different information sources, making it more flexible than other multi-fidelity methods. It also employs a new type of information-theoretic acquisition function, which enables systematic identification of samples that maximize the information gain about the unknown gradient per cost of the evaluation. We demonstrate CAGES can achieve significant performance improvements compared to other state-of-the-art methods on a variety of synthetic and benchmark RL problems.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# LLM4ED: 自動方程式発見のための大規模言語モデル

LLM4ED: Large Language Models for Automatic Equation Discovery ( http://arxiv.org/abs/2405.07761v1 )

ライセンス: Link先を確認
Mengge Du, Yuntian Chen, Zhongzheng Wang, Longfeng Nie, Dongxiao Zhang, (参考訳) 方程式発見は、データから物理法則を直接抽出することを目的としており、重要な研究領域として登場した。 記号数学に基づく従来の手法は、かなりの進歩を遂げてきたが、しばしば複雑なアルゴリズムの実装の設計を必要とする。 本稿では、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデル(LLM)をガイドする新しいフレームワークを提案する。 具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。 最適化フェーズでは、生成した方程式を協調的に最適化するための2つの交互反復戦略を提案する。 最初の戦略は、LCMをブラックボックスオプティマイザとして、歴史的サンプルとその性能に基づく方程式自己改善を実現することである。 第2の戦略は、LLMにグローバルサーチのための進化演算子を実行するよう指示することである。 実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。 その結果, このフレームワークは, 様々な非線形力学系の下で, 基礎となる物理法則を明らかにするために有効な方程式を発見できることを示した。 さらなる比較は最先端のモデルと行われ、優れた安定性とユーザビリティを示す。 本フレームワークは,LLMの知識発見分野への応用可能性を示すとともに,学習の障壁を大幅に減らし,方程式発見技術を適用している。

Equation discovery is aimed at directly extracting physical laws from data and has emerged as a pivotal research domain. Previous methods based on symbolic mathematics have achieved substantial advancements, but often require the design of implementation of complex algorithms. In this paper, we introduce a new framework that utilizes natural language-based prompts to guide large language models (LLMs) in automatically mining governing equations from data. Specifically, we first utilize the generation capability of LLMs to generate diverse equations in string form, and then evaluate the generated equations based on observations. In the optimization phase, we propose two alternately iterated strategies to optimize generated equations collaboratively. The first strategy is to take LLMs as a black-box optimizer and achieve equation self-improvement based on historical samples and their performance. The second strategy is to instruct LLMs to perform evolutionary operators for global search. Experiments are extensively conducted on both partial differential equations and ordinary differential equations. Results demonstrate that our framework can discover effective equations to reveal the underlying physical laws under various nonlinear dynamic systems. Further comparisons are made with state-of-the-art models, demonstrating good stability and usability. Our framework substantially lowers the barriers to learning and applying equation discovery techniques, demonstrating the application potential of LLMs in the field of knowledge discovery.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# 冠動脈造影CT血管造影による年齢と非画像変数の超ボクセル関連の研究

A method for supervoxel-wise association studies of age and other non-imaging variables from coronary computed tomography angiograms ( http://arxiv.org/abs/2405.07762v1 )

ライセンス: Link先を確認
Johan Öfverstedt, Elin Lundström, Göran Bergström, Joel Kullberg, Håkan Ahlström, (参考訳) 年齢と画像と非画像データの関連性の研究は、老化の影響やパターンの理解を助けるために活発な研究分野である。 本研究は, 冠状動脈造影血管造影像における体積と組織密度の特徴と経時的変化の関連性について検討し, 加齢に伴う形態変化と組織密度の局所的変化について検討した。 そこで我々は, 画像分割, オブジェクト間画像登録, 頑健なスーパーボクセル相関解析に基づく新しい手法を開発し, 画像と年齢の統計的関連性について検討した。 心室および心筋のDice係数と逆整合性を用いて登録手法の評価を行い,多くの症例において高い重なり合いと逆整合性を示す。 SCAPIS研究から得られたn=1388$画像のサブセットを用いた性階層化研究において、超ボクセル解析により、通常区分けされ分析されたサブリージョンの外側の年齢と、年齢と容積の関連性に有意な差が認められた。

The study of associations between an individual's age and imaging and non-imaging data is an active research area that attempts to aid understanding of the effects and patterns of aging. In this work we have conducted a supervoxel-wise association study between both volumetric and tissue density features in coronary computed tomography angiograms and the chronological age of a subject, to understand the localized changes in morphology and tissue density with age. To enable a supervoxel-wise study of volume and tissue density, we developed a novel method based on image segmentation, inter-subject image registration, and robust supervoxel-based correlation analysis, to achieve a statistical association study between the images and age. We evaluate the registration methodology in terms of the Dice coefficient for the heart chambers and myocardium, and the inverse consistency of the transformations, showing that the method works well in most cases with high overlap and inverse consistency. In a sex-stratified study conducted on a subset of $n=1388$ images from the SCAPIS study, the supervoxel-wise analysis was able to find localized associations with age outside of the commonly segmented and analyzed sub-regions, and several substantial differences between the sexes in association of age and volume.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# LGDE: ローカルグラフベースの辞書の拡張

LGDE: Local Graph-based Dictionary Expansion ( http://arxiv.org/abs/2405.07764v1 )

ライセンス: Link先を確認
Dominik J. Schindler, Sneha Jha, Xixuan Zhang, Kilian Buehling, Annett Heft, Mauricio Barahona, (参考訳) 事前選択されたキーワードの辞書を拡張することは、データベースクエリやオンラインデータ収集などの情報検索におけるタスクに不可欠である。 ここでは,局所グラフに基づく辞書拡張(LGDE)を提案する。この手法は,種辞書から始まるキーワードをデータ駆動で発見するために,多様体学習とネットワーク科学のツールを使用する。 LGDEの核心は、単語埋め込みから派生した単語類似性グラフの作成と、グラフ拡散に基づく局所的なコミュニティ検出の適用により、事前に定義されたシードキーワードのセマンティックな領域を発見することである。 局所グラフ多様体の拡散は、単語埋め込みの複雑な非線形幾何学の探索を可能にし、意味的関連の経路に基づいて単語類似性を捉えることができる。 本稿では,Reddit と Gab のヘイトスピーチ関連記事のコーパスに提案手法を検証した結果,LGDE がキーワードのリストを充実させ,単語の類似性に基づいたしきい値法よりも優れた性能を実現することを示す。 さらに我々は,LGDEを,陰謀関連辞書を拡張して,ドメインの専門家が収集・分析したデータに基づいて定量的に評価する,通信科学の現実世界のユースケースを通じて,本手法の可能性を実証する。

Expanding a dictionary of pre-selected keywords is crucial for tasks in information retrieval, such as database query and online data collection. Here we propose Local Graph-based Dictionary Expansion (LGDE), a method that uses tools from manifold learning and network science for the data-driven discovery of keywords starting from a seed dictionary. At the heart of LGDE lies the creation of a word similarity graph derived from word embeddings and the application of local community detection based on graph diffusion to discover semantic neighbourhoods of pre-defined seed keywords. The diffusion in the local graph manifold allows the exploration of the complex nonlinear geometry of word embeddings and can capture word similarities based on paths of semantic association. We validate our method on a corpus of hate speech-related posts from Reddit and Gab and show that LGDE enriches the list of keywords and achieves significantly better performance than threshold methods based on direct word similarities. We further demonstrate the potential of our method through a real-world use case from communication science, where LGDE is evaluated quantitatively on data collected and analysed by domain experts by expanding a conspiracy-related dictionary.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# TANQ: 質問に答えるテーブルのオープンドメインデータセット

TANQ: An open domain dataset of table answered questions ( http://arxiv.org/abs/2405.07765v1 )

ライセンス: Link先を確認
Mubashara Akhtar, Chenxi Pang, Andreea Marzoca, Yasemin Altun, Julian Martin Eisenschlos, (参考訳) 言語モデルは、検索のようなツールの使用によって強化される可能性があり、質問に答える手段となっている。 現実の環境での質問の理解と回答には、異なるソースからの情報を検索し、洞察を抽出するためにデータを処理し集約し、新しいテーブル、チャート、インフォグラフィックのような構造化されたアーティファクトの形で複雑な発見を提示する必要があることが多い。 本稿では,複数のソースにまたがる情報からテーブルを構築することを必要とする,最初のオープンドメイン質問応答データセットであるTANQを紹介する。 結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。 最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。 マルチホップ推論や算術演算,単位変換など,このタスクに必要なさまざまなスキルなど,さまざまなデータセット属性に対して,ベースラインのパフォーマンスを解析する。 さらに、モデル生成の回答における一般的な失敗について議論し、TANQが先進的な課題を数多く抱える複雑なタスクであることを示唆する。

Language models, potentially augmented with tool usage such as retrieval are becoming the go-to means of answering questions. Understanding and answering questions in real-world settings often requires retrieving information from different sources, processing and aggregating data to extract insights, and presenting complex findings in form of structured artifacts such as novel tables, charts, or infographics. In this paper, we introduce TANQ, the first open domain question answering dataset where the answers require building tables from information across multiple sources. We release the full source attribution for every cell in the resulting table and benchmark state-of-the-art language models in open, oracle, and closed book setups. Our best-performing baseline, GPT4 reaches an overall F1 score of 29.1, lagging behind human performance by 19.7 points. We analyse baselines' performance across different dataset attributes such as different skills required for this task, including multi-hop reasoning, math operations, and unit conversions. We further discuss common failures in model-generated answers, suggesting that TANQ is a complex task with many challenges ahead.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# 人事用NLPの課題と可能性:議論論文

Challenges and Opportunities of NLP for HR Applications: A Discussion Paper ( http://arxiv.org/abs/2405.07766v1 )

ライセンス: Link先を確認
Jochen L. Leidner, Mark Stevenson, (参考訳) この10年で、機械学習と自然言語処理の分野で大きな進歩を遂げ、採用や人的資源管理など、アプリケーションユースケースの潜在的な領域を開拓した。 我々は,人的資源・人的資源管理の領域におけるテキスト分析のユースケースを概観し,実際に実現される可能性だけでなく,まだ実装されていない可能性も検討し,その可能性とリスクを分析する。

Over the course of the recent decade, tremendous progress has been made in the areas of machine learning and natural language processing, which opened up vast areas of potential application use cases, including hiring and human resource management. We review the use cases for text analytics in the realm of human resources/personnel management, including actually realized as well as potential but not yet implemented ones, and we analyze the opportunities and risks of these.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# 検索評価のための合成テストコレクション

Synthetic Test Collections for Retrieval Evaluation ( http://arxiv.org/abs/2405.07767v1 )

ライセンス: Link先を確認
Hossein A. Rahmani, Nick Craswell, Emine Yilmaz, Bhaskar Mitra, Daniel Campos, (参考訳) テストコレクションは情報検索(IR)システムの評価において重要な役割を果たす。 テストコレクション構築のための多種多様なユーザクエリの取得は困難であり,検索したドキュメントのクエリに対する適切性を示す関連判断の取得は,コストが高く,リソース集約的であることが多い。 大規模言語モデル(LLM)を用いた合成データセットの生成は、近年、様々なアプリケーションにおいて大きな注目を集めている。 IRにおいて、以前の研究は、合成クエリや文書を生成する能力を利用してトレーニングデータを増やし、ランキングモデルの性能を向上させる一方で、合成テストコレクションを構築するのにLLMを使うことは、比較的未調査である。 従来の研究では、LLMはIRシステムの評価に使用される合成関連判定を生成する可能性があることが示されている。 本稿では,合成判定だけでなく,合成クエリも生成することにより,LLMを用いて完全合成テストコレクションを構築することができるかどうかを総合的に検討する。 特に,信頼性の高い総合的なテストコレクションの構築が可能か,そのようなテストコレクションがLCMモデルに対して現れる可能性のあるバイアスの潜在的なリスクについて分析する。 実験により,LLMを用いて,検索評価に確実に使用できる合成テストコレクションを構築することが可能であることが示唆された。

Test collections play a vital role in evaluation of information retrieval (IR) systems. Obtaining a diverse set of user queries for test collection construction can be challenging, and acquiring relevance judgments, which indicate the appropriateness of retrieved documents to a query, is often costly and resource-intensive. Generating synthetic datasets using Large Language Models (LLMs) has recently gained significant attention in various applications. In IR, while previous work exploited the capabilities of LLMs to generate synthetic queries or documents to augment training data and improve the performance of ranking models, using LLMs for constructing synthetic test collections is relatively unexplored. Previous studies demonstrate that LLMs have the potential to generate synthetic relevance judgments for use in the evaluation of IR systems. In this paper, we comprehensively investigate whether it is possible to use LLMs to construct fully synthetic test collections by generating not only synthetic judgments but also synthetic queries. In particular, we analyse whether it is possible to construct reliable synthetic test collections and the potential risks of bias such test collections may exhibit towards LLM-based models. Our experiments indicate that using LLMs it is possible to construct synthetic test collections that can reliably be used for retrieval evaluation.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# $α$VIL: マルチタスク学習のための補助的タスクを活用するための学習

$α$VIL: Learning to Leverage Auxiliary Tasks for Multitask Learning ( http://arxiv.org/abs/2405.07769v1 )

ライセンス: Link先を確認
Rafael Kourdis, Gabriel Gordon-Hall, Philip John Gorinski, (参考訳) マルチタスク学習(Multitask Learning)は、共有モデルの助けを借りて、さまざまな(通常は関連する)タスクをトレーニングすることを目的とした機械学習パラダイムである。 目標は、全てのトレーニングタスクのジョイントパフォーマンスを改善することにあるが、他のアプローチは、特定の目標タスクのパフォーマンスに集中することであり、残りのタスクは、トレーニング中にターゲットに対するポジティブな転送を活用するための補助データとして扱うことである。 このような設定では、目標に有する正あるいは負の影響を推定することが重要である。 トレーニングの前後でタスクの重みを推定する多くの方法が提案されているが、一般的にはヒューリスティックスや重み付け空間の広範な探索に頼っている。 本稿では,モデル学習中のタスク重みを動的に調整できる「$\alpha$-varable Importance Learning」(VIL)という新しい手法を提案する。 実験によると、$\alpha$VILは様々な設定で他のマルチタスク学習アプローチより優れている。 我々の知る限り、これはタスクの重み推定にモデル更新を直接利用する最初の試みである。

Multitask Learning is a Machine Learning paradigm that aims to train a range of (usually related) tasks with the help of a shared model. While the goal is often to improve the joint performance of all training tasks, another approach is to focus on the performance of a specific target task, while treating the remaining ones as auxiliary data from which to possibly leverage positive transfer towards the target during training. In such settings, it becomes important to estimate the positive or negative influence auxiliary tasks will have on the target. While many ways have been proposed to estimate task weights before or during training they typically rely on heuristics or extensive search of the weighting space. We propose a novel method called $\alpha$-Variable Importance Learning ($\alpha$VIL) that is able to adjust task weights dynamically during model training, by making direct use of task-specific updates of the underlying model's parameters between training epochs. Experiments indicate that $\alpha$VIL is able to outperform other Multitask Learning approaches in a variety of settings. To our knowledge, this is the first attempt at making direct use of model updates for task weight estimation.
翻訳日:2024-05-14 13:35:36 公開日:2024-05-13
# ハイプかヒューリスティックか? : 結合順序最適化のための量子強化学習

Hype or Heuristic? Quantum Reinforcement Learning for Join Order Optimisation ( http://arxiv.org/abs/2405.07770v1 )

ライセンス: Link先を確認
Maja Franz, Tobias Winker, Sven Groppe, Wolfgang Mauerer, (参考訳) 最適な結合順序(JO)を特定することは、データベースの研究とエンジニアリングにおいて重要な課題である。 大規模な探索空間のため、確立された古典的手法は近似とヒューリスティックに依存している。 近年, JO の強化学習 (RL) の研究開発に成功している。 同様に、RLの量子バージョンは科学的な注目を集めている。 しかし、量子プロセッサの改善により、持続的で、全体的な実用上の利点を達成できるかどうかには疑問の余地がある。 本稿では,多変量量子アンサッツに基づくJOの量子強化学習(QRL)を用いた新しい手法を提案する。 量子(インスパイアされた)最適化に基づくアプローチに比べれば、より単純な左深の変種に頼るのではなく、一般的なブッシー結合木を扱うことができるが、NISQ後のシステムにおいても少ない数桁の量子ビットを必要とする。 中程度の回路深度にもかかわらず、アンザッツは現在のNISQ能力を超え、数値シミュレーションによる評価を必要とする。 QRLは、結果の質に関してJO問題を解くという古典的手法(パリティを見ることができるが)を著しく上回っているわけではないが、必要なトレーニング可能なパラメータを劇的に減らしている。 これは、古典的なRLよりも短いトレーニング時間、あまり関与しない古典的な最適化パス、利用可能なトレーニングデータの使用の改善、データストリームと低レイテンシの処理シナリオへの適合など、実質的に関連する面でのメリットがある。 我々の総合的な評価と慎重な議論は、実用的な量子優位性の可能性についてのバランスのとれた視点を提供し、将来の体系的なアプローチに対する洞察を提供し、データベース管理システムにおける最も重要な問題の1つに対する量子アプローチのトレードオフを定量的に評価することを可能にする。

Identifying optimal join orders (JOs) stands out as a key challenge in database research and engineering. Owing to the large search space, established classical methods rely on approximations and heuristics. Recent efforts have successfully explored reinforcement learning (RL) for JO. Likewise, quantum versions of RL have received considerable scientific attention. Yet, it is an open question if they can achieve sustainable, overall practical advantages with improved quantum processors. In this paper, we present a novel approach that uses quantum reinforcement learning (QRL) for JO based on a hybrid variational quantum ansatz. It is able to handle general bushy join trees instead of resorting to simpler left-deep variants as compared to approaches based on quantum(-inspired) optimisation, yet requires multiple orders of magnitudes fewer qubits, which is a scarce resource even for post-NISQ systems. Despite moderate circuit depth, the ansatz exceeds current NISQ capabilities, which requires an evaluation by numerical simulations. While QRL may not significantly outperform classical approaches in solving the JO problem with respect to result quality (albeit we see parity), we find a drastic reduction in required trainable parameters. This benefits practically relevant aspects ranging from shorter training times compared to classical RL, less involved classical optimisation passes, or better use of available training data, and fits data-stream and low-latency processing scenarios. Our comprehensive evaluation and careful discussion delivers a balanced perspective on possible practical quantum advantage, provides insights for future systemic approaches, and allows for quantitatively assessing trade-offs of quantum approaches for one of the most crucial problems of database management systems.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# シーケンシャル意思決定におけるヒューマンモデリング--ヒューマン・アウェア・AIのレンズを通しての分析

Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI ( http://arxiv.org/abs/2405.07773v1 )

ライセンス: Link先を確認
Silvia Tulli, Stylianos Loukas Vasileiou, Sarath Sreedharan, (参考訳) ヒューマン・アウェア」は、人間と働き、対話するように設計された、特定の種類のAIシステムを記述するために使われる一般的なキーワードとなっている。 人間の認識というラベルを使う作品には驚くほどの一貫性があるが、その用語自体はほとんど理解されていない。 本研究では,人間を意識したAIシステムを構成するものについて,遡及的に考察する。 人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。 さらに、このパラダイムは、これらのシステムが人間と持つ可能性のあるインタラクションの種類を理解し、分類するための直感的な次元を提供する。 本研究では,これらの次元の教育的価値を,人間-AIシステムに関連する作業の現在の状況を理解し,レビューするためのツールとして利用することで示す。 ワークショップの論文の範囲に合わせて、我々はレビューをシーケンシャルな意思決定を扱う論文に絞り込み、過去3年間に大規模なAIカンファレンスで発表しました。 私たちの分析は、現在見過ごされている潜在的な研究問題の空間を特定するのに役立ちます。 我々は,これらの研究が社会科学の結果に明示的に言及する程度と,実際にシステムを検証するためにユーザスタディを実施するかどうかについて,さらなる分析を行う。 また、これらの研究で使用されている様々なAI手法の会計情報も提供する。

"Human-aware" has become a popular keyword used to describe a particular class of AI systems that are designed to work and interact with humans. While there exists a surprising level of consistency among the works that use the label human-aware, the term itself mostly remains poorly understood. In this work, we retroactively try to provide an account of what constitutes a human-aware AI system. We see that human-aware AI is a design-oriented paradigm, one that focuses on the need for modeling the humans it may interact with. Additionally, we see that this paradigm offers us intuitive dimensions to understand and categorize the kinds of interactions these systems might have with humans. We show the pedagogical value of these dimensions by using them as a tool to understand and review the current landscape of work related to human-AI systems that purport some form of human modeling. To fit the scope of a workshop paper, we specifically narrowed our review to papers that deal with sequential decision-making and were published in a major AI conference in the last three years. Our analysis helps identify the space of potential research problems that are currently being overlooked. We perform additional analysis on the degree to which these works make explicit reference to results from social science and whether they actually perform user-studies to validate their systems. We also provide an accounting of the various AI methods used by these works.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# ラボマネジメントにおけるオープンソース

Open Source in Lab Management ( http://arxiv.org/abs/2405.07774v1 )

ライセンス: Link先を確認
Julien Cohen-Adad, (参考訳) この文書は、科学実験室の管理におけるオープンソースソフトウェアとプラクティスの統合の利点を探求し、再現性と落とし穴の回避を強調している。 GitHub Pagesを使用したWebサイト管理から、BIDS標準に準拠したデータセットの編成に至るまでの実践的なアプリケーションについて詳述し、データ整合性のための継続的テストの重要性、Ansibleによる効率的なシステム構成のためのIT管理、オープンソースソフトウェア開発の重要性を強調している。 より広範な目標は、オープンソースツールを採用することによって、透過的で再現可能な科学を促進することだ。 このアプローチは時間を節約するだけでなく、学生をベストプラクティスにさらし、科学研究の透明性と再現性を高める。

This document explores the advantages of integrating open source software and practices in managing a scientific lab, emphasizing reproducibility and the avoidance of pitfalls. It details practical applications from website management using GitHub Pages to organizing datasets in compliance with BIDS standards, highlights the importance of continuous testing for data integrity, IT management through Ansible for efficient system configuration, open source software development. The broader goal is to promote transparent, reproducible science by adopting open source tools. This approach not only saves time but exposes students to best practices, enhancing the transparency and reproducibility of scientific research.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# 非標準Bose-Hubbardモデルの量子シミュレーションの最近の進歩

Recent progress on quantum simulations of non-standard Bose-Hubbard models ( http://arxiv.org/abs/2405.07775v1 )

ライセンス: Link先を確認
Titas Chanda, Luca Barbiero, Maciej Lewenstein, Manfred J. Mark, Jakub Zakrzewski, (参考訳) 近年、超低温で光学格子に閉じ込められたボゾン原子からなる系は、様々な種類の相互作用を持つ格子ボソンモデルに現れる新しい量子力学的効果を明らかにする大きな可能性を示している。 本報告では, ダイポール双極子や空洞を介する相互作用を持つ長距離システムを中心に, 異なる「非標準」Bose-Hubbardモデルでモデル化した量子シミュレーションの最近の進歩を示すことを目的としている。 ランドーパラダイムを超えて量子臨界性の出現、ボンドオーダー波絶縁体、相互作用誘起トンネルの役割、観察された位相に対する横閉じ込めの影響、空洞を介するオール・ツー・オール相互作用の影響など、慎重に調整されたトピックの選択を通じて、過去数年間の理論的および実験的発展を報告した。 さらに、長距離相互作用を持つシステムのリアルタイム進化について論じ、そこでは十分に強い相互作用がダイナミックスを非エルゴディックにする。 そして最後に、この急速に発展している分野における最近の実験成果を調査し、その学際的意義と、地中破壊的な発見の可能性を明らかにした。

In recent years, the systems comprising of bosonic atoms confined to optical lattices at ultra-cold temperatures have demonstrated tremendous potential to unveil novel quantum mechanical effects appearing in lattice boson models with various kinds of interactions. In this progress report, we aim to provide an exposition to recent advancements in quantum simulations of such systems, modeled by different "non-standard" Bose-Hubbard models, focusing primarily on long-range systems with dipole-dipole or cavity-mediated interactions. Through a carefully curated selection of topics, which includes the emergence of quantum criticality beyond Landau paradigm, bond-order wave insulators, the role of interaction-induced tunneling, the influence of transverse confinement on observed phases, or the effect of cavity-mediated all-to-all interactions, we report both theoretical and experimental developments from the last few years. Additionally, we discuss the real-time evolution of systems with long-range interactions, where sufficiently strong interactions render the dynamics non-ergodic. And finally to cap our discussions off, we survey recent experimental achievements in this rapidly evolving field, underscoring its interdisciplinary significance and potential for groundbreaking discoveries.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# 拡散モデルを用いたSAR画像合成

SAR Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2405.07776v1 )

ライセンス: Link先を確認
Denisa Qosja, Simon Wagner, Daniel O'Hagan, (参考訳) 近年, 拡散モデル (DM) は, 合成データを生成する一般的な方法となっている。 高い品質のサンプルを得ることで、生成的敵ネットワーク(GAN)や、生成的モデリングにおける最先端の手法よりも急速に優位になった。 しかし、その可能性はまだレーダーでは利用されていない。 本研究では,拡散確率モデル (DDPM) をSAR領域に適応させる特定の種類のDMについて述べる。 条件付きおよび非条件付きSAR画像生成のためのネットワーク選択と特定の拡散パラメータについて検討する。 実験の結果,DDPMはSAR画像生成のための最先端のGAN法よりも質的に,定量的に優れていることがわかった。 最後に,DDPMによる大規模クラッタデータの事前学習による収益性を示し,さらに高品質なSAR画像を生成する。

In recent years, diffusion models (DMs) have become a popular method for generating synthetic data. By achieving samples of higher quality, they quickly became superior to generative adversarial networks (GANs) and the current state-of-the-art method in generative modeling. However, their potential has not yet been exploited in radar, where the lack of available training data is a long-standing problem. In this work, a specific type of DMs, namely denoising diffusion probabilistic model (DDPM) is adapted to the SAR domain. We investigate the network choice and specific diffusion parameters for conditional and unconditional SAR image generation. In our experiments, we show that DDPM qualitatively and quantitatively outperforms state-of-the-art GAN-based methods for SAR image generation. Finally, we show that DDPM profits from pretraining on largescale clutter data, generating SAR images of even higher quality.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# GMSR : RGB画像からのスペクトル再構成のためのグラディエントガイドマンバ

GMSR:Gradient-Guided Mamba for Spectral Reconstruction from RGB Images ( http://arxiv.org/abs/2405.07777v1 )

ライセンス: Link先を確認
Xinying Wang, Zhixiong Huang, Sifan Zhang, Jiawen Zhu, Lin Feng, (参考訳) スペクトル再構成(SR)への主流のアプローチは、主に畳み込みとトランスフォーマーに基づくアーキテクチャの設計に焦点を当てている。 しかし、CNN法は長距離依存を扱う際の問題に直面することが多いが、トランスフォーマーは計算効率の制限によって制約される。 最近の状態空間モデル(例えば、Mamba)のブレークスルーは、その線形に近い計算効率と優れた性能のために大きな注目を集めており、SR問題の可能性について調査している。 GMSR-Netと呼ばれるRGB画像からのスペクトル再構成のためのグラディエント誘導型マンバを提案する。 GMSR-Netは、大域的受容場と線形計算複雑性を特徴とする軽量モデルである。 コアは複数の積み重ねられたグラディエント・マンバ(GM)ブロックで構成され、それぞれがトリブランチ構造を備えている。 Mambaブロックによる効率的なグローバルな特徴表現の恩恵に加えて、空間的傾きの注意とスペクトル的傾きの注意を革新的に導入し、空間的およびスペクトル的手がかりの再構築を導く。 GMSR-Netは、高い精度と効率のトレードオフを示し、最先端の性能を実現しつつ、パラメータの数と計算負荷を著しく削減している。 既存のアプローチと比較して、GMSR-NetはパラメータとFLOPSをそれぞれ10倍と20倍のマージンで削減している。 コードはhttps://github.com/wxy11-27/GMSRで公開されている。

Mainstream approaches to spectral reconstruction (SR) primarily focus on designing Convolution- and Transformer-based architectures. However, CNN methods often face challenges in handling long-range dependencies, whereas Transformers are constrained by computational efficiency limitations. Recent breakthroughs in state-space model (e.g., Mamba) has attracted significant attention due to its near-linear computational efficiency and superior performance, prompting our investigation into its potential for SR problem. To this end, we propose the Gradient-guided Mamba for Spectral Reconstruction from RGB Images, dubbed GMSR-Net. GMSR-Net is a lightweight model characterized by a global receptive field and linear computational complexity. Its core comprises multiple stacked Gradient Mamba (GM) blocks, each featuring a tri-branch structure. In addition to benefiting from efficient global feature representation by Mamba block, we further innovatively introduce spatial gradient attention and spectral gradient attention to guide the reconstruction of spatial and spectral cues. GMSR-Net demonstrates a significant accuracy-efficiency trade-off, achieving state-of-the-art performance while markedly reducing the number of parameters and computational burdens. Compared to existing approaches, GMSR-Net slashes parameters and FLOPS by substantial margins of 10 times and 20 times, respectively. Code is available at https://github.com/wxy11-27/GMSR.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# トルコ語における静的な単語埋め込みの包括的分析

A Comprehensive Analysis of Static Word Embeddings for Turkish ( http://arxiv.org/abs/2405.07778v1 )

ライセンス: Link先を確認
Karahan Sarıtaş, Cahid Arda Öz, Tunga Güngör, (参考訳) 単語埋め込みは、自然言語処理(NLP)アプリケーションで使用される、長さが固定され、密度が高く、分散された単語表現である。 基本的には、非文脈的(静的)モデルと文脈的モデルである2種類の単語埋め込みモデルが存在する。 前者は文脈によらず単語に対する単一の埋め込みを生成し,後者は出現する特定の文脈に基づいて単語に対する別の埋め込みを生成する。 異なる言語におけるそれぞれのグループ内の文脈的および非文脈的埋め込みモデルを比較する多くの研究がある。 しかし、これらの2つのグループのモデルと互いに比較する研究は少なく、トルコ語ではそのような研究は行われていない。 このプロセスでは、コンテキスト埋め込みを静的埋め込みに変換する必要がある。 本稿では,トルコ語における内在的・外在的評価設定において,文脈的・非文脈的モデルの性能を比較し,評価する。 モデルの構文的・意味的能力を別々に分析することにより,詳細な比較を行う。 分析の結果は、異なるタイプのNLPタスクにおける異なる埋め込みモデルの適合性に関する洞察を与える。 また,本研究で使用される埋め込みモデルを含むトルコ語単語埋め込みリポジトリを構築し,トルコ語NLP分野の研究者や実践者にとって貴重な資料となる可能性がある。 単語の埋め込み、スクリプト、評価データセットを公開しています。

Word embeddings are fixed-length, dense and distributed word representations that are used in natural language processing (NLP) applications. There are basically two types of word embedding models which are non-contextual (static) models and contextual models. The former method generates a single embedding for a word regardless of its context, while the latter method produces distinct embeddings for a word based on the specific contexts in which it appears. There are plenty of works that compare contextual and non-contextual embedding models within their respective groups in different languages. However, the number of studies that compare the models in these two groups with each other is very few and there is no such study in Turkish. This process necessitates converting contextual embeddings into static embeddings. In this paper, we compare and evaluate the performance of several contextual and non-contextual models in both intrinsic and extrinsic evaluation settings for Turkish. We make a fine-grained comparison by analyzing the syntactic and semantic capabilities of the models separately. The results of the analyses provide insights about the suitability of different embedding models in different types of NLP tasks. We also build a Turkish word embedding repository comprising the embedding models used in this work, which may serve as a valuable resource for researchers and practitioners in the field of Turkish NLP. We make the word embeddings, scripts, and evaluation datasets publicly available.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# テスト・アグノスティック・ロングテール認識における階層的ラベル分布の変動

Harnessing Hierarchical Label Distribution Variations in Test Agnostic Long-tail Recognition ( http://arxiv.org/abs/2405.07780v1 )

ライセンス: Link先を確認
Zhiyong Yang, Qianqian Xu, Zitai Wang, Sicong Li, Boyu Han, Shilong Bao, Xiaochun Cao, Qingming Huang, (参考訳) 本稿では,テストラベルの分布が未知であり,任意に不均衡な長テールタスクである,テスト非依存の長テール認識について検討する。 これらの分布の変動は、階層的にグローバルなレベルとローカルなレベルに分解できると主張している。 グローバルなものは幅広い多様性を反映するが、地元のものは通常、より穏やかな変化から生じ、しばしば特定の隣人に焦点を当てる。 従来の手法ではMixture-of-Expert(MoE)アプローチが主流で、大域的な変化を示すいくつかの固定テストラベル分布をターゲットにしている。 ただし、地域差は考慮されていない。 この問題に対処するため、我々は新たなMoE戦略である$\mathsf{DirMixE}$を提案する。 さらに、ディリクレのメタ分布の多様性は本質的にグローバルな変動を捉えている。 この二重レベルアプローチはまた、より安定した客観的関数をもたらし、異なるテスト分布をサンプリングし、パフォーマンス結果の平均と分散を定量化できるようにします。 理論的には, 分散に基づく正規化による一般化の促進により, 提案する目的の利点が示される。 複数のベンチマークにわたる総合的な実験により、$\mathsf{DirMixE}$の有効性が確かめられる。 コードは \url{https://github.com/scongl/DirMixE} で公開されている。

This paper explores test-agnostic long-tail recognition, a challenging long-tail task where the test label distributions are unknown and arbitrarily imbalanced. We argue that the variation in these distributions can be broken down hierarchically into global and local levels. The global ones reflect a broad range of diversity, while the local ones typically arise from milder changes, often focused on a particular neighbor. Traditional methods predominantly use a Mixture-of-Expert (MoE) approach, targeting a few fixed test label distributions that exhibit substantial global variations. However, the local variations are left unconsidered. To address this issue, we propose a new MoE strategy, $\mathsf{DirMixE}$, which assigns experts to different Dirichlet meta-distributions of the label distribution, each targeting a specific aspect of local variations. Additionally, the diversity among these Dirichlet meta-distributions inherently captures global variations. This dual-level approach also leads to a more stable objective function, allowing us to sample different test distributions better to quantify the mean and variance of performance outcomes. Theoretically, we show that our proposed objective benefits from enhanced generalization by virtue of the variance-based regularization. Comprehensive experiments across multiple benchmarks confirm the effectiveness of $\mathsf{DirMixE}$. The code is available at \url{https://github.com/scongl/DirMixE}.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# 研究ソフトウェアに必要なエンジニアリング:ビジョン

Requirements Engineering for Research Software: A Vision ( http://arxiv.org/abs/2405.07781v1 )

ライセンス: Link先を確認
Adrian Bajraktari, Michelle Binder, Andreas Vogelsang, (参考訳) 現代科学はかつてないほどソフトウェアに依存している。 このソフトウェアの振る舞いと成果は、気候変動、経済成長、感染の拡大といった重要なトピックに関する科学と公共の議論を形成する。 ほとんどの研究者は、科学的な目的のためにソフトウェアを作成するが、ソフトウェア工学では訓練されていない。 その結果、研究ソフトウェアは厳密なプロセスに従うことなく、しばしばアドホックに開発される。 本稿では,研究ソフトウェアを,要求工学コミュニティから注目が必要な新しいアプリケーション領域として特徴付けることを目的とする。 ソフトウェアを開発する12人の研究者との8つのインタビューに基づいて探索的研究を行った。 我々は、研究者が研究ソフトウェアに必要な要件と彼らが従うプロセスを引き合いに出し、文書化し、分析する方法を説明する。 そこで我々は,特定の課題を導き,研究ソフトウェアに必要なエンジニアリングのビジョンを説明する。

Modern science is relying on software more than ever. The behavior and outcomes of this software shape the scientific and public discourse on important topics like climate change, economic growth, or the spread of infections. Most researchers creating software for scientific purposes are not trained in Software Engineering. As a consequence, research software is often developed ad hoc without following stringent processes. With this paper, we want to characterize research software as a new application domain that needs attention from the Requirements Engineering community. We conducted an exploratory study based on 8 interviews with 12 researchers who develop software. We describe how researchers elicit, document, and analyze requirements for research software and what processes they follow. From this, we derive specific challenges and describe a vision of Requirements Engineering for research software.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# テキスト記述による3次元シーンにおける人間の動きの生成

Generating Human Motion in 3D Scenes from Text Descriptions ( http://arxiv.org/abs/2405.07784v1 )

ライセンス: Link先を確認
Zhi Cen, Huaijin Pi, Sida Peng, Zehong Shen, Minghui Yang, Shuai Zhu, Hujun Bao, Xiaowei Zhou, (参考訳) テキスト記述から人間の動きを生成することは、その幅広い応用から研究の関心が高まっている。 しかし、視覚的および身体的リアリズムにとって重要なテキスト条件とともに人間とシーンの相互作用を考える研究はごくわずかである。 本稿では,人間とシーンのインタラクションをテキストで記述した3次元屋内シーンにおけるヒューマンモーション生成の課題に焦点を当てた。 この課題は、テキスト、シーン、動きの多様性や空間的推論の必要性による課題である。 これらの課題に対処するために,複雑な問題を2つのより管理可能なサブプロブレムに分解するアプローチを提案する。 対象オブジェクトの言語基盤化には,大規模言語モデルの力を利用する。 動作生成のために、生成モデルのためのオブジェクト中心のシーン表現を設計し、対象物に焦点を合わせることにより、シーンの複雑さを低減し、人間の動きとオブジェクトの関係のモデリングを容易にする。 実験では、ベースラインと比較して、アプローチの動作品質が向上し、設計上の選択が検証される。

Generating human motions from textual descriptions has gained growing research interest due to its wide range of applications. However, only a few works consider human-scene interactions together with text conditions, which is crucial for visual and physical realism. This paper focuses on the task of generating human motions in 3D indoor scenes given text descriptions of the human-scene interactions. This task presents challenges due to the multi-modality nature of text, scene, and motion, as well as the need for spatial reasoning. To address these challenges, we propose a new approach that decomposes the complex problem into two more manageable sub-problems: (1) language grounding of the target object and (2) object-centric motion generation. For language grounding of the target object, we leverage the power of large language models. For motion generation, we design an object-centric scene representation for the generative model to focus on the target object, thereby reducing the scene complexity and facilitating the modeling of the relationship between human motions and the object. Experiments demonstrate the better motion quality of our approach compared to baselines and validate our design choices.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# DEPTH: 事前学習による談話教育

DEPTH: Discourse Education through Pre-Training Hierarchically ( http://arxiv.org/abs/2405.07788v1 )

ライセンス: Link先を確認
Zachary Bamberger, Ofek Glick, Chaim Baskin, Yonatan Belinkov, (参考訳) 言語モデル(LM)は、コヒーレンス、凝集、物語の流れといった談話パターンが事前学習データに多く見られるにもかかわらず、談話レベルで言語理解に苦慮することが多い。 現在の方法は、トレーニング前の段階でのみこれらの課題に対処し、高価な人間の注釈付きデータを使ってモデルを整列させる。 我々は,すでに事前学習段階にあるLMの談話能力を改善するために,談話指向の事前学習目標を用いて文の表現を学習するエンコーダ・デコーダモデルであるDEPTHを導入する。 DEPTHは階層的な文表現を,(1)文のアンシャッフル,(2)スパン・コープションの2つの目的と組み合わせる。 このアプローチは、大量の非構造化テキストに対するサブワードレベルと文レベルの依存関係の両方を表現するようにモデルを訓練する。 DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、意味と談話レベルの表現をT5よりも高速に学習し、追加の文アンシャッフルの目的にもかかわらず、スパン・コーカレーションの損失よりも優れている。 GLUE、DiscoEval、NIベンチマークの評価は、DepTHが様々な下流タスクを素早く学習する能力を示している。 全体として、我々のアプローチはT5の談話能力を拡張しつつ、結果のLMにおける他の自然言語理解能力(NLU)に最小限の影響を及ぼす。

Language Models (LMs) often struggle with linguistic understanding at the discourse level, even though discourse patterns such as coherence, cohesion, and narrative flow are prevalent in their pre-training data. Current methods address these challenges only after the pre-training phase, relying on expensive human annotated data to align the model. To improve the discourse capabilities of LMs already at the pre-training stage, we introduce DEPTH, an encoder-decoder model that learns to represent sentences using a discourse-oriented pre-training objective. DEPTH combines hierarchical sentence representations with two objectives: (1) Sentence Un-Shuffling, and (2) Span-Corruption. This approach trains the model to represent both sub-word-level and sentence-level dependencies over a massive amount of unstructured text. When trained either from scratch or continuing from a pre-trained T5 checkpoint, DEPTH learns semantic and discourse-level representations faster than T5, outperforming it in span-corruption loss despite the additional sentence-un-shuffling objective. Evaluations on the GLUE, DiscoEval, and NI benchmarks demonstrate DEPTH's ability to quickly learn diverse downstream tasks, which require syntactic, semantic, and discourse capabilities. Overall, our approach extends the discourse capabilities of T5, while minimally impacting other natural language understanding (NLU) capabilities in the resulting LM.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# ニューラルコンビネーション最適化のためのハミルトン型量子強化学習

Hamiltonian-based Quantum Reinforcement Learning for Neural Combinatorial Optimization ( http://arxiv.org/abs/2405.07790v1 )

ライセンス: Link先を確認
Georg Kruse, Rodrigo Coehlo, Andreas Rosskopf, Robert Wille, Jeanette Miriam Lorenz, (参考訳) 量子コンピューティング(QC)とニューラルコンビネーション最適化(NCO)の進歩は、複雑な計算課題に取り組む上で有望なステップである。 一方、QAOAのような変分量子アルゴリズムは、幅広い組合せ最適化問題を解くのに利用できる。 一方, グラフニューラルネットワークの導入以降, 有望な結果を示す手法である NCO では, 同様の問題を解くことができる。 両研究分野の最近の進歩を踏まえ、QCとNCOの交差点におけるアプローチであるハミルトンに基づく量子強化学習(QRL)を紹介する。 我々は、組合せ最適化問題のハミルトンの定式化を直接モデルとし、より広範な問題にアプローチを適用することができる。 我々のアンサーゼは、ハードウェア効率のよいアンサーゼと比較して、良好なトレーサビリティ特性を示す一方で、以前の研究とは異なり、グラフベースの問題に制限されない。 本研究では,ハミルトン型QRLの多種多様な組合せ最適化問題に対する性能評価を行い,本手法の適用性を実証し,QAOAと比較する。

Advancements in Quantum Computing (QC) and Neural Combinatorial Optimization (NCO) represent promising steps in tackling complex computational challenges. On the one hand, Variational Quantum Algorithms such as QAOA can be used to solve a wide range of combinatorial optimization problems. On the other hand, the same class of problems can be solved by NCO, a method that has shown promising results, particularly since the introduction of Graph Neural Networks. Given recent advances in both research areas, we introduce Hamiltonian-based Quantum Reinforcement Learning (QRL), an approach at the intersection of QC and NCO. We model our ansatzes directly on the combinatorial optimization problem's Hamiltonian formulation, which allows us to apply our approach to a broad class of problems. Our ansatzes show favourable trainability properties when compared to the hardware efficient ansatzes, while also not being limited to graph-based problems, unlike previous works. In this work, we evaluate the performance of Hamiltonian-based QRL on a diverse set of combinatorial optimization problems to demonstrate the broad applicability of our approach and compare it to QAOA.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# データ依存ランダム特徴に基づく分散カーネルリッジ回帰

Decentralized Kernel Ridge Regression Based on Data-dependent Random Feature ( http://arxiv.org/abs/2405.07791v1 )

ライセンス: Link先を確認
Ruikai Yang, Fan He, Mingzhen He, Jie Yang, Xiaolin Huang, (参考訳) ランダム機能(RF)は、分散カーネルリッジ回帰(KRR)におけるノードの整合性に広く用いられている。 現在、一貫性は特徴係数に制約を課すことで保証されており、異なるノード上のランダムな特徴が同一である必要がある。 しかし、多くのアプリケーションにおいて、異なるノード上のデータは、異なるRFを生成する適応的およびデータ依存の方法を要求する数や分布によって大きく異なる。 そこで本研究では,決定関数に対するコンセンサスを追求する分散KRRアルゴリズムを提案する。 各ノード上のデータの特徴を捉えることで,他の手法と同じ通信コストを維持しながら,6つの実世界のデータセットの平均回帰精度を25.5\%向上させることに成功した。

Random feature (RF) has been widely used for node consistency in decentralized kernel ridge regression (KRR). Currently, the consistency is guaranteed by imposing constraints on coefficients of features, necessitating that the random features on different nodes are identical. However, in many applications, data on different nodes varies significantly on the number or distribution, which calls for adaptive and data-dependent methods that generate different RFs. To tackle the essential difficulty, we propose a new decentralized KRR algorithm that pursues consensus on decision functions, which allows great flexibility and well adapts data on nodes. The convergence is rigorously given and the effectiveness is numerically verified: by capturing the characteristics of the data on each node, while maintaining the same communication costs as other methods, we achieved an average regression accuracy improvement of 25.5\% across six real-world data sets.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# スライディングウィンドウ上での最適マトリックススケッチ

Optimal Matrix Sketching over Sliding Windows ( http://arxiv.org/abs/2405.07792v1 )

ライセンス: Link先を確認
Hanyan Yin, Dongxie Wen, Jiajun Li, Zhewei Wei, Xiao Zhang, Zengfeng Huang, Feifei Li, (参考訳) 行列スケッチは、行列 $\boldsymbol{A} \in \mathbb{R}^{N\times d}$ のベクトルストリームからなる行列 $N$ と小さなスケッチ行列 $\boldsymbol{B} \in \mathbb{R}^{\ell\times d}, \ell \ll N$ を近似することを目的としており、大規模データ分析や機械学習などの分野における注目を集めている。 良く知られた決定論的行列スケッチ法は、Frequent Directionsアルゴリズムであり、最適$O\left(\frac{d}{\varepsilon}\right)$ spaceboundを達成し、$\varepsilon = \lVert \boldsymbol{A}^\top \boldsymbol{A} - \boldsymbol{B}^\top \boldsymbol{B} \rVert_2/\lVert \boldsymbol{A} \rVert_F^2$$の共分散誤差保証を提供する。 行列スケッチ問題は、直近の$N$時間単位上の入力ベクトルによって形成される行列 $\boldsymbol{A}_W$ を近似することを目標とするスライディングウィンドウの文脈で特に興味深いものとなる。 しかし、最近の試みにもかかわらず、スライドウィンドウ上の最適な$O\left(\frac{d}{\varepsilon}\right)$空間を達成できるかどうかは未解決のままである。 本稿では,行正規化されたシーケンスベースのスライディングウィンドウ上での行列スケッチに最適な$O\left(\frac{d}{\varepsilon}\right)$スペースバウンドを実現するDS-FDアルゴリズムを提案する。 また、時間ベースおよび非正規化されたスライディングウインドウに対して、上と下の境界をマッチングし、様々なスライディングウインドウモデルにおける \dsfd の一般化と最適性を示す。 このことは、スライドウィンドウ上の行列スケッチのための最適空間に関するオープンな疑問に決定的に答える。 さらに、我々は、合成と実世界の両方のデータセットで広範な実験を行い、理論的クレームを検証し、理論的にも経験的にも、アルゴリズムの正しさと有効性を確認する。

Matrix sketching, aimed at approximating a matrix $\boldsymbol{A} \in \mathbb{R}^{N\times d}$ consisting of vector streams of length $N$ with a smaller sketching matrix $\boldsymbol{B} \in \mathbb{R}^{\ell\times d}, \ell \ll N$, has garnered increasing attention in fields such as large-scale data analytics and machine learning. A well-known deterministic matrix sketching method is the Frequent Directions algorithm, which achieves the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound and provides a covariance error guarantee of $\varepsilon = \lVert \boldsymbol{A}^\top \boldsymbol{A} - \boldsymbol{B}^\top \boldsymbol{B} \rVert_2/\lVert \boldsymbol{A} \rVert_F^2$. The matrix sketching problem becomes particularly interesting in the context of sliding windows, where the goal is to approximate the matrix $\boldsymbol{A}_W$, formed by input vectors over the most recent $N$ time units. However, despite recent efforts, whether achieving the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound on sliding windows is possible has remained an open question. In this paper, we introduce the DS-FD algorithm, which achieves the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound for matrix sketching over row-normalized, sequence-based sliding windows. We also present matching upper and lower space bounds for time-based and unnormalized sliding windows, demonstrating the generality and optimality of \dsfd across various sliding window models. This conclusively answers the open question regarding the optimal space bound for matrix sketching over sliding windows. Furthermore, we conduct extensive experiments with both synthetic and real-world datasets, validating our theoretical claims and thus confirming the correctness and effectiveness of our algorithm, both theoretically and empirically.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# 線形モデルを用いたロバストカウンサルバンドのバウンド改善

Improved Bound for Robust Causal Bandits with Linear Models ( http://arxiv.org/abs/2405.07795v1 )

ライセンス: Link先を確認
Zirui Yan, Arpan Mukherjee, Burak Varıcı, Ali Tajer, (参考訳) 本稿では,時間的モデルゆらぎに直面した原因帯域(CB)のロバスト性について検討する。 この設定は、既存の文献の定数因果モデルに対する広く受け入れられた仮定から逸脱している。 焦点は線形構造方程式モデル(SEM)による因果系である。 SEMと時間変化の前・後統計モデルは、すべて未知であり、時間とともに変動する。 目的は、因果モデル全体とそのゆらぎを認識したオラクルと比較して最小の累積後悔を引き起こす一連の介入を設計することである。 頑健なCBアルゴリズムを提案し、その累積的後悔を、その後悔の上下の境界を定め、解析する。 最大 in-degree $d$ のグラフでは、最大の因果経路 $L$ の長さと集合モデルの偏差 $C$ で、後悔は $\tilde{\mathcal{O}}(d^{L-\frac{1}{2}}(\sqrt{T} + C))$ で上界、下界 $\Omega(d^{\frac{L}{2}-2}\max\{\sqrt{T}\; ,\; d^2C\})$ で下界となる。 提案アルゴリズムは,$C$が$o(\sqrt{T})$の場合に,ほぼ最適な$\tilde{\mathcal{O}}(\sqrt{T})$後悔を達成し,広い範囲の$C$に対してサブ線形後悔を維持する。

This paper investigates the robustness of causal bandits (CBs) in the face of temporal model fluctuations. This setting deviates from the existing literature's widely-adopted assumption of constant causal models. The focus is on causal systems with linear structural equation models (SEMs). The SEMs and the time-varying pre- and post-interventional statistical models are all unknown and subject to variations over time. The goal is to design a sequence of interventions that incur the smallest cumulative regret compared to an oracle aware of the entire causal model and its fluctuations. A robust CB algorithm is proposed, and its cumulative regret is analyzed by establishing both upper and lower bounds on the regret. It is shown that in a graph with maximum in-degree $d$, length of the largest causal path $L$, and an aggregate model deviation $C$, the regret is upper bounded by $\tilde{\mathcal{O}}(d^{L-\frac{1}{2}}(\sqrt{T} + C))$ and lower bounded by $\Omega(d^{\frac{L}{2}-2}\max\{\sqrt{T}\; ,\; d^2C\})$. The proposed algorithm achieves nearly optimal $\tilde{\mathcal{O}}(\sqrt{T})$ regret when $C$ is $o(\sqrt{T})$, maintaining sub-linear regret for a broad range of $C$.
翻訳日:2024-05-14 13:25:43 公開日:2024-05-13
# FreeVA: トレーニングフリーのビデオアシスタントとしてのオフラインMLLM

FreeVA: Offline MLLM as Training-Free Video Assistant ( http://arxiv.org/abs/2405.07798v1 )

ライセンス: Link先を確認
Wenhao Wu, (参考訳) 本稿では,Multimodal Large Language Models (MLLMs: Video Assistant)の最新技術を再考するための実証的研究を行う。 この研究、つまりFreeVAは、既存の画像ベースのMLLMをトレーニング不要な方法でビデオ領域に拡張することを目的としている。 この研究は、必須だが必須のベースラインを提供し、いくつかの驚くべき発見を明らかにします。 1) オフライン画像ベースMLLMのみを活用するFreeVAは、ゼロショットビデオ質問応答(例えば、MSVD-QA、ActivityNet-QA、MSRVTT-QA)に優れており、ビデオ命令チューニングを含む最先端の手法を超越している。 2)メインストリームのビデオベースMLLMは,イメージベースMLLM(例,LLaVA)で初期化され,次にビデオインストラクションチューニングを用いた微調整を行うのが一般的であるが,ビデオインストラクションチューニングに広く採用されているVideoInstruct-100Kを用いることで,トレーニングを行わないことに比べ,実際のパフォーマンスは向上しない。 3) 既存の作業で一般的に使用されている評価指標は, GPT APIバージョンの変更によって大きく影響される。 無視すれば、これは異なる方法の比較の公平性と均一性に影響し、この分野の研究者の分析と判断に影響を与える可能性がある。 MLLMの進歩は現在活発であり、この分野に多くの研究者を引き寄せている。 本研究は,ビデオ領域における既存のMLLMの直接評価を奨励するとともに,ビデオ対話モデルの分野をある程度標準化し,プラグイン・アンド・プレイ・シンプルかつ効果的なベースラインとして機能することを目的としている。 現在のビデオMLLMメソッドは、イメージMLLM以上の知識を本当に獲得していますか? コードはhttps://github.com/whwu95/FreeVAで入手できる。

This paper undertakes an empirical study to revisit the latest advancements in Multimodal Large Language Models (MLLMs): Video Assistant. This study, namely FreeVA, aims to extend existing image-based MLLM to the video domain in a training-free manner. The study provides an essential, yet must-know baseline, and reveals several surprising findings: 1) FreeVA, leveraging only offline image-based MLLM without additional training, excels in zero-shot video question-answering (e.g., MSVD-QA, ActivityNet-QA, and MSRVTT-QA), even surpassing state-of-the-art methods that involve video instruction tuning. 2) While mainstream video-based MLLMs typically initialize with an image-based MLLM (e.g., LLaVA) and then fine-tune using video instruction tuning, the study indicates that utilizing the widely adopted VideoInstruct-100K for video instruction tuning doesn't actually lead to better performance compared to not training at all. 3) The commonly used evaluation metrics in existing works are significantly influenced by changes in the GPT API version over time. If ignored, this could affect the fairness and uniformity of comparisons between different methods and impact the analysis and judgment of researchers in the field. The advancement of MLLMs is currently thriving, drawing numerous researchers into the field. We aim for this work to serve as a plug-and-play, simple yet effective baseline, encouraging the direct evaluation of existing MLLMs in video domain while also standardizing the field of video conversational models to a certain extent. Also, we encourage researchers to reconsider: Have current video MLLM methods truly acquired knowledge beyond image MLLM? Code is available at https://github.com/whwu95/FreeVA
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 分類精度の向上によるデータインプット:カーネル法を改良した手法

Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method ( http://arxiv.org/abs/2405.07800v1 )

ライセンス: Link先を確認
Ruikai Yang, Fan He, Mingzhen He, Kaijie Wang, Xiaolin Huang, (参考訳) 不完全なデータセットに欠落する特徴要素を埋めるデータ計算は、データ駆動学習において重要な役割を果たす。 基本的信念は、データ計算はパフォーマンスを学ぶのに有用であり、より良い分類の追求はデータ計算過程を導くことができるというものである。 このタスクを支援するためにラベル情報を利用することを検討する研究もあるが、ラベルの単純利用は柔軟性に欠けており、厳密な仮定に依存する可能性がある。 本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。 具体的には、このフレームワークは2つの段階で動作します。 まず、ラベルを利用して、カーネル行列で表されるデータ間の類似性関係の最適化を監督し、分類精度を向上する。 このプロセス中に発生するオーバーフィッティングを軽減するために、フレームワークの堅牢性を改善するために摂動変数が導入された。 第二に、学習されたカーネル行列は、ブロック座標降下法を利用して、回帰を通じてデータ計算を導くための追加の監視情報として機能する。 提案手法の優位性を4つの実世界のデータセットで評価し,最先端の計算手法と比較した。 注目すべきは、我々のアルゴリズムは、データが60倍以上の特徴を欠いている場合、他の手法よりもはるかに優れています。

Data imputation, the process of filling in missing feature elements for incomplete data sets, plays a crucial role in data-driven learning. A fundamental belief is that data imputation is helpful for learning performance, and it follows that the pursuit of better classification can guide the data imputation process. While some works consider using label information to assist in this task, their simplistic utilization of labels lacks flexibility and may rely on strict assumptions. In this paper, we propose a new framework that effectively leverages supervision information to complete missing data in a manner conducive to classification. Specifically, this framework operates in two stages. Firstly, it leverages labels to supervise the optimization of similarity relationships among data, represented by the kernel matrix, with the goal of enhancing classification accuracy. To mitigate overfitting that may occur during this process, a perturbation variable is introduced to improve the robustness of the framework. Secondly, the learned kernel matrix serves as additional supervision information to guide data imputation through regression, utilizing the block coordinate descent method. The superiority of the proposed method is evaluated on four real-world data sets by comparing it with state-of-the-art imputation methods. Remarkably, our algorithm significantly outperforms other methods when the data is missing more than 60\% of the features
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 深層学習に基づくオブジェクトポース推定 : 総合的な調査

Deep Learning-Based Object Pose Estimation: A Comprehensive Survey ( http://arxiv.org/abs/2405.07801v1 )

ライセンス: Link先を確認
Jian Liu, Wei Sun, Hui Yang, Zhiwen Zeng, Chongpei Liu, Jin Zheng, Xingyu Liu, Hossein Rahmani, Nicu Sebe, Ajmal Mian, (参考訳) オブジェクトポーズ推定は、拡張現実やロボット工学の幅広い応用において、基本的なコンピュータビジョン問題である。 過去10年間で、より優れた精度と堅牢性のために、ディープラーニングモデルは、エンジニアリングされたポイントペア機能に依存する従来のアルゴリズムに取って代わる傾向にある。 それでも、ラベル付きトレーニングデータへの依存、モデルコンパクト性、挑戦条件下での堅牢性、新しい未知のオブジェクトに一般化する能力など、現代の手法ではいくつかの課題が続いている。 この分野のさまざまな側面、卓越した課題、将来有望な方向性に関する最近の調査は欠落している。 このギャップを埋めるために、ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じ、問題の3つの定式化、すなわち、インスタンスレベル、カテゴリレベル、見えないオブジェクトポーズ推定を網羅する。 また、複数の入力データモダリティ、出力ポーズの度合い、オブジェクト特性、下流タスクについても調査を行い、この分野の全体的理解を読者に提供する。 さらに、異なるドメイン、推論モード、アプリケーション領域、評価指標、ベンチマークデータセットのトレーニングパラダイムや、これらのベンチマークにおける現在の最先端メソッドのパフォーマンスを報告し、読者がアプリケーションに最も適したメソッドを選択するのを容易にする。 最後に、調査は鍵となる課題を特定し、その長所と短所と共に傾向をレビューし、将来の研究の有望な方向性を特定する。 また、最新の作業をhttps://github.com/CNJianLiu/Awesome-Object-Pose-Estimationで追跡しています。

Object pose estimation is a fundamental computer vision problem with broad applications in augmented reality and robotics. Over the past decade, deep learning models, due to their superior accuracy and robustness, have increasingly supplanted conventional algorithms reliant on engineered point pair features. Nevertheless, several challenges persist in contemporary methods, including their dependency on labeled training data, model compactness, robustness under challenging conditions, and their ability to generalize to novel unseen objects. A recent survey discussing the progress made on different aspects of this area, outstanding challenges, and promising future directions, is missing. To fill this gap, we discuss the recent advances in deep learning-based object pose estimation, covering all three formulations of the problem, i.e., instance-level, category-level, and unseen object pose estimation. Our survey also covers multiple input data modalities, degrees-of-freedom of output poses, object properties, and downstream tasks, providing readers with a holistic understanding of this field. Additionally, it discusses training paradigms of different domains, inference modes, application areas, evaluation metrics, and benchmark datasets, as well as reports the performance of current state-of-the-art methods on these benchmarks, thereby facilitating readers in selecting the most suitable method for their application. Finally, the survey identifies key challenges, reviews prevailing trends along with their pros and cons, and identifies promising directions for future research. We also keep tracing the latest works at https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 第一情報理論原理による非ランダムデータの幾何学的特性の復号化

Decoding Geometric Properties in Non-Random Data from First Information-Theoretic Principles ( http://arxiv.org/abs/2405.07803v1 )

ライセンス: Link先を確認
Hector Zenil, Felipe S. Abrahão, (参考訳) 情報理論,測度理論,理論計算機科学の原理に基づいて,符号化理論への幅広い応用,特に,事前の知識が得られず,返却メッセージが送信できない未知発生源からのメッセージの解読など,ゼロ知識の一方向通信チャネルにおいて,一変量信号デコンボリューション手法を導入する。 任意の受信信号からの多次元空間再構成法は、符号化・復号方式、計算モデル、プログラミング言語、形式理論、計算可能(あるいは半計算可能)なアルゴリズム複雑性への近似法、任意の選択された事象の確率測度など、無知なvis-a-visであることが証明された。 この方法は、任意の任意に仮定された事前確率分布に依存しないモデルの汎用モデルを構築することができる人工知能へのアプローチの原理から導かれる。 非ランダムデータを復号するこの最適で普遍的な方法は、信号処理、因果分解、トポロジカルおよび幾何学的性質の符号化、暗号、バイオおよびテクノシグナチャ検出に応用できると論じる。

Based on the principles of information theory, measure theory, and theoretical computer science, we introduce a univariate signal deconvolution method with a wide range of applications to coding theory, particularly in zero-knowledge one-way communication channels, such as in deciphering messages from unknown generating sources about which no prior knowledge is available and to which no return message can be sent. Our multidimensional space reconstruction method from an arbitrary received signal is proven to be agnostic vis-a-vis the encoding-decoding scheme, computation model, programming language, formal theory, the computable (or semi-computable) method of approximation to algorithmic complexity, and any arbitrarily chosen (computable) probability measure of the events. The method derives from the principles of an approach to Artificial General Intelligence capable of building a general-purpose model of models independent of any arbitrarily assumed prior probability distribution. We argue that this optimal and universal method of decoding non-random data has applications to signal processing, causal deconvolution, topological and geometric properties encoding, cryptography, and bio- and technosignature detection.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# モデルマージと圧縮の改善のためのタスク情報のローカライズ

Localizing Task Information for Improved Model Merging and Compression ( http://arxiv.org/abs/2405.07813v1 )

ライセンス: Link先を確認
Ke Wang, Nikolaos Dimitriadis, Guillermo Ortiz-Jimenez, François Fleuret, Pascal Frossard, (参考訳) モデルマージとタスク算術は、複数の単一タスクチェックポイントを1つのマルチタスクモデルにマージする、有望なスケーラブルなアプローチとして登場したが、それらの適用性は、大きなパフォーマンス損失によって低下している。 これまでの研究は、これらの落とし穴を重み空間の干渉と重要なタスク固有の特徴の消去に結びつけてきた。 代わりに、この研究では、異なるタスクが主に重複しない重みのセットを使用するため、各タスクをマージした後に、各タスクの解決に必要な情報が保存されていることを示す。 本稿では,タスクベクトルの集合を与えられたタスクを識別するTALL-maskを提案するとともに,マスクをマルチタスクベクトルに適用し,個々のチェックポイントを効果的に圧縮することにより,単一タスクの精度の99%を検索可能であることを示す。 建設マスク間の交叉統計を調査し,一つのタスクにのみ重要であり,すべてのタスクに無関係であるがマルチタスク融合に有害なパラメータである自尊心と破滅的な重みの存在を明らかにする。 そこで本研究では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。 最大20タスクの視覚およびNLPベンチマーク実験では,Consensus Mergingが既存のアプローチを一貫して改善していることが示されている。 さらに, 圧縮方式により, ストレージを57Gbから8.2Gbに削減し, オリジナル性能の99.7%を維持した。

Model merging and task arithmetic have emerged as promising scalable approaches to merge multiple single-task checkpoints to one multi-task model, but their applicability is reduced by significant performance loss. Previous works have linked these drops to interference in the weight space and erasure of important task-specific features. Instead, in this work we show that the information required to solve each task is still preserved after merging as different tasks mostly use non-overlapping sets of weights. We propose TALL-masks, a method to identify these task supports given a collection of task vectors and show that one can retrieve >99% of the single task accuracy by applying our masks to the multi-task vector, effectively compressing the individual checkpoints. We study the statistics of intersections among constructed masks and reveal the existence of selfish and catastrophic weights, i.e., parameters that are important exclusively to one task and irrelevant to all tasks but detrimental to multi-task fusion. For this reason, we propose Consensus Merging, an algorithm that eliminates such weights and improves the general performance of existing model merging approaches. Our experiments in vision and NLP benchmarks with up to 20 tasks, show that Consensus Merging consistently improves existing approaches. Furthermore, our proposed compression scheme reduces storage from 57Gb to 8.2Gb while retaining 99.7% of original performance.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# NutritionVerse-Direct: 食品画像からのマルチタスク栄養予測のためのディープニューラルネットワークの探索

NutritionVerse-Direct: Exploring Deep Neural Networks for Multitask Nutrition Prediction from Food Images ( http://arxiv.org/abs/2405.07814v1 )

ライセンス: Link先を確認
Matthew Keller, Chi-en Amy Tai, Yuhao Chen, Pengcheng Xi, Alexander Wong, (参考訳) 多くの高齢の個人は、食事摂取を効果的に追跡し、栄養関連合併症への感受性を高めるという課題に直面している。 自己報告手法はしばしば不正確であり、重大なバイアスに悩まされるが、インテリジェントな予測手法を活用することで、このプロセスの精度を自動化し、向上させることができる。 近年、食品画像から栄養情報を予測するためにコンピュータビジョン予測システムを用いた研究が進められている。 しかし、これらの方法はしばしば特定の状況に合わせて調整され、食物のイメージに加えて他の入力を必要とするか、包括的な栄養情報を提供しない。 本稿では, 各種ニューラルネットワークアーキテクチャを用いて, 食事の栄養素含量を画像から直接予測することにより, 食事摂取量推定の有効性を高めることを目的とする。 食事中に存在するカロリー(kcal)、質量(g)、タンパク質(g)、脂肪(g)、炭水化物(g)を予測する5つの回帰ヘッドを導く3つの完全に連結された層を持つ視覚トランスフォーマーベースアーキテクチャを利用するモデルであるNutritionVerse-Directを提案する。 NutritionVerse-Directは、NutritionVerse-Realデータセットの412.6の平均エラースコアを合計し、Inception-ResNetモデルよりも25.5%改善した。

Many aging individuals encounter challenges in effectively tracking their dietary intake, exacerbating their susceptibility to nutrition-related health complications. Self-reporting methods are often inaccurate and suffer from substantial bias; however, leveraging intelligent prediction methods can automate and enhance precision in this process. Recent work has explored using computer vision prediction systems to predict nutritional information from food images. Still, these methods are often tailored to specific situations, require other inputs in addition to a food image, or do not provide comprehensive nutritional information. This paper aims to enhance the efficacy of dietary intake estimation by leveraging various neural network architectures to directly predict a meal's nutritional content from its image. Through comprehensive experimentation and evaluation, we present NutritionVerse-Direct, a model utilizing a vision transformer base architecture with three fully connected layers that lead to five regression heads predicting calories (kcal), mass (g), protein (g), fat (g), and carbohydrates (g) present in a meal. NutritionVerse-Direct yields a combined mean average error score on the NutritionVerse-Real dataset of 412.6, an improvement of 25.5% over the Inception-ResNet model, demonstrating its potential for improving dietary intake estimation accuracy.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# クイック・クイック・アフォーマンス・ラーニング

Quick and Accurate Affordance Learning ( http://arxiv.org/abs/2405.07816v1 )

ライセンス: Link先を確認
Fedor Scholz, Erik Ayari, Johannes Bertram, Martin V. Butz, (参考訳) 幼児は自分の環境で積極的に学習し、独自の学習カリキュラムを形成する。 環境の可利用性、すなわち、環境にどのように影響するかを地域環境がどのように決定するかを学ぶ。 ここでは、ディープラーニングアーキテクチャを用いて、このような振る舞いをモデル化する。 このアーキテクチャは、グローバル認知地図探索とローカルアベイランス学習の間を仲介する。 推論プロセスは、シミュレートされたエージェントを、余裕に関連した知識の獲得を期待する領域へ積極的に移動させる。 モデルの不確かさの予測,いくつかのモデル(SD)間の標準偏差,およびいくつかのモデル間のJensen-Shannon Divergence(JSD)の3つの指標を比較した。 以上の結果から,第1の尺度は環境に固有のアレタリック不確実性によって騙され,他の2つの尺度はてんかん不確実性に焦点をあてる。 JSDは最もバランスの取れた探査戦略を示す。 計算的観点から,本モデルは,学習カリキュラムのアクティブな生成をコーディネートするための3つの重要な要素を示唆する。 2) 一般知識の獲得には,局所的に知識を符号化する必要がある。 3)有効能率学習機構は,期待される知識獲得を推定するために密度比較手法を用いるべきである。 将来の仕事は、より現実的なシナリオで子供たちの活発な遊びをモデル化するために、発達心理学とのコラボレーションを求めるかもしれない。

Infants learn actively in their environments, shaping their own learning curricula. They learn about their environments' affordances, that is, how local circumstances determine how their behavior can affect the environment. Here we model this type of behavior by means of a deep learning architecture. The architecture mediates between global cognitive map exploration and local affordance learning. Inference processes actively move the simulated agent towards regions where they expect affordance-related knowledge gain. We contrast three measures of uncertainty to guide this exploration: predicted uncertainty of a model, standard deviation between the means of several models (SD), and the Jensen-Shannon Divergence (JSD) between several models. We show that the first measure gets fooled by aleatoric uncertainty inherent in the environment, while the two other measures focus learning on epistemic uncertainty. JSD exhibits the most balanced exploration strategy. From a computational perspective, our model suggests three key ingredients for coordinating the active generation of learning curricula: (1) Navigation behavior needs to be coordinated with local motor behavior for enabling active affordance learning. (2) Affordances need to be encoded locally for acquiring generalized knowledge. (3) Effective active affordance learning mechanisms should use density comparison techniques for estimating expected knowledge gain. Future work may seek collaborations with developmental psychology to model active play in children in more realistic scenarios.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 対話型ロボット学習における複合モダリティの力

The Power of Combined Modalities in Interactive Robot Learning ( http://arxiv.org/abs/2405.07817v1 )

ライセンス: Link先を確認
Helen Beierling, Anna-Lisa Vollmer, (参考訳) 本研究では,人間とのインタラクションにおけるロボット学習の進化に寄与し,多様な入力モダリティが学習結果に与える影響について検討する。 これは「メタモダリティ」の概念を導入し、従来の嗜好やスカラーフィードバックのメカニズムを超えて、さらなるフィードバックの形式をカプセル化する。 個々のメタモダリティに焦点を当てた以前の研究とは異なり、この研究は学習結果に対するそれらの組み合わせの効果を評価する。 人間の被験者による研究を通じて、これらのモダリティに対するユーザの嗜好と、ロボット学習のパフォーマンスへの影響を探索する。 その結果,個々のモダリティは異なる知覚を受けるが,それらの組み合わせは学習行動とユーザビリティを著しく改善することがわかった。 本研究は、ロボット間対話型タスク学習の最適化に関する貴重な知見を提供するだけでなく、ユーザに提供する対話的自由度と足場機能を高めるための新たな道を開く。

This study contributes to the evolving field of robot learning in interaction with humans, examining the impact of diverse input modalities on learning outcomes. It introduces the concept of "meta-modalities" which encapsulate additional forms of feedback beyond the traditional preference and scalar feedback mechanisms. Unlike prior research that focused on individual meta-modalities, this work evaluates their combined effect on learning outcomes. Through a study with human participants, we explore user preferences for these modalities and their impact on robot learning performance. Our findings reveal that while individual modalities are perceived differently, their combination significantly improves learning behavior and usability. This research not only provides valuable insights into the optimization of human-robot interactive task learning but also opens new avenues for enhancing the interactive freedom and scaffolding capabilities provided to users in such settings.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 合成語彙データ検証:ダイバージェンスに基づくアプローチ

Synthetic Tabular Data Validation: A Divergence-Based Approach ( http://arxiv.org/abs/2405.07822v1 )

ライセンス: Link先を確認
Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo, (参考訳) 表データを使用するさまざまな分野における生成モデルの利用が増加し続けており、実際のデータと合成データの類似性を評価するための堅牢で標準化された検証指標の必要性が強調されている。 現在の手法には統一された枠組みが欠如しており、多様かつしばしば決定的でない統計測度に依存している。 データ分散間の相違を定量化するダイバージェンスは、バリデーションのための有望な道を提供する。 しかし、従来の手法は、結合分布モデリングの複雑さのため、各特徴に対して独立に発散を計算している。 本稿では,差分推定を用いて限界比較の限界を克服する手法を提案する。 我々の中核的な貢献は、実データと合成データの連成分布を考慮した検証指標を構築するために分散推定器を適用することである。 確率的分類器を用いてデータセット間の密度比を近似し、複雑な関係を捕捉する。 具体的には、KL(Kulback-Leibler)の発散とJS(Jensen-Shannon)の発散の2つの発散を計算する。 KL の発散はこの分野で確立された用途を提供し、JS の発散は対称で有界であり、信頼性のある計量を提供する。 このアプローチの有効性は、様々な分布の複雑さを持つ一連の実験によって実証される。 最初のフェーズでは、推定発散と単純な分布に対する解析解を比較し、精度のベンチマークを設定する。 最後に,実世界のデータセットとその対応する合成データを用いて,本手法の有効性を実証する。 本研究は, 表データを超える適用性や, 各種分野における合成データの妥当性向上に大きく貢献する。

The ever-increasing use of generative models in various fields where tabular data is used highlights the need for robust and standardized validation metrics to assess the similarity between real and synthetic data. Current methods lack a unified framework and rely on diverse and often inconclusive statistical measures. Divergences, which quantify discrepancies between data distributions, offer a promising avenue for validation. However, traditional approaches calculate divergences independently for each feature due to the complexity of joint distribution modeling. This paper addresses this challenge by proposing a novel approach that uses divergence estimation to overcome the limitations of marginal comparisons. Our core contribution lies in applying a divergence estimator to build a validation metric considering the joint distribution of real and synthetic data. We leverage a probabilistic classifier to approximate the density ratio between datasets, allowing the capture of complex relationships. We specifically calculate two divergences: the well-known Kullback-Leibler (KL) divergence and the Jensen-Shannon (JS) divergence. KL divergence offers an established use in the field, while JS divergence is symmetric and bounded, providing a reliable metric. The efficacy of this approach is demonstrated through a series of experiments with varying distribution complexities. The initial phase involves comparing estimated divergences with analytical solutions for simple distributions, setting a benchmark for accuracy. Finally, we validate our method on a real-world dataset and its corresponding synthetic counterpart, showcasing its effectiveness in practical applications. This research offers a significant contribution with applicability beyond tabular data and the potential to improve synthetic data validation in various fields.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# レーザー粉体融合におけるマルチ物理シミュレーションと機械学習の統合によるスパッタ機構とプロセスウィンドウの定義

Integrating Multi-Physics Simulations and Machine Learning to Define the Spatter Mechanism and Process Window in Laser Powder Bed Fusion ( http://arxiv.org/abs/2405.07823v1 )

ライセンス: Link先を確認
Olabode T. Ajenifujah, Francis Ogoke, Florian Wirth, Jack Beuth, Amir Barati Farimani, (参考訳) レーザーパウダーベッド融合 (LPBF) は, 自由形ジオメトリーを作製し, 制御された微細構造を生成できることから, 幅広い用途に期待されている。 しかし、LPBFが生成する部品は、レーザー-材料相互作用中に生じる欠陥のため、依然として準最適機械的特性を有する。 本研究では, LPBFにおける多物理現象をシミュレートするために構築した高忠実度モデリングツールを用いて, スパッタ形成機構について検討した。 モデリングツールは、溶融プールの3次元解像度とスパッタの挙動をキャプチャする機能を備えている。 スパッタの挙動と生成を理解するため, 噴出時の特性を明らかにし, 生成源である溶融プールからの変動を評価する。 スパッタとメルトプールのデータセットは、50%スパッタと50%メルトプールサンプルで構成され、位置成分、速度成分、速度サイズ、温度、密度、圧力を含む特徴を持つ。 分類タスクの相関解析と機械学習(ML)アルゴリズムを用いて,スパッタとメルトプールの関係を評価した。 データセット上で異なるMLアルゴリズムをスクリーニングすると、すべてのMLモデルに対して高い精度が観察され、ExtraTreesは96%、KNNは94%であった。

Laser powder bed fusion (LPBF) has shown promise for wide range of applications due to its ability to fabricate freeform geometries and generate a controlled microstructure. However, components generated by LPBF still possess sub-optimal mechanical properties due to the defects that are created during laser-material interactions. In this work, we investigate mechanism of spatter formation, using a high-fidelity modelling tool that was built to simulate the multi-physics phenomena in LPBF. The modelling tool have the capability to capture the 3D resolution of the meltpool and the spatter behavior. To understand spatter behavior and formation, we reveal its properties at ejection and evaluate its variation from the meltpool, the source where it is formed. The dataset of the spatter and the meltpool collected consist of 50 % spatter and 50 % melt pool samples, with features that include position components, velocity components, velocity magnitude, temperature, density and pressure. The relationship between the spatter and the meltpool were evaluated via correlation analysis and machine learning (ML) algorithms for classification tasks. Upon screening different ML algorithms on the dataset, a high accuracy was observed for all the ML models, with ExtraTrees having the highest at 96 % and KNN having the lowest at 94 %.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 言語モデルが法則をどう変えるか

A View of How Language Models Will Transform Law ( http://arxiv.org/abs/2405.07826v1 )

ライセンス: Link先を確認
Frank Fagan, (参考訳) ほとんどのコメンテーターは、LLMが日々の法律の実践をどう変えるかにのみ焦点を合わせてきたが、大きな構造的変化は、法分野全体において起こり得る。 生産性と補助コストの大幅な増加は、法律事務所や法人法務部門が大規模言語モデルを社内で開発することを奨励する可能性がある。 弁護士の生産性が10%向上すれば、平均規模の「ビッグ・ロー」企業が300人から400人の弁護士を雇うことになる。 これは6億から1億2000万ドルというコスト削減を意味し、専門のLLMの開発に十分な金額が支払われる。 最終的にLLMは、弁護士を高度に専門的でニュアンスのある役割に推し進める。 完全に成熟したLSMが到着した後も、弁護士は法律実務において中心的な役割を担い続ける。 これらのタスクは、主に、前例の発達や逆転、資産などの不足資源の配分など、価値判断に関係している。 機械が日常的な法的タスクを遂行し、弁護士が非ルーティンを扱う、この新しい法律機械労働は、良い判断を下し、社会変革の勝者や敗者に対して共感できる弁護士の需要を増大させる。 全体として、本条は、弁護士が減り、法律部門がより強化される可能性があることを示唆している。

While most commentators have focused exclusively on how LLMs will transform day-to-day law practice, a substantial structural change could be afoot within the legal sector as a whole. Large increases in productivity and attendant cost savings could encourage law firms and corporate legal departments to develop large language models in-house. A ten percent increase in attorney productivity would encourage an average sized 'Big Law' firm to reduce its associate headcount by 300 to 400 lawyers. This represents cost savings of 60 to 120 million dollars - more than enough to pay for the development of a specialized LLM. Eventually, LLMs will push lawyers into highly specialized and nuanced roles. After fully mature LLMs arrive, the lawyer will continue to play a central role in legal practice, but only in non-routine legal tasks. These tasks will primarily involve value judgments, such as the development of precedent or its reversal, or the allocation of property and other scarce resources. This new mix of lawyer-machine labor, where machines primarily carry out routine legal tasks, and lawyers handle the non-routine, will give rise to a growing demand for lawyers who can exercise good judgment and empathize with the winners and losers of social change. Overall, the Article suggests a possible future where there are fewer lawyers and greater consolidation of the legal sector.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# AIM-2ウェアラブルセンサによる食品摂取環境の自動認識

Automatic Recognition of Food Ingestion Environment from the AIM-2 Wearable Sensor ( http://arxiv.org/abs/2405.07827v1 )

ライセンス: Link先を確認
Yuning Huang, Mohamed Abul Hassan, Jiangpeng He, Janine Higgins, Megan McCrory, Heather Eicher-Miller, Graham Thomas, Edward O Sazonov, Fengqing Maggie Zhu, (参考訳) 摂食環境のモニタリングは食事摂取のモニタリングにおいて重要な側面である。 食事評価のための洞察力のある情報を提供する。 しかし、人間によるレビューが面倒な問題であり、アルゴリズムによるレビューはデータの不均衡と知覚的エイリアスの問題に悩まされている。 これらの問題に対処するため、我々は、微調整と転写学習の技術を巧みに組み合わせた2段階のトレーニングフレームワークを用いたニューラルネットワークベースの手法を提案する。 本手法は,エゴセントリックなウェアラブルカメラであるAIM-2センサを用いて,自由生活環境下での食品消費をシミュレートする「UA Free Living Study」という新たなデータセットを用いて評価した。 提案したトレーニングフレームワークは、一般的なニューラルネットワークのバックボーンに適用され、一般的な不均衡な分類分野のアプローチと組み合わせられる。 収集したデータセットに対する実験結果から,提案手法による自動摂取環境認識は,データセットの困難なデータ不均衡問題に対処し,96.63%という有望な総合的分類精度を実現することができた。

Detecting an ingestion environment is an important aspect of monitoring dietary intake. It provides insightful information for dietary assessment. However, it is a challenging problem where human-based reviewing can be tedious, and algorithm-based review suffers from data imbalance and perceptual aliasing problems. To address these issues, we propose a neural network-based method with a two-stage training framework that tactfully combines fine-tuning and transfer learning techniques. Our method is evaluated on a newly collected dataset called ``UA Free Living Study", which uses an egocentric wearable camera, AIM-2 sensor, to simulate food consumption in free-living conditions. The proposed training framework is applied to common neural network backbones, combined with approaches in the general imbalanced classification field. Experimental results on the collected dataset show that our proposed method for automatic ingestion environment recognition successfully addresses the challenging data imbalance problem in the dataset and achieves a promising overall classification accuracy of 96.63%.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# LLMは選挙予測に役立てられるか? (ボランティア)世界最大規模の民主主義の証拠

Can LLMs Help Predict Elections? (Counter)Evidence from the World's Largest Democracy ( http://arxiv.org/abs/2405.07828v1 )

ライセンス: Link先を確認
Pratik Gujral, Kshitij Awaldhi, Navya Jain, Bhavuk Bhandula, Abhijnan Chakraborty, (参考訳) ソーシャルメディアが世論の形成にどのように影響し、政治的結果に影響を及ぼすかについての研究は、一般的な調査分野である。 しかし、現在のアプローチはしばしば複雑な政治現象の限定的な理解を提供し、矛盾した結果をもたらす。 本研究では,Large Language Models (LLMs) の機能を活用し,ソーシャルメディアデータの検証と選挙結果の予測を行う新しい手法を提案する。 我々の研究は従来の方法論から2つの重要な点において分かれている。 まず,ソーシャルメディアデータに存在する複雑な言語的微妙さと文脈的詳細を理解可能な基礎的LLMの高度な機能を利用する。 第2に、インドのX(Twitter)のデータに着目し、州議会選挙の結果を予測する。 提案手法では,選挙関連ツイートの感情分析を行い,選挙結果の予測を行うとともに,従来の出口・世論調査に対する LLM 手法の優位性を実証する。 全体として、我々の研究は、インド政治のユニークなダイナミクスと、この文脈における大衆の態度形成におけるソーシャルメディアの顕著な影響に関する貴重な洞察を提供する。

The study of how social media affects the formation of public opinion and its influence on political results has been a popular field of inquiry. However, current approaches frequently offer a limited comprehension of the complex political phenomena, yielding inconsistent outcomes. In this work, we introduce a new method: harnessing the capabilities of Large Language Models (LLMs) to examine social media data and forecast election outcomes. Our research diverges from traditional methodologies in two crucial respects. First, we utilize the sophisticated capabilities of foundational LLMs, which can comprehend the complex linguistic subtleties and contextual details present in social media data. Second, we focus on data from X (Twitter) in India to predict state assembly election outcomes. Our method entails sentiment analysis of election-related tweets through LLMs to forecast the actual election results, and we demonstrate the superiority of our LLM-based method against more traditional exit and opinion polls. Overall, our research offers valuable insights into the unique dynamics of Indian politics and the remarkable impact of social media in molding public attitudes within this context.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# 導波路における量子エミッタのサブ放射と超放射長距離励起輸送

Subradiance and Superradiant Long Range Excitation Transport among Quantum Emitter Ensembles in a Waveguide ( http://arxiv.org/abs/2405.07833v1 )

ライセンス: Link先を確認
Martin Fasser, Laurin Ostermann, Helmut Ritsch und Christoph Hotter, (参考訳) 自由空間とは対照的に、導波路では、量子エミッタ間の分散性および散逸性双極子-双極子相互作用は驚くほど長い距離にわたって周期的な挙動を示す。 本研究では、この長距離周期性を利用して高励起のサブラジアント状態を作り、導波路に結合した遠方のアンサンブル間の高速制御された集団エネルギー輸送を促進する手法を提案する。 十分に大きなアンサンブルでは、ファイバーモードへの集合超放射が自由空間に支配される。 多数のエミッタに対して、高速な横コヒーレントパルスは、最大50\%の励起を持つほぼ完全なサブラジアント状態を生成することができることを示す。 一方、1つのサブアンサンブルのコヒーレントな励起が総励起率50\%以上の場合、ほとんど損失がなく高速なエネルギー移動が基底状態のサブアンサンブルに現れる。 この輸送は、互いに相対的なアンサンブルの位置を制御することで強化または抑制することができ、またランダムな位置分布でも実現することができる。 最適に強化された場合、この高速移動は、後続の超吸収を伴う超放射能放出として現れるが、吸収後の超放射能崩壊は起こらない。 高励起サブラジアント状態とスーパーラジアント励起移動は、アクティブ原子時計、量子電池、量子情報プロトコル、ファイバーベースのラムゼースキームのような量子メロジカルな手順などの応用において適切な構成ブロックとして現れる。

In contrast to free space, in waveguides the dispersive and dissipative dipole-dipole interactions among quantum emitters exhibit a periodic behavior over remarkably long distances. We propose a novel setup exploiting this long-range periodicity in order to create highly excited subradiant states and facilitate fast controlled collective energy transport amongst far-apart ensembles coupled to a waveguide. For sufficiently large ensembles collective superradiant emission into the fiber modes dominates over its free space counterpart. We show that for a large number of emitters a fast transverse coherent pulse can create almost perfect subradiant states with up to $50\%$ excitation. On the other hand, for a coherent excitation of one sub-ensemble above an overall excitation fraction of $50\%$ we find a nearly lossless and fast energy transfer to the ground state sub-ensemble. This transport can be enhanced or suppressed by controlling the positions of the ensembles relative to each other, while it can also be realized with a random position distribution. In the optimally enhanced case this fast transfer appears as superradiant emission with subsequent superabsorption, yet, without a superradiant decay after the absorption. The highly excited subradiant states as well as the superradiant excitation transfer appear as suitable building blocks in applications like active atomic clocks, quantum batteries, quantum information protocols and quantum metrology procedures such as fiber-based Ramsey schemes.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# Hyper-Trees による予測

Forecasting with Hyper-Trees ( http://arxiv.org/abs/2405.07836v1 )

ライセンス: Link先を確認
Alexander März, Kashif Rasul, (参考訳) 本稿では,Hyper-Treesの概念を紹介し,時系列データにツリーモデルを適用するための新たな方向性を提案する。 時系列を直接予測する従来の決定木とは異なり、ハイパートレーは対象時系列モデルのパラメータを学習するために設計されている。 このフレームワークは,木を増木する勾配に基づく性質を活用し,ハイパーネットワークの概念をハイパートレーに拡張し,木モデルに時系列帰納バイアスを誘導する。 対象とする時系列モデルのパラメータを特徴に関連付けることで、Hyper-Treesはパラメータ非定常性の課題に対処し、ツリーベースの予測が初期トレーニング範囲を超えて拡張できるようにする。 本研究では,様々な予測シナリオにまたがるハイパートレーの効果について検討し,時系列予測における従来の手法を通した勾配増進決定木の適用を拡大することを目的とする。

This paper introduces the concept of Hyper-Trees and offers a new direction in applying tree-based models to time series data. Unlike conventional applications of decision trees that forecast time series directly, Hyper-Trees are designed to learn the parameters of a target time series model. Our framework leverages the gradient-based nature of boosted trees, which allows us to extend the concept of Hyper-Networks to Hyper-Trees and to induce a time-series inductive bias to tree models. By relating the parameters of a target time series model to features, Hyper-Trees address the challenge of parameter non-stationarity and enable tree-based forecasts to extend beyond their initial training range. With our research, we aim to explore the effectiveness of Hyper-Trees across various forecasting scenarios and to expand the application of gradient boosted decision trees past their conventional use in time series forecasting.
翻訳日:2024-05-14 13:15:58 公開日:2024-05-13
# データ効率の良い一般値関数評価のための適応探索

Adaptive Exploration for Data-Efficient General Value Function Evaluations ( http://arxiv.org/abs/2405.07838v1 )

ライセンス: Link先を確認
Arushi Jain, Josiah P. Hanna, Doina Precup, (参考訳) 一般値関数 (GVF) (Sutton et al, 2011) は、強化学習における予測的知識を表現するための確立された方法である。 各GVFは、ユニークな擬似逆数に基づいて、所定のポリシーに対する期待された戻り値を計算する。 複数のGVFは、単一のデータストリームからのオフポリシー学習を使用して並列に推定することができる。 データ効率のよいGVF学習において,行動ポリシーをどのように選択すればよいのか? このギャップに対処するために,複数のGVFを並列に評価するデータを効率的に収集する行動ポリシーの学習を目的としたGVFExplorerを提案する。 この行動ポリシーは、すべてのGVFのリターンの総変動に比例して行動を選択し、環境相互作用の数を減らす。 正確な分散推定を実現するために,最近提案された時間差分推定器を用いる。 我々は,各行動ポリシー更新が,全GVFの総和予測における平均2乗誤差を低減することを証明した。 本手法の性能を表象表現と非線形関数近似の両方で実証的に示す。

General Value Functions (GVFs) (Sutton et al, 2011) are an established way to represent predictive knowledge in reinforcement learning. Each GVF computes the expected return for a given policy, based on a unique pseudo-reward. Multiple GVFs can be estimated in parallel using off-policy learning from a single stream of data, often sourced from a fixed behavior policy or pre-collected dataset. This leaves an open question: how can behavior policy be chosen for data-efficient GVF learning? To address this gap, we propose GVFExplorer, which aims at learning a behavior policy that efficiently gathers data for evaluating multiple GVFs in parallel. This behavior policy selects actions in proportion to the total variance in the return across all GVFs, reducing the number of environmental interactions. To enable accurate variance estimation, we use a recently proposed temporal-difference-style variance estimator. We prove that each behavior policy update reduces the mean squared error in the summed predictions over all GVFs. We empirically demonstrate our method's performance in both tabular representations and nonlinear function approximation.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# リフレクテッドレプリカ交換確率勾配ランゲバンダイナミクスによる制約付き探査

Constrained Exploration via Reflected Replica Exchange Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2405.07839v1 )

ライセンス: Link先を確認
Haoyang Zheng, Hengrong Du, Qi Feng, Wei Deng, Guang Lin, (参考訳) Replica exchange stochastic gradient Langevin dynamics (reSGLD)は、大規模データセットにおける非凸学習に有効なサンプルである。 しかし、高温チェーンが分布尾に深く入り込むと、シミュレーションは停滞する問題に遭遇する可能性がある。 この問題を解決するために,制約付き非凸探索に適したreSGLD(r2SGLD)を提案する。 理論的には、ドメインの直径を減らすことで混合速度が向上し、 \emph{quadratic} の挙動を示す。 実験では,物理制約による動的システム同定,制約付きマルチモーダル分布のシミュレーション,画像分類タスクなど,広範囲な実験によってその性能を検証した。 理論的および実証的な知見は、シミュレーション効率を改善する上での制約された探索の重要な役割を浮き彫りにした。

Replica exchange stochastic gradient Langevin dynamics (reSGLD) is an effective sampler for non-convex learning in large-scale datasets. However, the simulation may encounter stagnation issues when the high-temperature chain delves too deeply into the distribution tails. To tackle this issue, we propose reflected reSGLD (r2SGLD): an algorithm tailored for constrained non-convex exploration by utilizing reflection steps within a bounded domain. Theoretically, we observe that reducing the diameter of the domain enhances mixing rates, exhibiting a \emph{quadratic} behavior. Empirically, we test its performance through extensive experiments, including identifying dynamical systems with physical constraints, simulations of constrained multi-modal distributions, and image classification tasks. The theoretical and empirical findings highlight the crucial role of constrained exploration in improving the simulation efficiency.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# fMRI-prompted LLMを用いたオープンボキャブラリニューラルデコード

Open-vocabulary Auditory Neural Decoding Using fMRI-prompted LLM ( http://arxiv.org/abs/2405.07840v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Changde Du, Che Liu, Yizhe Wang, Huiguang He, (参考訳) 脳信号から言語情報を復号することは、特にfMRI信号から意味情報を解読する文脈において、脳とコンピュータのインタフェースの中で重要な研究領域である。 しかし、既存の多くの取り組みは小さな語彙集合の復号に集中しており、オープンな語彙連続的なテキスト復号の探索のための空間を残している。 本稿では,新しい手法であるtextbf{Brain Prompt GPT(BP-GPT)を紹介する。 本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号を刺激テキストに復号することができる。 さらに、テキスト間ベースラインを導入し、fMRIプロンプトをテキストプロンプトにアライメントする。 テキストからテキストへのベースラインを導入することで、BP-GPTはより堅牢な脳のプロンプトを抽出し、事前訓練されたLLMのデコードを促進することができる。 BP-GPTをオープンソースの聴覚意味的デコードデータセットで評価し,METEORでは4.61セント,BERTScoreでは2.43セントという大幅な改善を実現した。 実験結果から、聴覚神経復号のためのLLMをさらに推進するプロンプトとして、脳表現を用いることは可能であり、効果的であることが示された。

Decoding language information from brain signals represents a vital research area within brain-computer interfaces, particularly in the context of deciphering the semantic information from the fMRI signal. However, many existing efforts concentrate on decoding small vocabulary sets, leaving space for the exploration of open vocabulary continuous text decoding. In this paper, we introduce a novel method, the \textbf{Brain Prompt GPT (BP-GPT)}. By using the brain representation that is extracted from the fMRI as a prompt, our method can utilize GPT-2 to decode fMRI signals into stimulus text. Further, we introduce a text-to-text baseline and align the fMRI prompt to the text prompt. By introducing the text-to-text baseline, our BP-GPT can extract a more robust brain prompt and promote the decoding of pre-trained LLM. We evaluate our BP-GPT on the open-source auditory semantic decoding dataset and achieve a significant improvement up to $4.61\%$ on METEOR and $2.43\%$ on BERTScore across all the subjects compared to the state-of-the-art method. The experimental results demonstrate that using brain representation as a prompt to further drive LLM for auditory neural decoding is feasible and effective.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# 医療用機械学習におけるサンプル選択バイアス

Sample Selection Bias in Machine Learning for Healthcare ( http://arxiv.org/abs/2405.07841v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Lei Clifton, Achille Salaün, Huiqi Yvonne Lu, Kim Branson, Patrick Schwab, Gaurav Nigam, David A. Clifton, (参考訳) 機械学習アルゴリズムはパーソナライズド医療を約束するが、臨床応用は限られている。 この抑制に寄与する重要な要因の1つは、サンプル選択バイアス(SSB)であり、これは研究の人口が対象の人口より少ないことを示し、バイアスがあり、潜在的に有害な決定をもたらすことを意味する。 SSBは文献でよく知られているが、医療のための機械学習についてはほとんど研究されていない。 さらに,従来の手法では,対象個体群と対象個体群の分布のバランスをとることでバイアスの補正が試みられ,予測性能が低下する可能性がある。 これらの問題に対処するために,本研究では,SSBが機械学習アルゴリズムの性能に与える影響を調べることによって,SSBに関連する潜在的なリスクについて説明する。 より重要なことは、偏り補正ではなく、対象集団の同定に基づいて、SSBに対処するための新たな研究方向を提案することである。 具体的には、SSBに対処するための2つの独立したネットワーク(T-Net)とマルチタスクネットワーク(MT-Net)を提案する。 合成および半合成データセットを用いた実験結果から,SSBは対象個体群と比較して,対象個体群に対するアルゴリズムの性能が大幅に低下すること,および,対象個体群の代表である対象個体群と非選択個体群に対する性能に有意な差があることが示唆された。 さらに,提案手法は,データセットサイズ,イベントレート,選択率など,さまざまな設定において堅牢性を示し,既存のバイアス補正手法よりも優れていた。

While machine learning algorithms hold promise for personalised medicine, their clinical adoption remains limited. One critical factor contributing to this restraint is sample selection bias (SSB) which refers to the study population being less representative of the target population, leading to biased and potentially harmful decisions. Despite being well-known in the literature, SSB remains scarcely studied in machine learning for healthcare. Moreover, the existing techniques try to correct the bias by balancing distributions between the study and the target populations, which may result in a loss of predictive performance. To address these problems, our study illustrates the potential risks associated with SSB by examining SSB's impact on the performance of machine learning algorithms. Most importantly, we propose a new research direction for addressing SSB, based on the target population identification rather than the bias correction. Specifically, we propose two independent networks (T-Net) and a multitasking network (MT-Net) for addressing SSB, where one network/task identifies the target subpopulation which is representative of the study population and the second makes predictions for the identified subpopulation. Our empirical results with synthetic and semi-synthetic datasets highlight that SSB can lead to a large drop in the performance of an algorithm for the target population as compared with the study population, as well as a substantial difference in the performance for the target subpopulations that are representative of the selected and the non-selected patients from the study population. Furthermore, our proposed techniques demonstrate robustness across various settings, including different dataset sizes, event rates, and selection rates, outperforming the existing bias correction techniques.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# Swin Transformer UNetによる地表面画像のデコンボリューション

Ground-based Image Deconvolution with Swin Transformer UNet ( http://arxiv.org/abs/2405.07842v1 )

ライセンス: Link先を確認
Utsav Akhaury, Pascale Jablonka, Jean-Luc Starck, Frédéric Courbin, (参考訳) 地上のオールスキー天体調査では今後数年で数百万の画像が収集されるため、これらの画像の空間分解能を効率的に改善できる高速デコンボリューションアルゴリズムを開発する上で重要な要件が生まれる。 これらの調査からクリーンで高解像度の画像の回収に成功したことにより、正確な測光によって銀河の形成と進化の理解を深めることが目的である。 Swin Transformerアーキテクチャを用いた2段階のデコンボリューションフレームワークを提案する。 我々の研究は、ディープラーニングベースのソリューションが、科学的分析の範囲を制限してバイアスをもたらすことを明らかにした。 この制限に対処するため,スパーシティウェーブレットフレームワークの活性係数に依存する新しい第3ステップを提案する。 従来のデコンボリューションアルゴリズムであるFiredecと深層学習に基づく手法の性能比較を行うことで,EDisCSクラスタサンプルのサブセットを解析する。 本手法の利点は, 分解能回復, 雑音特性の一般化, 計算効率の両立にある。 このクラスター試料の分析は、我々の手法の効率を評価するだけでなく、これらの銀河内のクランプの数を、それらの円盤の色と関連づけて定量化することができる。 この堅牢な技術は、地上の画像から遠くの宇宙の構造を特定することを約束している。

As ground-based all-sky astronomical surveys will gather millions of images in the coming years, a critical requirement emerges for the development of fast deconvolution algorithms capable of efficiently improving the spatial resolution of these images. By successfully recovering clean and high-resolution images from these surveys, our objective is to help deepen our understanding of galaxy formation and evolution through accurate photometric measurements. We introduce a two-step deconvolution framework using a Swin Transformer architecture. Our study reveals that the deep learning-based solution introduces a bias, constraining the scope of scientific analysis. To address this limitation, we propose a novel third step relying on the active coefficients in the sparsity wavelet framework. By conducting a performance comparison between our deep learning-based method and Firedec, a classical deconvolution algorithm, we analyze a subset of the EDisCS cluster samples. We demonstrate the advantage of our method in terms of resolution recovery, generalization to different noise properties, and computational efficiency. Not only does the analysis of this cluster sample assess the efficiency of our method, but it also enables us to quantify the number of clumps within these galaxies in relation to their disc colour. This robust technique holds promise for identifying structures in the distant universe from ground-based images.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# ツリースタイル宇宙チャネル注意融合ネットワークによるドライバの疲労検出と顔認識のためのマルチタスク学習

Multi-Task Learning for Fatigue Detection and Face Recognition of Drivers via Tree-Style Space-Channel Attention Fusion Network ( http://arxiv.org/abs/2405.07845v1 )

ライセンス: Link先を確認
Shulei Qu, Zhenguo Gao, Xiaowei Chen, Na Li, Yakai Wang, Xiaoxiao Wu, (参考訳) 運転シナリオでは、自動車のアクティブな安全システムが、ディープラーニング技術をますます取り入れている。 これらのシステムは、疲労運転の検出や運転者の身元認識など、複数のタスクを同時に処理する必要がある。 しかし、複数の単一タスクモデルを組み合わせるという従来の並列スタイルのアプローチは、同様のタスクを扱う際にリソースを浪費する傾向がある。 そこで本研究では,マルチタスク学習のための新しいツリースタイルのマルチタスクモデリング手法を提案する。 そこで本研究では,ドライバの疲労検出と顔認識を同時に行うマルチタスク学習モデルを提案する。 このモデルは、共通の特徴抽出バックボーンモジュールを共有し、さらに分離された特徴抽出と分類モジュールブランチを持つ。 専用のブランチは、空間およびチャネルの注意機構を利用して、空間チャネルの融合した注意力を高める機能を生成し、検出性能を向上する。 シングルタスクデータセットのみが利用可能であるため、単一タスクデータセットのみを使用してマルチタスクモデルをトレーニングするための、更新の交互化や勾配の蓄積といったテクニックを導入します。 木型マルチタスク学習モデルの有効性を,広範囲な検証によって検証した。

In driving scenarios, automobile active safety systems are increasingly incorporating deep learning technology. These systems typically need to handle multiple tasks simultaneously, such as detecting fatigue driving and recognizing the driver's identity. However, the traditional parallel-style approach of combining multiple single-task models tends to waste resources when dealing with similar tasks. Therefore, we propose a novel tree-style multi-task modeling approach for multi-task learning, which rooted at a shared backbone, more dedicated separate module branches are appended as the model pipeline goes deeper. Following the tree-style approach, we propose a multi-task learning model for simultaneously performing driver fatigue detection and face recognition for identifying a driver. This model shares a common feature extraction backbone module, with further separated feature extraction and classification module branches. The dedicated branches exploit and combine spatial and channel attention mechanisms to generate space-channel fused-attention enhanced features, leading to improved detection performance. As only single-task datasets are available, we introduce techniques including alternating updation and gradient accumulation for training our multi-task model using only the single-task datasets. The effectiveness of our tree-style multi-task learning model is verified through extensive validations.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# SceneFactory: インクリメンタルなシーンモデリングのためのワークフロー中心で統一されたフレームワーク

SceneFactory: A Workflow-centric and Unified Framework for Incremental Scene Modeling ( http://arxiv.org/abs/2405.07847v1 )

ライセンス: Link先を確認
Yijun Yuan, Michael Bleier, Andreas Nüchter, (参考訳) ワークフロー中心で、インクリメンタルなシーンモデリングのための統合されたフレームワークであるSceneFactoryは、多視点深度推定、LiDAR完了、RGB-D/RGB-L/Mono/Depth-only Restruction、SLAMなど、幅広いアプリケーションに便利な機能を提供します。 ワークフロー中心の設計では、異なる生産ラインを構築するための基盤として、複数のブロックを使用している。 サポート対象のアプリケーション、すなわちプロダクションは設計の冗長性を避ける。 したがって、各ブロック自体が独立拡張のために焦点が当てられている。 すべての入力の組み合わせをサポートするため,SceneFactoryでは,(1)Mono-SLAM,(2)深さ推定,(3)反射,(4)シーン再構築の4つの構成要素で構成されている。 さらに,高密度な幾何を推定するための非定型かつ非定型な多視点深度推定モデル (U2-MVD) を提案する。 U2-MVDは、ポーズ、内在、逆深さの解決に高密度バンドル調整を利用する。 次に、セマンティックアウォードのScaleCovステップを導入して、マルチビューの深さを完了します。 U2-MVDをベースとして、SceneFactoryはユーザーフレンドリーな3D作成(画像のみ)をサポートし、Dense RGB-DとDense Monoのアプリケーションをブリッジする。 高品質な表面処理と色復元を行うため,第1表面可視表面色場設計のためのDM-NP(Duple-purpose Multi- resolutional Neural Points)を提案し,点クラウドに基づく表面探索のための改良点ラスタライズ(IPR)を導入した。 我々はSceneFactoryの実装と実験を行い、その幅広い実践性と高い柔軟性を実証した。 その品質は、あらゆるタスクにおいて、密に結合された最先端のアプローチと競合したり、超えたりします。 コードをコミュニティにコントリビュートする(https://jarrome.github.io/)。

We present SceneFactory, a workflow-centric and unified framework for incremental scene modeling, that supports conveniently a wide range of applications, such as (unposed and/or uncalibrated) multi-view depth estimation, LiDAR completion, (dense) RGB-D/RGB-L/Mono//Depth-only reconstruction and SLAM. The workflow-centric design uses multiple blocks as the basis for building different production lines. The supported applications, i.e., productions avoid redundancy in their designs. Thus, the focus is on each block itself for independent expansion. To support all input combinations, our implementation consists of four building blocks in SceneFactory: (1) Mono-SLAM, (2) depth estimation, (3) flexion and (4) scene reconstruction. Furthermore, we propose an unposed & uncalibrated multi-view depth estimation model (U2-MVD) to estimate dense geometry. U2-MVD exploits dense bundle adjustment for solving for poses, intrinsics, and inverse depth. Then a semantic-awared ScaleCov step is introduced to complete the multi-view depth. Relying on U2-MVD, SceneFactory both supports user-friendly 3D creation (with just images) and bridges the applications of Dense RGB-D and Dense Mono. For high quality surface and color reconstruction, we propose due-purpose Multi-resolutional Neural Points (DM-NPs) for the first surface accessible Surface Color Field design, where we introduce Improved Point Rasterization (IPR) for point cloud based surface query. We implement and experiment with SceneFactory to demonstrate its broad practicability and high flexibility. Its quality also competes or exceeds the tightly-coupled state of the art approaches in all tasks. We contribute the code to the community (https://jarrome.github.io/).
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# 一般化TLSフィンガープリントのための位置ユニグラムバイトモデル

Positional-Unigram Byte Models for Generalized TLS Fingerprinting ( http://arxiv.org/abs/2405.07848v1 )

ライセンス: Link先を確認
Hector A. Valdez, Sean McPherson, (参考訳) 位置ユニグラム・バイトモデルと、一般化TLSフィンガープリントの最大値を用いて、暗号スタントが堅牢であることを実証的に示す。 我々のアプローチは、クライアントの挨拶メッセージから位置ユニグラムのバイトモデルのセットを作成します。 各位置ユニグラムバイトモデルは、クライアントアプリケーションまたはプロセスによって生成されるTLSクライアントの挨拶トラフィックの統計モデルである。 TLS接続をフィンガープリンティングするためには、クライアントのハローを使用し、統計モデルの関数としてその可能性を計算する。 可能性関数を最大化する統計モデルは、与えられたクライアントのハローに対する予測されたクライアントアプリケーションである。 我々のデータ駆動アプローチはサイドチャネル情報を使用しず、オンザフライで更新できる。 提案手法を内部データセット上で実験的に検証し, ランダム化を総合的に増加させると, 未バイアスの$f_{1}$スコアを追跡することにより, 暗号スタントが堅牢であることを示す。

We use positional-unigram byte models along with maximum likelihood for generalized TLS fingerprinting and empirically show that it is robust to cipher stunting. Our approach creates a set of positional-unigram byte models from client hello messages. Each positional-unigram byte model is a statistical model of TLS client hello traffic created by a client application or process. To fingerprint a TLS connection, we use its client hello, and compute the likelihood as a function of a statistical model. The statistical model that maximizes the likelihood function is the predicted client application for the given client hello. Our data driven approach does not use side-channel information and can be updated on-the-fly. We experimentally validate our method on an internal dataset and show that it is robust to cipher stunting by tracking an unbiased $f_{1}$ score as we synthetically increase randomization.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# マルチパラメトリックMRIによる乳腺癌完全反応予測の至適化

Using Multiparametric MRI with Optimized Synthetic Correlated Diffusion Imaging to Enhance Breast Cancer Pathologic Complete Response Prediction ( http://arxiv.org/abs/2405.07854v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Alexander Wong, (参考訳) 2020年、世界中で68万5000人の死者が乳がんによるものとされ、革新的で効果的な乳がん治療の必要性を浮き彫りにした。 ネオアジュバント化学療法は乳癌の治療戦略として近年人気を集めており、腫瘍の縮小効果と病理学的完全性に起因している。 しかしながら、ネオアジュバント化学療法を推奨する現在のプロセスは、固有のバイアスと重大な不確実性を含む医療専門家の主観的な評価に依存している。 最近,CDI$s$から抽出した深部放射線像を用いて,非浸潤性乳癌の病理組織学的完全反応予測に有意な有意な可能性を示唆した。 本研究は,前立腺癌に対するCDI$^s$の最適化効果に触発され,乳癌の病理学的完全反応予測に最適化されたCDI$^s$を適用した。 拡散強調画像(DWI)で最適化されたCDI$^s$をフューズするマルチパラメトリックMRIを用いて, 従来報告したよりも5.5%高い93.28%の残像のクロスバリデーション精度を得る。

In 2020, 685,000 deaths across the world were attributed to breast cancer, underscoring the critical need for innovative and effective breast cancer treatment. Neoadjuvant chemotherapy has recently gained popularity as a promising treatment strategy for breast cancer, attributed to its efficacy in shrinking large tumors and leading to pathologic complete response. However, the current process to recommend neoadjuvant chemotherapy relies on the subjective evaluation of medical experts which contain inherent biases and significant uncertainty. A recent study, utilizing volumetric deep radiomic features extracted from synthetic correlated diffusion imaging (CDI$^s$), demonstrated significant potential in noninvasive breast cancer pathologic complete response prediction. Inspired by the positive outcomes of optimizing CDI$^s$ for prostate cancer delineation, this research investigates the application of optimized CDI$^s$ to enhance breast cancer pathologic complete response prediction. Using multiparametric MRI that fuses optimized CDI$^s$ with diffusion-weighted imaging (DWI), we obtain a leave-one-out cross-validation accuracy of 93.28%, over 5.5% higher than that previously reported.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# スパース入力による神経放射場改善のためのコーディネートネットワークとテンソル特徴の相乗的統合

Synergistic Integration of Coordinate Network and Tensorial Feature for Improving Neural Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2405.07857v1 )

ライセンス: Link先を確認
Mingyu Kim, Jun-Seong Kim, Se-Young Yun, Jin-Hwa Kim, (参考訳) マルチプレーン表現は、静的および動的神経放射場を横断する高速な訓練と推論のために強調されている。 このアプローチは、学習可能な格子上に投影し、隣接する頂点を補間することで関連する特徴を構築する。 しかし、低周波の詳細の取得には限界があり、マルチ解像度の概念にもかかわらず、細部への偏りのため、低周波の特徴のパラメータを過剰に使用する傾向がある。 この現象は、トレーニングのポーズがスパースであるときに不安定さと非効率性をもたらす。 本研究では,低周波信号に対する強いバイアスで知られる座標ネットワークに,多面表現を相乗的に統合する手法を提案する。 座標に基づくネットワークは低周波の詳細を捉え、マルチプレーン表現は細かな詳細を捉えることに重点を置いている。 それらの間の残余接続は、その固有の特性をシームレスに保存することを示した。 さらに,提案手法は,これら2つの特徴の絡み合いを促進させる。 提案手法は,より少ないパラメータで明示的な符号化に匹敵する結果が得られることを実証的に示す。

The multi-plane representation has been highlighted for its fast training and inference across static and dynamic neural radiance fields. This approach constructs relevant features via projection onto learnable grids and interpolating adjacent vertices. However, it has limitations in capturing low-frequency details and tends to overuse parameters for low-frequency features due to its bias toward fine details, despite its multi-resolution concept. This phenomenon leads to instability and inefficiency when training poses are sparse. In this work, we propose a method that synergistically integrates multi-plane representation with a coordinate-based network known for strong bias toward low-frequency signals. The coordinate-based network is responsible for capturing low-frequency details, while the multi-plane representation focuses on capturing fine-grained details. We demonstrate that using residual connections between them seamlessly preserves their own inherent properties. Additionally, the proposed progressive training scheme accelerates the disentanglement of these two features. We empirically show that the proposed method achieves comparable results to explicit encoding with fewer parameters, and particularly, it outperforms others for the static and dynamic NeRFs under sparse inputs.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# サブサンプリングモーメント回帰に対する一様推論

Uniform Inference for Subsampled Moment Regression ( http://arxiv.org/abs/2405.07860v1 )

ライセンス: Link先を確認
David M. Ritzwoller, Vasilis Syrgkanis, (参考訳) 条件付きモーメント方程式に対する解に対する信頼領域を構築する方法を提案する。 この手法は、サブサンプルカーネルに基づく非パラメトリック回帰のためのアルゴリズムのクラスを中心に構築されている。 このクラスは無作為な森林の回帰を含んでいる。 我々は、条件モーメント方程式が局所直交条件を満たすという制約の下で、信頼領域の名目的カバレッジ確率の誤差を拘束する。 本手法は, ランダム化実験における条件平均処理効果に対する信頼性領域の構築に適用可能である。 副生成物として、高次元の$U$-統計量の濃度と正規近似に関する新しい順序指定結果を得る。

We propose a method for constructing a confidence region for the solution to a conditional moment equation. The method is built around a class of algorithms for nonparametric regression based on subsampled kernels. This class includes random forest regression. We bound the error in the confidence region's nominal coverage probability, under the restriction that the conditional moment equation of interest satisfies a local orthogonality condition. The method is applicable to the construction of confidence regions for conditional average treatment effects in randomized experiments, among many other similar problems encountered in applied economics and causal inference. As a by-product, we obtain several new order-explicit results on the concentration and normal approximation of high-dimensional $U$-statistics.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# 最適化合成関連拡散画像を用いたマルチパラメトリックMRIによる乳癌の診断精度の向上

Improving Breast Cancer Grade Prediction with Multiparametric MRI Created Using Optimized Synthetic Correlated Diffusion Imaging ( http://arxiv.org/abs/2405.07861v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Alexander Wong, (参考訳) 2015年から2020年にかけて780万人の女性が乳癌と診断された。 乳がん治療計画において、グレーディングは重要な役割を担っている。 しかし、現在の腫瘍グレーディング法では、患者から組織を抽出し、ストレス、不快感、医療費の上昇につながる。 CDI$s$(CDI$s$)を併用した乳がん検診では,非侵襲的グレーディング法が有意な有意な有意な有意な有意な効果を示した。 前立腺癌に対するCDI$^s$の最適化効果に触発され,CDI$^s$を最適化して乳癌の診断成績を予測する。 拡散強調画像(DWI)を用いて最適化したCDI$^s$信号を融合し,各患者に対して多パラメータMRIを作成する。 患者コホートを大きくし, 事前訓練したmonAIモデルの全層にわたるトレーニングを行い, これまでに報告したよりも8%高い95.79%のクロスバリデーション精度を達成した。

Breast cancer was diagnosed for over 7.8 million women between 2015 to 2020. Grading plays a vital role in breast cancer treatment planning. However, the current tumor grading method involves extracting tissue from patients, leading to stress, discomfort, and high medical costs. A recent paper leveraging volumetric deep radiomic features from synthetic correlated diffusion imaging (CDI$^s$) for breast cancer grade prediction showed immense promise for noninvasive methods for grading. Motivated by the impact of CDI$^s$ optimization for prostate cancer delineation, this paper examines using optimized CDI$^s$ to improve breast cancer grade prediction. We fuse the optimized CDI$^s$ signal with diffusion-weighted imaging (DWI) to create a multiparametric MRI for each patient. Using a larger patient cohort and training across all the layers of a pretrained MONAI model, we achieve a leave-one-out cross-validation accuracy of 95.79%, over 8% higher compared to that previously reported.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# RLHFワークフロー:リワードモデリングからオンラインRLHFへ

RLHF Workflow: From Reward Modeling to Online RLHF ( http://arxiv.org/abs/2405.07863v1 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang, (参考訳) 本稿では,人間フィードバックからのオンライン反復強化学習(RLHF)のワークフローを,近年の大規模言語モデル(LLM)文学において,オフライン言語よりも優れていることが広く報告されている。 しかし、既存のオープンソースのRLHFプロジェクトは、まだオフラインの学習環境に限られている。 本稿では,このギャップを埋め,オンライン反復RLHFの再現が容易な詳細なレシピを提供することを目的とする。 特に、オンラインの人的フィードバックは通常、限られたリソースを持つオープンソースコミュニティでは実現できないため、さまざまなオープンソースデータセットを使用して好みモデルを構築し、構築されたプロキシ選好モデルを使用して、人間のフィードバックを近似することから始める。 次に、オンライン反復RLHFの背後にある理論的洞察とアルゴリズム原理について議論し、さらに詳細な実践的な実装を行った。 トレーニング済みLLMであるSFR-Iterative-DPO-LLaMA-3-8B-Rは,AlpacaEval-2,Arena-Hard,MT-Bench,HumanEval,TruthfulQAなどの学術ベンチマークなど,LLMチャットボットのベンチマークにおいて,優れたパフォーマンスを実現しています。 我々は、教師付き微調整(SFT)と反復RLHFが、完全なオープンソースデータセットで最先端のパフォーマンスを得ることができることを示した。 さらに、私たちのモデル、キュレートされたデータセット、包括的なステップバイステップのコードガイドブックを公開しました。 詳細はhttps://github.com/RLHFlow/RLHF-Reward-Modelingとhttps://github.com/RLHFlow/Online-RLHFを参照してください。

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# AnoVox: 自動運転におけるマルチモーダル異常検出ベンチマーク

AnoVox: A Benchmark for Multimodal Anomaly Detection in Autonomous Driving ( http://arxiv.org/abs/2405.07865v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Iramm Hamdard, Lukas Namgyu Rößler, Felix Geisler, Muhammed Bayram, Felix Wang, Jan Imhof, Miguel de Campos, Anushervon Tabarov, Yitian Yang, Hanno Gottschalk, J. Marius Zöllner, (参考訳) 自動運転車のスケールアップは、道路上のまれな物体のような異常に対処する能力に大きく依存している。 このような状況に対処するためには、そもそも異常を検出する必要がある。 自動走行の異常検出はここ数年で大きな進歩を遂げてきたが、カメラデータに強く焦点を絞った設計の悪いベンチマークに悩まされている。 本研究では,自動運転におけるANOmaly検出のための最大のベンチマークであるAnoVoxを提案する。 AnoVoxは、大規模なマルチモーダルセンサーデータと空間的VOXel地上真実を組み込んでおり、使用済みセンサとは無関係な方法の比較を可能にしている。 正規性の形式的定義を提案し,従順なトレーニングデータセットを提供する。 AnoVoxは、コンテンツと時間的異常の両方を含む最初のベンチマークである。

The scale-up of autonomous vehicles depends heavily on their ability to deal with anomalies, such as rare objects on the road. In order to handle such situations, it is necessary to detect anomalies in the first place. Anomaly detection for autonomous driving has made great progress in the past years but suffers from poorly designed benchmarks with a strong focus on camera data. In this work, we propose AnoVox, the largest benchmark for ANOmaly detection in autonomous driving to date. AnoVox incorporates large-scale multimodal sensor data and spatial VOXel ground truth, allowing for the comparison of methods independent of their used sensor. We propose a formal definition of normality and provide a compliant training dataset. AnoVox is the first benchmark to contain both content and temporal anomalies.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# Boostlet.js: JavaScriptインジェクションによるWeb用画像処理プラグイン

Boostlet.js: Image processing plugins for the web via JavaScript injection ( http://arxiv.org/abs/2405.07868v1 )

ライセンス: Link先を確認
Edward Gaibor, Shruti Varade, Rohini Deshmukh, Tim Meyer, Mahsa Geshvadi, SangHyuk Kim, Vidhya Sree Narayanappa, Daniel Haehn, (参考訳) Webベースの画像処理と可視化ツールは、かなりの時間と労力なしで既存のWebサイトに簡単に統合できますか? Boostlet.jsライブラリは、さらなる画像処理機能を実現するために、オープンソースのJavaScriptベースのWebフレームワークを提供することで、この問題に対処しています。 Boostletの例としては、カーネルフィルタリング、イメージキャプション、データの可視化、セグメンテーション、Web最適化機械学習モデルなどがある。 これを実現するためにBoostlet.jsはブラウザのブックマークを使用して、PowerBoostと呼ばれるユーザフレンドリーなプラグイン選択ツールをホストWebサイトに注入する。 Boostletはまた、ピクセルデータやシーン操作の可視化フレームワークとは独立して、標準APIへのオンサイトアクセスを提供する。 ウェブベースのBoostletsは、コンシューマレベルのハードウェアを使用して高度な画像処理技術を適用するためのモジュラーアーキテクチャとクライアント側処理機能を提供する。 コードはオープンソースで公開されている。

Can web-based image processing and visualization tools easily integrate into existing websites without significant time and effort? Our Boostlet.js library addresses this challenge by providing an open-source, JavaScript-based web framework to enable additional image processing functionalities. Boostlet examples include kernel filtering, image captioning, data visualization, segmentation, and web-optimized machine-learning models. To achieve this, Boostlet.js uses a browser bookmark to inject a user-friendly plugin selection tool called PowerBoost into any host website. Boostlet also provides on-site access to a standard API independent of any visualization framework for pixel data and scene manipulation. Web-based Boostlets provide a modular architecture and client-side processing capabilities to apply advanced image-processing techniques using consumer-level hardware. The code is open-source and available.
翻訳日:2024-05-14 13:06:14 公開日:2024-05-13
# 乳癌からの転移学習によるT2強調画像における臨床的意義のある前立腺癌予知の促進

Enhancing Clinically Significant Prostate Cancer Prediction in T2-weighted Images through Transfer Learning from Breast Cancer ( http://arxiv.org/abs/2405.07869v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Alexander Wong, (参考訳) 2020年、前立腺がんは14万件の新規感染者を出し、37万5000人以上が死亡した。 臨床的に重要な前立腺癌の正確な同定は、患者に効果的な治療を提供することに不可欠である。 その結果、磁気共鳴画像に基づく臨床的意義を予測するため、ディープニューラルネットワークの適用を探求する研究が急増した。 しかし、これらのネットワークは最適な性能を得るために広範囲なデータセットを必要とする。 近年,データ量の多いドメインから取得した特徴を活用して,限られたデータを持つドメインの性能を向上させる技術としてトランスファーラーニングが登場している。 本稿では,T2強調画像における乳癌からの転移学習による臨床的に有意な前立腺癌予知の改善について検討する。 その結果,残量一括検証精度は30%以上向上した。

In 2020, prostate cancer saw a staggering 1.4 million new cases, resulting in over 375,000 deaths. The accurate identification of clinically significant prostate cancer is crucial for delivering effective treatment to patients. Consequently, there has been a surge in research exploring the application of deep neural networks to predict clinical significance based on magnetic resonance images. However, these networks demand extensive datasets to attain optimal performance. Recently, transfer learning emerged as a technique that leverages acquired features from a domain with richer data to enhance the performance of a domain with limited data. In this paper, we investigate the improvement of clinically significant prostate cancer prediction in T2-weighted images through transfer learning from breast cancer. The results demonstrate a remarkable improvement of over 30% in leave-one-out cross-validation accuracy.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# Invisibleの地図化:Googleの位置情報で新型コロナウイルスの感染拡大を追跡できるフレームワーク

Mapping the Invisible: A Framework for Tracking COVID-19 Spread Among College Students with Google Location Data ( http://arxiv.org/abs/2405.07870v1 )

ライセンス: Link先を確認
Prajindra Sankar Krishnan, Chai Phing Chen, Gamal Alkawsi, Sieh Kiong Tiong, Luiz Fernando Capretz, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックとソーシャルディスタンシング(ソーシャルディスタンシング)政策の実施は、携帯電話の位置情報を利用した移動量追跡のデータに反映されるように、人々の訪問パターンを急速に変えた。 しかし、特定の場所での同時占領の頻度と期間は、訪問客の数よりも送信を左右する。 したがって、異なる場所での対話の仕方を理解することは、政策のターゲット、接触追跡の通知、予防戦略に不可欠である。 本研究は,実世界における人体移動データに基づくGoogle History Location Extractor and Indicatorソフトウェアを開発することで,キャンパス内大学生のウイルス拡散を効果的に抑制する方法を提案する。 このプラットフォームにより、政策立案者や研究者は、感染拡大における今後の発展の可能性を探り、異なる流行防止政策の下でのヒトの移動と流行状態の結果をシミュレートすることができる。 潜在的な接触を判定し、個々の感染リスクを評価し、対馬政策の有効性を評価する機能を提供している。 提案した多機能プラットフォームは、潜在的なウイルスキャリアをより正確に標的にすることでスクリーニングプロセスを容易にし、疫病対策に関する情報決定を行う支援を行い、最終的には、将来の流行の予防と管理に寄与する。

The COVID-19 pandemic and the implementation of social distancing policies have rapidly changed people's visiting patterns, as reflected in mobility data that tracks mobility traffic using location trackers on cell phones. However, the frequency and duration of concurrent occupancy at specific locations govern the transmission rather than the number of customers visiting. Therefore, understanding how people interact in different locations is crucial to target policies, inform contact tracing, and prevention strategies. This study proposes an efficient way to reduce the spread of the virus among on-campus university students by developing a self-developed Google History Location Extractor and Indicator software based on real-world human mobility data. The platform enables policymakers and researchers to explore the possibility of future developments in the epidemic's spread and simulate the outcomes of human mobility and epidemic state under different epidemic control policies. It offers functions for determining potential contacts, assessing individual infection risks, and evaluating the effectiveness of on-campus policies. The proposed multi-functional platform facilitates the screening process by more accurately targeting potential virus carriers and aids in making informed decisions on epidemic control policies, ultimately contributing to preventing and managing future outbreaks.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 制御可能なテキスト生成手法のメトリクスベース評価の再現

Reproducing the Metric-Based Evaluation of a Set of Controllable Text Generation Techniques ( http://arxiv.org/abs/2405.07875v1 )

ライセンス: Link先を確認
Michela Lorandi, Anya Belz, (参考訳) メトリクスベースの評価の再実行は、人間ベースの評価、特にオリジナルの著者によってコードとモデルチェックポイントが利用可能になる場合よりも、より簡単で、結果がより近いべきである。 本報告では, 単一属性と多属性制御可能なテキスト生成(CTG)手法のメトリクスに基づく評価を再現する試みについて述べるが, このような評価の再実行が必ずしも元の結果と同じ結果を生成するとは限らないことを示し, 元の成果の報告における誤りを明らかにすることができる。

Rerunning a metric-based evaluation should be more straightforward, and results should be closer, than in a human-based evaluation, especially where code and model checkpoints are made available by the original authors. As this report of our efforts to rerun a metric-based evaluation of a set of single-attribute and multiple-attribute controllable text generation (CTG) techniques shows however, such reruns of evaluations do not always produce results that are the same as the original results, and can reveal errors in the reporting of the original work.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 長距離ワームホールテレポーテーション

Long-range wormhole teleportation ( http://arxiv.org/abs/2405.07876v1 )

ライセンス: Link先を確認
Joseph D. Lykken, Daniel Jafferis, Alexander Zlokapa, David K. Kolchmeyer, Samantha I. Davis, Hartmut Neven, Maria Spiropulu, (参考訳) 我々は、古典的なチャネルを通してのみ通信するSachdev-Ye-Kitaev(SYK)モデルの2つの絡み合ったコピー間でワームホールの通信を可能にするために、GaoとJafferis arXiv:1911.07416のプロトコルを拡張した。 有限の$N$シミュレーションにおいて、このプロトコルは、Jafferis et al https://www.nature.com/articles/s41586-022-05424-3 で議論され要約されたワームホールテレポーテーションの特徴的なホログラフィック特性を示すことを示した。 Brown et al arXiv:1911.06314 と Nezami et al arXiv:2102.01064 が示すように、これらのホログラフィック的特徴がサイズワイディングとどのように関係しているかを詳細に検討し、示す。

We extend the protocol of Gao and Jafferis arXiv:1911.07416 to allow wormhole teleportation between two entangled copies of the Sachdev-Ye-Kitaev (SYK) model communicating only through a classical channel. We demonstrate in finite $N$ simulations that the protocol exhibits the characteristic holographic features of wormhole teleportation discussed and summarized in Jafferis et al. https://www.nature.com/articles/s41586-022-05424-3 . We review and exhibit in detail how these holographic features relate to size winding which, as first shown by Brown et al. arXiv:1911.06314 and Nezami et al. arXiv:2102.01064, encodes a dual description of wormhole teleportation.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# オートエンコーダと非負行列分解の関係と変異信号抽出への応用

On the Relation Between Autoencoders and Non-negative Matrix Factorization, and Their Application for Mutational Signature Extraction ( http://arxiv.org/abs/2405.07879v1 )

ライセンス: Link先を確認
Ida Egendal, Rasmus Froberg Brøndum, Marta Pelizzola, Asger Hobolth, Martin Bøgsted, (参考訳) 本研究の目的は,非負の行列分解(NMF)と非負の自己エンコーダの関係を理解する基盤を提供することである。 導入以来、NMFは高次元データの解釈可能な低次元表現を抽出するための一般的なツールである。 しかし近年、NMFをオートエンコーダに置き換える研究がいくつか提案されている。 このオートエンコーダの普及は、この代替が一般的に有効で妥当かどうかの調査を保証している。 さらに、非負の自己エンコーダとNMFの正確な関係は、完全には解明されていない。 そこで本研究では,非負の自己エンコーダとNMFの関係を詳細に検討することを目的とする。 2つのモデル間の接続は、NMFの制限された場合である凸NMFによって確立できる。 特に凸 NMF はオートエンコーダの特別な場合である。 NMFとオートエンコーダのパフォーマンスは、がんゲノムデータから突然変異シグネチャを抽出する文脈で比較される。 NMFに基づく再構成は, オートエンコーダよりも精度が高いが, 両手法で抽出したシグネチャは, 外部から検証した場合と同等の成分と値を示す。 以上の結果から,本論文では非負の自己エンコーダが変異シグネチャ抽出の分野でNMFの改善に寄与しないことが示唆された。

The aim of this study is to provide a foundation to understand the relationship between non-negative matrix factorization (NMF) and non-negative autoencoders enabling proper interpretation and understanding of autoencoder-based alternatives to NMF. Since its introduction, NMF has been a popular tool for extracting interpretable, low-dimensional representations of high-dimensional data. However, recently, several studies have proposed to replace NMF with autoencoders. This increasing popularity of autoencoders warrants an investigation on whether this replacement is in general valid and reasonable. Moreover, the exact relationship between non-negative autoencoders and NMF has not been thoroughly explored. Thus, a main aim of this study is to investigate in detail the relationship between non-negative autoencoders and NMF. We find that the connection between the two models can be established through convex NMF, which is a restricted case of NMF. In particular, convex NMF is a special case of an autoencoder. The performance of NMF and autoencoders is compared within the context of extraction of mutational signatures from cancer genomics data. We find that the reconstructions based on NMF are more accurate compared to autoencoders, while the signatures extracted using both methods show comparable consistencies and values when externally validated. These findings suggest that the non-negative autoencoders investigated in this article do not provide an improvement of NMF in the field of mutational signature extraction.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 異なるガウスに付随するHagedorn波束について

On Hagedorn wavepackets associated with different Gaussians ( http://arxiv.org/abs/2405.07880v1 )

ライセンス: Link先を確認
Jiří J. L. Vaníček, Zhan Tong Zhang, (参考訳) Hagedorn関数は、多次元圧縮および結合調和系の設定に対して、エルミート関数の慎重に構成された一般化である。 Hagedorn関数の重ね合わせによって形成されるウェーブパペットは、調和系とアンハーモニック系の変分において、時間依存のシュルンディンガー方程式を正確に解くのに成功している。 位置や運動エネルギーなどの典型的な観測可能量を評価するためには、単一のガウス中心を持つ正則ハゲゴルン函数を考えるのに十分である。 ここでは、スペクトル計算に必要な時間相関関数など、時間的に非局所的な量を評価するのに必要な重なり合いを含む、異なるガウスに関連付けられたヘッジル基底間の様々な関係を導出する。 まず、ボゴリューボフ変換を用いて、異なるガウス作用素に関連するはしご作用素間の可換関係を得る。 そして、数値的な二次式を使う代わりに、これらの可換関係を用いて、異なるガウス中心を持つハゲゴルン函数間の重なり合う積分の正確な反復関係を導出する。 最後に、我々の代数的手法の精度と効率を実証する数値実験を行い、分光学や化学力学の問題を扱いやすくする。

Hagedorn functions are carefully constructed generalizations of Hermite functions to the setting of many-dimensional squeezed and coupled harmonic systems. Wavepackets formed by superpositions of Hagedorn functions have been successfully used to solve the time-dependent Schr\"{o}dinger equation exactly in harmonic systems and variationally in anharmonic systems. For evaluating typical observables, such as position or kinetic energy, it is sufficient to consider orthonormal Hagedorn functions with a single Gaussian center. Here, we instead derive various relations between Hagedorn bases associated with different Gaussians, including their overlaps, which are necessary for evaluating quantities nonlocal in time, such as time correlation functions needed for computing spectra. First, we use the Bogoliubov transformation to obtain commutation relations between the ladder operators associated with different Gaussians. Then, instead of using numerical quadrature, we employ these commutation relations to derive exact recurrence relations for the overlap integrals between Hagedorn functions with different Gaussian centers. Finally, we present numerical experiments that demonstrate the accuracy and efficiency of our algebraic method as well as its suitability to treat problems in spectroscopy and chemical dynamics.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# ゼロショットトケナイザ転送

Zero-Shot Tokenizer Transfer ( http://arxiv.org/abs/2405.07883v1 )

ライセンス: Link先を確認
Benjamin Minixhofer, Edoardo Maria Ponti, Ivan Vulić, (参考訳) 言語モデル(LM)は、原文を語彙項目(トークン)のシーケンスにマッピングするトークン化器にバインドされている。 例えば、主に英語で訓練されたLMは、他の自然言語やプログラミング言語でもよく機能するが、英語中心のトークン化器によって効率が大幅に低下している。 これを緩和するためには、性能を劣化させることなく、元のLMトークンーを任意のトークンに置き換えることが可能である。 したがって、本研究では、ZeTT(Zero-Shot Tokenizer Transfer)という新しい問題を定義します。 ZeTTの中核にある課題は、新しいトークンの語彙にトークンの埋め込みを見つけることだ。 埋め込みを初期化するための事前ヒューリスティックスはZeTT設定でしばしば偶然に発生するので、我々はトークン化器を入力とし、対応する埋め込みを予測するハイパーネットワークを訓練する新しい解決策を提案する。 我々は、ハイパーネットワークがエンコーダ (eg , XLM-R) とデコーダ (eg , Mistral-7B) の両方で新しいトークン化器に一般化することを実証的に示す。 本手法は,言語間およびコーディングタスクにおける元のモデルの性能に近く,トークン化シーケンスの長さを著しく削減する。 また,1B未満のトークンのトレーニングを継続することで,残余のギャップを迅速に閉じることができることがわかった。 最後に、ベース(L)LMでトレーニングされたZeTTハイパーネットワークが、余分なトレーニングなしで微調整された変種にも適用可能であることを示す。 総じて, この結果は, トークン化剤からのLMの除去に大きく貢献している。

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# Lai Loss: 正規化を統合する新たな損失

Lai Loss: A Novel Loss Integrating Regularization ( http://arxiv.org/abs/2405.07884v1 )

ライセンス: Link先を確認
YuFei Lai, (参考訳) 機械学習の分野では、伝統的な正規化法は一般的に損失関数に直接正規化項を追加する傾向がある。 本稿では, 正規化項(次成分)を直観的幾何学的概念により従来の損失関数に統合した新しい損失設計である「レイロス」を紹介する。 この設計は、損失を通じて勾配ベクトルを革新的に罰し、モデルの滑らかさを効果的に制御し、過度な適合を減らし、不適合を避けるという2つの利点を提供する。 そこで本研究では,大規模なサンプル条件下でのアプリケーションの課題に対処するランダムサンプリング手法を提案する。 我々はKaggleから公開されているデータセットを用いて予備実験を行い、レイ損失の設計がモデルの滑らかさを最大精度で制御できることを実証した。

In the field of machine learning, traditional regularization methods generally tend to directly add regularization terms to the loss function. This paper introduces the "Lai loss", a novel loss design that integrates the regularization terms (gradient component) into the traditional loss function through a straightforward geometric ideation. This design innovatively penalizes the gradient vectors through the loss, effectively controlling the model's smoothness and offering the dual benefits of reducing overfitting and avoiding underfitting. Subsequently, we proposed a random sampling method that successfully addresses the challenges associated with its application under large sample conditions. We conducted preliminary experiments using publicly available datasets from Kaggle, demonstrating that the design of Lai loss can control the model's smoothness while ensuring maximum accuracy.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 大スピン量子を用いた量子計算

Quantum Computation Using Large Spin Qudits ( http://arxiv.org/abs/2405.07885v1 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, (参考訳) この論文は大きなスピンに符号化された量子ビットを用いた量子計算を探求し、量子共設計の概念を強調して、拡張量子情報処理のための物理プラットフォームのユニークな能力を利用する。 まず、量子量子計算のための高忠実な普遍ゲートセットの生成について検討する。 量子最適制御, ライドバーグ物理, アルカリ-アース原子の原子構造からの原理を応用し, 合理的な実験パラメータを持つ87Srの基底状態における高忠実な普遍ゲートセットのプロトコルを提案する。 次に、故障耐性量子計算(FTQC)のために、大きなスピン量子ビットの量子ビットを符号化するスキームを解析する。 物理系における最も支配的なノイズを理解することにより、標準プロトコルよりも優れたFTQCプロトコルを開発する。 最後に、中性原子量子計算のためのスピン量子ビットを考慮し、リークエラーを効率よくエラーリソースを消去するプロトコルについて検討した。 また, 量子情報を破壊せずに中性原子の冷却方法を開発した。

This dissertation explores quantum computation using qudits encoded into large spins, emphasizing the concept of quantum co-design to harness the unique capabilities of physical platforms for enhanced quantum information processing. First, we delve into the generation of high-fidelity universal gate sets for quantum computation with qudits. Leveraging principles from quantum optimal control, Rydberg physics, and the atomic structure of alkaline-earth atoms, we propose protocols for high-fidelity universal gate sets in the ground state of 87Sr with reasonable experimental parameters. Next, we analyze schemes to encode a qubit in the large spin qudits for fault-tolerant quantum computation (FTQC). By comprehending the most dominant noise in the physical system, we develop FTQC protocols that outperform the standard protocols. Finally, considering spin qudits for neutral atom quantum computation, we studied protocols for converting leakage errors to erasure errors resource efficiently. Also, we developed cooling methods for neutral atoms without destroying the quantum information.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 学術論文の自動要約のためのロシア・ランゲージマルチモーダルデータセット

Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers ( http://arxiv.org/abs/2405.07886v1 )

ライセンス: Link先を確認
Alena Tsanda, Elena Bruches, (参考訳) 本稿では、ロシア語科学論文のマルチモーダルデータセットの作成と、自動テキスト要約作業のための既存の言語モデルの試験について論じる。 データセットの特徴は、テキスト、テーブル、フィギュアを含むマルチモーダルデータである。 本稿では,SBER の Gigachat と Yandex の YandexGPT の 2 つの言語モデルによる実験結果について述べる。 データセットは420の論文で構成され、https://github.com/iis-research-team/summarization-datasetで公開されている。

The paper discusses the creation of a multimodal dataset of Russian-language scientific papers and testing of existing language models for the task of automatic text summarization. A feature of the dataset is its multimodal data, which includes texts, tables and figures. The paper presents the results of experiments with two language models: Gigachat from SBER and YandexGPT from Yandex. The dataset consists of 420 papers and is publicly available on https://github.com/iis-research-team/summarization-dataset.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# すべてのノードが平等ではない - GNN用のノード特有層アグリゲーションとフィルタ

All Nodes are created Not Equal: Node-Specific Layer Aggregation and Filtration for GNN ( http://arxiv.org/abs/2405.07892v1 )

ライセンス: Link先を確認
Shilong Wang, Hao Wu, Yifan Duan, Guibin Zhang, Guohao Li, Yuxuan Liang, Shirui Pan, Kun Wang, Yang Wang, (参考訳) 永遠に設計されたグラフニューラルネットワークは、グラフ構造データのモデリングに有望な道を開くが、残念ながらデバイスへの展開に2つの大きな障害をもたらす。 (I)既存のGNNのほとんどは浅く、ほとんどが過度にスムースでグラデーション・バニッシュな問題であり、畳み込みアーキテクチャとして深くなっているためです。 (II) GNNの大多数は、中央ノードとその隣接ノードが同じラベルを共有するホモフィリー仮定に準拠している。 この仮定は、異種グラフを扱う多くのGNNに対してしばしば問題を引き起こす。 上記の問題に対処することは、GNNアプリケーションの堅牢性とスケーラビリティを高める上で、難題となっている。 本稿では,上記の2つの課題を初めて克服するために,包括的で体系的なアプローチをとる。 本研究では,各ノードから情報をフィルタリングし,処理できるフレームワークであるNoSAFというNode-Specific Layer Aggregation and Filtrationアーキテクチャを提案する。 NoSAFは、ディープネットワークのすべての層に"All Nodes are Created Not Equal"という概念を導入し、各層のノードに信頼性の高い情報フィルタを提供し、その後の層に有益な情報を抽出することを目指している。 動的に更新されたコードバンクを組み込むことで、NoSAFは各層で出力された最適な情報を動的に最適化する。 これにより、不均一な問題を効果的に克服し、ネットワークをより深くする助けとなる。 また,NoSAFにおける連続フィルタリングによる情報損失を補うために,モデルの各層に情報を補う補償機構を組み込んだNoSAF-D(Deep)を提案する。

The ever-designed Graph Neural Networks, though opening a promising path for the modeling of the graph-structure data, unfortunately introduce two daunting obstacles to their deployment on devices. (I) Most of existing GNNs are shallow, due mostly to the over-smoothing and gradient-vanish problem as they go deeper as convolutional architectures. (II) The vast majority of GNNs adhere to the homophily assumption, where the central node and its adjacent nodes share the same label. This assumption often poses challenges for many GNNs working with heterophilic graphs. Addressing the aforementioned issue has become a looming challenge in enhancing the robustness and scalability of GNN applications. In this paper, we take a comprehensive and systematic approach to overcoming the two aforementioned challenges for the first time. We propose a Node-Specific Layer Aggregation and Filtration architecture, termed NoSAF, a framework capable of filtering and processing information from each individual nodes. NoSAF introduces the concept of "All Nodes are Created Not Equal" into every layer of deep networks, aiming to provide a reliable information filter for each layer's nodes to sieve out information beneficial for the subsequent layer. By incorporating a dynamically updated codebank, NoSAF dynamically optimizes the optimal information outputted downwards at each layer. This effectively overcomes heterophilic issues and aids in deepening the network. To compensate for the information loss caused by the continuous filtering in NoSAF, we also propose NoSAF-D (Deep), which incorporates a compensation mechanism that replenishes information in every layer of the model, allowing NoSAF to perform meaningful computations even in very deep layers.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 科学に基づくAIモデルによる新しい運用環境の認証と交通状況推定への応用

Science based AI model certification for new operational environments with application in traffic state estimation ( http://arxiv.org/abs/2405.07893v1 )

ライセンス: Link先を確認
Daryl Mupupuni, Anupama Guntu, Liang Hong, Kamrul Hasan, Leehyun Keel, (参考訳) さまざまなエンジニアリング領域における人工知能(AI)の役割の拡大は、新たな運用環境にAIモデルをデプロイする際の課題を強調しており、データ収集とモデルトレーニングに多大な投資をしている。 AIの迅速な適用は、最小または追加のデータを使用せずに、観測されていない運用環境で事前訓練されたモデルを使用することの可能性を評価する必要がある。 しかしながら、AIのブラックボックスモデルの不透明な性質を解釈することは、依然として永続的な課題である。 本稿では,新しい運用環境における事前学習型データ駆動モデルの適用可能性を評価するための,科学ベースの認証手法を提案する。 この方法論はドメイン知識の深い統合を提唱し、理論的および分析的モデルと物理および関連する分野、およびデータ駆動型AIモデルを活用する。 この新たなアプローチは、セキュアなエンジニアリングシステムの開発を促進するツールを導入し、AIベースのモデルの信頼性と安全性を、限られたトレーニングデータと、動的で不確実な条件によって特徴づけられるさまざまな環境にわたって保証する。 本研究は、特に交通状況推定の文脈において、現実世界の安全クリティカルなシナリオにおいて、この手法の有効性を実証する。 シミュレーションの結果から,提案手法が事前学習されたAIモデルによって提示される物理的不整合を効率的に定量化する方法について述べる。 分析モデルを利用することで、新しい運用環境における事前訓練されたAIモデルの適用性を評価する手段を提供する。 この研究は、AIモデルの理解とデプロイの促進に寄与し、さまざまな運用条件における信頼性と安全性の信頼性を高める堅牢な認証フレームワークを提供する。

The expanding role of Artificial Intelligence (AI) in diverse engineering domains highlights the challenges associated with deploying AI models in new operational environments, involving substantial investments in data collection and model training. Rapid application of AI necessitates evaluating the feasibility of utilizing pre-trained models in unobserved operational settings with minimal or no additional data. However, interpreting the opaque nature of AI's black-box models remains a persistent challenge. Addressing this issue, this paper proposes a science-based certification methodology to assess the viability of employing pre-trained data-driven models in new operational environments. The methodology advocates a profound integration of domain knowledge, leveraging theoretical and analytical models from physics and related disciplines, with data-driven AI models. This novel approach introduces tools to facilitate the development of secure engineering systems, providing decision-makers with confidence in the trustworthiness and safety of AI-based models across diverse environments characterized by limited training data and dynamic, uncertain conditions. The paper demonstrates the efficacy of this methodology in real-world safety-critical scenarios, particularly in the context of traffic state estimation. Through simulation results, the study illustrates how the proposed methodology efficiently quantifies physical inconsistencies exhibited by pre-trained AI models. By utilizing analytical models, the methodology offers a means to gauge the applicability of pre-trained AI models in new operational environments. This research contributes to advancing the understanding and deployment of AI models, offering a robust certification framework that enhances confidence in their reliability and safety across a spectrum of operational conditions.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# PLUTO: 病理・ユニバーサルトランス

PLUTO: Pathology-Universal Transformer ( http://arxiv.org/abs/2405.07905v1 )

ライセンス: Link先を確認
Dinkar Juyal, Harshith Padigela, Chintan Shah, Daniel Shenker, Natalia Harguindeguy, Yi Liu, Blake Martin, Yibo Zhang, Michael Nercessian, Miles Markey, Isaac Finberg, Kelsey Luu, Daniel Borders, Syed Ashar Javed, Emma Krause, Raymond Biju, Aashish Sood, Allen Ma, Jackson Nyman, John Shamshoian, Guillaume Chhor, Darpan Sanghavi, Marc Thibault, Limin Yu, Fedaa Najdawi, Jennifer A. Hipp, Darren Fahy, Benjamin Glass, Eric Walk, John Abel, Harsha Pokkalla, Andrew H. Beck, Sean Grullon, (参考訳) 病理学は組織の顕微鏡検査の研究であり、病理診断は疾患を診断するための医療用金基準であることが多い。 単一の病理WSI(Whole Slide Image)はギガピクセルサイズで、複数の解像度で何十万から数百万もの関心の対象を含んでいることが多い。 本研究はPathoLogy Universal TransfOrmer (PLUTO)を提案する。複数のサイトから収集された1億9500万枚の画像タイルの多種多様なデータセット上に事前学習し、複数のWSIスケールで有意義な表現を抽出し、様々な下流病理タスクを可能にする軽量な病理組織FMである。 特に,PLUTOの出力埋め込みを利用したタスク固有の適応ヘッドを,ケースセグメンテーション,タイル分類,スライドレベルの予測など,細胞内からスライドスケールまでの範囲にまたがるタスクに設計する。 我々は、PLUTOのパフォーマンスを、様々な生物学的なタスク、組織の種類、解像度、染色、スキャナーをカバーする様々な外部および内部ベンチマークで、最先端の他の手法と比較する。 PLUTOは既存のタスク固有のベースラインや病理学固有の基盤モデルに適合し,PLUTOと比較した場合,大局的なデータセットやモデルサイズを使用するものもある。 本研究は,データ多様性, 構造的改善, サンプル効率, 実世界のアプリケーションにおける実用的展開性の観点から, 病的基盤モデル周辺への普遍的な埋め込みへの道を示すものである。

Pathology is the study of microscopic inspection of tissue, and a pathology diagnosis is often the medical gold standard to diagnose disease. Pathology images provide a unique challenge for computer-vision-based analysis: a single pathology Whole Slide Image (WSI) is gigapixel-sized and often contains hundreds of thousands to millions of objects of interest across multiple resolutions. In this work, we propose PathoLogy Universal TransfOrmer (PLUTO): a light-weight pathology FM that is pre-trained on a diverse dataset of 195 million image tiles collected from multiple sites and extracts meaningful representations across multiple WSI scales that enable a large variety of downstream pathology tasks. In particular, we design task-specific adaptation heads that utilize PLUTO's output embeddings for tasks which span pathology scales ranging from subcellular to slide-scale, including instance segmentation, tile classification, and slide-level prediction. We compare PLUTO's performance to other state-of-the-art methods on a diverse set of external and internal benchmarks covering multiple biologically relevant tasks, tissue types, resolutions, stains, and scanners. We find that PLUTO matches or outperforms existing task-specific baselines and pathology-specific foundation models, some of which use orders-of-magnitude larger datasets and model sizes when compared to PLUTO. Our findings present a path towards a universal embedding to power pathology image analysis, and motivate further exploration around pathology foundation models in terms of data diversity, architectural improvements, sample efficiency, and practical deployability in real-world applications.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 多パラメータデコレーションを用いたロバスト量子センシング

Robust Quantum Sensing with Multiparameter Decorrelation ( http://arxiv.org/abs/2405.07907v1 )

ライセンス: Link先を確認
Shah Saad Alam, Victor E. Colussi, John Drew Wilson, Jarrod T. Reilly, Michael A. Perlin, Murray J. Holland, (参考訳) 量子センサの性能は基本的にノイズによって制限される。 このノイズは、センサの動作パラメータの変動に起因するターゲット信号の読み出しと相関すると特に損傷を受ける。 これらの不確実性は、マルチパラメータ推定理論で理解できる方法で感度を制限する。 我々は、任意の量子プラットフォームに適用可能な新しいアプローチを開発し、マルチパラメータ推定理論と機械学習を利用した堅牢なセンシングプロトコルを設計し、ターゲット信号が変動するオフターゲット(``nuisance'')パラメータからデコレーションする。 われわれのアプローチの中心は、機械学習エージェントを潜在的検出プロトコルの非常に大きな空間を通して誘導する情報理論的目標の同定である。 提案手法を再構成可能な光学格子に適用し,感度が格子深さノイズと非相関な加速度センサを設計する。 本稿では,パラメータ空間における統計的解析による結果とベイズ推論に対するデコリレーションの効果を実証し,量子力学および計算における将来の応用への示唆について論じる。

The performance of a quantum sensor is fundamentally limited by noise. This noise is particularly damaging when it becomes correlated with the readout of a target signal, caused by fluctuations of the sensor's operating parameters. These uncertainties limit sensitivity in a way that can be understood with multiparameter estimation theory. We develop a new approach, adaptable to any quantum platform, for designing robust sensing protocols that leverages multiparameter estimation theory and machine learning to decorrelate a target signal from fluctuating off-target (``nuisance'') parameters. Central to our approach is the identification of information-theoretic goals that guide a machine learning agent through an otherwise intractably large space of potential sensing protocols. As an illustrative example, we apply our approach to a reconfigurable optical lattice to design an accelerometer whose sensitivity is decorrelated from lattice depth noise. We demonstrate the effect of decorrelation on outcomes and Bayesian inferencing through statistical analysis in parameter space, and discuss implications for future applications in quantum metrology and computing.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# 自発性パラメトリックダウンコンバージョンにおけるゲイン誘発群遅延

Gain-induced group delay in spontaneous parametric down-conversion ( http://arxiv.org/abs/2405.07909v1 )

ライセンス: Link先を確認
Guillaume Thekkadath, Martin Houde, Duncan England, Philip Bustard, Frédéric Bouchard, Nicolás Quesada, Ben Sussman, (参考訳) 自発パラメトリックダウンコンバージョンや自発四波混合のような強駆動の非線形光学プロセスは、量子情報処理やセンシングに応用できる多光子非古典光線を生成することができる。 低利得状態とは対照的に、非古典的な光と非線形過程を駆動する強いポンプとの相互作用により、高利得状態に新しい物理的効果が生じる。 本稿では,高利得型II型パラメトリックダウンコンバージョン源で発生する多光子パルス間の利得誘起群遅延を実験的に記述する。 群遅延は生成した光子の識別可能性をもたらすため、強い光非線形性を必要とする量子干渉デバイスを設計する際には、それを補償することが重要である。

Strongly-driven nonlinear optical processes such as spontaneous parametric down-conversion and spontaneous four-wave mixing can produce multiphoton nonclassical beams of light which have applications in quantum information processing and sensing. In contrast to the low-gain regime, new physical effects arise in a high-gain regime due to the interactions between the nonclassical light and the strong pump driving the nonlinear process. Here, we describe and experimentally observe a gain-induced group delay between the multiphoton pulses generated in a high-gain type-II spontaneous parametric down-conversion source. Since the group delay introduces distinguishability between the generated photons, it will be important to compensate for it when designing quantum interference devices in which strong optical nonlinearities are required.
翻訳日:2024-05-14 12:56:21 公開日:2024-05-13
# CTRLorALTer:T2Iモデルの効率的な0ショット制御と調整のための条件付きロラダプタ

CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models ( http://arxiv.org/abs/2405.07913v1 )

ライセンス: Link先を確認
Nick Stracke, Stefan Andreas Baumann, Joshua M. Susskind, Miguel Angel Bautista, Björn Ommer, (参考訳) テキストから画像への生成モデルは、高精細な現実的な画像を生成するのに優れ、優れたツールとなっている。 しかし、これらのモデルの生成過程を、条件付けの反射様式や/または構造情報の詳細な形式を考えるために導くことは、未解決の問題である。 本稿では、ゼロショット制御が可能な新しい条件付きLoRAブロックを用いて、同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。 LoRAdapterは、条件テキストと画像の拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチであり、生成時のきめ細かい制御条件付けを可能にし、最近の最先端のアプローチより優れている。

Text-to-image generative models have become a prominent and powerful tool that excels at generating high-resolution realistic images. However, guiding the generative process of these models to consider detailed forms of conditioning reflecting style and/or structure information remains an open problem. In this paper, we present LoRAdapter, an approach that unifies both style and structure conditioning under the same formulation using a novel conditional LoRA block that enables zero-shot control. LoRAdapter is an efficient, powerful, and architecture-agnostic approach to condition text-to-image diffusion models, which enables fine-grained control conditioning during generation and outperforms recent state-of-the-art approaches
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# グラフ構造サンプリングによる分散学習

Distribution Learning Meets Graph Structure Sampling ( http://arxiv.org/abs/2405.07914v1 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Sutanu Gayen, Philips George John, Sayantan Sen, N. V. Vinodchandran, (参考訳) 本研究は,PAC学習高次元グラフィカルモデルの問題と,オンライン学習フレームワークを用いたグラフ構造の(効率的な)カウントとサンプリングの課題との間に,新たな関連性を確立するものである。 ログ損失関数を用いて分布Pからのサンプル列に指数重み付き平均値(EWA)またはランダム重み付き多数値(RWM)の予測値を適用すると、予測値が予測値と予測値との間のKLのばらつきを和らげることができる。 EWA と RWM に対する残念な境界は、ベイズネットを学習するための新しいサンプル複雑性境界をもたらす。 さらに、これらのアルゴリズムはベイズネットのいくつかの興味深いクラスに対して計算効率を上げることができる。 具体的には、未知構造木に対する新しいサンプル最適時間学習アルゴリズムと、与えられた弦骨格上のベイズネットに関する学習のための最初の多項式サンプル時間学習アルゴリズムを提供する。

This work establishes a novel link between the problem of PAC-learning high-dimensional graphical models and the task of (efficient) counting and sampling of graph structures, using an online learning framework. We observe that if we apply the exponentially weighted average (EWA) or randomized weighted majority (RWM) forecasters on a sequence of samples from a distribution P using the log loss function, the average regret incurred by the forecaster's predictions can be used to bound the expected KL divergence between P and the predictions. Known regret bounds for EWA and RWM then yield new sample complexity bounds for learning Bayes nets. Moreover, these algorithms can be made computationally efficient for several interesting classes of Bayes nets. Specifically, we give a new sample-optimal and polynomial time learning algorithm with respect to trees of unknown structure and the first polynomial sample and time algorithm for learning with respect to Bayes nets over a given chordal skeleton.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# IMAFD:時系列マルチスペクトルデータからの洪水検出のための解釈可能な多段階アプローチ

IMAFD: An Interpretable Multi-stage Approach to Flood Detection from time series Multispectral Data ( http://arxiv.org/abs/2405.07916v1 )

ライセンス: Link先を確認
Ziyang Zhang, Plamen Angelov, Dmitry Kangin, Nicolas Longépé, (参考訳) 本稿では,大規模な時系列変化検出の計算コストと,説明可能なAI(XAI)における解釈可能な意思決定プロセスの欠如という,洪水検出領域における2つの重要な課題に対処する。 これらの課題を克服するため,IMAFD が提案されている。 大規模なリモートセンシングタスクに適した、自動的で効率的で解釈可能なソリューションを提供し、意思決定プロセスに関する洞察を提供する。 IMAFD手法は動的時系列画像列の解析と,静的な画像内セマンティックセマンティックセマンティックセグメンテーションによるフラッディングが可能な画像の同定を組み合わせたものである。 異常検出(画像レベルとピクセルレベルの両方)とセマンティックセグメンテーションを組み合わせる。 洪水検出問題は,(1)シーケンスレベル,(2)疑わしい画像の特定,(3)疑わしい画像の変化の検出,(3)画像レベル,(4)画像の土地,水,クラウドクラスへのセマンティックセグメンテーション(セマンティックセグメンテーション)の4段階によって解決される。 私たちの貢献は2つのフォルダです。 まず,洪水検出のための多段階の全体的アプローチを提供することにより,高密度な変化検出のために処理対象のフレーム数を効率的に削減する。 第2に,提案した意味変化検出手法(ステージ) 3) 人間に解釈可能な意思決定プロセスを提供する一方で、説明可能なAI(XAI)メソッドのほとんどは、ポストホックな説明を提供する。 IMAFDフレームワークの評価はWorldFloods, RavAEn, MediaEvalの3つのデータセットを用いて行った。 上記のすべてのデータセットに対して、提案されたフレームワークは、解釈可能性と洞察を提供する他の方法と比較して、競争力のあるパフォーマンスを示している。

In this paper, we address two critical challenges in the domain of flood detection: the computational expense of large-scale time series change detection and the lack of interpretable decision-making processes on explainable AI (XAI). To overcome these challenges, we proposed an interpretable multi-stage approach to flood detection, IMAFD has been proposed. It provides an automatic, efficient and interpretable solution suitable for large-scale remote sensing tasks and offers insight into the decision-making process. The proposed IMAFD approach combines the analysis of the dynamic time series image sequences to identify images with possible flooding with the static, within-image semantic segmentation. It combines anomaly detection (at both image and pixel level) with semantic segmentation. The flood detection problem is addressed through four stages: (1) at a sequence level: identifying the suspected images (2) at a multi-image level: detecting change within suspected images (3) at an image level: semantic segmentation of images into Land, Water or Cloud class (4) decision making. Our contributions are two folder. First, we efficiently reduced the number of frames to be processed for dense change detection by providing a multi-stage holistic approach to flood detection. Second, the proposed semantic change detection method (stage 3) provides human users with an interpretable decision-making process, while most of the explainable AI (XAI) methods provide post hoc explanations. The evaluation of the proposed IMAFD framework was performed on three datasets, WorldFloods, RavAEn and MediaEval. For all the above datasets, the proposed framework demonstrates a competitive performance compared to other methods offering also interpretability and insight.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# 高レベルストリーム処理:断層回復の相補的解析

High-level Stream Processing: A Complementary Analysis of Fault Recovery ( http://arxiv.org/abs/2405.07917v1 )

ライセンス: Link先を確認
Adriano Vogel, Sören Henning, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser, (参考訳) 並列コンピューティングは、ソフトウェアシステムの性能を加速するために非常に重要である。 さらに、データボリュームを継続的に処理することが繰り返し発生する問題を考えると、ストリーム処理はパラダイムとソフトウェアアーキテクチャのスタイルとして現れます。 いくつかのソフトウェアシステムは、スケーラブルなパフォーマンスを提供するためにストリーム処理に依存しているが、オープンソースフレームワークはコーディングの抽象化とハイレベル並列コンピューティングを提供する。 ストリーム処理の性能は広く研究されているが、ストリーム処理フレームワークが提供する重要な抽象化であるフォールトトレランスの測定は、包括的なテストベッドで十分に測定されていない。 本研究は,構成空間の探索的解析,追加実験測定,改善機会の分析により,過去の故障復旧計測を拡張したものである。 当社では,大規模なクラウド可観測性プラットフォームのほぼリアルタイム分析の要件に触発された,ロバストなデプロイメントセットアップに重点を置いています。 その結果,障害回復と性能向上の可能性が示唆された。 しかし、これらの改善は、特に微調整される構成を特定し、選択し、適切な値を決定する際に、構成の複雑さに悩まされる。 そのため、大規模産業において、透過的な構成調整のための新しい抽象化も必要である。 私たちは、潜在的な抽象化とそれを実現する方法に関する洞察を提供するために、より多くのソフトウェアエンジニアリングの努力が必要であると信じています。 ストリーム処理コミュニティと業界実践者は、並列プログラミングをより生産的かつ効率的にするための専門知識と洞察を拡張できる、ハイレベルな並列プログラミングコミュニティとのより多くの相互作用の恩恵を受けることができます。

Parallel computing is very important to accelerate the performance of software systems. Additionally, considering that a recurring challenge is to process high data volumes continuously, stream processing emerged as a paradigm and software architectural style. Several software systems rely on stream processing to deliver scalable performance, whereas open-source frameworks provide coding abstraction and high-level parallel computing. Although stream processing's performance is being extensively studied, the measurement of fault tolerance--a key abstraction offered by stream processing frameworks--has still not been adequately measured with comprehensive testbeds. In this work, we extend the previous fault recovery measurements with an exploratory analysis of the configuration space, additional experimental measurements, and analysis of improvement opportunities. We focus on robust deployment setups inspired by requirements for near real-time analytics of a large cloud observability platform. The results indicate significant potential for improving fault recovery and performance. However, these improvements entail grappling with configuration complexities, particularly in identifying and selecting the configurations to be fine-tuned and determining the appropriate values for them. Therefore, new abstractions for transparent configuration tuning are also needed for large-scale industry setups. We believe that more software engineering efforts are needed to provide insights into potential abstractions and how to achieve them. The stream processing community and industry practitioners could also benefit from more interactions with the high-level parallel programming community, whose expertise and insights on making parallel programming more productive and efficient could be extended.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# 画像超解像における低パスフィルタ挙動の探索

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution ( http://arxiv.org/abs/2405.07919v1 )

ライセンス: Link先を確認
Haoyu Deng, Zijing Xu, Yule Duan, Xiao Wu, Wenjie Shu, Liang-Jian Deng, (参考訳) 画像超解像のためのディープニューラルネットワークは、補間のような従来のアプローチよりも大きな優位性を示している。 しかし、それらはしばしば「ブラックボックス」として批判され、数学的基盤が堅固な伝統的なアプローチと比較される。 本稿では,信号処理理論の理論を用いて,ディープニューラルネットワークの動作を解釈する。 インパルス入力がニューラルネットワークに入力されたときに発生する「シンク現象」と呼ばれる興味深い現象を最初に報告する。 本研究では,Hybird Response Analysis (HyRA) と呼ばれる画像超解像タスクにおけるニューラルネットワークの挙動を解析する手法を提案する。 詳細では、HyRAはニューラルネットワークを線形系と非線形系の並列接続に分解し、線形系が低域フィルタとして機能し、非線形系は高周波情報を注入することを示した。 さらに、入射した高周波情報を定量化するために、周波数スペクトル分布類似度(FSDS)と呼ばれる画像から画像へのタスクのメトリクスを導入する。 FSDSは、異なる周波数成分の分布類似性を反映し、従来のメトリクスが見落としている可能性のあるニュアンスをキャプチャする。 この作業のコードは、https://github.com/RisingEntropy/LPFInISR.comにある。

Deep neural networks for image super-resolution have shown significant advantages over traditional approaches like interpolation. However, they are often criticized as `black boxes' compared to traditional approaches which have solid mathematical foundations. In this paper, we attempt to interpret the behavior of deep neural networks using theories from signal processing theories. We first report an intriguing phenomenon, referred to as `the sinc phenomenon,' which occurs when an impulse input is fed to a neural network. Building on this observation, we propose a method named Hybird Response Analysis (HyRA) to analyze the behavior of neural networks in image super-resolution tasks. In details, HyRA decomposes a neural network into a parallel connection of a linear system and a non-linear system, demonstrating that the linear system functions as a low-pass filter, while the non-linear system injects high-frequency information. Furthermore, to quantify the injected high-frequency information, we introduce a metric for image-to-image tasks called Frequency Spectrum Distribution Similarity (FSDS). FSDS reflects the distribution similarity of different frequency components, capturing nuances that traditional metrics may overlook. Code for this work can be found in: https://github.com/RisingEntropy/LPFInISR.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# プロンプトチューニングにおけるテキストセマンティックスの改善はVLMの一般化を改善するか?

Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? ( http://arxiv.org/abs/2405.07921v1 )

ライセンス: Link先を確認
Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, (参考訳) 視覚言語モデル(VLM)の微調整を超えて、学習可能なプロンプトチューニングが、有望でリソース効率のよい代替手段として登場した。 その可能性にもかかわらず、効果的な学習は次の課題に直面します。 i) ローショットシナリオでのトレーニングは、オーバーフィッティング、適応性制限、新しいクラスやデータセットのパフォーマンス低下をもたらす。 (II) プロンプトチューニングの有効性はラベル空間に大きく依存し, 大規模クラス空間では性能が低下し, ブリッジ画像やクラス概念の潜在的なギャップが示唆された。 この研究において、より優れたテキストセマンティクスがこれらの懸念に対処するのに役立つかどうかを問う。 特に,大規模言語モデル(LLM)から得られたクラス記述を活用するプロンプトチューニング手法を提案する。 提案手法は,画像特徴とテキスト特徴の両方の部分レベル記述誘導ビューを構築し,さらに一般化可能なプロンプトを学習するために調整する。 11のベンチマークデータセットで実施した包括的な実験は、確立された方法よりも優れ、大幅に改善された。

Going beyond mere fine-tuning of vision-language models (VLMs), learnable prompt tuning has emerged as a promising, resource-efficient alternative. Despite their potential, effectively learning prompts faces the following challenges: (i) training in a low-shot scenario results in overfitting, limiting adaptability and yielding weaker performance on newer classes or datasets; (ii) prompt-tuning's efficacy heavily relies on the label space, with decreased performance in large class spaces, signaling potential gaps in bridging image and class concepts. In this work, we ask the question if better text semantics can help address these concerns. In particular, we introduce a prompt-tuning method that leverages class descriptions obtained from large language models (LLMs). Our approach constructs part-level description-guided views of both image and text features, which are subsequently aligned to learn more generalizable prompts. Our comprehensive experiments, conducted across 11 benchmark datasets, outperform established methods, demonstrating substantial improvements.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# 非IIDデータを用いたフェデレーション学習のための安定拡散に基づくデータ拡張

Stable Diffusion-based Data Augmentation for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2405.07925v1 )

ライセンス: Link先を確認
Mahdi Morafah, Matthias Reisser, Bill Lin, Christos Louizos, (参考訳) エッジデバイスの普及により、フェデレーテッドラーニング(FL)は、クライアントデータのプライバシを維持しながら、分散型かつ協調的なモデルトレーニングのための有望なパラダイムとして、最前線に進出した。 しかし、FLは、非独立性およびIdentically Distributed (Non-IID)データ分散に直面する場合、パフォーマンスの大幅な低下と収束性の低下に苦慮している。 クライアントのドリフト緩和や高度なサーバサイドモデル融合技術といった以前の取り組みは、この課題に対処する上でいくつかの成功を示してきたが、パフォーマンス低下の根本原因である、クライアント間のグローバルなデータ分布を正確に反映する同一データがないことをしばしば見落としている。 本稿では,最新のテクスト・ツー・イメージ基盤モデルの強力な能力を活用し,FLにおける非IID性能ギャップを埋める新しいアプローチであるGen-FedSDを紹介する。 Gen-FedSDでは、各クライアントは、各クラスラベルのテキストプロンプトを構築し、最先端の訓練済み安定拡散モデルを利用して、高品質なデータサンプルを合成する。 生成された合成データは、各クライアント固有のローカルデータギャップと分散格差に合わせて調整され、最終的な拡張ローカルデータIDを効果的に作成する。 実験により,Gen-FedSDは様々なデータセットや非IID設定に対して,最先端の性能と通信コストを大幅に削減できることが実証された。

The proliferation of edge devices has brought Federated Learning (FL) to the forefront as a promising paradigm for decentralized and collaborative model training while preserving the privacy of clients' data. However, FL struggles with a significant performance reduction and poor convergence when confronted with Non-Independent and Identically Distributed (Non-IID) data distributions among participating clients. While previous efforts, such as client drift mitigation and advanced server-side model fusion techniques, have shown some success in addressing this challenge, they often overlook the root cause of the performance reduction - the absence of identical data accurately mirroring the global data distribution among clients. In this paper, we introduce Gen-FedSD, a novel approach that harnesses the powerful capability of state-of-the-art text-to-image foundation models to bridge the significant Non-IID performance gaps in FL. In Gen-FedSD, each client constructs textual prompts for each class label and leverages an off-the-shelf state-of-the-art pre-trained Stable Diffusion model to synthesize high-quality data samples. The generated synthetic data is tailored to each client's unique local data gaps and distribution disparities, effectively making the final augmented local data IID. Through extensive experimentation, we demonstrate that Gen-FedSD achieves state-of-the-art performance and significant communication cost savings across various datasets and Non-IID settings.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# マルチロスグラディエント変調によるマルチモーダル学習の改善

Improving Multimodal Learning with Multi-Loss Gradient Modulation ( http://arxiv.org/abs/2405.07930v1 )

ライセンス: Link先を確認
Konstantinos Kontras, Christos Chatzichristos, Matthew Blaschko, Maarten De Vos, (参考訳) 音声やビデオなどの複数のモダリティからの学習は、補完的な情報を活用し、堅牢性を高め、文脈理解とパフォーマンスを改善する機会を提供する。 しかし、このようなモダリティを組み合わせることは、特にデータ構造、予測的貢献、学習過程の複雑さが異なる場合の課題となる。 1つのモダリティが学習プロセスを支配する可能性があり、他のモダリティからの情報の有効利用を妨げ、サブ最適モデルの性能をもたらすことが観察されている。 この問題に対処するために、以前のほとんどの研究は、単調な貢献を評価し、トレーニングを平等にするために動的に調整することを提案している。 我々は,多孔性目標を導入し,バランスプロセスをさらに洗練し,収束に伴うバランス効果を段階的に解消し,方向・加速度・減速の両モードの学習速度を動的に調整することで,従来の作業を改善する。 CREMA-Dでは、ResNetのバックボーンエンコーダを持つモデルが1.9%から12.4%、コンバータのバックボーンモデルは2.8%から14.1%の異なるフュージョンメソッドで改善を提供する。 AVEでは2.7%から7.7%、UCF101では6.1%に向上している。

Learning from multiple modalities, such as audio and video, offers opportunities for leveraging complementary information, enhancing robustness, and improving contextual understanding and performance. However, combining such modalities presents challenges, especially when modalities differ in data structure, predictive contribution, and the complexity of their learning processes. It has been observed that one modality can potentially dominate the learning process, hindering the effective utilization of information from other modalities and leading to sub-optimal model performance. To address this issue the vast majority of previous works suggest to assess the unimodal contributions and dynamically adjust the training to equalize them. We improve upon previous work by introducing a multi-loss objective and further refining the balancing process, allowing it to dynamically adjust the learning pace of each modality in both directions, acceleration and deceleration, with the ability to phase out balancing effects upon convergence. We achieve superior results across three audio-video datasets: on CREMA-D, models with ResNet backbone encoders surpass the previous best by 1.9% to 12.4%, and Conformer backbone models deliver improvements ranging from 2.8% to 14.1% across different fusion methods. On AVE, improvements range from 2.7% to 7.7%, while on UCF101, gains reach up to 6.1%.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# PARDEN、リピートできるの? 繰り返しで脱獄を防げる

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition ( http://arxiv.org/abs/2405.07932v1 )

ライセンス: Link先を確認
Ziyang Zhang, Qizhen Zhang, Jakob Foerster, (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 厳格な安全確保プロセスにもかかわらず、Llama 2やClaude 2のような安全性に配慮したLCMは依然としてジェイルブレイクの影響を受けており、セキュリティ上のリスクとモデルの悪用につながっている。 このようなリスクを軽減するための選択肢の1つは、LLMの入力や望ましくない動作の出力をチェックする専用の"セーフガード"でLLMを増強することである。 有望なアプローチは、LLM自体をセーフガードとして使用することだ。 それにもかかわらず、LSMに毒性物質を自己分類するよう促すようなベースライン法は、限られた有効性を示す。 アライメントトレーニングはモデルに自己検閲の振る舞いを与える("Sorry I can't do it")。 本研究では、モデルに自身の出力をリピートするように要求するだけで、ドメインシフトを回避するPARDENを提案する。 PARDENは、モデルへの微調整もホワイトボックスアクセスも必要としない。 提案手法の有効性を実証的に検証し,PARDENがLlama-2とClaude-2の既存のジェイルブレイク検出基準を著しく上回っていることを示す。 コードとデータはhttps://github.com/Ed-Zh/PARDENで公開されている。 PARDENは特に、高い真正性率(TPR)と低い偽正性率(FPR)の関連体制において強力であることがわかった。 例えば、Llama2-7Bの場合、TPRが90%に等しい場合、PARDENは有害な行動データセットでFPRを24.8%から2.0%に約11倍削減する。

Large language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety-aligned LLMs like Llama 2 and Claude 2 are still susceptible to jailbreaks, leading to security risks and abuse of the models. One option to mitigate such risks is to augment the LLM with a dedicated "safeguard", which checks the LLM's inputs or outputs for undesired behaviour. A promising approach is to use the LLM itself as the safeguard. Nonetheless, baseline methods, such as prompting the LLM to self-classify toxic content, demonstrate limited efficacy. We hypothesise that this is due to domain shift: the alignment training imparts a self-censoring behaviour to the model ("Sorry I can't do that"), while the self-classify approach shifts it to a classification format ("Is this prompt malicious"). In this work, we propose PARDEN, which avoids this domain shift by simply asking the model to repeat its own outputs. PARDEN neither requires finetuning nor white box access to the model. We empirically verify the effectiveness of our method and show that PARDEN significantly outperforms existing jailbreak detection baselines for Llama-2 and Claude-2. Code and data are available at https://github.com/Ed-Zh/PARDEN. We find that PARDEN is particularly powerful in the relevant regime of high True Positive Rate (TPR) and low False Positive Rate (FPR). For instance, for Llama2-7B, at TPR equal to 90%, PARDEN accomplishes a roughly 11x reduction in the FPR from 24.8% to 2.0% on the harmful behaviours dataset.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# ユニバーサルハンドモデルによる電話スキャンからの認証ハンドアバター

Authentic Hand Avatar from a Phone Scan via Universal Hand Model ( http://arxiv.org/abs/2405.07933v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Weipeng Xu, Rohan Joshi, Chenglei Wu, Takaaki Shiratori, (参考訳) AR/VRの没入体験には、手形やテクスチャなどの識別可能な情報をすべて備えた本物の3Dハンドアバターが必要である。 本稿では,ユニバーサルハンドモデル(UHM)を提案する。 1)任意のアイデンティティ(ID)の高忠実度3Dハンドメッシュを普遍的に表現することができる。 2) 身近な手用アバターの短い携帯スキャンで各人に適応できる。 効果的なユニバーサルハンドモデリングでは,トラッキングとモデリングを同時に行う一方,従来の3次元ハンドモデルは別々に行う。 従来の分離パイプラインは、モデリング段階では回復できないトラッキングステージからの累積エラーに悩まされる。 一方、我々はパイプライン全体の簡潔さを保ちながら、蓄積したエラーに悩まされていない。 さらに,トラッキングやモデリングにおいて,皮膚のすべりに対処する新たな画像マッチング損失関数を導入する。 最後に、UHMから学んだ先行情報を用いて、UHMを各人の手指アバターの短距離スキャンに効果的に適用する。

The authentic 3D hand avatar with every identifiable information, such as hand shapes and textures, is necessary for immersive experiences in AR/VR. In this paper, we present a universal hand model (UHM), which 1) can universally represent high-fidelity 3D hand meshes of arbitrary identities (IDs) and 2) can be adapted to each person with a short phone scan for the authentic hand avatar. For effective universal hand modeling, we perform tracking and modeling at the same time, while previous 3D hand models perform them separately. The conventional separate pipeline suffers from the accumulated errors from the tracking stage, which cannot be recovered in the modeling stage. On the other hand, ours does not suffer from the accumulated errors while having a much more concise overall pipeline. We additionally introduce a novel image matching loss function to address a skin sliding during the tracking and modeling, while existing works have not focused on it much. Finally, using learned priors from our UHM, we effectively adapt our UHM to each person's short phone scan for the authentic hand avatar.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# アクティブサンプリングの感度解析とアナログ回路シミュレーションへの応用

Sensitivity Analysis for Active Sampling, with Applications to the Simulation of Analog Circuits ( http://arxiv.org/abs/2405.07971v1 )

ライセンス: Link先を確認
Reda Chhaibi, Fabrice Gamboa, Christophe Oger, Vinicius Oliveira, Clément Pellegrini, Damien Remot, (参考訳) 本稿では,アナログ回路における複合変動の影響をシミュレートする,アクティブサンプリングフローを提案する。 このような状況下では、多数のパラメータを考慮すれば、サロゲートモデルに適合し、設計特徴の空間を効率的に探索することは困難である。 感度解析とベイジアン・サロゲート・モデリングを併用することにより, フレキシブルなアクティブ・サンプリング・フローが得られる。 合成および実際のデータセットでは、この流れは通常のモンテカルロサンプリングよりも優れており、しばしば設計空間探索の基礎となる。

We propose an active sampling flow, with the use-case of simulating the impact of combined variations on analog circuits. In such a context, given the large number of parameters, it is difficult to fit a surrogate model and to efficiently explore the space of design features. By combining a drastic dimension reduction using sensitivity analysis and Bayesian surrogate modeling, we obtain a flexible active sampling flow. On synthetic and real datasets, this flow outperforms the usual Monte-Carlo sampling which often forms the foundation of design space exploration.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# 局所適応型リスク制御

Localized Adaptive Risk Control ( http://arxiv.org/abs/2405.07976v1 )

ライセンス: Link先を確認
Matteo Zecchin, Osvaldo Simeone, (参考訳) Adaptive Risk Control (ARC) は、設定予測に基づくオンラインキャリブレーション戦略である。 ARCは、過去の決定からのフィードバックに基づいて、単一のスカラー閾値を変化させて設定した予測のサイズを調整する。 本研究では、ARCの最悪の性能を維持しつつ、条件付きリスクから限界リスクまでの統計的局所的リスク保証をターゲットとした、オンラインキャリブレーション方式であるLocalized Adaptive Risk Control (L-ARC)を導入する。 L-ARCは再生カーネルヒルベルト空間(RKHS)内のしきい値関数を更新し、カーネルは統計的リスク保証の局所化のレベルを決定する。 理論的結果は、統計的リスクの局所化と長期的リスク目標への収束速度のトレードオフを浮き彫りにする。 ローカライゼーションにより、L-ARCは様々なデータサブポピュレーションにまたがるリスク保証を備えた予測セットを生成する実験により、無線ネットワークにおける画像セグメンテーションやビーム選択といったタスクに対する校正モデルの公平性を大幅に向上させる。

Adaptive Risk Control (ARC) is an online calibration strategy based on set prediction that offers worst-case deterministic long-term risk control, as well as statistical marginal coverage guarantees. ARC adjusts the size of the prediction set by varying a single scalar threshold based on feedback from past decisions. In this work, we introduce Localized Adaptive Risk Control (L-ARC), an online calibration scheme that targets statistical localized risk guarantees ranging from conditional risk to marginal risk, while preserving the worst-case performance of ARC. L-ARC updates a threshold function within a reproducing kernel Hilbert space (RKHS), with the kernel determining the level of localization of the statistical risk guarantee. The theoretical results highlight a trade-off between localization of the statistical risk and convergence speed to the long-term risk target. Thanks to localization, L-ARC is demonstrated via experiments to produce prediction sets with risk guarantees across different data subpopulations, significantly improving the fairness of the calibrated model for tasks such as image segmentation and beam selection in wireless networks.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# プラトン表現仮説

The Platonic Representation Hypothesis ( http://arxiv.org/abs/2405.07987v1 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, (参考訳) AIモデル、特にディープネットワークにおける表現は収束していると我々は主張する。 まず、時間とともに複数のドメインにわたって、異なるニューラルネットワークがデータを表現する方法が整合してきているという、文献における収束の多くの例を調査します。 次に、データモダリティ間の収束を実証する。ビジョンモデルと言語モデルが大きくなるにつれて、データポイント間の距離を、より似たような方法で測定する。 我々は、この収束が、プラトンの理想的現実の概念に似た、共有された統計的な現実モデルに向かっていると仮定する。 このような表現をプラトニック表現と呼び、それに対するいくつかの選択的な圧力について論じる。 最後に、これらの傾向、その限界、分析に対する反例について論じる。

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato's concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# SPIN: 同時知覚、インタラクション、ナビゲーション

SPIN: Simultaneous Perception, Interaction and Navigation ( http://arxiv.org/abs/2405.07991v1 )

ライセンス: Link先を確認
Shagun Uppal, Ananye Agarwal, Haoyu Xiong, Kenneth Shaw, Deepak Pathak, (参考訳) 最近、操作と移動の分野で目覚ましい進歩があったが、モバイル操作は長年にわたる課題である。 移動体は移動体や静的操作と比較して、非構造的および動的環境において多様な長距離タスクを実現する必要がある。 アプリケーションは広くて興味深いが、ベースとアームの調整、環境の知覚と相互作用に対するオンボードの認識への依存、そして最も重要なのは、これらすべての部品を同時に統合するといった、これらのシステムの開発には多くの課題がある。 それまでの作業では、自明に結びついているモビリティと操作のために、アンタングル化されたモジュラースキルを使用して、この問題にアプローチしていた。 これは、エラーの複合化、意思決定の遅延、全身の調整など、いくつかの制限を引き起こす。 本研究では、アクティブな視覚システムを用いて、その環境を意識的に知覚し、反応するリアクティブなモバイル操作フレームワークを提案する。 人間は体全体と眼の調整を利用するのと同じように、動くために動き、見るために動く能力を利用する移動マニピュレータを開発します。 これにより、動き回って環境と対話するだけでなく、アクティブな視覚システムを使って「何」を知覚する「いつ」を選択することができる。 このようなエージェントは、環境マップを作成することなく、エゴビジョンのみを使用して、アジャイル全体のコーディネーションを表示しながら、複雑な乱雑なシナリオをナビゲートすることを学びます。 results visualizations and video at https://spin-robot.github.io/

While there has been remarkable progress recently in the fields of manipulation and locomotion, mobile manipulation remains a long-standing challenge. Compared to locomotion or static manipulation, a mobile system must make a diverse range of long-horizon tasks feasible in unstructured and dynamic environments. While the applications are broad and interesting, there are a plethora of challenges in developing these systems such as coordination between the base and arm, reliance on onboard perception for perceiving and interacting with the environment, and most importantly, simultaneously integrating all these parts together. Prior works approach the problem using disentangled modular skills for mobility and manipulation that are trivially tied together. This causes several limitations such as compounding errors, delays in decision-making, and no whole-body coordination. In this work, we present a reactive mobile manipulation framework that uses an active visual system to consciously perceive and react to its environment. Similar to how humans leverage whole-body and hand-eye coordination, we develop a mobile manipulator that exploits its ability to move and see, more specifically -- to move in order to see and to see in order to move. This allows it to not only move around and interact with its environment but also, choose "when" to perceive "what" using an active visual system. We observe that such an agent learns to navigate around complex cluttered scenarios while displaying agile whole-body coordination using only ego-vision without needing to create environment maps. Results visualizations and videos at https://spin-robot.github.io/
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# MambaOut: ビジョンにMambaは本当に必要か?

MambaOut: Do We Really Need Mamba for Vision? ( http://arxiv.org/abs/2405.07992v1 )

ライセンス: Link先を確認
Weihao Yu, Xinchao Wang, (参考訳) 状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処し、視覚タスクに適用された。 それでも、視覚に対するMambaのパフォーマンスは、畳み込みモデルや注目ベースのモデルと比較すると、しばしば過大評価される。 本稿では,マンバの本質を探求し,マンバが長期的・自己回帰的特徴を有するタスクに理想的に適していると結論づける。 視覚タスクの場合、画像分類はどちらの特徴とも一致しないため、このタスクにはマンバは必要ない、という仮説を立てる。 仮説を実証的に検証するために,Mambaブロックを積み重ねてコアトークンミキサーSSMを取り除き,\emph{MambaOut} という一連のモデルを構築した。 実験結果は仮説を強く支持する。 具体的には、イメージネット画像分類において、我々のMambaOutモデルはすべての視覚的Mambaモデルを上回っており、このタスクにはMambaが本当に不要であることを示している。 検出とセグメンテーションに関しては、MambaOutは最先端のビジュアルMambaモデルの性能と一致せず、長時間の視覚タスクに対するMambaの可能性を示す。 コードはhttps://github.com/yuweihao/MambaOutで入手できる。

Mamba, an architecture with RNN-like token mixer of state space model (SSM), was recently introduced to address the quadratic complexity of the attention mechanism and subsequently applied to vision tasks. Nevertheless, the performance of Mamba for vision is often underwhelming when compared with convolutional and attention-based models. In this paper, we delve into the essence of Mamba, and conceptually conclude that Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics. For vision tasks, as image classification does not align with either characteristic, we hypothesize that Mamba is not necessary for this task; Detection and segmentation tasks are also not autoregressive, yet they adhere to the long-sequence characteristic, so we believe it is still worthwhile to explore Mamba's potential for these tasks. To empirically verify our hypotheses, we construct a series of models named \emph{MambaOut} through stacking Mamba blocks while removing their core token mixer, SSM. Experimental results strongly support our hypotheses. Specifically, our MambaOut model surpasses all visual Mamba models on ImageNet image classification, indicating that Mamba is indeed unnecessary for this task. As for detection and segmentation, MambaOut cannot match the performance of state-of-the-art visual Mamba models, demonstrating the potential of Mamba for long-sequence visual tasks. The code is available at https://github.com/yuweihao/MambaOut
翻訳日:2024-05-14 12:46:36 公開日:2024-05-13
# 簡単な質問によるアクティブラーニング

Active Learning with Simple Questions ( http://arxiv.org/abs/2405.07937v1 )

ライセンス: Link先を確認
Vasilis Kontonis, Mingchen Ma, Christos Tzamos, (参考訳) 我々は、学習者がドメイン X に属する n 個の未ラベル例のプール S を提示し、対象概念 h^* \in H に一致する基礎的なラベリングを見つけるためにクエリーを尋ねる。 ラベルの単一例を問う従来のアクティブラーニングとは対照的に、学習者がドメイン T \subset X とターゲットラベル y のサブセットを選択できるより一般的な地域クエリーを研究し、学習者が集合 T \cap S のすべての例に対して h^*(x) = y を問う。 私たちの主な貢献は、クエリの数と学習者が使用するクエリ言語の複雑さの間のトレードオフを定量化することです。 本稿では,各領域のVC次元を用いて,領域問合せの複雑さを計測する。 我々は、VC次元 d の任意の仮説クラス H が与えられたとき、VC次元 O(d) を持つ領域クエリファミリー Q を設計でき、任意の n 個の例 S \subset X とすべての h^* \in H に対して、学習者は、Q から O(d log n) のクエリをラベラおよび完全ラベル S に送信することができることを示す。 最後に、間隔の和、高次元ボックス、およびd次元半空間を含むよく研究された仮説クラスに注目し、より強い結果を得る。 特に、我々は学習アルゴリズムを設計する。 i) 計算効率が高く (ii) 学習者のサンプルSのプールに基づいてクエリが答えられなくても、未知のSのスーパーセットL上で作業する。

We consider an active learning setting where a learner is presented with a pool S of n unlabeled examples belonging to a domain X and asks queries to find the underlying labeling that agrees with a target concept h^* \in H. In contrast to traditional active learning that queries a single example for its label, we study more general region queries that allow the learner to pick a subset of the domain T \subset X and a target label y and ask a labeler whether h^*(x) = y for every example in the set T \cap S. Such more powerful queries allow us to bypass the limitations of traditional active learning and use significantly fewer rounds of interactions to learn but can potentially lead to a significantly more complex query language. Our main contribution is quantifying the trade-off between the number of queries and the complexity of the query language used by the learner. We measure the complexity of the region queries via the VC dimension of the family of regions. We show that given any hypothesis class H with VC dimension d, one can design a region query family Q with VC dimension O(d) such that for every set of n examples S \subset X and every h^* \in H, a learner can submit O(d log n) queries from Q to a labeler and perfectly label S. We show a matching lower bound by designing a hypothesis class H with VC dimension d and a dataset S \subset X of size n such that any learning algorithm using any query class with VC dimension O(d) must make poly(n) queries to label S perfectly. Finally, we focus on well-studied hypothesis classes including unions of intervals, high-dimensional boxes, and d-dimensional halfspaces, and obtain stronger results. In particular, we design learning algorithms that (i) are computationally efficient and (ii) work even when the queries are not answered based on the learner's pool of examples S but on some unknown superset L of S
翻訳日:2024-05-14 12:36:52 公開日:2024-05-13
# EconLogicQA: 経済シーケンス推論における大規模言語モデル評価のための質問応答ベンチマーク

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning ( http://arxiv.org/abs/2405.07938v1 )

ライセンス: Link先を確認
Yinzhu Quan, Zefang Liu, (参考訳) 本稿では,経済,ビジネス,サプライチェーン管理の複雑な領域において,大規模言語モデル(LLM)の逐次推論能力を評価するための厳密なベンチマークであるEconLogicQAを紹介する。 EconLogicQAは、後続のイベントを個別に予測する従来のベンチマークとは違い、複数の相互接続されたイベントを識別してシーケンスする必要があるため、経済論理の複雑さを捉える必要がある。 EconLogicQAは、時間的および論理的事象の関係に関する洞察に富んだ理解を必要とする、経済的な記事から派生した多段階シナリオで構成されている。 EconLogicQAは、包括的な評価を通じて、経済的な文脈に固有のシーケンシャルな複雑さをナビゲートするLLMの習熟度を効果的に評価することを示した。 本稿では,EconLogicQAデータセットの詳細な説明と,各種先進LLMのベンチマーク評価結果について述べる。 ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qaで公開されています。

In this paper, we introduce EconLogicQA, a rigorous benchmark designed to assess the sequential reasoning capabilities of large language models (LLMs) within the intricate realms of economics, business, and supply chain management. Diverging from traditional benchmarks that predict subsequent events individually, EconLogicQA poses a more challenging task: it requires models to discern and sequence multiple interconnected events, capturing the complexity of economic logics. EconLogicQA comprises an array of multi-event scenarios derived from economic articles, which necessitate an insightful understanding of both temporal and logical event relationships. Through comprehensive evaluations, we exhibit that EconLogicQA effectively gauges a LLM's proficiency in navigating the sequential complexities inherent in economic contexts. We provide a detailed description of EconLogicQA dataset and shows the outcomes from evaluating the benchmark across various leading-edge LLMs, thereby offering a thorough perspective on their sequential reasoning potential in economic contexts. Our benchmark dataset is available at https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa.
翻訳日:2024-05-14 12:36:52 公開日:2024-05-13
# RAID: 機械生成テキスト検出器のロバスト評価のための共有ベンチマーク

RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors ( http://arxiv.org/abs/2405.07940v1 )

ライセンス: Link先を確認
Liam Dugan, Alyssa Hwang, Filip Trhlik, Josh Magnus Ludan, Andrew Zhu, Hainiu Xu, Daphne Ippolito, Chris Callison-Burch, (参考訳) 多くの商用およびオープンソースモデルは、非常に高い精度(99\%以上)で機械生成テキストを検出すると主張している。 しかし、共有ベンチマークデータセットで評価される検出器はほとんどなく、評価に使用されるデータセットは不十分で、サンプリング戦略、敵攻撃、オープンソース生成モデルのバリエーションが欠如している。 本研究では,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを紹介する。 RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。 RAIDを用いて,8つのクローズドソース検出器と4つのクローズドソース検出器のドメイン外および逆方向のロバスト性を評価し,現在の検出器は,敵攻撃やサンプリング戦略のバリエーション,繰り返し罰則,予期せぬ生成モデルによって容易に騙されることがわかった。 私たちは、検出器の堅牢性に関するさらなる調査を促進するために、データセットとツールをリリースします。

Many commercial and open-source models claim to detect machine-generated text with very high accuracy (99\% or higher). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging -- lacking variations in sampling strategy, adversarial attacks, and open-source generative models. In this work we present RAID: the largest and most challenging benchmark dataset for machine-generated text detection. RAID includes over 6 million generations spanning 11 models, 8 domains, 11 adversarial attacks and 4 decoding strategies. Using RAID, we evaluate the out-of-domain and adversarial robustness of 8 open- and 4 closed-source detectors and find that current detectors are easily fooled by adversarial attacks, variations in sampling strategies, repetition penalties, and unseen generative models. We release our dataset and tools to encourage further exploration into detector robustness.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# ORアグリゲーションによる効率的および普遍的メルクルツリー包含証明

Efficient and Universal Merkle Tree Inclusion Proofs via OR Aggregation ( http://arxiv.org/abs/2405.07941v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Alex Rusnak, Anton Yezhov, Dzianis Kanonik, Kateryna Kuznetsova, Oleksandr Domin, (参考訳) ゼロ知識証明は、ブロックチェーンアプリケーションのプライバシとセキュリティを強化する強力なツールとして登場した。 しかしながら、証明システムの効率性とスケーラビリティは、特にメルクル木包含証明の文脈において重要な課題である。 AND論理に基づく従来の証明集約技術は、検証の複雑さとデータ通信のオーバーヘッドに悩まされ、大規模アプリケーションでは実用性が制限される。 本稿では,OR論理に基づく新しい証明アグリゲーション手法を提案する。 OR論理を用いて証明を集約することにより、木内の葉の数に依存しない証明サイズを実現し、有効な葉のハッシュ1つを用いて検証を行うことができる。 これは、すべての葉のハッシュを処理するのに検証器が必要であるため、アグリゲーションとアグリゲーションを大幅に改善することを意味する。 ORアグリゲーション論理を正式に定義し、普遍的な証明を生成する過程を記述し、証明サイズ、検証データ、普遍性の観点から、我々のアプローチの利点を実証する比較分析を行う。 さらに、ORとANDアグリゲーションロジックを組み合わせて複雑な受け入れ関数を作成する可能性について議論し、様々なブロックチェーンアプリケーションのための表現的かつ効率的な証明システムの開発を可能にする。 提案した技術は、ゼロ知識証明システムのスケーラビリティ、効率、柔軟性を大幅に向上させる可能性があり、ブロックチェーンエコシステムにおけるより実践的で適応的なソリューションの道を開いた。

Zero-knowledge proofs have emerged as a powerful tool for enhancing privacy and security in blockchain applications. However, the efficiency and scalability of proof systems remain a significant challenge, particularly in the context of Merkle tree inclusion proofs. Traditional proof aggregation techniques based on AND logic suffer from high verification complexity and data communication overhead, limiting their practicality for large-scale applications. In this paper, we propose a novel proof aggregation approach based on OR logic, which enables the generation of compact and universally verifiable proofs for Merkle tree inclusion. By aggregating proofs using OR logic, we achieve a proof size that is independent of the number of leaves in the tree, and verification can be performed using any single valid leaf hash. This represents a significant improvement over AND aggregation, which requires the verifier to process all leaf hashes. We formally define the OR aggregation logic, describe the process of generating universal proofs, and provide a comparative analysis demonstrating the advantages of our approach in terms of proof size, verification data, and universality. Furthermore, we discuss the potential of combining OR and AND aggregation logics to create complex acceptance functions, enabling the development of expressive and efficient proof systems for various blockchain applications. The proposed techniques have the potential to significantly enhance the scalability, efficiency, and flexibility of zero-knowledge proof systems, paving the way for more practical and adaptive solutions in the blockchain ecosystem.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 階層的決定マンバ

Hierarchical Decision Mamba ( http://arxiv.org/abs/2405.07943v1 )

ライセンス: Link先を確認
André Correia, Luís A. Alexandre, (参考訳) 近年の模倣学習の進歩は、タスクの振る舞いを効果的に模倣する構造化された情報の流れを提供するシーケンスモデルの統合によって大きく加速されている。 現在、Decision Transformer (DT) とそれに続く階層型Decision Transformer (HDT) は、タスクポリシーを学ぶためのTransformerベースのアプローチを提示している。 近年、Mambaアーキテクチャは様々なタスク領域でTransformerより優れていることが示されている。 本研究では,トランスフォーマーモデルの性能向上を目的とした2つの新しい手法,Decision Mamba (DM) とHierarchical Decision Mamba (HDM) を紹介する。 OpenAI GymやD4RLといった多様な環境における広範な実験を通じて、さまざまなデモデータセットを活用することで、ほとんどのタスクにおいて、TransformerモデルよりもMambaモデルの方が優れていることを示す。 その結果、HDMはほとんどの設定で他の手法よりも優れていることがわかった。 コードはhttps://github.com/meowatthemoon/HierarchicalDecisionMambaにある。

Recent advancements in imitation learning have been largely fueled by the integration of sequence models, which provide a structured flow of information to effectively mimic task behaviours. Currently, Decision Transformer (DT) and subsequently, the Hierarchical Decision Transformer (HDT), presented Transformer-based approaches to learn task policies. Recently, the Mamba architecture has shown to outperform Transformers across various task domains. In this work, we introduce two novel methods, Decision Mamba (DM) and Hierarchical Decision Mamba (HDM), aimed at enhancing the performance of the Transformer models. Through extensive experimentation across diverse environments such as OpenAI Gym and D4RL, leveraging varying demonstration data sets, we demonstrate the superiority of Mamba models over their Transformer counterparts in a majority of tasks. Results show that HDM outperforms other methods in most settings. The code can be found at https://github.com/meowatthemoon/HierarchicalDecisionMamba.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 複素同期ネットワーク上の量子様状態

Quantum-like states on complex synchronized networks ( http://arxiv.org/abs/2405.07950v1 )

ライセンス: Link先を確認
Gregory D. Scholes, (参考訳) 最近の研究は、干渉効果を含む興味深い量子のような確率法則が古典的なシステムで現れるという考えを明らかにしている。 本稿では、量子ライクな(QL)状態とQLビットのモデルを提案する。 巨大で複雑なシステムが、QL形式で情報を処理可能な堅牢な状態をホストできる方法を提案する。 そのような状態を満たすべき公理が提案されている。 具体的には、QL状態に適したビルディングブロックはネットワークであり、おそらく非常に複雑であり、$k$-regularランダムグラフに基づいて定義しました。 これらのネットワークは、QLのような処理で使用できる創発的な状態に蒸留された多くの情報を動的にエンコードすることができる。 創発状態は古典的であるが、量子状態に類似した性質を持つ。 QL関数の具体的な例が提供される。 計算型操作における‘QLアドバンテージ’の可能性と、脳内の新しい種類の機能との関連性について論じ、オープンな質問として残されている。

Recent work has exposed the idea that interesting quantum-like probability laws, including interference effects, can be manifest in classical systems. Here we propose a model for quantum-like (QL) states and QL bits. We suggest a way that huge, complex systems can host robust states that can process information in a QL fashion. Axioms that such states should satisfy are proposed. Specifically, it is shown that building blocks suited for QL states are networks, possibly very complex, that we defined based on $k$-regular random graphs. These networks can dynamically encode a lot of information that is distilled into the emergent states we can use for QL like processing. Although the emergent states are classical, they have properties analogous to quantum states. Concrete examples of how QL functions are possible are given. The possibility of a `QL advantage' for computing-type operations and the potential relevance for new kinds of function in the brain are discussed and left as open questions.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# AgentClinic: シミュレーションされた臨床環境でAIを評価するマルチモーダルエージェントベンチマーク

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments ( http://arxiv.org/abs/2405.07960v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, Michael Moor, (参考訳) 患者の診断と管理は複雑でシーケンシャルな意思決定プロセスであり、医師は情報を得る必要がある。 人工知能(AI)と大規模言語モデル(LLM)の最近の進歩は、臨床医療に大きな影響を与えることを約束している。 しかし、現在の評価スキームは静的な医学的質問答えベンチマークに過度に頼っており、実際の臨床研究に必要な対話的な意思決定には不足している。 本稿では, LLMs をシミュレートされた臨床環境において, エージェントとして操作する能力を評価するマルチモーダルベンチマークである AgentClinic を提案する。 本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。 本稿では,マルチモーダル画像と対話環境であるAgentClinic-NEJMと,対話専用環境であるAgentClinic-MedQAの2つのオープンベンチマークを提案する。 患者エージェントと医師エージェントの両方に認知バイアスと暗黙バイアスを組み込んで、偏見のあるエージェント間の現実的な相互作用をエミュレートする。 偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ相談意欲を低下させる。 MedQAのようなベンチマークで優れているいくつかのモデルが、AgentClinic-MedQAでは不十分であることが判明した。 我々は,患者エージェントで使用するLSMが,AgentClinicベンチマークにおけるパフォーマンスの重要な要因であることが判明した。 本研究は, 医師エージェントの診断精度を低下させるとともに, 相互作用が限定的であり, 相互作用が多すぎることも示している。 この作業のコードとデータはhttps://AgentClinic.github.io.comで公開されている。

Diagnosing and managing a patient is a complex, sequential decision making process that requires physicians to obtain information -- such as which tests to perform -- and to act upon it. Recent advances in artificial intelligence (AI) and large language models (LLMs) promise to profoundly impact clinical care. However, current evaluation schemes overrely on static medical question-answering benchmarks, falling short on interactive decision-making that is required in real-life clinical work. Here, we present AgentClinic: a multimodal benchmark to evaluate LLMs in their ability to operate as agents in simulated clinical environments. In our benchmark, the doctor agent must uncover the patient's diagnosis through dialogue and active data collection. We present two open benchmarks: a multimodal image and dialogue environment, AgentClinic-NEJM, and a dialogue-only environment, AgentClinic-MedQA. We embed cognitive and implicit biases both in patient and doctor agents to emulate realistic interactions between biased agents. We find that introducing bias leads to large reductions in diagnostic accuracy of the doctor agents, as well as reduced compliance, confidence, and follow-up consultation willingness in patient agents. Evaluating a suite of state-of-the-art LLMs, we find that several models that excel in benchmarks like MedQA are performing poorly in AgentClinic-MedQA. We find that the LLM used in the patient agent is an important factor for performance in the AgentClinic benchmark. We show that both having limited interactions as well as too many interaction reduces diagnostic accuracy in doctor agents. The code and data for this work is publicly available at https://AgentClinic.github.io.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 暗黙のシナリオリダクションによる超量子制約最適化の高速計算

Fast Computation of Superquantile-Constrained Optimization Through Implicit Scenario Reduction ( http://arxiv.org/abs/2405.07965v1 )

ライセンス: Link先を確認
Jake Roth, Ying Cui, (参考訳) 近年,統計学習や意思決定問題において,公正性や分布変化に対処するためのリスク対応指標として,スーパーチャンティルが注目されている。 本稿では,超量子的制約による大規模最適化問題を解くために,高速でスケーラブルで堅牢な2階計算フレームワークを提案する。 経験的リスク最小化とは異なり、超量子ベースの最適化は、テール条件予測を計算するために、すべてのシナリオで評価されたランダム関数のランク付けを必要とする。 このテールベースの機能は、計算的に不都合に思えるかもしれないが、半滑らか-ニュートンベースのラグランジアン法に有利な設定を提供する。 超量子作用素は、テール期待がかなり少ないシナリオを含むため、ニュートン系の次元を効果的に減少させる。 特に、関連する2階情報を取得し、行列逆転を行うための余分なコストは、勾配計算に必要な労力に匹敵し、時にはそれ以下である。 提案手法は,シナリオ数が決定変数数を超える場合,特に有効である。 線形および凸対角2次目的の合成問題において, 数値実験により, 提案手法は, 低精度解のOSQPで実装した乗算器の交互方向法よりも, 線形および2次目的の750倍以上の高速化を実現している。 さらに、線形目的の最大25倍、二次目的の最大70倍、線形目的の最大20倍、二次目的の最大30倍、高精度解計算のPortfolio Safeguard最適化スイートよりも高速である。

Superquantiles have recently gained significant interest as a risk-aware metric for addressing fairness and distribution shifts in statistical learning and decision making problems. This paper introduces a fast, scalable and robust second-order computational framework to solve large-scale optimization problems with superquantile-based constraints. Unlike empirical risk minimization, superquantile-based optimization requires ranking random functions evaluated across all scenarios to compute the tail conditional expectation. While this tail-based feature might seem computationally unfriendly, it provides an advantageous setting for a semismooth-Newton-based augmented Lagrangian method. The superquantile operator effectively reduces the dimensions of the Newton systems since the tail expectation involves considerably fewer scenarios. Notably, the extra cost of obtaining relevant second-order information and performing matrix inversions is often comparable to, and sometimes even less than, the effort required for gradient computation. Our developed solver is particularly effective when the number of scenarios substantially exceeds the number of decision variables. In synthetic problems with linear and convex diagonal quadratic objectives, numerical experiments demonstrate that our method outperforms existing approaches by a large margin: It achieves speeds more than 750 times faster for linear and quadratic objectives than the alternating direction method of multipliers as implemented by OSQP for computing low-accuracy solutions. Additionally, it is up to 25 times faster for linear objectives and 70 times faster for quadratic objectives than the commercial solver Gurobi, and 20 times faster for linear objectives and 30 times faster for quadratic objectives than the Portfolio Safeguard optimization suite for high-accuracy solution computations.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# OverlapMamba: LiDARによる位置認識のための新しいシフト状態空間モデル

OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition ( http://arxiv.org/abs/2405.07966v1 )

ライセンス: Link先を確認
Qiuchi Xiang, Jintao Cheng, Jiehao Luo, Jin Wu, Rui Fan, Xieyuanli Chen, Xiaoyu Tang, (参考訳) 場所認識は、自律的なシステムが独立した意思決定と安全な運用を達成するための基盤である。 また、ループクロージャ検出やSLAM内のグローバルなローカライゼーションといったタスクにおいても重要である。 従来の手法では、畳み込みニューラルネットワーク(CNN)やトランスフォーマーアーキテクチャを使った異なる点クラウドイメージ入力を用いた、入力および深層学習に基づくLiDARベースのPlace Recognition (LPR)アプローチとして、平凡な点クラウド表現を利用する。 しかし、最近提案されたMambaディープラーニングモデルと状態空間モデル(SSM)が組み合わさって、長いシーケンスモデリングに大きな可能性を秘めている。 そこで我々は,入力範囲ビュー(RV)をシーケンスとして表現する,位置認識のための新しいネットワークであるOverlapMambaを開発した。 新しい方法で、我々は確率的再構成手法を用いてシフト状態空間モデルを構築し、視覚表現を圧縮する。 提案手法は, 3つの公的なデータセットから, ループ閉鎖を効果的に検出し, 以前訪れた場所を異なる方向から横断する場合でも, 堅牢性を示す。 生のレンジビューの入力に基づいて、典型的なLiDARとマルチビューの組み合わせ法を時間的複雑さと速度で上回り、強力な位置認識能力とリアルタイム効率を示す。

Place recognition is the foundation for enabling autonomous systems to achieve independent decision-making and safe operations. It is also crucial in tasks such as loop closure detection and global localization within SLAM. Previous methods utilize mundane point cloud representations as input and deep learning-based LiDAR-based Place Recognition (LPR) approaches employing different point cloud image inputs with convolutional neural networks (CNNs) or transformer architectures. However, the recently proposed Mamba deep learning model, combined with state space models (SSMs), holds great potential for long sequence modeling. Therefore, we developed OverlapMamba, a novel network for place recognition, which represents input range views (RVs) as sequences. In a novel way, we employ a stochastic reconstruction approach to build shift state space models, compressing the visual representation. Evaluated on three different public datasets, our method effectively detects loop closures, showing robustness even when traversing previously visited locations from different directions. Relying on raw range view inputs, it outperforms typical LiDAR and multi-view combination methods in time complexity and speed, indicating strong place recognition capabilities and real-time efficiency.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# CLIPをベースとしたゼロショット異常セグメンテーションにおける意味的ロバスト性の検討

Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation ( http://arxiv.org/abs/2405.07969v1 )

ライセンス: Link先を確認
Kevin Stangl, Marius Arvinte, Weilin Xu, Cory Cornelius, (参考訳) 事前訓練された基礎モデルを用いたゼロショット異常セグメンテーションは、高価なドメイン固有のトレーニングや微調整なしで効果的なアルゴリズムを可能にする有望なアプローチである。 これらの手法が様々な環境条件にまたがって機能し、分散シフトに対して堅牢であることを保証することは、オープンな問題である。 我々は,WinCLIP[14]ゼロショット異常セグメンテーションアルゴリズムの性能を,有界角回転,有界飽和シフト,色相シフトという3つの意味変換を用いて解析した。 実験により, サンプルごとの最悪ケースの摂動にまたがって, 平均性能がROC曲線の領域で最大20%低下し, オーバーラップ曲線の領域で40%低下することが確認された。 モデルアーキテクチャや学習目標に関係なく、3つのCLIPバックボーン上でパフォーマンスが一貫して低下し、注意深いパフォーマンス評価の必要性が示されています。

Zero-shot anomaly segmentation using pre-trained foundation models is a promising approach that enables effective algorithms without expensive, domain-specific training or fine-tuning. Ensuring that these methods work across various environmental conditions and are robust to distribution shifts is an open problem. We investigate the performance of WinCLIP [14] zero-shot anomaly segmentation algorithm by perturbing test data using three semantic transformations: bounded angular rotations, bounded saturation shifts, and hue shifts. We empirically measure a lower performance bound by aggregating across per-sample worst-case perturbations and find that average performance drops by up to 20% in area under the ROC curve and 40% in area under the per-region overlap curve. We find that performance is consistently lowered on three CLIP backbones, regardless of model architecture or learning objective, demonstrating a need for careful performance evaluation.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 創発性エノンとフェルミオンにどの程度の絡み合いが必要か?

How much entanglement is needed for emergent anyons and fermions? ( http://arxiv.org/abs/2405.07970v1 )

ライセンス: Link先を確認
Zhi Li, Dongjin Lee, Beni Yoshida, (参考訳) エキゾチックな性質を持つ粒子は、長距離量子絡み合いにより、クォービットのような単純な成分からなる系に現れることが知られている。 本稿では,与えられた状態と短距離の絡み合い状態の最大重なりを定量化する幾何絡み合い測度(GEM)を用いて,創発性エノンやフェルミオンに必要な絡み合いの定量的評価を行う。 創発性エノン系の場合, ブレイディング統計に基づいて, GEMは微視的詳細によらず, システムサイズで線形にスケールすることを示す。 創発性エノンの現象は量子誤り補正(QEC)の枠組みでも理解することができる。 具体的には、任意の2次元安定化器符号のGEMは、符号距離において少なくとも2次でなければならないことを示す。 我々の証明は、文字列演算子を構築するための一般的な処方則に基づいており、創発性エノンとQECとの間の厳密で直接的な接続を確立する。 創発的なフェルミオンを持つ系では、基底状態部分空間が指数関数的に巨大であり、その符号化特性がかなり貧弱であるにもかかわらず、GEMはシステムサイズで線形にスケールすることも示している。 我々の結果は、量子異常と絡み合いの興味深い関係も確立している: 異常な1$-形式対称性を尊重する量子状態は、純粋または混合であるなら、長距離絡み合いでなければならず、本質的に混合状態相の非自明なクラスを提供する。

It is known that particles with exotic properties can emerge in systems made of simple constituents such as qubits, due to long-range quantum entanglement. In this paper, we provide quantitative characterizations of entanglement necessary for emergent anyons and fermions by using the geometric entanglement measure (GEM) which quantifies the maximal overlap between a given state and any short-range entangled states. For systems with emergent anyons, based on the braiding statistics, we show that the GEM scales linearly in the system size regardless of microscopic details. The phenomenon of emergent anyons can also be understood within the framework of quantum error correction (QEC). Specifically, we show that the GEM of any 2D stabilizer codes must be at least quadratic in the code distance. Our proof is based on a generic prescription for constructing string operators, establishing a rigorous and direct connection between emergent anyons and QEC. For systems with emergent fermions, despite that the ground state subspaces could be exponentially huge and their coding properties could be rather poor, we show that the GEM also scales linearly in the system size. Our results also establish an intriguing link between quantum anomaly and entanglement: a quantum state respecting anomalous $1$-form symmetries, be it pure or mixed, must be long-range entangled, offering a non-trivial class of intrinsically mixed state phases.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# SignAvatar: 手話3Dモーションレコンストラクションと生成

SignAvatar: Sign Language 3D Motion Reconstruction and Generation ( http://arxiv.org/abs/2405.07974v1 )

ライセンス: Link先を確認
Lu Dong, Lipisha Chaudhary, Fei Xu, Xiao Wang, Mason Lary, Ifeoma Nwogu, (参考訳) 実世界の3D手話データがないこと、署名動作の複雑なニュアンス、手話意味論のクロスモーダル理解が欠如していることから、表現力のある3D動作再構成と孤立した手話の自動生成は困難である。 これらの課題に対処するために、単語レベルの手話の再構築と生成が可能なフレームワークSignAvatarを紹介した。 SignAvatarは、トランスフォーマーベースの条件付き変分オートエンコーダアーキテクチャを採用し、異なるセマンティックモダリティ間の関係を効果的に確立する。 さらに、このアプローチはモデルの堅牢性と一般化を強化するためのカリキュラム学習戦略を取り入れ、より現実的な動きをもたらす。 さらに,身体,手,顔の3次元関節回転データからなるASL3DWordデータセットを,ユニークな手話にコントリビュートする。 我々はSignAvatarの有効性を広範な実験を通して実証し、その優れた再構築と自動生成能力を示す。 コードとデータセットはプロジェクトページで公開されている。

Achieving expressive 3D motion reconstruction and automatic generation for isolated sign words can be challenging, due to the lack of real-world 3D sign-word data, the complex nuances of signing motions, and the cross-modal understanding of sign language semantics. To address these challenges, we introduce SignAvatar, a framework capable of both word-level sign language reconstruction and generation. SignAvatar employs a transformer-based conditional variational autoencoder architecture, effectively establishing relationships across different semantic modalities. Additionally, this approach incorporates a curriculum learning strategy to enhance the model's robustness and generalization, resulting in more realistic motions. Furthermore, we contribute the ASL3DWord dataset, composed of 3D joint rotation data for the body, hands, and face, for unique sign words. We demonstrate the effectiveness of SignAvatar through extensive experiments, showcasing its superior reconstruction and automatic generation capabilities. The code and dataset are available on the project page.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# fMRI分布サンプリングとコンファウンド除去のための復号化合成変分オートエンコーダ

A Demographic-Conditioned Variational Autoencoder for fMRI Distribution Sampling and Removal of Confounds ( http://arxiv.org/abs/2405.07977v1 )

ライセンス: Link先を確認
Anton Orlichenko, Gang Qu, Ziyu Zhou, Anqi Liu, Hong-Wen Deng, Zhengming Ding, Julia M. Stephen, Tony W. Wilson, Vince D. Calhoun, Yu-Ping Wang, (参考訳) 目的:fMRIおよび機能的接続(FC)のような派生した手段は、脳年齢、一般的な流体知能、精神疾患、前臨床神経変性疾患の予測に使われてきた。 しかし、年齢、性別、人種などの全ての人口構成がfMRIデータから削除されたことは必ずしも明らかではない。 さらに、多くのfMRIデータセットは認可された研究者に限られており、これらの貴重なデータソースの普及は困難である。 方法: 変動型オートエンコーダ(VAE)に基づくモデルであるDemoVAEを作成し, 人口統計からfMRIの特徴を推定し, 利用者の人口統計に基づく高品質な合成fMRIデータを生成する。 我々は,フィラデルフィア・ニューロ開発コホート (PNC) とバイポーラ・統合失調症ネットワーク (BSNIP) の2つの大きなデータセットを用いて,我々のモデルを訓練し,検証した。 結果:DemoVAEは,fMRIデータの集団差を再現し,個人差をフルに捉えた。 また、fMRIデータと相関する臨床およびコンピュータ化されたほとんどの電池フィールドが、DemoVAE潜伏剤と相関していないことも判明した。 例外として、統合失調症や症状の重症度に関連するいくつかの分野がある。 結論:本モデルでは,従来のVAEモデルやGANモデルよりもFCの完全な分布を捉えるfMRIデータを生成する。 また、fMRIデータを用いたほとんどの予測は、人口統計学の相関や予測に依存することがわかった。 意義: 私たちのDemoVAEモデルでは, 被験者の人口動態に基づく高品質な合成データの生成と, 人口動態の相違による影響の除去が可能である。 FCに基づく予測タスクは,人口動態に強く影響されている。

Objective: fMRI and derived measures such as functional connectivity (FC) have been used to predict brain age, general fluid intelligence, psychiatric disease status, and preclinical neurodegenerative disease. However, it is not always clear that all demographic confounds, such as age, sex, and race, have been removed from fMRI data. Additionally, many fMRI datasets are restricted to authorized researchers, making dissemination of these valuable data sources challenging. Methods: We create a variational autoencoder (VAE)-based model, DemoVAE, to decorrelate fMRI features from demographics and generate high-quality synthetic fMRI data based on user-supplied demographics. We train and validate our model using two large, widely used datasets, the Philadelphia Neurodevelopmental Cohort (PNC) and Bipolar and Schizophrenia Network for Intermediate Phenotypes (BSNIP). Results: We find that DemoVAE recapitulates group differences in fMRI data while capturing the full breadth of individual variations. Significantly, we also find that most clinical and computerized battery fields that are correlated with fMRI data are not correlated with DemoVAE latents. An exception are several fields related to schizophrenia medication and symptom severity. Conclusion: Our model generates fMRI data that captures the full distribution of FC better than traditional VAE or GAN models. We also find that most prediction using fMRI data is dependent on correlation with, and prediction of, demographics. Significance: Our DemoVAE model allows for generation of high quality synthetic data conditioned on subject demographics as well as the removal of the confounding effects of demographics. We identify that FC-based prediction tasks are highly influenced by demographic confounds.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 多面的医用画像解釈のための一般学習者

A Generalist Learner for Multifaceted Medical Image Interpretation ( http://arxiv.org/abs/2405.07988v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Subathra Adithan, Julián Nicolás Acosta, Eric J. Topol, Pranav Rajpurkar, (参考訳) 現在の医療人工知能システムは、しばしば狭義の応用に限られており、臨床で広く採用されるのを妨げている。 この制限に対処するために、医用画像解釈のためのフレキシブルな学習とタスクを可能にする一般学習者であるMedVersaを提案する。 学習可能なオーケストレータとして大きな言語モデルを活用することで、MedVersaは視覚と言語の両方から学び、マルチモーダル入力をサポートし、リアルタイムタスク仕様を実行することができる。 この汎用性により、MedVersaは様々な臨床シナリオに適応し、多面的な医療画像解析を行うことができる。 我々は,MedVersaの開発を支援するために,これまでで最大規模のマルチモーダルデータセットであるMedInterpを紹介した。 我々の実験は、MedVersaが9つのタスクで最先端のパフォーマンスを達成し、時にはスペシャリストを10%以上上回っていることを示した。 MedVersaは、マルチモーダル出力、インプット、動的タスク仕様の実装において、マルチモーダル生成医療AIの生存可能性を示す最初のものであり、総合的な医用画像解析のためのマルチファンクショナルシステムとしての可能性を強調している。 この医用画像解釈に対する一般論的なアプローチは、より適応的で効率的なAI支援臨床意思決定の道を開く。

Current medical artificial intelligence systems are often limited to narrow applications, hindering their widespread adoption in clinical practice. To address this limitation, we propose MedVersa, a generalist learner that enables flexible learning and tasking for medical image interpretation. By leveraging a large language model as a learnable orchestrator, MedVersa can learn from both visual and linguistic supervision, support multimodal inputs, and perform real-time task specification. This versatility allows MedVersa to adapt to various clinical scenarios and perform multifaceted medical image analysis. We introduce MedInterp, the largest multimodal dataset to date for medical image interpretation, consisting of over 13 million annotated instances spanning 11 tasks across 3 modalities, to support the development of MedVersa. Our experiments demonstrate that MedVersa achieves state-of-the-art performance in 9 tasks, sometimes outperforming specialist counterparts by over 10%. MedVersa is the first to showcase the viability of multimodal generative medical AI in implementing multimodal outputs, inputs, and dynamic task specification, highlighting its potential as a multifunctional system for comprehensive medical image analysis. This generalist approach to medical image interpretation paves the way for more adaptable and efficient AI-assisted clinical decision-making.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# Plot2Code: 科学的プロットからのコード生成における多モード大言語モデル評価のための総合ベンチマーク

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots ( http://arxiv.org/abs/2405.07990v1 )

ライセンス: Link先を確認
Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo, (参考訳) MLLM(Multi-modal Large Language Models)の顕著な進歩は、視覚的文脈における優れた性能のために大きな注目を集めている。 しかし、ビジュアルフィギュアを実行可能なコードに変換する能力は、十分に評価されていない。 そこで我々は,MLLMの公平かつ詳細な評価のために設計された包括的ビジュアルコーディングベンチマークであるPlot2Codeを紹介した。 公開されているマットプロットギャラリーから,手作業で選択した高品質なマットプロットプロットを6種類のプロットタイプで収集する。 各プロットに対して、ソースコードを慎重に提供し、GPT-4で要約した記述的命令を提供する。 このアプローチにより、Plot2Codeは様々な入力モダリティにわたってMLLMのコード能力を広範囲に評価できる。 さらに、コードパス率、テキストマッチ率、GPT-4V全体評価を含む3つの自動評価指標を、出力コードと描画画像のきめ細かい評価のために提案する。 単にパスやフェールを判断する代わりに、GPT-4Vを用いて生成された画像と参照画像の総合的な判断を行う。 評価結果は、プロプライエタリなGPT-4V、Gemini-Pro、オープンソースであるMini-Geminiなど14のMLLMの分析を含むもので、Plot2Codeがもたらす重大な課題を強調している。 Plot2Codeでは、既存のMLLMのほとんどがテキスト・ディエンス・プロットの視覚的コーディングに苦戦し、テキスト・インストラクションに大きく依存していることを明らかにする。 Plot2Codeによるビジュアルコーディングの評価結果が,MLLMの今後の発展を導くことを願っている。 Plot2Codeに関連するすべてのデータはhttps://huggingface.co/datasets/TencentARC/Plot2Codeで入手できる。

The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs' code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.
翻訳日:2024-05-14 12:36:51 公開日:2024-05-13
# 確率的な1ステップ生成のための特徴学習

Characteristic Learning for Provable One Step Generation ( http://arxiv.org/abs/2405.05512v2 )

ライセンス: Link先を確認
Zhao Ding, Chenguang Duan, Yuling Jiao, Ruoxuan Li, Jerry Zhijian Yang, Pingwen Zhang, (参考訳) 本稿では,GAN(Generative Adversarial Networks)におけるサンプリング効率とフローベースモデルの安定した性能を組み合わせた,新しい一段階生成モデルである特徴生成器を提案する。 我々のモデルは、確率密度輸送を通常の微分方程式(ODE)で記述できる特性によって駆動される。 具体的には、非パラメトリック回帰を用いて速度場を推定し、Euler法を用いて確率フローODEを解き、特性に対する一連の離散近似を生成する。 次に、深層ニューラルネットワークを用いてこれらの特性に適合し、先行分布を目標分布へ効果的にプッシュするワンステップマッピングを確実にする。 理論的には, 速度マッチング, オイラー離散化, 特性適合の誤差を分析し, 2-ワッサーシュタイン距離における特性発生器の非漸近収束速度を確立する。 私たちの知る限りでは、これはシミュレーションなしの1ステップ生成モデルに対する最初の徹底的な分析である。 さらに,本研究では,前処理におけるフローベース生成モデルの誤差解析を改良する。 提案手法を合成データセットと実データセットの両方に適用し,ニューラルネットワークの単一評価で特徴生成器が高次品質を実現することを示す。

We propose the characteristic generator, a novel one-step generative model that combines the efficiency of sampling in Generative Adversarial Networks (GANs) with the stable performance of flow-based models. Our model is driven by characteristics, along which the probability density transport can be described by ordinary differential equations (ODEs). Specifically, We estimate the velocity field through nonparametric regression and utilize Euler method to solve the probability flow ODE, generating a series of discrete approximations to the characteristics. We then use a deep neural network to fit these characteristics, ensuring a one-step mapping that effectively pushes the prior distribution towards the target distribution. In the theoretical aspect, we analyze the errors in velocity matching, Euler discretization, and characteristic fitting to establish a non-asymptotic convergence rate for the characteristic generator in 2-Wasserstein distance. To the best of our knowledge, this is the first thorough analysis for simulation-free one step generative models. Additionally, our analysis refines the error analysis of flow-based generative models in prior works. We apply our method on both synthetic and real datasets, and the results demonstrate that the characteristic generator achieves high generation quality with just a single evaluation of neural network.
翻訳日:2024-05-14 12:26:59 公開日:2024-05-13
# 電子商取引検索の最適化 - 一般化可能で一貫性のある事前予約モデルを目指して-

Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model ( http://arxiv.org/abs/2405.05606v2 )

ライセンス: Link先を確認
Enqiang Xu, Yiming Qiu, Junyang Bai, Ping Zhang, Dadong Miao, Songlin Wang, Guoyu Tang, Lin Liu, Mingming Li, (参考訳) 大規模なeコマースプラットフォームでは、検索システムはリコール、プレランク、ランキングフェーズを含む一連のモジュールで構成されている。 軽量モジュールとして機能するプレグレードフェーズは、ダウンストリームランキングモジュールのために前もって製品の大部分をフィルタリングするために不可欠である。 先行モデルの最適化に向けた産業的な取り組みは、主にランキング一貫性の向上、モデル構造、ロングテールアイテムへの一般化に重点を置いている。 これらの最適化以外にも、システムパフォーマンスの要件を満たすことは重大な課題である。 既存の産業作品とは対照的に,本研究では,ジェネラライザブルとRAnk-ConsistEntプレランキングモデル(GRACE)という新しい手法を提案する。 1) 製品がトップk内にあるかどうかを予測する複数の二分分類タスクを導入してランキングの整合性を高め、共通のポイントワイドランキングモデルにおける学習目標の追加を容易にするランキングモデルにより推定される。 2) 製品埋め込みのサブセットを事前訓練することにより,すべての製品の表現の対照的な学習を通じての一般化可能性 3)機能構築及びオンライン展開における実装の容易化。 大規模な実験では、オフラインメトリクスとオンラインA/Bテストの両方において、AUCが0.75%、CVRが1.28%、大幅な改善が示されている。

In large e-commerce platforms, search systems are typically composed of a series of modules, including recall, pre-ranking, and ranking phases. The pre-ranking phase, serving as a lightweight module, is crucial for filtering out the bulk of products in advance for the downstream ranking module. Industrial efforts on optimizing the pre-ranking model have predominantly focused on enhancing ranking consistency, model structure, and generalization towards long-tail items. Beyond these optimizations, meeting the system performance requirements presents a significant challenge. Contrasting with existing industry works, we propose a novel method: a Generalizable and RAnk-ConsistEnt Pre-Ranking Model (GRACE), which achieves: 1) Ranking consistency by introducing multiple binary classification tasks that predict whether a product is within the top-k results as estimated by the ranking model, which facilitates the addition of learning objectives on common point-wise ranking models; 2) Generalizability through contrastive learning of representation for all products by pre-training on a subset of ranking product embeddings; 3) Ease of implementation in feature construction and online deployment. Our extensive experiments demonstrate significant improvements in both offline metrics and online A/B test: a 0.75% increase in AUC and a 1.28% increase in CVR.
翻訳日:2024-05-14 12:26:59 公開日:2024-05-13
# CSA-Net:チャネルワイドな空間的自己相関型アテンションネットワーク

CSA-Net: Channel-wise Spatially Autocorrelated Attention Networks ( http://arxiv.org/abs/2405.05755v2 )

ライセンス: Link先を確認
Nick Nikzad, Yongsheng Gao, Jun Zhou, (参考訳) 近年、チャネルワイズ機能強化機構を備えた畳み込みニューラルネットワーク(CNN)は、チャネル依存性のモデル化に顕著なメリットをもたらしている。 しかし、現在注目されているパラダイムは、特徴写像間の統計的および空間的関係を同時に活用できる最適なチャネル記述子を推論することができない。 本稿では,この欠点を克服するために,チャネルワイドな空間的自己相関(CSA)アテンション機構を提案する。 地理的解析にインスパイアされた提案CSAは,特徴写像のチャネル間の空間的関係を利用して,効果的なチャネル記述子を生成する。 我々の知る限りでは、地理的空間解析の概念が深層CNNで活用されるのはf不機嫌な時期である。 提案したCSAは、深層モデルに無視可能な学習パラメータと軽量な計算オーバーヘッドを課し、強力で効率的な注意モジュールとして選択できる。 提案するCSAネットワーク(CSA-Nets)の有効性を,画像分類,オブジェクト検出,インスタンスセグメンテーションのためのMS COCOベンチマークデータセットを用いて検証した。 実験の結果、CSA-Netは、さまざまなベンチマークタスクやデータセットに対して、最先端の注目ベースのCNNよりも、競争性能と優れた一般化を一貫して達成できることが示された。

In recent years, convolutional neural networks (CNNs) with channel-wise feature refining mechanisms have brought noticeable benefits to modelling channel dependencies. However, current attention paradigms fail to infer an optimal channel descriptor capable of simultaneously exploiting statistical and spatial relationships among feature maps. In this paper, to overcome this shortcoming, we present a novel channel-wise spatially autocorrelated (CSA) attention mechanism. Inspired by geographical analysis, the proposed CSA exploits the spatial relationships between channels of feature maps to produce an effective channel descriptor. To the best of our knowledge, this is the f irst time that the concept of geographical spatial analysis is utilized in deep CNNs. The proposed CSA imposes negligible learning parameters and light computational overhead to the deep model, making it a powerful yet efficient attention module of choice. We validate the effectiveness of the proposed CSA networks (CSA-Nets) through extensive experiments and analysis on ImageNet, and MS COCO benchmark datasets for image classification, object detection, and instance segmentation. The experimental results demonstrate that CSA-Nets are able to consistently achieve competitive performance and superior generalization than several state-of-the-art attention-based CNNs over different benchmark tasks and datasets.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# ファインチューニング LLM は新たな知識の覚醒に有効か?

Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? ( http://arxiv.org/abs/2405.05904v2 )

ライセンス: Link先を確認
Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig, (参考訳) 大規模言語モデルが教師付き微調整によって整列されると、事前学習によって取得されなかった新しい事実情報に遭遇する可能性がある。 これは、モデルが既存の知識に根ざしていない事実を生成するために訓練されているため、事実的に誤った反応を幻覚させることの挙動をモデルに教えることができるとしばしば推測される。 本研究では,そのような知識への露出が,既存の知識を活用するための微調整モデルの能力に与える影響について検討する。 この目的のために、我々は、クローズドブックのQAに焦点を当てた制御されたセットアップを設計し、そこでは、新しい知識を導入する微調整例の比率を変化させる。 大規模言語モデルでは,新たな知識を導入する微調整例が,モデルの知識と整合性のあるものよりもはるかに遅いことから,ファインタニングによる新たな事実知識の獲得に苦慮していることを示す。 しかし、新しい知識の例が最終的に学習されるにつれて、モデルが幻覚化する傾向がリニアに増加することも判明した。 この結果から, ファインチューニングによる新たな事実知識の導入リスクを強調し, 大規模言語モデルが事前学習による事実知識の獲得を主眼としているのに対し, ファインチューニングは, より効率的に活用することを彼らに教えている。

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# 逐次エンコード可能なコードワード安定化符号

Sequentially Encodable Codeword Stabilized Codes ( http://arxiv.org/abs/2405.06142v2 )

ライセンス: Link先を確認
Sowrabh Sudevan, Sourin Das, Thamadathil Aswanth, Navin Kashyap, (参考訳) n 量子ビット上の m-一様量子状態は、すべての m-一様部分系が最大混合される絡み合った状態である。 このような状態は純粋[[n,0,m+1]]量子誤り訂正符号(QECC)にまたがる。 m-正則グラフに関連するグラフ状態として実現されたm-ユニフォーム状態と、ある種の追加特性を持つ古典的[n,k,d \ge m+1]バイナリ線形コードから始め、純粋な[[n,k,m+1]QECCであるコードワード安定化(CWS)コードを構築する。 本稿では,コード状態へのエンコードと論理量子ビットの復号化のための測度ベースのプロトコルを提案する。 提案プロトコルは論理量子ビットのシーケンシャルエンコーディングと部分的リカバリをサポートし,量子メモリへの応用に有用である。

An m-uniform quantum state on n qubits is an entangled state in which every m-qubit subsystem is maximally mixed. Such a state spans a pure [[n,0,m+1]] quantum error correcting code (QECC). Starting with an m-uniform state realized as the graph state associated with an m-regular graph, and a classical [n,k,d \ge m+1] binary linear code with certain additional properties, we construct codeword stabilized (CWS) codes that are pure [[n,k,m+1]] QECCs. We propose measurement-based protocols for encoding into code states and recovery of logical qubits from code states. Our proposed protocols support sequential encoding and partial recovery of logical qubits, which can be useful for quantum memory applications.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# SKVQ: 大規模言語モデルのためのスライディングウインドウキーとバリューキャッシュ量子化

SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models ( http://arxiv.org/abs/2405.06219v2 )

ライセンス: Link先を確認
Haojie Duanmu, Zhihang Yuan, Xiuhong Li, Jiangfei Duan, Xingcheng Zhang, Dahua Lin, (参考訳) 大規模言語モデル(LLM)がトークンの長いシーケンスを処理できるようになった。 しかし、LLMに必要なキー値(KV)キャッシュは、コンテキスト長の増加に伴ってかなりのメモリを消費し、デプロイメントのボトルネックとなる。 本稿では、極低ビット幅KVキャッシュ量子化の問題に対処するため、スライドウインドウKVキャッシュ量子化のためのSKVQという戦略を提案する。 これを実現するために、SKVQは、量子化グループにおけるチャネルの類似性を改善するためにKVキャッシュのチャネルを再構成し、グループレベルでクリップされた動的量子化を適用する。 さらに、SKVQは、KVキャッシュの最新のウィンドウトークンが高い精度で保存されることを保証する。 これはKVキャッシュの小さいが重要な部分の精度を維持するのに役立ち、SKVQは精度を維持しながら高い圧縮比を達成する。 LLMの評価は、SKVQが従来の量子化手法を超越し、KVキャッシュを2ビットキーと1.5ビット値に量子化できることを示した。 SKVQでは、80GBのメモリGPU上で最大1Mまでのコンテクスト長を7bモデルで処理し、最大7倍高速なデコーディングを行うことができる。

Large language models (LLMs) can now handle longer sequences of tokens, enabling complex tasks like book understanding and generating lengthy novels. However, the key-value (KV) cache required for LLMs consumes substantial memory as context length increasing, becoming the bottleneck for deployment. In this paper, we present a strategy called SKVQ, which stands for sliding-window KV cache quantization, to address the issue of extremely low bitwidth KV cache quantization. To achieve this, SKVQ rearranges the channels of the KV cache in order to improve the similarity of channels in quantization groups, and applies clipped dynamic quantization at the group level. Additionally, SKVQ ensures that the most recent window tokens in the KV cache are preserved with high precision. This helps maintain the accuracy of a small but important portion of the KV cache.SKVQ achieves high compression ratios while maintaining accuracy. Our evaluation on LLMs demonstrates that SKVQ surpasses previous quantization approaches, allowing for quantization of the KV cache to 2-bit keys and 1.5-bit values with minimal loss of accuracy. With SKVQ, it is possible to process context lengths of up to 1M on an 80GB memory GPU for a 7b model and up to 7 times faster decoding.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# 耳に耳を傾ける:雑音のある音声をターゲットに

Look Once to Hear: Target Speech Hearing with Noisy Examples ( http://arxiv.org/abs/2405.06289v2 )

ライセンス: Link先を確認
Bandhav Veluri, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 混み合った環境では、人間の脳はターゲット話者からのスピーチに集中することができる。 本稿では,この能力を実現するための新しいインテリジェントな聴取システムを提案する。 ナイーブなアプローチは、ターゲット話者を登録するためにクリーンな音声サンプルを必要とすることである。 しかしこれは、クリーンな例を得ることは現実のシナリオでは困難であり、ユニークなユーザーインターフェイスの問題を生み出すため、聞き取り可能なアプリケーションドメインとうまく一致しない。 本稿では,対象話者を数秒間観察して,目標話者の単一,短く,雑音の多いバイノーラルな例を捉える,最初の登録インタフェースを提案する。 このノイズのある例は、干渉する話者や雑音の存在下での音声抽出の登録と後続の音声抽出に使用される。 本システムでは,5秒未満の雑音の入出力音声を用いて7.01dBの信号品質向上を実現し,6.24msで8ミリ秒の音声チャンクを処理可能である。 本研究は,屋内および屋外のマルチパス環境における実世界の静的・移動型話者への一般化を実証するものである。 最後に、ノイズの多い例の登録インターフェースは、クリーンな例に比べてパフォーマンスの劣化を起こさないが、便利でユーザフレンドリーである。 一歩後退して、人工知能による人間の聴覚知覚を高めるための重要な一歩を踏み出した。 https://github.com/vb000/LookOnceToHear.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s

In crowded settings, the human brain can focus on speech from a target speaker, given prior knowledge of how they sound. We introduce a novel intelligent hearable system that achieves this capability, enabling target speech hearing to ignore all interfering speech and noise, but the target speaker. A naive approach is to require a clean speech example to enroll the target speaker. This is however not well aligned with the hearable application domain since obtaining a clean example is challenging in real world scenarios, creating a unique user interface problem. We present the first enrollment interface where the wearer looks at the target speaker for a few seconds to capture a single, short, highly noisy, binaural example of the target speaker. This noisy example is used for enrollment and subsequent speech extraction in the presence of interfering speakers and noise. Our system achieves a signal quality improvement of 7.01 dB using less than 5 seconds of noisy enrollment audio and can process 8 ms of audio chunks in 6.24 ms on an embedded CPU. Our user studies demonstrate generalization to real-world static and mobile speakers in previously unseen indoor and outdoor multipath environments. Finally, our enrollment interface for noisy examples does not cause performance degradation compared to clean examples, while being convenient and user-friendly. Taking a step back, this paper takes an important step towards enhancing the human auditory perception with artificial intelligence. We provide code and data at: https://github.com/vb000/LookOnceToHear.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# LLMディスカッション: 議論フレームワークとロールプレイによる大規模言語モデルの創造性向上

LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play ( http://arxiv.org/abs/2405.06373v2 )

ライセンス: Link先を確認
Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun, (参考訳) 大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。 LLMクリエイティビティを高めるために、我々の重要な洞察は、多様な背景や視点から参加者と議論することで、集団クリエイティビティを誘発する人間のプロセスをエミュレートすることである。 そこで本研究では,アイデア交換の活発化と多様化を促進し,創造的回答への収束を保証する3段階の議論フレームワークであるLSM議論を提案する。 さらに,LLMの均一性と戦うために,異なる役割をLLMに割り当てることで,ロールプレイング手法を採用する。 提案手法の有効性を, LLM評価と人的学習の両面から評価し, 代替利用テスト, 類似性テスト, 事例試験, 科学的創造性テストを用いて評価した。 提案するフレームワークは,様々なクリエイティビティ指標において,シングルLLMアプローチや既存のマルチLLMフレームワークより優れています。

Large language models (LLMs) have shown exceptional proficiency in natural language processing but often fall short of generating creative and original responses to open-ended questions. To enhance LLM creativity, our key insight is to emulate the human process of inducing collective creativity through engaging discussions with participants from diverse backgrounds and perspectives. To this end, we propose LLM Discussion, a three-phase discussion framework that facilitates vigorous and diverging idea exchanges and ensures convergence to creative answers. Moreover, we adopt a role-playing technique by assigning distinct roles to LLMs to combat the homogeneity of LLMs. We evaluate the efficacy of the proposed framework with the Alternative Uses Test, Similarities Test, Instances Test, and Scientific Creativity Test through both LLM evaluation and human study. Our proposed framework outperforms single-LLM approaches and existing multi-LLM frameworks across various creativity metrics.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# オープンソースエコシステムにおけるサンドボックス導入

Sandboxing Adoption in Open Source Ecosystems ( http://arxiv.org/abs/2405.06447v2 )

ライセンス: Link先を確認
Maysara Alhindi, Joseph Hallett, (参考訳) サンドボックス機構により、開発者は最小限の原則に従って、リソースに対するアクセスアプリケーション量を制限することができる。 しかしながら、開発者がこれらのメカニズムをどの程度、どのように使っているのかは明らかになっていない。 本研究は,4つのオープンソースオペレーティングシステムの全パッケージにおけるSeccomp, Landlock, Capsicum, Pledge, Unveilの使用について検討する。 パッケージの1%未満が直接このメカニズムを使っているが、もっと多くのパッケージが間接的に使用している。 開発者がこれらのメカニズムをどのように適用するかを調べることで、開発者がサンドボックスの実装を簡単にするケースなど、興味深い利用パターンが明らかになる。 また、サンドボックス機構の普及を妨げているかもしれない課題も強調している。

Sandboxing mechanisms allow developers to limit how much access applications have to resources, following the least-privilege principle. However, it's not clear how much and in what ways developers are using these mechanisms. This study looks at the use of Seccomp, Landlock, Capsicum, Pledge, and Unveil in all packages of four open-source operating systems. We found that less than 1% of packages directly use these mechanisms, but many more indirectly use them. Examining how developers apply these mechanisms reveals interesting usage patterns, such as cases where developers simplify their sandbox implementation. It also highlights challenges that may be hindering the widespread adoption of sandboxing mechanisms.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# MRSegmentator:MRIおよびCTにおける40クラスのロバスト多モードセグメンテーション

MRSegmentator: Robust Multi-Modality Segmentation of 40 Classes in MRI and CT Sequences ( http://arxiv.org/abs/2405.06463v2 )

ライセンス: Link先を確認
Hartmut Häntze, Lina Xu, Felix J. Dorfner, Leonhard Donle, Daniel Truhn, Hugo Aerts, Mathias Prokop, Bram van Ginneken, Alessa Hering, Lisa C. Adams, Keno K. Bressem, (参考訳) 目的:MRIスキャンにおける多組織セグメンテーションが可能な深層学習モデルを導入し、解像度、標準化された強度値、配列の可変性といった課題によるMRI解析における現在の限界に対する解決策を提供する。 材料と方法:彼のモデルは、英国バイオバンクの1200個の手動注釈MRIスキャン、221個の社内MRIスキャン、1228個のCTスキャンで訓練され、CTセグメンテーションモデルからの相互モダリティ変換学習を活用している。 高品質なセグメンテーションを効率的に作成するために、Human-in-the-loopアノテーションワークフローが採用された。 このモデルの性能は, NAKOとAMOS22を用いた600, 60のMRI検査で評価した。 Dice similarity Coefficient (DSC) と Hausdorff Distance (HD) を用いてセグメンテーションの精度を評価した。 モデルはオープンソース化される予定だ。 結果: 左右肺のDice similarity Coefficient(DSC)スコアは0.97, 心臓の0.95であった。 また、肝臓 (DSC: 0.96) や腎臓 (DSC: 0.95 left, 0.95 right) のような臓器の頑健性も示し、より可変性を示した。 しかし,門脈や脾静脈 (DSC: 0.54) や副腎 (DSC: 0.65 左, 0.61 右) などのより小型で複雑な構造の分画は,さらなるモデル最適化の必要性を明らかにした。 結論: 提案モデルはMRIおよびCT画像における40の解剖学的構造を正確に区分けするための頑健なツールである。 相互モダリティ学習と対話的アノテーションを活用することで、さまざまなデータセット間での強力なパフォーマンスと一般化を実現し、研究者や臨床医にとって貴重なリソースとなる。 オープンソースで、https://github.com/hhaentze/MRSegmentator.comからダウンロードできる。

Purpose: To introduce a deep learning model capable of multi-organ segmentation in MRI scans, offering a solution to the current limitations in MRI analysis due to challenges in resolution, standardized intensity values, and variability in sequences. Materials and Methods: he model was trained on 1,200 manually annotated MRI scans from the UK Biobank, 221 in-house MRI scans and 1228 CT scans, leveraging cross-modality transfer learning from CT segmentation models. A human-in-the-loop annotation workflow was employed to efficiently create high-quality segmentations. The model's performance was evaluated on NAKO and the AMOS22 dataset containing 600 and 60 MRI examinations. Dice Similarity Coefficient (DSC) and Hausdorff Distance (HD) was used to assess segmentation accuracy. The model will be open sourced. Results: The model showcased high accuracy in segmenting well-defined organs, achieving Dice Similarity Coefficient (DSC) scores of 0.97 for the right and left lungs, and 0.95 for the heart. It also demonstrated robustness in organs like the liver (DSC: 0.96) and kidneys (DSC: 0.95 left, 0.95 right), which present more variability. However, segmentation of smaller and complex structures such as the portal and splenic veins (DSC: 0.54) and adrenal glands (DSC: 0.65 left, 0.61 right) revealed the need for further model optimization. Conclusion: The proposed model is a robust, tool for accurate segmentation of 40 anatomical structures in MRI and CT images. By leveraging cross-modality learning and interactive annotation, the model achieves strong performance and generalizability across diverse datasets, making it a valuable resource for researchers and clinicians. It is open source and can be downloaded from https://github.com/hhaentze/MRSegmentator.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# 適応および高次SDEソルバのためのブラウンパスと積分の単列生成

Single-seed generation of Brownian paths and integrals for adaptive and high order SDE solvers ( http://arxiv.org/abs/2405.06464v2 )

ライセンス: Link先を確認
Andraž Jelinčič, James Foster, Patrick Kidger, (参考訳) ODEシミュレーションにおける適応型タイムステッピングの成功にもかかわらず、SDE(Stochastic Differential Equations)の応用例はこれまでにない。 適応的にSDEをシミュレートするために、VBT(Virtual Brownian Tree)のような手法が開発され、非時間的にブラウン運動(BM)を生成することができる。 しかし、ほとんどのアプリケーションでは、ブラウン運動の値のみを知って高次収束を達成するには不十分であり、そのため、$\int_s^t W_r \, dr$ のようなBMの時間積分を計算する必要がある。 高次SDEソルバを適応的に使用することを目的として、我々は、ブラウン増分に加えて、これらのBM積分を生成するためにVBTを拡張した。 私たちの構築のJAXベースの実装は、人気のあるDiffraxライブラリ(https://github.com/patrick-kidger/diffrax)に含まれている。 VBTが生成するブラウンパス全体が単一のPRNGシードによって一意に決定されるため、以前に生成されたサンプルを格納する必要がなく、結果としてメモリフットプリントが一定となり、実験の再現性と強いエラー推定が可能になる。 バイナリ検索に基づいて、VBTの時間複雑性は許容パラメータ$\varepsilon$の対数である。 元のVBTアルゴリズムとは違い、我々の構成は、少なくとも$\varepsilon$の差がある場合、ブラウン運動とその時間積分の結合分布と正確に一致することを証明している。 適応型高次解法を新しいVBTで実現した2つの応用について述べる。 適応解法を用いて高揮発性CIRモデルをシミュレートし、定常ステップの収束順序を2倍以上に向上する。 MCMC問題に対して, 適応型第3次ランゲヴィン解法を応用し, 提案手法は機能評価の10分の1しか使用せず, No U-Turn Samplerよりも優れていることを示した。

Despite the success of adaptive time-stepping in ODE simulation, it has so far seen few applications for Stochastic Differential Equations (SDEs). To simulate SDEs adaptively, methods such as the Virtual Brownian Tree (VBT) have been developed, which can generate Brownian motion (BM) non-chronologically. However, in most applications, knowing only the values of Brownian motion is not enough to achieve a high order of convergence; for that, we must compute time-integrals of BM such as $\int_s^t W_r \, dr$. With the aim of using high order SDE solvers adaptively, we extend the VBT to generate these integrals of BM in addition to the Brownian increments. A JAX-based implementation of our construction is included in the popular Diffrax library (https://github.com/patrick-kidger/diffrax). Since the entire Brownian path produced by VBT is uniquely determined by a single PRNG seed, previously generated samples need not be stored, which results in a constant memory footprint and enables experiment repeatability and strong error estimation. Based on binary search, the VBT's time complexity is logarithmic in the tolerance parameter $\varepsilon$. Unlike the original VBT algorithm, which was only precise at some dyadic times, we prove that our construction exactly matches the joint distribution of the Brownian motion and its time integrals at any query times, provided they are at least $\varepsilon$ apart. We present two applications of adaptive high order solvers enabled by our new VBT. Using adaptive solvers to simulate a high-volatility CIR model, we achieve more than twice the convergence order of constant stepping. We apply an adaptive third order underdamped or kinetic Langevin solver to an MCMC problem, where our approach outperforms the No U-Turn Sampler, while using only a tenth of its function evaluations.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13
# EthereumスマートコントラクトにおけるPietrzakの検証遅延関数のコスト効果検証の実装検討

Implementation Study of Cost-Effective Verification for Pietrzak's Verifiable Delay Function in Ethereum Smart Contracts ( http://arxiv.org/abs/2405.06498v2 )

ライセンス: Link先を確認
Suhyeon Lee, Euisin Gee, Junghee Lee, (参考訳) Verifiable Delay Function (VDF) は、並列処理に耐性のある逐次処理による出力の最小遅延を保証する暗号概念である。 WesolowskiとPietrzakの2つのよく知られたVDFプロトコルの中で、私たちはブロックチェーン環境の計算効率と適合性から、Pietrzak VDFに注力しています。 Pietrzak のアプローチは、Wesolowski のアプローチよりも長い証明長にもかかわらず、実際的な代替手段を提供する。 本稿では, 実用的なVDF検証実装, 特にスマートコントラクトにおける研究の不足を踏まえ, VDF検証の完全性と信頼性を損なうことなく, Ethereumベースの環境でPietrzak VDFの費用対効果検証を実現することを目的とする。 まず,潜在的効率向上のための一般化された証明生成と検証アルゴリズムを提案する。 第2に、VDF検証のためのトランザクションにおいて、各部分のガスコストを分類し、測定する。 第3に、解析に基づいて、最適化された証明構成を理論的に予測する。 最後に,理論予測が実装結果と一致することを示す。 さらに,Pietrzak VDFの証明長は,セキュリティレベルが2048ビットの8KB以下であり,従来よりもはるかに小さいことを示す。 これは、Pietrzak VDFがブロックチェーン上の暗号化アプリケーションに実用的に使用できることを意味している。

Verifiable Delay Function (VDF) is a cryptographic concept that ensures a minimum delay before output through sequential processing, which is resistant to parallel computing. Among the two well-known VDF protocols, Wesolowski and Pietrzak VDF, we focus on the Pietrzak VDF due to its computational efficiency and suitability for blockchain environments. Pietrzak's approach uses a recursive proof verification with the halving protocol, offering a practical alternative despite the longer proof length than Wesolowski's approach. Given the scarcity of research on practical VDF verification implementation, especially within smart contracts, this paper aims to implement cost-effective verification for the Pietrzak VDF in an Ethereum-based environment without compromising the VDF verification's integrity and reliability. Firstly, we propose generalized proof generation and verification algorithms for potential efficiency improvement. Secondly, we categorize and measure the gas cost of each part in a transaction for VDF verification. Thirdly, based on the analysis, we theoretically predict the optimized proof construction. Finally, we demonstrate the theoretical prediction matches the implementation results. Furthermore, our research shows that the proof length of the Pietrzak VDF is generated under 8 KB with the security level of 2048 bits, much smaller than the previous expectation. This implies that the Pietrzak VDF can be practically used for cryptographic applications on blockchains.
翻訳日:2024-05-14 12:26:58 公開日:2024-05-13