このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240425となっている論文です。

PDF登録状況(公開日: 20240425)

TitleAuthorsAbstract論文公表日・翻訳日
# フェイク人工知能生成コンテンツ(FAIGC:Theories, Detection Methods, and Opportunities)

Fake Artificial Intelligence Generated Contents (FAIGC): A Survey of Theories, Detection Methods, and Opportunities ( http://arxiv.org/abs/2405.00711v1 )

ライセンス: Link先を確認
Xiaomin Yu, Yezhaohui Wang, Yanfang Chen, Zhen Tao, Dinghao Xi, Shichao Song, Simin Niu, (参考訳) 近年,Large Language Models (LLMs) とDiffusion Models (DMs) に代表される生成人工知能モデルは,コンテンツ生成手法に革命をもたらした。 これらの人工知能生成コンテンツ(AIGC)は、テキスト、画像、ビデオ、オーディオなど、日々の生活や仕事の様々な側面に深く浸透している。 AI生成コンテンツの信頼性は徐々に向上し、人間レベルのクリエイティブスタンダードに近づきつつある。 しかし、これらの技術はフェイク人工知能生成コンテンツ(FAIGC)の出現にもつながり、真の情報を識別する上で新たな課題を提起している。 AIGC技術は二重刃の剣に似ており、その強力な生成能力は有益であると同時に、FAIGCの作成と普及のリスクも生じている。 本調査では,現在のFAIGC手法の空間を包括的に把握する新たな分類法を提案する。 次に、AI生成の偽情報とAI生成の誤情報に分類されるFAIGCのモダリティと生成技術について検討する。 次に, 認知型FAIGC検出, ディープフェイク検出, 幻覚型FAIGC検出など, 様々な観点からFAIGC検出手法を導入する。 最後に,今後の課題と今後の研究に期待できる領域について論じる。

In recent years, generative artificial intelligence models, represented by Large Language Models (LLMs) and Diffusion Models (DMs), have revolutionized content production methods. These artificial intelligence-generated content (AIGC) have become deeply embedded in various aspects of daily life and work, spanning texts, images, videos, and audio. The authenticity of AI-generated content is progressively enhancing, approaching human-level creative standards. However, these technologies have also led to the emergence of Fake Artificial Intelligence Generated Content (FAIGC), posing new challenges in distinguishing genuine information. It is crucial to recognize that AIGC technology is akin to a double-edged sword; its potent generative capabilities, while beneficial, also pose risks for the creation and dissemination of FAIGC. In this survey, We propose a new taxonomy that provides a more comprehensive breakdown of the space of FAIGC methods today. Next, we explore the modalities and generative technologies of FAIGC, categorized under AI-generated disinformation and AI-generated misinformation. From various perspectives, we then introduce FAIGC detection methods, including Deceptive FAIGC Detection, Deepfake Detection, and Hallucination-based FAIGC Detection. Finally, we discuss outstanding challenges and promising areas for future research.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# SoK:ディープラーニングを用いた複雑な人間の活動認識の精度の裏側

SoK: Behind the Accuracy of Complex Human Activity Recognition Using Deep Learning ( http://arxiv.org/abs/2405.00712v1 )

ライセンス: Link先を確認
Duc-Anh Nguyen, Nhien-An Le-Khac, (参考訳) HAR(Human Activity Recognition)は1980年代にさかのぼる研究分野である。 時間とともに、HAR技術は、手動の特徴抽出、ルールベースのアルゴリズム、シンプルな機械学習モデルから、センサータイプからさまざまなセンサーモードに至るまで、強力なディープラーニングモデルへと大きく進化してきた。 範囲は、限られた一連の活動を認識することから、単純な活動と複雑な活動の両方を包含するようになる。 しかし,近年の深層学習手法による複雑な活動認識の進歩を妨げる課題が数多く存在する。 本稿では,データバージョニングやモデルキャパシティといった複雑なHARの不正確性につながる要因を包括的に体系化する。 センサの種類が多々ある中で,ウェアラブルやカメラに注目が集まっている。 The Systematisation of Knowledge (SoK)論文を通じて、読者は、HARの開発履歴と既存の課題、アクティビティの異なる分類、正確性に影響を与えるディープラーニングベースの複合HARの障害、そして潜在的研究方向性について、しっかりと理解することができる。

Human Activity Recognition (HAR) is a well-studied field with research dating back to the 1980s. Over time, HAR technologies have evolved significantly from manual feature extraction, rule-based algorithms, and simple machine learning models to powerful deep learning models, from one sensor type to a diverse array of sensing modalities. The scope has also expanded from recognising a limited set of activities to encompassing a larger variety of both simple and complex activities. However, there still exist many challenges that hinder advancement in complex activity recognition using modern deep learning methods. In this paper, we comprehensively systematise factors leading to inaccuracy in complex HAR, such as data variety and model capacity. Among many sensor types, we give more attention to wearable and camera due to their prevalence. Through this Systematisation of Knowledge (SoK) paper, readers can gain a solid understanding of the development history and existing challenges of HAR, different categorisations of activities, obstacles in deep learning-based complex HAR that impact accuracy, and potential research directions.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# エキスパートレベル臨床ノート作成のためのオープンソース大規模言語モデルの適用に向けて

Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation ( http://arxiv.org/abs/2405.00715v1 )

ライセンス: Link先を確認
Hanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Korsapati, Jimeng Sun, (参考訳) 大言語モデル(LLM)は、臨床テキスト要約タスクの処理において有望な能力を示している。 本研究では,患者と医師の対話から高品質な臨床ノートを作成するために,小規模なオープンソースLSMを効果的に訓練できることを実証した。 我々はLLaMA-213億のパラメータモデルに対する包括的およびタスク固有の適応プロセスによりこれを実現する。 このプロセスには、継続的な事前トレーニング、教師付き微調整、AIと人間のフィードバックからの強化学習が含まれている。 我々は、教師モデルとしてジェミニ・プロを用いて、政治強化学習を行うための強化されたアプローチであるDistillDirectを導入した。 得られたモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。 盲目医学読者の研究では、個々の評価の90.4%がLLaMA-Clinicが生み出したノートを「許容可能」以上の3つの基準(現実の読みやすさ、完全性、正確性)で評価している。 特に、より困難な「評価と計画」のセクションでは、LLaMA-Clinic は医師が発行したノート (4.1/5) よりも現実の準備ができている(4.2/5)。 また,ACI-BENCHなどの公立臨床ノートデータセットの注意点も同定した。 今後の臨床ノート作成課題の重要課題を取り上げ,ベストプラクティスノートフォーマットの事前定義の重要性を強調した。 本研究は、医療機関が患者記録やドメインの専門知識にアクセスできることを活かして、より小規模でオープンソースのLCMを臨床文書化するためのトレーニングの可能性と可能性を示すものである。 我々は,この分野での今後の研究を促進するために,新たに作成した総合的クリニック・ダイアログ・ノートデータセットと医師のフィードバックデータセットを公開している。

Large Language Models (LLMs) have shown promising capabilities in handling clinical text summarization tasks. In this study, we demonstrate that a small open-source LLM can be effectively trained to generate high-quality clinical notes from outpatient patient-doctor dialogues. We achieve this through a comprehensive domain- and task-specific adaptation process for the LLaMA-2 13 billion parameter model. This process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced an enhanced approach, termed DistillDirect, for performing on-policy reinforcement learning with Gemini Pro serving as the teacher model. Our resulting model, LLaMA-Clinic, is capable of generating clinical notes that are comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as "acceptable" or higher across all three criteria: real-world readiness, completeness, and accuracy. Notably, in the more challenging "Assessment and Plan" section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness compared to physician-authored notes (4.1/5). Additionally, we identified caveats in public clinical note datasets, such as ACI-BENCH. We highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format. Overall, our research demonstrates the potential and feasibility of training smaller, open-source LLMs to assist with clinical documentation, capitalizing on healthcare institutions' access to patient records and domain expertise. We have made our newly created synthetic clinic dialogue-note dataset and the physician feedback dataset publicly available to foster future research in this field.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# 医療における大規模言語モデル:総合ベンチマーク

Large Language Models in Healthcare: A Comprehensive Benchmark ( http://arxiv.org/abs/2405.00716v1 )

ライセンス: Link先を確認
Andrew Liu, Hongjian Zhou, Yining Hua, Omid Rohanian, Lei Clifton, David A. Clifton, (参考訳) 臨床医を支援するための大規模言語モデル(LLM)の導入が注目されている。 既存の作業は主に、評価のための回答オプションを備えたクローズドな質問応答タスクを採用しています。 しかし、実際の臨床環境では、治療勧告のような多くの臨床的決定は、事前に設定された選択肢なしで、オープンな質問に答えることを含む。 一方、既存の研究では、主に精度を用いてモデル性能を評価する。 本稿では、医療における多様なLSMを総合的にベンチマークし、その強みと弱点を明確に理解する。 私たちのベンチマークには、医療言語の生成、理解、推論にまたがる7つのタスクと13のデータセットが含まれています。 我々は、ゼロショットと少数ショット(すなわち1,3,5ショット)の学習環境下で、医療における既存の16のLSMの詳細な評価を行う。 臨床ユーザからの信頼を得る上で重要な5つの指標(一致、忠実、包括性、包括性、一般化性、堅牢性)について報告する。 また、医療専門家に人的評価の実施を依頼する。

The adoption of large language models (LLMs) to assist clinicians has attracted remarkable attention. Existing works mainly adopt the close-ended question-answering task with answer options for evaluation. However, in real clinical settings, many clinical decisions, such as treatment recommendations, involve answering open-ended questions without pre-set options. Meanwhile, existing studies mainly use accuracy to assess model performance. In this paper, we comprehensively benchmark diverse LLMs in healthcare, to clearly understand their strengths and weaknesses. Our benchmark contains seven tasks and thirteen datasets across medical language generation, understanding, and reasoning. We conduct a detailed evaluation of the existing sixteen LLMs in healthcare under both zero-shot and few-shot (i.e., 1,3,5-shot) learning settings. We report the results on five metrics (i.e. matching, faithfulness, comprehensiveness, generalizability, and robustness) that are critical in achieving trust from clinical users. We further invite medical experts to conduct human evaluation.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# 高資源スカース言語におけるニュース要約と豊か化の探求--ミゾを事例として

Exploring News Summarization and Enrichment in a Highly Resource-Scarce Indian Language: A Case Study of Mizo ( http://arxiv.org/abs/2405.00717v1 )

ライセンス: Link先を確認
Abhinaba Bala, Ashok Urlana, Rahul Mishra, Parameswari Krishnamurthy, (参考訳) ユーザの情報ニーズを満たすためには,母国語で十分な情報を得ることが不可欠である。 高リソース言語には豊富なオンラインリソースがあるが、非常に低リソース言語には理想的ではない。 さらに、重要な国家的・国際的出来事の報告が不十分であることは、特に『textbf{Mizo}』のような資源が乏しい言語では懸念されている。 本稿では、英語ニュースを利用して対応するニュースイベントに関する情報を補足し、強化する、三蔵ニュース記事の全体論的な要約を生成するための簡易手法の有効性について検討する。 さらに,500件のミゾニュース記事とそれに対応する豊富な総論要約を公開している。 人的評価は,提案手法がミゾニュース記事の情報カバレッジを著しく向上させることを確認した。 mizo データセットとコードは \url{https://github.com/barvin04/mizo_enrichment でアクセスできる

Obtaining sufficient information in one's mother tongue is crucial for satisfying the information needs of the users. While high-resource languages have abundant online resources, the situation is less than ideal for very low-resource languages. Moreover, the insufficient reporting of vital national and international events continues to be a worry, especially in languages with scarce resources, like \textbf{Mizo}. In this paper, we conduct a study to investigate the effectiveness of a simple methodology designed to generate a holistic summary for Mizo news articles, which leverages English-language news to supplement and enhance the information related to the corresponding news events. Furthermore, we make available 500 Mizo news articles and corresponding enriched holistic summaries. Human evaluation confirms that our approach significantly enhances the information coverage of Mizo news articles. The mizo dataset and code can be accessed at \url{https://github.com/barvin04/mizo_enrichment
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# 言い切れない? 大規模言語モデルにおけるダーク・ジャーゴンの測定と推論

Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models ( http://arxiv.org/abs/2405.00718v1 )

ライセンス: Link先を確認
Xu Ji, Jianyi Zhang, Ziyin Zhou, Zhangchi Zhao, Qianqian Qiao, Kaiying Han, Md Imran Hossen, Xiali Hei, (参考訳) 悪意ある搾取に対するLLM(Large Language Models)のレジリエンスの確保が最重要である。 しかし、カントやダークジャーゴンの理解は未解明のままである。 本稿では、ドメイン固有のCantデータセットとCantCounter評価フレームワークを紹介し、Fine-Tuning、Co-Tuning、Data-Diffusion、Data-Analysisのステージを利用する。 実験により、ChatGPTを含むLCMは、質問タイプ、設定、インシデントによって異なる認識精度で、フィルタを通過できないことが判明した。 更新されたモデルは、cantクエリの受け入れ率が高い。 さらに、LSMの反応は、例えば、人種差別とLGBTのトピックに関わることへの反感など、ドメインによって異なる。 これらの知見は、LLMのカントに対する理解と、トレーニングデータの特徴と、センシティブなトピックに対するベンダーのアプローチを反映している。 さらに,LLMが推論能力を示す能力も評価した。 データセットとコードへのアクセスは、https://github.com/cistineup/CantCounter.comで確認できます。

Ensuring the resilience of Large Language Models (LLMs) against malicious exploitation is paramount, with recent focus on mitigating offensive responses. Yet, the understanding of cant or dark jargon remains unexplored. This paper introduces a domain-specific Cant dataset and CantCounter evaluation framework, employing Fine-Tuning, Co-Tuning, Data-Diffusion, and Data-Analysis stages. Experiments reveal LLMs, including ChatGPT, are susceptible to cant bypassing filters, with varying recognition accuracy influenced by question types, setups, and prompt clues. Updated models exhibit higher acceptance rates for cant queries. Moreover, LLM reactions differ across domains, e.g., reluctance to engage in racism versus LGBT topics. These findings underscore LLMs' understanding of cant and reflect training data characteristics and vendor approaches to sensitive topics. Additionally, we assess LLMs' ability to demonstrate reasoning capabilities. Access to our datasets and code is available at https://github.com/cistineup/CantCounter.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# EEG-Deformer:脳-コンピュータインタフェースのための高密度畳み込み変換器

EEG-Deformer: A Dense Convolutional Transformer for Brain-computer Interfaces ( http://arxiv.org/abs/2405.00719v1 )

ライセンス: Link先を確認
Yi Ding, Yong Li, Hao Sun, Rui Liu, Chengxuan Tong, Cuntai Guan, (参考訳) 脳波(EEG)信号の時間的ダイナミクスを効果的に学習することは、脳-コンピュータインターフェース(BCI)を用いた脳活動の復号に不可欠である。 トランスフォーマーは、BCI分野における長期的なシーケンシャルな学習能力で人気があるが、ほとんどの手法は、トランスフォーマーと畳み込みニューラルネットワーク(CNN)を組み合わせることで、脳波信号の粗い時間的ダイナミクスを捉えることができない。 この制限を克服するために,1) 微細な時間学習(FTL) 分岐を変換器に統合する階層的粗度変換器(HCT) ブロックをCNN変換器に組み込んだEEG-Deformer と,2) マルチレベルで清浄な時間情報を利用して復号精度を高めるDense Information Purification (DIP) モジュールを導入する。 3つの代表的な認知タスクに関する総合的な実験は、提案した脳波変換器の一般化可能性の検証を一貫して行っており、既存の最先端手法よりも優れているか、それに匹敵するものであることを実証している。 可視化の結果,脳波変換器は神経生理学的に意味のある脳領域から学習し,それに対応する認知機能を示すことがわかった。 ソースコードはhttps://github.com/yi-ding-cs/EEG-Deformerにある。

Effectively learning the temporal dynamics in electroencephalogram (EEG) signals is challenging yet essential for decoding brain activities using brain-computer interfaces (BCIs). Although Transformers are popular for their long-term sequential learning ability in the BCI field, most methods combining Transformers with convolutional neural networks (CNNs) fail to capture the coarse-to-fine temporal dynamics of EEG signals. To overcome this limitation, we introduce EEG-Deformer, which incorporates two main novel components into a CNN-Transformer: (1) a Hierarchical Coarse-to-Fine Transformer (HCT) block that integrates a Fine-grained Temporal Learning (FTL) branch into Transformers, effectively discerning coarse-to-fine temporal patterns; and (2) a Dense Information Purification (DIP) module, which utilizes multi-level, purified temporal information to enhance decoding accuracy. Comprehensive experiments on three representative cognitive tasks consistently verify the generalizability of our proposed EEG-Deformer, demonstrating that it either outperforms existing state-of-the-art methods or is comparable to them. Visualization results show that EEG-Deformer learns from neurophysiologically meaningful brain regions for the corresponding cognitive tasks. The source code can be found at https://github.com/yi-ding-cs/EEG-Deformer.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# 下流100G PAM-4 PONのための機械学習に基づく新しい等化器

A Novel Machine Learning-based Equalizer for a Downstream 100G PAM-4 PON ( http://arxiv.org/abs/2405.00720v1 )

ライセンス: Link先を確認
Chen Shao, Elias Giacoumidis, Shi Li, Jialei Li, Michael Faerber, Tobias Kaefer, Andre Richter, (参考訳) 28.7dBパス損失を有する下流100G PONに対して、周波数校正SCINet(FC-SCINet)等化器を提案する。 FC-SCINetは5kmで、FFEとDNNの10.57%のDNNに比べて、BERを88.87%改善している。

A frequency-calibrated SCINet (FC-SCINet) equalizer is proposed for down-stream 100G PON with 28.7 dB path loss. At 5 km, FC-SCINet improves the BER by 88.87% compared to FFE and a 3-layer DNN with 10.57% lower complexity.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-25
# 論争の概念マッピング

Conceptual Mapping of Controversies ( http://arxiv.org/abs/2404.18940v1 )

ライセンス: Link先を確認
Claude Draude, Dominik Dürrschnabel, Johannes Hirth, Viktoria Horn, Jonathan Kropf, Jörn Lamla, Gerd Stumme, Markus Uhlmann, (参考訳) 本研究は,オンラインニュースメディアにおける議論の質的分析に寄与する。 そこで本研究では,コンベンションの形式的概念分析と経済学を用いて,概念的論争マップを導出する。 実験では,異なるニュース雑誌の2つの地図を,順序データ科学の手法を用いて分析した。 議論の多様性,複雑性,潜在的なバイアスを評価するために,これらの手法をどのように利用できるかを示す。 さらに,概念格子図を用いてニュース記事間をナビゲートする方法についても論じる。

With our work, we contribute towards a qualitative analysis of the discourse on controversies in online news media. For this, we employ Formal Concept Analysis and the economics of conventions to derive conceptual controversy maps. In our experiments, we analyze two maps from different news journals with methods from ordinal data science. We show how these methods can be used to assess the diversity, complexity and potential bias of controversies. In addition to that, we discuss how the diagrams of concept lattices can be used to navigate between news articles.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-25
# GuideWalk -- 拡張学習のための異種データ融合 -- 多クラス文書分類ケース

GuideWalk -- Heterogeneous Data Fusion for Enhanced Learning -- A Multiclass Document Classification Case ( http://arxiv.org/abs/2404.18942v1 )

ライセンス: Link先を確認
Sarmad N. Mohammed, Semra Gündüç, (参考訳) 計算機科学と機械学習の主な問題のひとつは、大規模な異種データから情報を効率的に抽出することである。 テキストデータは、その構文、セマンティクス、さらには隠された情報コンテンツによって、懸念されるデータ型の中で例外的な位置を占める。 テキストデータの処理には埋め込みが必要である。 正しい埋め込みアルゴリズムは、テキストデータの完全な情報内容を取得するための出発点である。 本研究では,意味文のグラフ構造に基づく新しい埋め込み手法を提案する。 このアルゴリズムの設計は、テキストデータの隠された内容だけでなく、構文的および意味的要素を構成する埋め込みベクトルを構築することを目的としている。 本手法の有効性を分類問題において検証した。 応用分野の広い範囲において, テキスト分類は埋込工法に最適な実験室であり, その分類能力は, さらなる処理を伴わずに次元還元法を用いて検証することができる。 さらに、異なる埋め込みアルゴリズムや機械学習手法と比較することができる。 提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。 提案手法は、よく知られたアルゴリズムと比較して、バイナリとマルチクラスデータセットの分類がかなり優れていることを示す。

One of the prime problems of computer science and machine learning is to extract information efficiently from large-scale, heterogeneous data. Text data, with its syntax, semantics, and even hidden information content, possesses an exceptional place among the data types in concern. The processing of the text data requires embedding, a method of translating the content of the text to numeric vectors. A correct embedding algorithm is the starting point for obtaining the full information content of the text data. In this work, a new embedding method based on the graph structure of the meaningful sentences is proposed. The design of the algorithm aims to construct an embedding vector that constitutes syntactic and semantic elements as well as the hidden content of the text data. The success of the proposed embedding method is tested in classification problems. Among the wide range of application areas, text classification is the best laboratory for embedding methods; the classification power of the method can be tested using dimensional reduction without any further processing. Furthermore, the method can be compared with different embedding algorithms and machine learning methods. The proposed method is tested with real-world data sets and eight well-known and successful embedding algorithms. The proposed embedding method shows significantly better classification for binary and multiclass datasets compared to well-known algorithms.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-25
# 人工知能を用いたビジュアルアナライザの研究

Using artificial intelligence methods for the studyed visual analyzer ( http://arxiv.org/abs/2404.18943v1 )

ライセンス: Link先を確認
A. I. Medvedeva, M. V. Kholod, (参考訳) 本稿では,人間の目の研究に人工知能を応用するための様々な手法について述べる。 第1のデータセットは,ヒトの視野の可視化と緑内障の診断のためにコンピュータ・ペリメトリを用いて収集された。 ソフトウェアツールを用いた画像解析手法を提案する。 第2のデータセットは、Tobii Pro Glasses 3デバイスをVRビデオに使用して眼球運動データを収集・分析するロシア・スイスの実験の実施の一環として得られた。 ヴォードのカントンを通る仮想旅の記録されたルートの眼球運動と焦点について検討した。 数学的モデリングを用いて眼球運動の依存性を調べる手法が開発されている。 VRビデオユーザーは、これらの研究を医学で利用し、緑内障患者の経過と悪化を評価し、観光地への注意のメカニズムを研究することができる。

The paper describes how various techniques for applying artificial intelligence to the study of human eyes are utilized. The first dataset was collected using computerized perimetry to investigate the visualization of the human visual field and the diagnosis of glaucoma. A method to analyze the image using software tools is proposed. The second dataset was obtained, as part of the implementation of a Russian-Swiss experiment to collect and analyze eye movement data using the Tobii Pro Glasses 3 device on VR video. Eye movements and focus on the recorded route of a virtual journey through the canton of Vaud were investigated. Methods are being developed to investigate the dependencies of eye pupil movements using mathematical modelling. VR-video users can use these studies in medicine to assess the course and deterioration of glaucoma patients and to study the mechanisms of attention to tourist attractions.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-25
# 計算ツールを用いたソーシャルメディア上でのSTEMコンテンツの普及の検討

Investigating the dissemination of STEM content on social media with computational tools ( http://arxiv.org/abs/2404.18944v1 )

ライセンス: Link先を確認
Oluwamayokun Oshinowo, Priscila Delgado, Meredith Fay, C. Alessandra Luna, Anjana Dissanayaka, Rebecca Jeltuhin, David R. Myers, (参考訳) ソーシャルメディアプラットフォームは、様々なオーディエンスにSTEMコンテンツを素早く広めることができるが、その操作は神秘的だ。 我々は、クラスタリング、回帰分析、感情分析などのオープンソースの機械学習手法を用いて、6つのソーシャルメディアSTEMクリエーターから1000以上のビデオとメトリクスを分析した。 我々のデータは、視聴者が関心信号(例えば、ブックマーク、コメント、共有)をどのように生成するかについての洞察を与え、ビューと様々な信号の相関について考察し、新しいクリエーターのコンテンツは、異なる方法で散布されていることを示唆する。 また、コンテンツ制作者専用のデータ分析やコメントの感情分析を通じて、拡散の最適化に関する洞察を共有します。

Social media platforms can quickly disseminate STEM content to diverse audiences, but their operation can be mysterious. We used open-source machine learning methods such as clustering, regression, and sentiment analysis to analyze over 1000 videos and metrics thereof from 6 social media STEM creators. Our data provide insights into how audiences generate interest signals(likes, bookmarks, comments, shares), on the correlation of various signals with views, and suggest that content from newer creators is disseminated differently. We also share insights on how to optimize dissemination by analyzing data available exclusively to content creators as well as via sentiment analysis of comments.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-25
# 風洞実験データを用いた非線形オートエンコーダの潜時空間解析のためのデコーダ分解

Decoder Decomposition for the Analysis of the Latent Space of Nonlinear Autoencoders With Wind-Tunnel Experimental Data ( http://arxiv.org/abs/2404.19660v1 )

ライセンス: Link先を確認
Yaxin Mo, Tullio Traverso, Luca Magri, (参考訳) 乱流はカオス的で多スケールの力学系であり、自由度は多岐にわたる。 しかし、乱流は、非線形オートエンコーダによる次元減少の目標である適切な座標系を用いることで、より少ない自由度でモデル化することができる。 オートエンコーダは表現力のあるツールだが、解釈が難しい。 本研究の目的は,オートエンコーダの解釈可能性向上を支援する手法を提案することである。 これはデコーダ分解です。 まず,遅延変数をフローのコヒーレントな構造に接続するための後処理法であるデコーダ分解を提案する。 第二に、デコーダ分解を適用して、シリンダーを過ぎる2次元の非定常ウェイクの合成データの潜時空間を解析する。 遅延空間の次元は自己エンコーダの解釈可能性に大きな影響を及ぼすことがわかった。 物理的および刺激的な潜伏変数を同定する。 第三に, このデコーダ分解を, ブラフ体を過ぎる3次元乱流の風洞実験データの潜時空間に適用する。 再構成誤差は, 遅延空間次元とデコーダサイズの両方の関数であり, 相関関係を示す。 最後に、デコーダ分解をランク付けに適用し、それらが表すコヒーレントな構造に基づいて潜在変数を選択する。 これは望ましくないあるいは刺激的な潜伏変数をフィルタリングしたり、興味のある特定のコヒーレントな構造をピンポイントしたりするのに有用である。 遅延変数のランク付けと選択は、非線形オートエンコーダの設計と解釈に役立つ。

Turbulent flows are chaotic and multi-scale dynamical systems, which have large numbers of degrees of freedom. Turbulent flows, however, can be modelled with a smaller number of degrees of freedom when using the appropriate coordinate system, which is the goal of dimensionality reduction via nonlinear autoencoders. Autoencoders are expressive tools, but they are difficult to interpret. The goal of this paper is to propose a method to aid the interpretability of autoencoders. This is the decoder decomposition. First, we propose the decoder decomposition, which is a post-processing method to connect the latent variables to the coherent structures of flows. Second, we apply the decoder decomposition to analyse the latent space of synthetic data of a two-dimensional unsteady wake past a cylinder. We find that the dimension of latent space has a significant impact on the interpretability of autoencoders. We identify the physical and spurious latent variables. Third, we apply the decoder decomposition to the latent space of wind-tunnel experimental data of a three-dimensional turbulent wake past a bluff body. We show that the reconstruction error is a function of both the latent space dimension and the decoder size, which are correlated. Finally, we apply the decoder decomposition to rank and select latent variables based on the coherent structures that they represent. This is useful to filter unwanted or spurious latent variables, or to pinpoint specific coherent structures of interest. The ability to rank and select latent variables will help users design and interpret nonlinear autoencoders.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-25
# SetCSE: 文埋め込みのコントラスト学習を用いた設定操作

SetCSE: Set Operations using Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2404.17606v1 )

ライセンス: Link先を確認
Kang Liu, (参考訳) Set Theory からインスピレーションを得て,革新的な情報検索フレームワーク SetCSE を紹介した。 SetCSEは複雑なセマンティクスを表現するためにセットを使用し、提供されたコンテキスト下で構造化された情報クエリのための明確に定義された操作を組み込む。 本フレームワークでは,与えられた意味論に関する文埋め込みモデルの理解を高めるために,集合間コントラスト学習の目的を導入する。 さらに,複雑な文検索タスクのための拡張モデルの文埋め込みを利用する,SetCSEの交叉,差分,操作系列を含む一連の操作を提案する。 本稿では,SetCSEが複合意味論に関する人間の言語表現の慣習に準拠していることを示すとともに,基礎となる文埋め込みモデルの識別能力を大幅に向上させ,既存のクエリ手法では達成できない複雑で複雑なプロンプトを含む多数の情報検索タスクを可能にする。

Taking inspiration from Set Theory, we introduce SetCSE, an innovative information retrieval framework. SetCSE employs sets to represent complex semantics and incorporates well-defined operations for structured information querying under the provided context. Within this framework, we introduce an inter-set contrastive learning objective to enhance comprehension of sentence embedding models concerning the given semantics. Furthermore, we present a suite of operations, including SetCSE intersection, difference, and operation series, that leverage sentence embeddings of the enhanced model for complex sentence retrieval tasks. Throughout this paper, we demonstrate that SetCSE adheres to the conventions of human language expressions regarding compounded semantics, provides a significant enhancement in the discriminatory capability of underlying sentence embedding models, and enables numerous information retrieval tasks involving convoluted and intricate prompts which cannot be achieved using existing querying methods.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-25
# 大規模言語モデルを用いたデジタル介入のためのバッピングセッセーションを考慮したRedditユーザ識別

Utilizing Large Language Models to Identify Reddit Users Considering Vaping Cessation for Digital Interventions ( http://arxiv.org/abs/2404.17607v1 )

ライセンス: Link先を確認
Sai Krishna Revanth Vuruma, Dezhi Wu, Saborny Sen Gupta, Lucas Aust, Valerie Lookingbill, Caleb Henry, Yang Ren, Erin Kasson, Li-Shiun Chen, Patricia Cavazos-Rehg, Dian Hu, Ming Huang, (参考訳) グローバルなソーシャルメディアプラットフォームの普及は、ユーザの接続性やコミュニケーションを高めるだけでなく、健康関連情報の拡散に欠かせないチャネルとして現れ、公衆衛生研究のための貴重な有機データ資源としてソーシャルメディアデータを確立する。 米国などの国々で電子タバコや電子タバコが普及し、電子タバコや電子タバコによる肺障害(EVALI)が流行し、2019年に入院と死亡が報告された。 本研究では、Reddit上の1つの電子タバコサブコミュニティからサンプルデータセットを抽出し、ユーザの電子タバコの停止意図を分析した。 本研究は,最新のGPT-4と従来のBERTベースの言語モデルを含む大規模言語モデルを用いて,人間のアノテーションに対するこれらのモデルの結果を比較した。 特に,GPT-4モデルは,ヒト評価者と比較して,ガイドラインやプロセスの適合性に優れた一貫性を示し,人間の評価者が見落としてしまうような,不注意なユーザ停止の意図を検出する高度な能力を示す。 これらの予備的な知見は、GPT-4がソーシャルメディアデータ分析の精度と信頼性を高める可能性、特に人間の検出を損なう可能性のある微妙なユーザの意図を識別する可能性を強調している。

The widespread adoption of social media platforms globally not only enhances users' connectivity and communication but also emerges as a vital channel for the dissemination of health-related information, thereby establishing social media data as an invaluable organic data resource for public health research. The surge in popularity of vaping or e-cigarette use in the United States and other countries has caused an outbreak of e-cigarette and vaping use-associated lung injury (EVALI), leading to hospitalizations and fatalities in 2019, highlighting the urgency to comprehend vaping behaviors and develop effective strategies for cession. In this study, we extracted a sample dataset from one vaping sub-community on Reddit to analyze users' quit vaping intentions. Leveraging large language models including both the latest GPT-4 and traditional BERT-based language models for sentence-level quit-vaping intention prediction tasks, this study compares the outcomes of these models against human annotations. Notably, when compared to human evaluators, GPT-4 model demonstrates superior consistency in adhering to annotation guidelines and processes, showcasing advanced capabilities to detect nuanced user quit-vaping intentions that human evaluators might overlook. These preliminary findings emphasize the potential of GPT-4 in enhancing the accuracy and reliability of social media data analysis, especially in identifying subtle users' intentions that may elude human detection.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-25
# シーケンス・シーケンス・モデリングによるサイレントビデオからの音声合成

Synthesizing Audio from Silent Video using Sequence to Sequence Modeling ( http://arxiv.org/abs/2404.17608v1 )

ライセンス: Link先を確認
Hugo Garrido-Lestache Belinchon, Helina Mulugeta, Adam Haile, (参考訳) 例えば、CCTVの映像分析の強化、過去のビデオ(サイレント映画など)の復元、ビデオ生成モデルの改善などである。 本稿では,CNNとWaveNetを用いた先行作業を改善し,音声の多様性と一般化の課題に直面した,シーケンス・ツー・シーケンス・モデルを用いたビデオから音声を生成する新しい手法を提案する。 提案手法では,3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。 Youtube8Mデータセットセグメントをトレーニングし、特定のドメインに焦点を当て、CCTV映像分析、サイレント映画復元、ビデオ生成モデルなどの応用を強化することを目的としている。

Generating audio from a video's visual context has multiple practical applications in improving how we interact with audio-visual media - for example, enhancing CCTV footage analysis, restoring historical videos (e.g., silent movies), and improving video generation models. We propose a novel method to generate audio from video using a sequence-to-sequence model, improving on prior work that used CNNs and WaveNet and faced sound diversity and generalization challenges. Our approach employs a 3D Vector Quantized Variational Autoencoder (VQ-VAE) to capture the video's spatial and temporal structures, decoding with a custom audio decoder for a broader range of sounds. Trained on the Youtube8M dataset segment, focusing on specific domains, our model aims to enhance applications like CCTV footage analysis, silent movie restoration, and video generation models.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-25
# クラウドソーシングにおける適応的強い多数決投票の完全評価

Full Characterization of Adaptively Strong Majority Voting in Crowdsourcing ( http://arxiv.org/abs/2111.06390v3 )

ライセンス: Link先を確認
Margarita Boyarskaya, Panos Ipeirotis, (参考訳) クラウドソーシングでは、労働者がアイテムを調べ、その正確性に投票することで、品質管理が一般的に達成される。 信頼できない労働者の反応の影響を最小限に抑えるために、$\delta$-marginの投票プロセスを使用し、労働者間の合意のために所定の閾値$\delta$が成立するまで追加の投票を行う。 このプロセスは広く採用されているが、ヒューリスティックとしてのみ採用されている。 本研究は, クラウドソーシングプロセスにおいて重要な投票プロセスの特徴を分析するために, 吸収型マルコフ連鎖を用いたモデリング手法を提案する。 我々は、結果のコンセンサス投票の質、コンセンサスに必要な投票数、投票要求の分散、その他の分配モーメントについて、クローズドフォームの方程式を提供する。 以上の結果から, 精度の異なる労働者を雇用する投票プロセスにおいて, 品質等価性を達成するために, しきい値$\delta$を調整できることが示唆された。 また、予測応答精度の異なる投票プロセスに対して、効率等級の支払い率も提供します。 さらに,本モデルでは,各例の難易度や難易度が異なる項目について考察する。 実世界のクラウドソースによる投票データを用いたシミュレーションでは,コンセンサス集約プロセスの特徴付けにおける理論モデルの有効性が検証された。 本研究の結果は,クラウドソーシングの実用化に有効である。

In crowdsourcing, quality control is commonly achieved by having workers examine items and vote on their correctness. To minimize the impact of unreliable worker responses, a $\delta$-margin voting process is utilized, where additional votes are solicited until a predetermined threshold $\delta$ for agreement between workers is exceeded. The process is widely adopted but only as a heuristic. Our research presents a modeling approach using absorbing Markov chains to analyze the characteristics of this voting process that matter in crowdsourced processes. We provide closed-form equations for the quality of resulting consensus vote, the expected number of votes required for consensus, the variance of vote requirements, and other distribution moments. Our findings demonstrate how the threshold $\delta$ can be adjusted to achieve quality equivalence across voting processes that employ workers with varying accuracy levels. We also provide efficiency-equalizing payment rates for voting processes with different expected response accuracy levels. Additionally, our model considers items with varying degrees of difficulty and uncertainty about the difficulty of each example. Our simulations, using real-world crowdsourced vote data, validate the effectiveness of our theoretical model in characterizing the consensus aggregation process. The results of our study can be effectively employed in practical crowdsourcing applications.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-25
# 自動運転のための説明可能な人工知能: 今後の研究方向の総合的概要とフィールドガイド

Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions ( http://arxiv.org/abs/2112.11561v5 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Hengshuai Yao, Randy Goebel, (参考訳) 自動運転は過去20年間、研究と開発において重要なマイルストーンを達成してきた。 自動運転車(AV)の配備がより安全で環境に優しい交通システムを実現するため、この分野への関心が高まっている。 計算力のある人工知能(AI)技術の急速な進歩により、AVは高い精度で環境を感知し、安全なリアルタイム決定を行い、人間の介入なしに確実に運用することができる。 しかし、そのような車両におけるインテリジェントな意思決定は、現在の最先端の人間によって一般的には理解できないため、そのような不足は、この技術が社会的に受け入れられることを妨げる。 したがって、AVは、安全なリアルタイム決定をするためには、多くの管轄区域で規制に準拠するために、AIが指導する意思決定プロセスについても説明する必要がある。 我々の研究は、AVのための説明可能な人工知能(XAI)アプローチの開発について包括的に光を当てている。 特に、以下の貢献をしている。 まず、XAIをベースとした自動運転における最先端および新興のアプローチの概要について概説する。 次に、説明可能なエンドツーエンド自動運転に不可欠な要素を考察する概念的枠組みを提案する。 最後に, 透明性, 信頼性, AV の社会的受容の促進を約束する, 今後の方向性に向けて, XAI に基づく先進的な方向性とパラダイムを提示する。

Autonomous driving has achieved significant milestones in research and development over the last two decades. There is increasing interest in the field as the deployment of autonomous vehicles (AVs) promises safer and more ecologically friendly transportation systems. With the rapid progress in computationally powerful artificial intelligence (AI) techniques, AVs can sense their environment with high precision, make safe real-time decisions, and operate reliably without human intervention. However, intelligent decision-making in such vehicles is not generally understandable by humans in the current state of the art, and such deficiency hinders this technology from being socially acceptable. Hence, aside from making safe real-time decisions, AVs must also explain their AI-guided decision-making process in order to be regulatory compliant across many jurisdictions. Our study sheds comprehensive light on the development of explainable artificial intelligence (XAI) approaches for AVs. In particular, we make the following contributions. First, we provide a thorough overview of the state-of-the-art and emerging approaches for XAI-based autonomous driving. We then propose a conceptual framework that considers the essential elements for explainable end-to-end autonomous driving. Finally, we present XAI-based prospective directions and emerging paradigms for future directions that hold promise for enhancing transparency, trustworthiness, and societal acceptance of AVs.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-25
# ハイウェイブリッジシステムの耐震性解析のためのグラフニューラルネットワークサロゲート

Graph Neural Network Surrogate for Seismic Reliability Analysis of Highway Bridge Systems ( http://arxiv.org/abs/2210.06404v2 )

ライセンス: Link先を確認
Tong Liu, Hadi Meidani, (参考訳) 交通ネットワークの迅速な信頼性評価は、これらのシステムに関連する準備、リスク軽減、応答管理の手順を向上させることができる。 ネットワーク信頼性分析は一般にネットワークレベルの性能を考慮し、計算コストによるより詳細なノードレベルの応答を考慮しない。 本稿では,関心点と他のノード間のノードレベルの接続性を確率的地震シナリオ下で評価する,グラフニューラルネットワークに基づく橋梁網の高速地震信頼性評価手法を提案する。 カリフォルニアにおける輸送システムの数値実験により,モンテカルロ法と比較して提案手法の精度,計算効率,ロバスト性を実証した。

Rapid reliability assessment of transportation networks can enhance preparedness, risk mitigation, and response management procedures related to these systems. Network reliability analysis commonly considers network-level performance and does not consider the more detailed node-level responses due to computational cost. In this paper, we propose a rapid seismic reliability assessment approach for bridge networks based on graph neural networks, where node-level connectivities, between points of interest and other nodes, are evaluated under probabilistic seismic scenarios. Via numerical experiments on transportation systems in California, we demonstrate the accuracy, computational efficiency, and robustness of the proposed approach compared to the Monte Carlo approach.
翻訳日:2024-04-29 18:47:13 公開日:2024-04-25
# 画像データにおける物体検出のためのモデルに依存しない説明可能な人工知能

Model-agnostic explainable artificial intelligence for object detection in image data ( http://arxiv.org/abs/2303.17249v3 )

ライセンス: Link先を確認
Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari, (参考訳) 近年、ディープニューラルネットワークはコンピュータビジョンアプリケーションのための高性能人工知能(AI)システムの構築に広く利用されている。 物体検出はコンピュータビジョンの基本的な課題であり、大規模かつ複雑なディープラーニングモデルを開発することで大きく進歩してきた。 しかし、透明性の欠如は、これらのモデルの普及を許さない大きな課題である。 説明可能な人工知能(Explainable AI)は、AIシステムの振る舞い、決定ロジック、脆弱性を理解するための手法を開発する研究分野である。 従来はランダムマスクの考え方に基づくオブジェクト検出のための説明法がほとんど開発されていなかった。 しかし、ランダムマスクは画像内のピクセルの実際の重要性に関していくつかの問題を引き起こす可能性がある。 本稿では,AIに基づく物体検出システムにおいて,階層的ランダムマスキング手法を用いて,マスキングによるブラックボックスオブジェクト検出記述法(BODEM)の設計と実装を行う。 本研究では, 粗いマスクを低レベルに使用して画像内の有意な領域を見つける階層的ランダムマスキングフレームワークを提案し, より高レベルな有意な領域を改良するために, きめ細かいマスクを用いる。 様々な物体検出データセットとモデルの実験により、BODEMは物体検出器の挙動を効果的に説明できることが示された。 さらに,提案手法は,説明効率の異なる定量的尺度に関して,無作為入力サンプリング(D-RISE)よりも優れていた。 実験結果から,BODEMはブラックボックステストシナリオにおけるオブジェクト検出システムの説明と検証に有効な方法であることが示された。

In recent years, deep neural networks have been widely used for building high-performance Artificial Intelligence (AI) systems for computer vision applications. Object detection is a fundamental task in computer vision, which has been greatly progressed through developing large and intricate deep learning models. However, the lack of transparency is a big challenge that may not allow the widespread adoption of these models. Explainable artificial intelligence is a field of research where methods are developed to help users understand the behavior, decision logics, and vulnerabilities of AI systems. Previously, few explanation methods were developed for object detection, based on the idea of random masks. However, random masks may raise some issues regarding the actual importance of pixels within an image. In this paper, we design and implement a black-box explanation method named Black-box Object Detection Explanation by Masking (BODEM) through adopting a hierarchical random masking approach for AI-based object detection systems. We propose a hierarchical random masking framework in which coarse-grained masks are used in lower levels to find salient regions within an image, and fine-grained mask are used to refine the salient regions in higher levels. Experimentations on various object detection datasets and models showed that BODEM can be effectively used to explain the behavior of object detectors. Moreover, our method outperformed Detector Randomized Input Sampling for Explanation (D-RISE) with respect to different quantitative measures of explanation effectiveness. The experimental results demonstrate that BODEM can be an effective method for explaining and validating object detection systems in black-box testing scenarios.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-25
# フィンテ・デ・フィネッティ理論への第三の情報理論的アプローチ

A Third Information-Theoretic Approach to Finite de Finetti Theorems ( http://arxiv.org/abs/2304.05360v2 )

ライセンス: Link先を確認
Mario Berta, Lampros Gavalakis, Ioannis Kontoyiannis, (参考訳) デ・フィネッティの表現定理の新しい有限形式は、基本的な情報理論ツールを用いて確立される。 最初の$k$ランダム変数の$n\geq k$ランダム変数の交換可能なベクトルにおける分布は、積分布の混合に近い。 密接度は相対エントロピーで測定され、明示的な境界が与えられる。 この境界は、以前の情報理論的な証明によって得られたものよりも厳密であり、その効用は一般空間で値を取る確率変数にまで拡張される。 中心的な議論は、量子情報理論の文献に起源を持つ。

A new finite form of de Finetti's representation theorem is established using elementary information-theoretic tools. The distribution of the first $k$ random variables in an exchangeable vector of $n\geq k$ random variables is close to a mixture of product distributions. Closeness is measured in terms of the relative entropy and an explicit bound is provided. This bound is tighter than those obtained via earlier information-theoretic proofs, and its utility extends to random variables taking values in general spaces. The core argument employed has its origins in the quantum information-theoretic literature.
翻訳日:2024-04-29 18:37:21 公開日:2024-04-25
# 一般偏光変換のためのストークスベクトル回転の量子推定

Quantum Estimation of the Stokes Vector Rotation for a General Polarimetric Transformation ( http://arxiv.org/abs/2304.08258v2 )

ライセンス: Link先を確認
Ali Pedram, Vira R. Besaga, Lea Gassab, Frank Setzpfandt, Özgür E. Müstecaplıoğlu, (参考訳) 古典分極法は、科学の様々な分野にまたがる様々な応用で確立された分野である。 高い感度の測定を達成するために量子資源を活用することへの関心が高まり、研究者たちは量子力学の枠組みの中で偏光の挙動を解明し、偏光測定の量子理論の発展を促した。 本研究では, 生体組織における偏光的研究から着想を得て, 3つの異なる量子チャネルからなる量子偏光過程において, 既知の回転軸に関する偏光回転角推定の精度限界について検討する。 推定される回転角は、プローブ状態のストークスベクトル上のリターダチャネルによって誘導される。 プローブ状態に作用する二分極チャネルと脱分極チャネルは、効果的なノイズ過程と考えることができる。 量子測候学において重要なプローブ状態、すなわちNOON、Kings of Quantumness、Coherent状態の量子フィッシャー情報(QFI)を評価することにより、量子偏光度に固有の精度制約について検討する。 量子偏光度測定のための実用的および最適量子プローブ状態を特徴付けるために、回転角の推定誤差に対して、ノイズチャネルとそれらの順序が与える影響を解析する。 さらに,NOON状態の量子偏光測定に適した実験フレームワークを提案し,理論的知見を実証的検証で橋渡しすることを目的とした。

Classical polarimetry is a well-established discipline with diverse applications across different branches of science. The burgeoning interest in leveraging quantum resources to achieve highly sensitive measurements has spurred researchers to elucidate the behavior of polarized light within a quantum mechanical framework, thereby fostering the development of a quantum theory of polarimetry. In this work, drawing inspiration from polarimetric investigations in biological tissues, we investigate the precision limits of polarization rotation angle estimation about a known rotation axis, in a quantum polarimetric process, comprising three distinct quantum channels. The rotation angle to be estimated is induced by the retarder channel on the Stokes vector of the probe state. The diattenuator and depolarizer channels, acting on the probe state, can be thought of as effective noise processes. We explore the precision constraints inherent in quantum polarimetry by evaluating the quantum Fisher information (QFI) for probe states of significance in quantum metrology, namely NOON, Kings of Quantumness, and Coherent states. The effects of the noise channels as well as their ordering is analyzed on the estimation error of the rotation angle to characterize practical and optimal quantum probe states for quantum polarimetry. Furthermore, we propose an experimental framework tailored for NOON state quantum polarimetry, aiming to bridge theoretical insights with empirical validation.
翻訳日:2024-04-29 18:27:27 公開日:2024-04-25
# 時系列予測におけるリカレントニューラルネットワークの有効性評価のための距離相関に基づくアプローチ

A Distance Correlation-Based Approach to Characterize the Effectiveness of Recurrent Neural Networks for Time Series Forecasting ( http://arxiv.org/abs/2307.15830v2 )

ライセンス: Link先を確認
Christopher Salazar, Ashis G. Banerjee, (参考訳) 時系列予測は多くの注目を集めており、逐次データを扱う能力のために、リカレントニューラルネットワーク(RNN)が広く使用されているモデルの1つである。 しかし、RNNの時系列予測に関する以前の研究は、一貫性のない結果を示し、データセットのパフォーマンス変化についてはほとんど説明していない。 本稿では,RNN成分と時系列特性をリンクする手法を提案する。 このメトリクスにより、RNNアクティベーション層を流れる情報の流れを調べて、それらの性能を解釈し、説明することができます。 RNN活性化層が時系列のラグ構造をよく学習していることを実証的に示す。 しかし、この情報は数層にわたって徐々に失われ、大きなラグ構造を持つシリーズの予測品質が悪化する。 また,アクティベーション層は移動平均およびヘテロスケダティック時系列過程を適切にモデル化できないことを示す。 最後に、ネットワークハイパーパラメータの異なる選択に対して、アクティベーション層を視覚的に比較するためのヒートマップを生成し、そのどれが予測性能に影響を与えるかを特定する。 その結果,ネットワークのトレーニングや評価を行なわずに,各時系列データに対するRNNの有効性を評価する上で,実践者を支援することができた。

Time series forecasting has received a lot of attention, with recurrent neural networks (RNNs) being one of the widely used models due to their ability to handle sequential data. Previous studies on RNN time series forecasting, however, show inconsistent outcomes and offer few explanations for performance variations among the datasets. In this paper, we provide an approach to link time series characteristics with RNN components via the versatile metric of distance correlation. This metric allows us to examine the information flow through the RNN activation layers to be able to interpret and explain their performance. We empirically show that the RNN activation layers learn the lag structures of time series well. However, they gradually lose this information over the span of a few consecutive layers, thereby worsening the forecast quality for series with large lag structures. We also show that the activation layers cannot adequately model moving average and heteroskedastic time series processes. Last, we generate heatmaps for visual comparisons of the activation layers for different choices of the network hyperparameters to identify which of them affect the forecast performance. Our findings can, therefore, aid practitioners in assessing the effectiveness of RNNs for given time series data without actually training and evaluating the networks.
翻訳日:2024-04-29 18:17:43 公開日:2024-04-25
# 散逸による量子熱機械の集団的優位性

Dissipation-induced collective advantage of a quantum thermal machine ( http://arxiv.org/abs/2310.01938v2 )

ライセンス: Link先を確認
Matteo Carrega, Luca Razzoli, Paolo Andrea Erdman, Fabio Cavaliere, Giuliano Benenti, Maura Sassetti, (参考訳) 量子相関は、独立して動作する複数の異なるシステムに対して、より良いパフォーマンスをもたらすか? 量子熱機械では、$N$成分からなる作業媒体(WM)が、$N$独立エンジンの並列動作よりも優れた性能を示すかどうかが問題である。 ここでは、相互作用しない2つの量子調和振動子からなるWMで顕微鏡モデルを検査することにより、共通環境の存在がWM内の非自明な相関を媒介し、独立構成に関して量子熱エンジンの性能(最大出力と効率)が向上することを示す。 さらに、この利点は2基の独立系エンジンが有用な電力を供給できない体制である強い消耗を目立たせる。 以上の結果から, 散逸は量子熱機関の有用な資源として利用でき, 非マルコフ量子熱エンジンに拡張された最適化手法によって相関していることがわかった。

Do quantum correlations lead to better performance with respect to several different systems working independently? For quantum thermal machines, the question is whether a working medium (WM) made of $N$ constituents exhibits better performance than $N$ independent engines working in parallel. Here, by inspecting a microscopic model with the WM composed by two non-interacting quantum harmonic oscillators, we show that the presence of a common environment can mediate non-trivial correlations in the WM leading to better quantum heat engine performance -- maximum power and efficiency -- with respect to an independent configuration. Furthermore, this advantage is striking for strong dissipation, a regime in which two independent engines cannot deliver any useful power. Our results show that dissipation can be exploited as a useful resource for quantum thermal engines, and are corroborated by optimization techniques here extended to non-Markovian quantum heat engines.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-25
# BLoad: 効率的なシーケンスデータ処理によるニューラルネットワークトレーニングの強化

BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling ( http://arxiv.org/abs/2310.10879v2 )

ライセンス: Link先を確認
Raphael Ruschel, A. S. M. Iftekhar, B. S. Manjunath, Suya You, (参考訳) 現代のディープニューラルネットワークモデルの複雑さの増大とデータセットのサイズ拡大は、最適化されたスケーラブルなトレーニング方法の開発を必要とする。 この白書では、様々な大きさのシーケンスを用いてニューラルネットワークモデルを効率的に訓練することの課題に対処する。 この課題に対処するために、最小限のオーバーヘッドで異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。 このスキームを使用することで、単一のフレームを削除せずに、パディング量を100ドル以上削減することができ、その結果、実験におけるトレーニング時間とリコールの両方での全体的なパフォーマンスが向上しました。

The increasing complexity of modern deep neural network models and the expanding sizes of datasets necessitate the development of optimized and scalable training methods. In this white paper, we addressed the challenge of efficiently training neural network models using sequences of varying sizes. To address this challenge, we propose a novel training scheme that enables efficient distributed data-parallel training on sequences of different sizes with minimal overhead. By using this scheme we were able to reduce the padding amount by more than 100$x$ while not deleting a single frame, resulting in an overall increased performance on both training time and Recall in our experiments.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-25
# 不完全な測定による遺伝子多部絡み込み検出:概念と実験

Genuine multipartite entanglement detection with imperfect measurements: concept and experiment ( http://arxiv.org/abs/2310.11946v2 )

ライセンス: Link先を確認
Huan Cao, Simon Morelli, Lee A. Rozema, Chao Zhang, Armin Tavakoli, Philip Walther, (参考訳) エンタングルメント検出の標準的な手順は、実験者が特定の量子測定を正確に実装できると仮定する。 ここでは、このような理想化から離れ、理論と実験の両方において、測定が小さな不完全な場合の真の多部絡みの検出について検討する。 任意のqubits番号$n$に対して、不完全性の有害な影響が$n$とは無関係であるようなマルチパーティの絡み合いの証人を構築する。 テーブルトップ4部フォトニック実験では、まず、少数のアライメント誤差が標準的な絡み合いの目撃者から引き出された結論を損なうことを実証し、修正分析を行う。 さらに,信頼度が高いが完全に制御されていない量子デバイスを考慮すれば,デバイスに依存しないモデルと比較してノイズ耐性の面での優位性を示すことができる。

Standard procedures for entanglement detection assume that experimenters can exactly implement specific quantum measurements. Here, we depart from such idealizations and investigate, in both theory and experiment, the detection of genuine multipartite entanglement when measurements are subject to small imperfections. For arbitrary qubits number $n$, we construct multipartite entanglement witnesses where the detrimental influence of the imperfection is independent of $n$. In a tabletop four-partite photonic experiment we demonstrate first how a small amount of alignment error can undermine the conclusions drawn from standard entanglement witnesses, and then perform the correction analysis. Furthermore, since we consider quantum devices that are trusted but not perfectly controlled, we showcase advantages in terms of noise resilience as compared to device-independent models.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-25
# ラマン散乱とレイリー散乱の存在下での超低温分子の回転魔法条件

Rotational magic conditions for ultracold molecules in the presence of Raman and Rayleigh scattering ( http://arxiv.org/abs/2310.16215v3 )

ライセンス: Link先を確認
Svetlana Kotochigova, Qingze Guan, Eite Tiesinga, Vito Scarola, Brian DeMarco, Bryce Gadway, (参考訳) 分子は振動、回転、スピン軌道、超微細な自由度や量子状態を持ち、それぞれが外部電磁放射に特異的に反応する。 これらの量子状態の重ね合わせの制御は、分子のコヒーレントな操作の鍵となる。 例えば、より長い量子シミュレーションが続くほど、コヒーレンス時間が長くなる。 レーザー光で超低温分子を制御するための重要な量は、その複雑な値の分子動的偏光性である。 実際の部分は分子が感じたツイーザーやトラップ電位を決定づけるが、想像的な部分はコヒーレンス時間を制限する。 そこで本研究では, 分子の振動基底状態における効率的なトラップは, 電子双極子を禁止した分子遷移に対して, 波長数数十GHzのレーザ周波数を選択することで実現できることを示す。 このほぼ禁止された遷移に近づき、ラマンとレイリーの散乱からこれらの状態の間にコヒーレンス時間を犠牲にすることなく、複数の回転状態に対して十分に深いトラップ電位を作ることができる。 実際、超低温の$^{23}$Na$^{87}$Rb極性分子の多重回転状態に対するマジックトラップ条件を作成することができる。

Molecules have vibrational, rotational, spin-orbit and hyperfine degrees of freedom or quantum states, each of which responds in a unique fashion to external electromagnetic radiation. The control over superpositions of these quantum states is key to coherent manipulation of molecules. For example, the better the coherence time the longer quantum simulations can last. The important quantity for controlling an ultracold molecule with laser light is its complex-valued molecular dynamic polarizability. Its real part determines the tweezer or trapping potential as felt by the molecule, while its imaginary part limits the coherence time. Here, our study shows that efficient trapping of a molecule in its vibrational ground state can be achieved by selecting a laser frequency with a detuning on the order of tens of GHz relative to an electric-dipole-forbidden molecular transition. Close proximity to this nearly forbidden transition allows to create a sufficiently deep trapping potential for multiple rotational states without sacrificing coherence times among these states from Raman and Rayleigh scattering. In fact, we demonstrate that magic trapping conditions for multiple rotational states of the ultracold $^{23}$Na$^{87}$Rb polar molecule can be created.
翻訳日:2024-04-29 18:07:56 公開日:2024-04-25
# Tabdoor: タブラリデータのためのトランスフォーマーベースニューラルネットワークにおけるバックドア脆弱性

Tabdoor: Backdoor Vulnerabilities in Transformer-based Neural Networks for Tabular Data ( http://arxiv.org/abs/2311.07550v3 )

ライセンス: Link先を確認
Bart Pleiter, Behrad Tajalli, Stefanos Koffas, Gorka Abad, Jing Xu, Martha Larson, Stjepan Picek, (参考訳) ディープニューラルネットワーク(DNN)は、さまざまな領域で大きな可能性を示しています。 これらの開発に加えて、バックドアアタックなどのDNNトレーニングに関連する脆弱性も重大な懸念事項である。 これらの攻撃は、モデルトレーニング中にトリガーを微妙に挿入することを含み、操作された予測を可能にする。 近年,変圧器モデルの台頭により,表型データ用DNNが注目されている。 本研究は,主に変圧器に着目したDNNを用いて,表層データに対するバックドア攻撃の包括的解析を行う。 また,ステルス性を保ちながら優れた攻撃性能を提供するインバウンド攻撃(in-bounds attack)を提案する。 ベンチマークデータセットを横断する体系的な実験を通じて、表形式のデータに対するトランスフォーマーベースのDNNは、最小限の機能値の変更であっても、バックドアアタックの影響を受けやすいことが判明した。 また、我々の攻撃がXGBoostやDeepFMといった他のモデルに一般化可能であることも確認しています。 以上の結果から,100%の攻撃成功率を達成できる可能性が示唆された。 さらに,これらの攻撃に対するいくつかの防御効果を評価し,スペクトル署名を最も効果的であると判断した。 しかし,本研究は,バックドア攻撃対策として,表型データ固有の対策を開発する必要性を浮き彫りにした。

Deep Neural Networks (DNNs) have shown great promise in various domains. Alongside these developments, vulnerabilities associated with DNN training, such as backdoor attacks, are a significant concern. These attacks involve the subtle insertion of triggers during model training, allowing for manipulated predictions. More recently, DNNs for tabular data have gained increasing attention due to the rise of transformer models. Our research presents a comprehensive analysis of backdoor attacks on tabular data using DNNs, mainly focusing on transformers. We also propose a novel approach for trigger construction: an in-bounds attack, which provides excellent attack performance while maintaining stealthiness. Through systematic experimentation across benchmark datasets, we uncover that transformer-based DNNs for tabular data are highly susceptible to backdoor attacks, even with minimal feature value alterations. We also verify that our attack can be generalized to other models, like XGBoost and DeepFM. Our results demonstrate up to 100% attack success rate with negligible clean accuracy drop. Furthermore, we evaluate several defenses against these attacks, identifying Spectral Signatures as the most effective. Nevertheless, our findings highlight the need to develop tabular data-specific countermeasures to defend against backdoor attacks.
翻訳日:2024-04-29 17:58:08 公開日:2024-04-25
# オンライン連続学習におけるラベル遅延

Label Delay in Online Continual Learning ( http://arxiv.org/abs/2312.00923v2 )

ライセンス: Link先を確認
Botos Csaba, Wenxuan Zhang, Matthias Müller, Ser-Nam Lim, Mohamed Elhoseiny, Philip Torr, Adel Bibi, (参考訳) 近年,ストリーミングデータ上でモデルをトレーニングするオンライン連続学習が注目されている。 しかし、しばしば見過ごされる重要な側面はラベルの遅延であり、遅くてコストのかかるアノテーションプロセスのために新しいデータがラベル付けされない可能性がある。 本稿では,データとラベルストリーム間のラベル遅延を,時間経過とともに明示的にモデル化した新しい連続学習フレームワークを提案する。 各ステップにおいて、フレームワークは現在のステップ$t$からのラベル付きデータと、タイムステップ$t-d$から$d$で遅延したラベルの両方を明らかにする。 この課題に対処するには,計算資源の増大だけでは不十分であることを示す。 その結果,ラベル遅延が顕著になるとラベル付きデータのみに依存する場合,顕著な性能低下がみられた。 さらに驚くべきことに、最先端のSSLとTTA技術を使用して、新しいラベル付きデータを利用する場合、遅延教師付きストリーム上で単にトレーニングするna\"iveメソッドのパフォーマンスを上回りません。 この目的のために,ラベル付きメモリサンプルをリハーサルする,単純で効率的なベースラインを導入する。 この手法は,計算複雑性を大幅に増大させることなくラベル遅延による精度ギャップを埋める。 提案手法はラベル遅延係数に最も影響を受けていないことを示し、場合によっては非遅延の精度を回復させる。 本手法の有効性を実証し,様々な改善と感度実験を行った。

Online continual learning, the process of training models on streaming data, has gained increasing attention in recent years. However, a critical aspect often overlooked is the label delay, where new data may not be labeled due to slow and costly annotation processes. We introduce a new continual learning framework with explicit modeling of the label delay between data and label streams over time steps. In each step, the framework reveals both unlabeled data from the current time step $t$ and labels delayed with $d$ steps, from the time step $t-d$. In our extensive experiments amounting to 1060 GPU days, we show that merely augmenting the computational resources is insufficient to tackle this challenge. Our findings underline a notable performance decline when solely relying on labeled data when the label delay becomes significant. More surprisingly, when using state-of-the-art SSL and TTA techniques to utilize the newer, unlabeled data, they fail to surpass the performance of a na\"ive method that simply trains on the delayed supervised stream. To this end, we introduce a simple, efficient baseline that rehearses from the labeled memory samples that are most similar to the new unlabeled samples. This method bridges the accuracy gap caused by label delay without significantly increasing computational complexity. We show experimentally that our method is the least affected by the label delay factor and in some cases successfully recovers the accuracy of the non-delayed counterpart. We conduct various ablations and sensitivity experiments, demonstrating the effectiveness of our approach.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-25
# プロパゲータのFeynman-Dyson図形摂動膨張の非収束性

Nonconvergence of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v8 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, J. V. Ortiz, Rodney J. Bartlett, (参考訳) 一般の次数 ab initio 多体グリーン関数法を用いて、一粒子多体グリーン関数のファインマン-ダイソン図形摂動膨張のいくつかの病理学的挙動を電子Feynmanプロパゲータとして数値的に記述する。 (i)周波数依存性の自己エネルギーの摂動膨張は、多くの周波数領域において正確な自己エネルギーに収束しない。 (ii)奇摂動次自己エネルギーは定性的に間違った形状を持ち、結果として、対応するダイソン方程式の多くの根は複素数あるいは残基がユニティを超えるか負となるような非物理的である。 3) 高い偶数次自己エネルギーは、多くの周波数の垂直線で構成され、残基がゼロの多数の幻極を予測する。 (4)頂点や辺の再正規化による図形の無限の部分的再仮定は、これらの病理を悪化させる傾向がある。 (v)非収束は、テイラー展開の収束半径がゼロとなる多くの周波数において、正確なグリーン函数の有理関数形式の非解析性によって引き起こされる。 これは事実と一致している。 (vi)Pad\'{e}近似式(有理関数の級数展開)は、グリーン関数の正しい形状と極をほぼ復元することができる。 しかしながら、非収束理論は高次ファインマン・ダイソン図形摂動理論を多くの低次イオン化や高次電子吸着状態には役に立たないだけでなく、全ての極や残基の知識を必要とするアンス・"{a}tze"と組み合わせた使用の有効性を疑問視する。 このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン函数法、代数図形構成のモデルなどがある。

Using a general-order ab initio many-body Green's function method, we numerically illustrate several pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron Feynman propagators. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, many roots of the corresponding Dyson equation are nonphysical in that the poles may be complex or residues can exceed unity or be negative. (iii) A higher even-order self-energy consists of vertical lines at many frequencies, predicting numerous phantom poles with zero residues. (iv) Infinite partial resummations of diagrams by vertex or edge renormalization tend to exacerbate these pathologies. (v) The nonconvergence is caused by the nonanalyticity of the rational-function form of the exact Green's function at many frequencies, where the radius of convergence of its Taylor expansion is zero. This is consistent with the fact that (vi) Pad\'{e} approximants (power-series expansions of a rational function) can largely restore the correct shape and poles of the Green's function. Nevertheless, not only does the nonconvergence render higher-order Feynman-Dyson diagrammatic perturbation theory useless for many lower-lying ionization or higher-lying electron-attachment states, but it also calls into question the validity of its combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, the self-consistent Green's function methods, and some models of the algebraic diagrammatic construction.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-25
# 基礎モデルのバッチ型低ランク適応

Batched Low-Rank Adaptation of Foundation Models ( http://arxiv.org/abs/2312.05677v3 )

ライセンス: Link先を確認
Yeming Wen, Swarat Chaudhuri, (参考訳) ローランク適応 (LoRA) は, トレーニング可能な低ランク行列を組み込むことにより, 微調整基礎モデルに注目されている。 LoRAには多くの利点があるが、多様なグローバルユーザベースへのリアルタイムサービスの適用性は、複数のタスク固有のアダプタを効率的に扱うことができないことによる制約がある。 これにより、受信するリクエストごとにパーソナライズされたタスク固有の適応を必要とするシナリオのパフォーマンスボトルネックが課される。 この制約を緩和するために、我々はFast LoRA (FLoRA) を導入する。Fast LoRAは、ミニバッチ内の各入力例を、その固有の低ランク適応重みに関連付けることができ、不均一な要求の効率的なバッチ化を可能にするフレームワークである。 8言語にまたがるMultiPL-Eコード生成ベンチマークと6言語にまたがる多言語音声認識タスクにおいて,FLoRAがLoRAの性能上の利点を保っていることを実証的に示す。

Low-Rank Adaptation (LoRA) has recently gained attention for fine-tuning foundation models by incorporating trainable low-rank matrices, thereby reducing the number of trainable parameters. While LoRA offers numerous advantages, its applicability for real-time serving to a diverse and global user base is constrained by its incapability to handle multiple task-specific adapters efficiently. This imposes a performance bottleneck in scenarios requiring personalized, task-specific adaptations for each incoming request. To mitigate this constraint, we introduce Fast LoRA (FLoRA), a framework in which each input example in a minibatch can be associated with its unique low-rank adaptation weights, allowing for efficient batching of heterogeneous requests. We empirically demonstrate that FLoRA retains the performance merits of LoRA, showcasing competitive results on the MultiPL-E code generation benchmark spanning over 8 languages and a multilingual speech recognition task across 6 languages.
翻訳日:2024-04-29 17:48:19 公開日:2024-04-25
# スタックオーバーフロー回答における情報ハイライトの検討と推奨

Studying and Recommending Information Highlighting in Stack Overflow Answers ( http://arxiv.org/abs/2401.01472v3 )

ライセンス: Link先を確認
Shahla Shaan Ahmed, Shaowei Wang, Yuan Tian, Tse-Hsun, Chen, Haoxiang Zhang, (参考訳) コンテキスト: Stack Overflow(SO)の知識をナビゲートすることはまだ難しい。 ユーザーが投稿を鮮明にするために、ユーザーがMarkdownやHTMLで投稿を書いたり編集したりできるので、ユーザーは様々なフォーマットスタイル(大胆、イタリック、コードなど)を利用して重要な情報をハイライトすることができる。 それにもかかわらず、強調された情報についての研究は限られている。 目的: 本稿ではSO回答で強調された情報について, 大規模な調査を行った。 従来の研究を拡張すべく、まず名前付きエンティティ認識タスク用に設計されたニューラルネットワークアーキテクチャを用いて、フォーマットスタイルでハイライトされたコンテンツを自動的に推奨する手法を開発した。 方法:本論文では,Stack Overflowの31,169,429の回答について検討した。 推奨モデルのトレーニングには、SOの回答から収集した情報ハイライトデータセットを使用して、CNNベースのモデルとBERTベースのモデル(Bold、Italic、Code、Headingなど)を選択します。 結果:本モデルでは,異なるフォーマットタイプに対して0.50~0.72の精度を実現している。 他の型よりもCodeを推奨するモデルを構築するのが簡単です。 テキストフォーマッティングタイプ(Heading、Bold、Italic)のモデルはリコールが低い。 フェールケースの分析は、障害ケースの大部分は、識別の欠如によるものであることを示している。 1つの説明は、モデルは、あまり頻度の低い単語(例えば、長い尾の知識)を学ぶのに苦労しながら、頻繁に強調される単語を習得し易いということである。 結論:Stack Overflow上で異なるフォーマットスタイルの回答をハイライトするためのレコメンデーションモデルを開発することが可能であることが示唆された。

Context: Navigating the knowledge of Stack Overflow (SO) remains challenging. To make the posts vivid to users, SO allows users to write and edit posts with Markdown or HTML so that users can leverage various formatting styles (e.g., bold, italic, and code) to highlight the important information. Nonetheless, there have been limited studies on the highlighted information. Objective: We carried out the first large-scale exploratory study on the information highlighted in SO answers in our recent study. To extend our previous study, we develop approaches to automatically recommend highlighted content with formatting styles using neural network architectures initially designed for the Named Entity Recognition task. Method: In this paper, we studied 31,169,429 answers of Stack Overflow. For training recommendation models, we choose CNN-based and BERT-based models for each type of formatting (i.e., Bold, Italic, Code, and Heading) using the information highlighting dataset we collected from SO answers. Results: Our models achieve a precision ranging from 0.50 to 0.72 for different formatting types. It is easier to build a model to recommend Code than other types. Models for text formatting types (i.e., Heading, Bold, and Italic) suffer low recall. Our analysis of failure cases indicates that the majority of the failure cases are due to missing identification. One explanation is that the models are easy to learn the frequent highlighted words while struggling to learn less frequent words (i.g., long-tail knowledge). Conclusion: Our findings suggest that it is possible to develop recommendation models for highlighting information for answers with different formatting styles on Stack Overflow.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-25
# ODIN: 2Dと3Dセグメンテーションのための単一モデル

ODIN: A Single Model for 2D and 3D Segmentation ( http://arxiv.org/abs/2401.02416v2 )

ライセンス: Link先を確認
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki, (参考訳) ScanNetのような現代の3Dセグメンテーションベンチマークの最先端モデルは、センシングされたマルチビューRGB-D画像のポスト処理によって得られたデータセットが提供する3Dポイントクラウドを消費し、ラベル付けする。 それらは通常、ドメイン内でトレーニングされ、大規模な2D事前トレーニングを前もって行われ、代わりに提案されたRGB-Dマルチビューイメージを出力する代替手段よりも優れています。 ポーズ画像の消費方法と後処理の3Dポイントクラウドのパフォーマンスの差は、2Dと3Dの知覚に異なるモデルアーキテクチャが必要であるという信念を後押ししている。 本稿では,この視点に挑戦し,2次元のRGB画像と3次元の点雲のセグメンテーションとラベル付けが可能なODIN(Omni-dimensional Instance segmentation)を提案する。 本モデルは,2次元パッチトークンの画素座標と3次元特徴トークンの3次元座標をキャプチャする,関連するトークンの位置エンコーディングによる2次元特徴演算と3次元特徴演算を区別する。 ODINは、ScanNet200、Matterport3D、AI2THORのインスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成し、ScanNet、S3DIS、COCO上での競合性能を達成している。 3Dメッシュからサンプリングされた点クラウドの代わりに、知覚された3Dポイントクラウドを使用する場合、これまでのすべての作業よりも大きなマージンでパフォーマンスが向上する。 インストラクタブルなエンボディードエージェントアーキテクチャで3D認識エンジンとして使用されると、TEAChアクション・トゥ・ダイアログ・ベンチマークに新たな最先端のテクノロジーが設定される。 私たちのコードとチェックポイントはプロジェクトのWebサイト(https://odin-seg.github.io.)にあります。

State-of-the-art models on contemporary 3D segmentation benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website (https://odin-seg.github.io).
翻訳日:2024-04-29 17:38:26 公開日:2024-04-25
# AI適応画像ラベリングにおけるコンフォーマル予測セットの有用性の評価

Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling ( http://arxiv.org/abs/2401.08876v7 )

ライセンス: Link先を確認
Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, Jessica Hullman, (参考訳) ディープ・ニューラル・ネットワークはより一般的に高い領域に展開されるため、ブラックボックスの性質は不確実な定量化を困難にしている。 我々は,AIが推奨する意思決定における不確実性を表現するために,特定のカバレッジで予測セットを生成するための分布自由な手法である共形予測セットの提示について検討する。 大規模なオンライン実験を通じて、共形予測セットの有用性と、AIが推奨する画像ラベリングのためのTop-1およびTop-k予測の表示を比較した。 事前登録された分析では,精度の予測セットの有用性はタスクの難易度に応じて変化し,Top-1やTop-kよりも精度が良いが,予測セットは,私たちが研究した,特にセットサイズが小さい場合の,アウト・オブ・ディストリビューション(OOD)画像のラベル付けにおいて,人間の支援に有効であることがわかった。 本研究は,共形予測セットの実践的課題を実証的に特定し,実世界の意思決定に組み込む方法について考察した。

As deep neural networks are more commonly deployed in high-stakes domains, their black-box nature makes uncertainty quantification challenging. We investigate the presentation of conformal prediction sets--a distribution-free class of methods for generating prediction sets with specified coverage--to express uncertainty in AI-advised decision-making. Through a large online experiment, we compare the utility of conformal prediction sets to displays of Top-1 and Top-k predictions for AI-advised image labeling. In a pre-registered analysis, we find that the utility of prediction sets for accuracy varies with the difficulty of the task: while they result in accuracy on par with or less than Top-1 and Top-k displays for easy images, prediction sets offer some advantage in assisting humans in labeling out-of-distribution (OOD) images in the setting that we studied, especially when the set size is small. Our results empirically pinpoint practical challenges of conformal prediction sets and provide implications on how to incorporate them for real-world decision-making.
翻訳日:2024-04-29 17:38:26 公開日:2024-04-25
# 最適輸送を用いた副次的マルチモーダル情報を用いた表現認識

Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport ( http://arxiv.org/abs/2401.15489v2 )

ライセンス: Link先を確認
Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Eric Granger, (参考訳) 多モーダル表現認識のための深層学習モデルは、相補的および冗長な意味情報を学習できるため、制御された実験室環境において顕著な性能に達した。 しかし、これらのモデルは、主に訓練に使用されるモダリティの可用性と品質のために、荒野で苦労している。 実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。 特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。 複数の教師モデル(いずれもモダリティで訓練された)から共通の学生モデルに情報を蒸留するために、最先端知識蒸留(KD)法が提案されている。 これらの特権付きKD法は、通常、ポイント・ツー・ポイントマッチングを利用するが、特権付きモダリティを導入して形成された教師表現空間の構造情報をキャプチャする明確なメカニズムは持っていない。 実験は、Biovidデータセット(通常分類)の痛み推定と、Affwild2データセット(回帰)の覚醒値予測の2つの課題で実施された。 その結果,提案手法はこれらの問題に対して,最先端の特権的KD法より優れていることがわかった。 モジュラリティと融合アーキテクチャの多様性は、PKDOTがモダリティとモデルに依存しないことを示している。

Deep learning models for multimodal expression recognition have reached remarkable performance in controlled laboratory environments because of their ability to learn complementary and redundant semantic information. However, these models struggle in the wild, mainly because of the unavailability and quality of modalities used for training. In practice, only a subset of the training-time modalities may be available at test time. Learning with privileged information enables models to exploit data from additional modalities that are only available during training. State-of-the-art knowledge distillation (KD) methods have been proposed to distill information from multiple teacher models (each trained on a modality) to a common student model. These privileged KD methods typically utilize point-to-point matching, yet have no explicit mechanism to capture the structural information in the teacher representation space formed by introducing the privileged modality. Experiments were performed on two challenging problems - pain estimation on the Biovid dataset (ordinal classification) and arousal-valance prediction on the Affwild2 dataset (regression). Results show that our proposed method can outperform state-of-the-art privileged KD methods on these problems. The diversity among modalities and fusion architectures indicates that PKDOT is modality- and model-agnostic.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-25
# Iris-SAM: 基礎モデルを用いたアイリスセグメンテーション

Iris-SAM: Iris Segmentation Using a Foundation Model ( http://arxiv.org/abs/2402.06497v2 )

ライセンス: Link先を確認
Parisa Farmanifard, Arun Ross, (参考訳) 虹彩セグメンテーションは虹彩生体計測システムの重要な構成要素であり、眼画像から環状虹彩領域を抽出する。 本研究では,任意のオブジェクトのセグメンテーションに成功している基本モデルであるviz., Segment Anything Model (SAM) から画素レベルのアイリスセグメンテーションモデルを開発する。 この研究の主な貢献は、眼画像上のSAMの微調整中に異なる損失関数を統合することである。 特に、Focal Lossの重要性は、クラス不均衡問題(アイリス対非アイリス画素)に戦略的に対処するため、微調整プロセスにおいて発せられる。 ND-IRIS-0405、CASIA-Iris-Interval-v3、IIT-Delhi-Irisデータセットの実験は、虹彩セグメンテーションのタスクに対する訓練されたモデルの有効性を伝達する。 例えば、ND-IRIS-0405データセットでは、平均セグメンテーション精度は99.58%、ベースライン性能は89.75%であった。

Iris segmentation is a critical component of an iris biometric system and it involves extracting the annular iris region from an ocular image. In this work, we develop a pixel-level iris segmentation model from a foundational model, viz., Segment Anything Model (SAM), that has been successfully used for segmenting arbitrary objects. The primary contribution of this work lies in the integration of different loss functions during the fine-tuning of SAM on ocular images. In particular, the importance of Focal Loss is borne out in the fine-tuning process since it strategically addresses the class imbalance problem (i.e., iris versus non-iris pixels). Experiments on ND-IRIS-0405, CASIA-Iris-Interval-v3, and IIT-Delhi-Iris datasets convey the efficacy of the trained model for the task of iris segmentation. For instance, on the ND-IRIS-0405 dataset, an average segmentation accuracy of 99.58% was achieved, compared to the best baseline performance of 89.75%.
翻訳日:2024-04-29 17:28:28 公開日:2024-04-25
# 学習ポリシーを用いたマルチエージェントシステムの衝突回避検証

Collision Avoidance Verification of Multiagent Systems with Learned Policies ( http://arxiv.org/abs/2403.03314v2 )

ライセンス: Link先を確認
Zihao Dong, Shayegan Omidshafiei, Michael Everett, (参考訳) 多くのマルチエージェント制御問題に対して、ニューラルネットワーク(NN)は有望な新機能を実現している。 しかし、これらのシステムの多くは正式な保証を欠いている(衝突回避、堅牢性など)。 近年,NN制御システムの形式検証が試みられているが,既存の手法の多くは複数のエージェントでシナリオを処理できない。 そこで本研究では,マルチエージェント型ニューラルフィードバックループ(MA-NFL)の衝突回避特性を検証するために,後方到達性に基づくアプローチを提案する。 提案アルゴリズムは,各エージェントの動的モデルと訓練された制御ポリシを考慮し,各エージェントに対して(同時に)一連の混合整数線形プログラム(MILP)をオフラインで解くことで,相対的バックプロジェクションセットを演算する。 状態測定の不確かさを考慮し、現実のシナリオによく適合させる。 これらの結果を用いて、エージェントは低次元線形プログラム(LP)を解くことで、オンラインで衝突回避を迅速にチェックできる。 本研究では,MA-NFLの衝突回避アルゴリズムを模倣するエージェントを用いて,MA-NFLの衝突回避特性を検証できることを示す。 さらに、最大10エージェントのシステムに対するアプローチの計算スケーラビリティを実証する。

For many multiagent control problems, neural networks (NNs) have enabled promising new capabilities. However, many of these systems lack formal guarantees (e.g., collision avoidance, robustness), which prevents leveraging these advances in safety-critical settings. While there is recent work on formal verification of NN-controlled systems, most existing techniques cannot handle scenarios with more than one agent. To address this research gap, this paper presents a backward reachability-based approach for verifying the collision avoidance properties of Multi-Agent Neural Feedback Loops (MA-NFLs). Given the dynamics models and trained control policies of each agent, the proposed algorithm computes relative backprojection sets by (simultaneously) solving a series of Mixed Integer Linear Programs (MILPs) offline for each pair of agents. We account for state measurement uncertainties, making it well aligned with real-world scenarios. Using those results, the agents can quickly check for collision avoidance online by solving low-dimensional Linear Programs (LPs). We demonstrate the proposed algorithm can verify collision-free properties of a MA-NFL with agents trained to imitate a collision avoidance algorithm (Reciprocal Velocity Obstacles). We further demonstrate the computational scalability of the approach on systems with up to 10 agents.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-25
# SOTOPIA-$π$:社会知能言語エージェントの対話型学習

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents ( http://arxiv.org/abs/2403.08715v3 )

ライセンス: Link先を確認
Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu, (参考訳) 人間は模倣と社会的相互作用の両方を通して社会的スキルを学ぶ。 この社会的学習プロセスは、言語エージェントの構築に関する既存の研究によって、ほとんど解明されていない。 そこで本稿では,対話型学習手法であるSOTOPIA-$\pi$を提案する。 この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。 本稿では,言語エージェントの安全性を向上し,MMLUベンチマーク上での一般QA能力を維持しつつ、7B LLMが専門家モデル(GPT-4ベースエージェント)の社会的目標達成能力に到達することを実証する。 また、この学習パラダイムは、LLMに基づく社会知能評価の難しさを明らかにしている: LLMに基づく評価者は、社会交流に特化した訓練された言語エージェントの能力を過大評価する。

Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose an interactive learning method, SOTOPIA-$\pi$, improving the social intelligence of language agents. This method leverages behavior cloning and self-reinforcement training on filtered social interaction data according to large language model (LLM) ratings. We show that our training method allows a 7B LLM to reach the social goal completion ability of an expert model (GPT-4-based agent), while improving the safety of language agents and maintaining general QA ability on the MMLU benchmark. We also find that this training paradigm uncovers some difficulties in LLM-based evaluation of social intelligence: LLM-based evaluators overestimate the abilities of the language agents trained specifically for social interaction.
翻訳日:2024-04-29 17:18:42 公開日:2024-04-25
# Deep Image compositionが画像偽造と出会う

Deep Image Composition Meets Image Forgery ( http://arxiv.org/abs/2404.02897v2 )

ライセンス: Link先を確認
Eren Tahir, Mert Bal, (参考訳) 画像偽造は長年研究されてきた話題である。 深層学習のブレークスルーの前に、訓練を必要としない手作りの特徴を用いて、偽造画像が検出された。 これらの従来の手法は、実際の画像操作よりも品質がはるかに悪いデータセットでも十分に機能しなかった。 ディープラーニングの進歩は、画像の偽造検出に影響を及ぼし、コンピュータビジョンの他の領域にも影響を与えた。 ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。 画像偽造の場合、ピクセルレベルでラベル付けされたデータは、学習するモデルにとって非常に重要な要素である。 既存のデータセットには、十分なサイズ、リアリズム、ピクセルレベルのラベルを同時に持つものはありません。 これは、高品質な画像の生成とラベル付けのコストが高いためである。 画像編集の専門家が1つの画像を操作するのに何時間もかかります。 このギャップを埋めるために、画像偽造と非常に関係のある画像合成技術を用いて、データ生成を自動化する。 他の自動データ生成フレームワークとは異なり、私たちは最先端の画像合成ディープラーニングモデルを使用して、実生活における操作の品質に近いスプライシング画像を生成する。 最後に、SOTA画像操作検出モデル上で生成されたデータセットを検証し、既存のデータセットに比べて予測性能が低いことを示す。 Datasetはhttps://github.com/99eren99/DIS25kで利用可能になる。

Image forgery is a topic that has been studied for many years. Before the breakthrough of deep learning, forged images were detected using handcrafted features that did not require training. These traditional methods failed to perform satisfactorily even on datasets much worse in quality than real-life image manipulations. Advances in deep learning have impacted image forgery detection as much as they have impacted other areas of computer vision and have improved the state of the art. Deep learning models require large amounts of labeled data for training. In the case of image forgery, labeled data at the pixel level is a very important factor for the models to learn. None of the existing datasets have sufficient size, realism and pixel-level labeling at the same time. This is due to the high cost of producing and labeling quality images. It can take hours for an image editing expert to manipulate just one image. To bridge this gap, we automate data generation using image composition techniques that are very related to image forgery. Unlike other automated data generation frameworks, we use state of the art image composition deep learning models to generate spliced images close to the quality of real-life manipulations. Finally, we test the generated dataset on the SOTA image manipulation detection model and show that its prediction performance is lower compared to existing datasets, i.e. we produce realistic images that are more difficult to detect. Dataset will be available at https://github.com/99eren99/DIS25k .
翻訳日:2024-04-29 17:08:44 公開日:2024-04-25
# バッハのカノン分析におけるブライヤー構成代数と古典的クリプトアナリシスの相互作用

Interactions Between Brauer Configuration Algebras and Classical Cryptanalysis to Analyze Bach's Canons ( http://arxiv.org/abs/2404.07240v2 )

ライセンス: Link先を確認
Agustín Moreno Cañadas, Pedro Fernando Fernández Espinosa, José Gregorio Rodríguez Nieto, Odette M. Mendez, Ricardo Hugo Arteaga-Bastidas, (参考訳) ブラウアー構成代数(BCA)とその特殊メッセージは、導入以来、数学と科学のいくつかの分野の研究に役立っている。 本稿では,古典的暗号理論と音楽理論の理論的枠組みとして,そのような代数を用いる新たな視点について論じる。 いくつかのブロック暗号がブライヤー構成代数(英語版)とラベル付けされていることが証明されている。 特に、Vigenere暗号システムの暗号文のみの攻撃に関連するBCAの寸法は、対応するキーの長さとキャプチャされた暗号文の一致インデックスによって与えられる。 一方、歴史的に、バッハのカノンは解決された音楽パズルと見なされてきた。 しかしながら、バッハがそのようなカノンをどう提案したかという点で、その解決策が音楽的な問題に限られているかどうかに疑問が残る。 本稿では、バッハが提唱したBWV 1079 (Musical Offering) とカノン \^a 4 Voc: Perpetuus (BWV 1073) において、ブライヤー構成代数の理論に基づく代替解を与える。 具体的には、Canon \^a 6 Voc (BWV 1076)、Canon 1 \^a2 (Canon canon)、Canon \^a4 Quaerendo Invenietisである。 これらの解は、特定のブラウアーメッセージの暗号文(ルートとトランスポジション暗号)として解釈することで得られる。 特に、そのようなカノンで使われる音符の構造や形は、バッハの作品で最も使われている記号の形を通して記述できる。

Since their introduction, Brauer configuration algebras (BCAs) and their specialized messages have helped research in several fields of mathematics and sciences. This paper deals with a new perspective on using such algebras as a theoretical framework in classical cryptography and music theory. It is proved that some block cyphers define labeled Brauer configuration algebras. Particularly, the dimension of the BCA associated with a ciphertext-only attack of the Vigenere cryptosystem is given by the corresponding key's length and the captured ciphertext's coincidence index. On the other hand, historically, Bach's canons have been considered solved music puzzles. However, due to how Bach posed such canons, the question remains whether their solutions are only limited to musical issues. This paper gives alternative solutions based on the theory of Brauer configuration algebras to some of the puzzle canons proposed by Bach in his Musical Offering (BWV 1079) and the canon \^a 4 Voc: Perpetuus (BWV 1073). Specifically to the canon \^a 6 Voc (BWV 1076), canon 1 \^a2 (also known as the crab canon), and canon \^a4 Quaerendo Invenietis. These solutions are obtained by interpreting such canons as ciphertexts (via route and transposition cyphers) of some specialized Brauer messages. In particular, it is noted that the structure or form of the notes used in such canons can be described via the shape of the most used symbols in Bach's works.
翻訳日:2024-04-29 17:08:44 公開日:2024-04-25
# FedTrans: マルチモデル変換による効果的なフェデレーション学習

FedTrans: Efficient Federated Learning via Multi-Model Transformation ( http://arxiv.org/abs/2404.13515v2 )

ライセンス: Link先を確認
Yuxuan Zhu, Jiachen Liu, Mosharaf Chowdhury, Fan Lai, (参考訳) Federated Learning(FL)は、マシンラーニング(ML)モデルを、潜在的に数百万のエッジクライアントデバイスにわたってトレーニングすることを目的としている。 しかし、FLクライアントのモデルのトレーニングとカスタマイズは、クライアントデータの不均一性、デバイス機能、および大規模なクライアントの規模のために、非常に難しいことで知られています。 最先端のFLソリューションは、グローバルに訓練されたモデルをパーソナライズしたり、複数のモデルを同時に訓練する。 本稿では,FedTransについて紹介する。FedTransは,大規模クライアントに対して,高精度でハードウェア互換のモデルを自動生成し,訓練するマルチモデルFLトレーニングフレームワークである。 FedTransは、基本的なグローバルモデルから始まり、トレーニング中のモデルアーキテクチャの精度ボトルネックを特定し、それからモデル変換を使用して、不均一なクライアントのための新しいモデルを即座に導き出す。 トレーニングコストを最小化するために、マルチモデルの更新でソフトアグリゲーションを実行しながら、個々のクライアントにモデルを不正に割り当てる。 現実的な設定を用いた評価では、FedTransは、最先端ソリューションよりもトレーニングコストを1.6倍から20倍に削減しながら、個々のクライアントモデルの精度を14%から72%向上させています。

Federated learning (FL) aims to train machine learning (ML) models across potentially millions of edge client devices. Yet, training and customizing models for FL clients is notoriously challenging due to the heterogeneity of client data, device capabilities, and the massive scale of clients, making individualized model exploration prohibitively expensive. State-of-the-art FL solutions personalize a globally trained model or concurrently train multiple models, but they often incur suboptimal model accuracy and huge training costs. In this paper, we introduce FedTrans, a multi-model FL training framework that automatically produces and trains high-accuracy, hardware-compatible models for individual clients at scale. FedTrans begins with a basic global model, identifies accuracy bottlenecks in model architectures during training, and then employs model transformation to derive new models for heterogeneous clients on the fly. It judiciously assigns models to individual clients while performing soft aggregation on multi-model updates to minimize total training costs. Our evaluations using realistic settings show that FedTrans improves individual client model accuracy by 14% - 72% while slashing training costs by 1.6X - 20X over state-of-the-art solutions.
翻訳日:2024-04-29 15:13:44 公開日:2024-04-25
# TinyMLとサイバーセキュリティ:電気自動車充電インフラのユースケース

On TinyML and Cybersecurity: Electric Vehicle Charging Infrastructure Use Case ( http://arxiv.org/abs/2404.16894v1 )

ライセンス: Link先を確認
Fatemeh Dehrouyeh, Li Yang, Firouz Badrkhani Ajaei, Abdallah Shami, (参考訳) 技術が進歩するにつれて、サイバーセキュリティにおける機械学習(ML)の使用は、サイバー脅威の複雑化に対処するためにますます重要になりつつある。 従来のMLモデルはサイバーセキュリティを強化することができるが、その高エネルギーとリソース要求はアプリケーションを制限するため、リソース制約のある環境においてより適切なソリューションとしてTiny Machine Learning(TinyML)が出現する。 TinyMLは、スマートホーム、ヘルスケア、産業自動化といった分野で広く採用されている。 TinyMLは、小さな低消費電力デバイス向けのMLアルゴリズムの最適化に重点を置いており、エッジデバイス上でのインテリジェントなデータ処理を可能にする。 本稿では,電力消費,メモリ制限,計算制約などのTinyMLテクニックの共通課題を包括的にレビューし,エネルギー収穫,計算最適化技術,プライバシー保護のための伝達学習など,これらの課題に対する潜在的な解決策について検討する。 一方,電気自動車充電インフラ(EVCI)のサイバーセキュリティ推進におけるTinyMLの応用を代表的ユースケースとして論じる。 TinyMLを用いたEVCIのサイバーセキュリティを強化する実験ケーススタディとして,遅延とメモリ使用量の削減の観点から従来のMLと比較し,精度のトレードオフがわずかである。 さらに、この研究には、PlatformIO環境でESP32マイクロコントローラを使用して実践的なセットアップが含まれており、EVCIのサイバーセキュリティにおけるTinyMLの応用をハンズオンで評価する。

As technology advances, the use of Machine Learning (ML) in cybersecurity is becoming increasingly crucial to tackle the growing complexity of cyber threats. While traditional ML models can enhance cybersecurity, their high energy and resource demands limit their applications, leading to the emergence of Tiny Machine Learning (TinyML) as a more suitable solution for resource-constrained environments. TinyML is widely applied in areas such as smart homes, healthcare, and industrial automation. TinyML focuses on optimizing ML algorithms for small, low-power devices, enabling intelligent data processing directly on edge devices. This paper provides a comprehensive review of common challenges of TinyML techniques, such as power consumption, limited memory, and computational constraints; it also explores potential solutions to these challenges, such as energy harvesting, computational optimization techniques, and transfer learning for privacy preservation. On the other hand, this paper discusses TinyML's applications in advancing cybersecurity for Electric Vehicle Charging Infrastructures (EVCIs) as a representative use case. It presents an experimental case study that enhances cybersecurity in EVCI using TinyML, evaluated against traditional ML in terms of reduced delay and memory usage, with a slight trade-off in accuracy. Additionally, the study includes a practical setup using the ESP32 microcontroller in the PlatformIO environment, which provides a hands-on assessment of TinyML's application in cybersecurity for EVCI.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# ニューラルネットワークによるルースフィッティング着へのアプローチ

A Neural-Network-Based Approach for Loose-Fitting Clothing ( http://arxiv.org/abs/2404.16896v1 )

ライセンス: Link先を確認
Yongxu Jin, Dalton Omens, Zhenglin Geng, Joseph Teran, Abishek Kumar, Kenji Tashiro, Ronald Fedkiw, (参考訳) ゆるいフィット服にはニューラルネットワークによる予測が困難であることが証明された動的モードが含まれているので、まず、古典的な数値シミュレーションの最も重要な弾道特性を模倣するように設計されたリアルタイム数値アルゴリズムを用いて、これらのモードを粗く近似する方法を説明する。 フルシミュレーションのプロキシとして使用される数値アルゴリズムの選択には柔軟性があるが、リアルタイムパフォーマンスを促進するためには、任意の時間ステップ制限や同様の要件から安定性と精度を独立させることが不可欠である。 このシナリオでは、ニューラルネットワークベースのスキンニングは線形混合スキンニングよりも優れた性能を発揮することが期待できるが、それらのダイナミクスに近似を必要とする自由度を減らすために、剛体フレームをシミュレートし、スキンニングを用いて望ましいメッシュに粗い近似を再構築する。 改良された高周波変形は、その後、準静的ニューラルネットワーク(QNN)を介して、スキンメッシュに付加される。 新たなサンプルを適切に一般化するために、大量のトレーニングデータを必要とするリカレントニューラルネットワークとは対照的に、QNNはトレーニングデータを大幅に少なくする。

Since loose-fitting clothing contains dynamic modes that have proven to be difficult to predict via neural networks, we first illustrate how to coarsely approximate these modes with a real-time numerical algorithm specifically designed to mimic the most important ballistic features of a classical numerical simulation. Although there is some flexibility in the choice of the numerical algorithm used as a proxy for full simulation, it is essential that the stability and accuracy be independent from any time step restriction or similar requirements in order to facilitate real-time performance. In order to reduce the number of degrees of freedom that require approximations to their dynamics, we simulate rigid frames and use skinning to reconstruct a rough approximation to a desirable mesh; as one might expect, neural-network-based skinning seems to perform better than linear blend skinning in this scenario. Improved high frequency deformations are subsequently added to the skinned mesh via a quasistatic neural network (QNN). In contrast to recurrent neural networks that require a plethora of training data in order to adequately generalize to new examples, QNNs perform well with significantly less training data.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# 可変サイズモデルの初期化のための段階的ウェイトシェアリングによる学習遺伝子探索

Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models ( http://arxiv.org/abs/2404.16897v1 )

ライセンス: Link先を確認
Shi-Yu Xia, Wenxuan Zhu, Xu Yang, Xin Geng, (参考訳) 実際には、トレーニングの前に重み付け初期化が重要なステップであるさまざまなアプリケーションシナリオにおいて、さまざまなリソース制約に適応する可変サイズのモデルを構築する必要があります。 最近導入されたLeargenフレームワークは、まず大きな訓練されたモデルからLeargenと呼ばれるコンパクトな部分を学習し、その後、Leargenを拡張して可変サイズのモデルを初期化する。 本稿では,SWS(Stage-wise Weight Sharing)と呼ばれるシンプルで高効率な学習遺伝子アプローチの設計を刺激し,学習遺伝子層と学習プロセスの両方が,様々なスケールでモデルの初期化のための知識とガイダンスの提供に重要な貢献をする,訓練された学習遺伝子層の拡張のためのガイダンスの重要性を分析することから始める。 具体的には,学習層を学習するために,各段階の重みが共有される複数の段階からなる補助モデルを構築し,その後蒸留により学習する。 その後、ステージ情報を含むこれらの学習遺伝子層を拡張し、可変深さのモデルを初期化する。 ImageNet-1Kの大規模な実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現し、総トレーニングコストは6.6倍である。 場合によっては、SWSは1エポックチューニング後にのみパフォーマンスが向上する。 異なるリソース制約に適応する変数サイズのモデルを初期化する場合、SWSは、これらのモデルを初期化するための20倍のパラメータと、事前学習と微調整のアプローチとは対照的な10倍の事前学習コストを削減しながら、より良い結果を達成する。

In practice, we usually need to build variable-sized models adapting for diverse resource constraints in different application scenarios, where weight initialization is an important step prior to training. The Learngene framework, introduced recently, firstly learns one compact part termed as learngene from a large well-trained model, after which learngene is expanded to initialize variable-sized models. In this paper, we start from analysing the importance of guidance for the expansion of well-trained learngene layers, inspiring the design of a simple but highly effective Learngene approach termed SWS (Stage-wise Weight Sharing), where both learngene layers and their learning process critically contribute to providing knowledge and guidance for initializing models at varying scales. Specifically, to learn learngene layers, we build an auxiliary model comprising multiple stages where the layer weights in each stage are shared, after which we train it through distillation. Subsequently, we expand these learngene layers containing stage information at their corresponding stage to initialize models of variable depths. Extensive experiments on ImageNet-1K demonstrate that SWS achieves consistent better performance compared to many models trained from scratch, while reducing around 6.6x total training costs. In some cases, SWS performs better only after 1 epoch tuning. When initializing variable-sized models adapting for different resource constraints, SWS achieves better results while reducing around 20x parameters stored to initialize these models and around 10x pre-training costs, in contrast to the pre-training and fine-tuning approach.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# 量子化学習のための非対称量子化範囲のパラメータ化法

How to Parameterize Asymmetric Quantization Ranges for Quantization-Aware Training ( http://arxiv.org/abs/2404.16898v1 )

ライセンス: Link先を確認
Jaeseong You, Minseop Park, Kyunggeun Lee, Seokjun An, Chirag Patel, Markus Nage, (参考訳) 本稿では,(1)尺度とオフセット,(2)最小値と最大値,(3)ベータ値とガンマ値の3つのパラメータ化について検討する。 我々は、制御実験と実世界の大言語モデルの両方を用いて、これらのパラメータ化が量子化認識トレーニングに与える影響を包括的に比較分析する。 我々の特に焦点は、臨界トレーニングハイパーパラメータ、ビット幅、学習率に応じて行動を変えることである。 本研究は,学習可能な非対称量子化範囲を用いた量子化学習の安定化と高速化のためのベストプラクティスを提案する。

This paper investigates three different parameterizations of asymmetric uniform quantization for quantization-aware training: (1) scale and offset, (2) minimum and maximum, and (3) beta and gamma. We perform a comprehensive comparative analysis of these parameterizations' influence on quantization-aware training, using both controlled experiments and real-world large language models. Our particular focus is on their changing behavior in response to critical training hyperparameters, bit width and learning rate. Based on our investigation, we propose best practices to stabilize and accelerate quantization-aware training with learnable asymmetric quantization ranges.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# mlr3summary: 機械学習モデルのための簡潔で解釈可能な要約

mlr3summary: Concise and interpretable summaries for machine learning models ( http://arxiv.org/abs/2404.16899v1 )

ライセンス: Link先を確認
Susanne Dandl, Marc Becker, Bernd Bischl, Giuseppe Casalicchio, Ludwig Bothmann, (参考訳) この研究は、機械学習モデルの簡潔で情報的な要約のための新しいRパッケージを導入している。 第一に、我々の要約関数はモデルに依存しず、非パラメトリック機械学習モデルにも統一的な要約出力を提供し、第二に、要約出力はより広くカスタマイズ可能であり、データセット、モデルパフォーマンス、モデル複雑さ、モデルの推定特徴重要度、特徴効果、公正度などの情報を含む。 全体として、明確で構造化されたアウトプットは、モデル選択プロセスを強化し、迅速化するのに役立つだろう。

This work introduces a novel R package for concise, informative summaries of machine learning models. We take inspiration from the summary function for (generalized) linear models in R, but extend it in several directions: First, our summary function is model-agnostic and provides a unified summary output also for non-parametric machine learning models; Second, the summary output is more extensive and customizable -- it comprises information on the dataset, model performance, model complexity, model's estimated feature importances, feature effects, and fairness metrics; Third, models are evaluated based on resampling strategies for unbiased estimates of model performances, feature importances, etc. Overall, the clear, structured output should help to enhance and expedite the model selection process, making it a helpful tool for practitioners and researchers alike.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# 微視的トモグラフィーにおける学習手法による空間変動総変動の増大

Space-Variant Total Variation boosted by learning techniques in few-view tomographic imaging ( http://arxiv.org/abs/2404.16900v1 )

ライセンス: Link先を確認
Elena Morotti, Davide Evangelista, Andrea Sebastiani, Elena Loli Piccolomini, (参考訳) 本稿では,未決定の線形逆問題に対する空間変動正規化モデルの開発に焦点をあてる。 症例スタディは,少数視点のトモグラフィーノイズデータによる医用画像再構成である。 提案モデルの主な目的は, 適切な画素依存重みの適用により, 広く使用されている全変量(TV)正則化の性能を克服し, ディノナイシングと細部・縁の保存のバランスを良くすることである。 提案手法は,宇宙変動テレビの重み計算における勾配近似の役割を利用する。 このため、畳み込みニューラルネットワークは、トレーニングにおいて弾性損失関数を用いて、基底真理像と勾配の両方を近似するように設計されている。 さらに,本論文では,提案モデルの理論的解析を行い,その解の特異性を示し,手元にある特定の問題に対処するためのシャンブル・ポックアルゴリズムについて述べる。 この包括的なフレームワークは、革新的な正規化技術と高度なニューラルネットワーク機能を統合し、低サンプリングトモグラフィーデータから高品質な再構築を実現するための有望な結果を示す。

This paper focuses on the development of a space-variant regularization model for solving an under-determined linear inverse problem. The case study is a medical image reconstruction from few-view tomographic noisy data. The primary objective of the proposed optimization model is to achieve a good balance between denoising and the preservation of fine details and edges, overcoming the performance of the popular and largely used Total Variation (TV) regularization through the application of appropriate pixel-dependent weights. The proposed strategy leverages the role of gradient approximations for the computation of the space-variant TV weights. For this reason, a convolutional neural network is designed, to approximate both the ground truth image and its gradient using an elastic loss function in its training. Additionally, the paper provides a theoretical analysis of the proposed model, showing the uniqueness of its solution, and illustrates a Chambolle-Pock algorithm tailored to address the specific problem at hand. This comprehensive framework integrates innovative regularization techniques with advanced neural network capabilities, demonstrating promising results in achieving high-quality reconstructions from low-sampled tomographic data.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# Fiper: ルールと機能の重要性を組み合わせたビジュアルベースの説明

Fiper: a Visual-based Explanation Combining Rules and Feature Importance ( http://arxiv.org/abs/2404.16903v1 )

ライセンス: Link先を確認
Eleonora Cappuccio, Daniele Fadda, Rosa Lanzilotti, Salvatore Rinzivillo, (参考訳) 人工知能アルゴリズムは、今や複数のハイテイクドメインで普及している。 しかし、その内部論理は人間には不明瞭である。 説明可能な人工知能は、いわゆるブラックボックスアルゴリズムの予測を説明するツールとテクニックを設計することを目的としている。 Human-Computer Interactionコミュニティは、Explainable AIに対して、よりユーザ中心のアプローチの必要性を強調してきた。 このアプローチは、ユーザインターフェース、ユーザエクスペリエンス、およびビジュアル分析の研究の恩恵を受けることができる。 本稿では,特徴量と組み合わせたルールを視覚的に記述する手法を提案する。 15名の被験者によるユーザスタディを,アルゴリズムの本来の出力とテキスト表現の視覚的手法を比較し,その有効性をユーザとテストした。

Artificial Intelligence algorithms have now become pervasive in multiple high-stakes domains. However, their internal logic can be obscure to humans. Explainable Artificial Intelligence aims to design tools and techniques to illustrate the predictions of the so-called black-box algorithms. The Human-Computer Interaction community has long stressed the need for a more user-centered approach to Explainable AI. This approach can benefit from research in user interface, user experience, and visual analytics. This paper proposes a visual-based method to illustrate rules paired with feature importance. A user study with 15 participants was conducted comparing our visual method with the original output of the algorithm and textual representation to test its effectiveness with users.
翻訳日:2024-04-29 15:03:56 公開日:2024-04-25
# Samsung Research China-Beijing at SemEval-2024 Task 3: A multi-stage framework for Emotion-Cause Pair extract in Conversations

Samsung Research China-Beijing at SemEval-2024 Task 3: A multi-stage framework for Emotion-Cause Pair Extraction in Conversations ( http://arxiv.org/abs/2404.16905v1 )

ライセンス: Link先を確認
Shen Zhang, Haojie Zhang, Jing Zhang, Xudong Zhang, Yimeng Zhuang, Jinting Wu, (参考訳) 人間とコンピュータの相互作用においては、エージェントは感情を理解することで人間に反応することが不可欠である。 感情の原因を明らかにすることはもっと難しい。 会話におけるマルチモーダル感情因果対抽出と呼ばれる新しいタスクは、感情を認識し、因果表現を識別する役割を担っている。 本研究では,感情を生成するための多段階フレームワークを提案し,対象感情から感情因果対を抽出する。 第1段階では、Llama-2ベースのインストラクタCを用いて、会話中の各発話の感情カテゴリを抽出する。 感情認識後、サブタスク2の目標感情が与えられた感情因果対を抽出するために2ストリームアテンションモデルを用い、サブタスク1の因果対を抽出するために MuTEC を用いる。 当社のアプローチは,2つのサブタスクのどちらにおいても,この2つのサブタスクで第1位を獲得しました。

In human-computer interaction, it is crucial for agents to respond to human by understanding their emotions. Unraveling the causes of emotions is more challenging. A new task named Multimodal Emotion-Cause Pair Extraction in Conversations is responsible for recognizing emotion and identifying causal expressions. In this study, we propose a multi-stage framework to generate emotion and extract the emotion causal pairs given the target emotion. In the first stage, Llama-2-based InstructERC is utilized to extract the emotion category of each utterance in a conversation. After emotion recognition, a two-stream attention model is employed to extract the emotion causal pairs given the target emotion for subtask 2 while MuTEC is employed to extract causal span for subtask 1. Our approach achieved first place for both of the two subtasks in the competition.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 大規模言語モデルを用いたコスト認識獲得機能の開発

Evolve Cost-aware Acquisition Functions Using Large Language Models ( http://arxiv.org/abs/2404.16906v1 )

ライセンス: Link先を確認
Yiming Yao, Fei Liu, Ji Cheng, Qingfu Zhang, (参考訳) 多くの実世界の最適化シナリオは、未知で不均一なコストによる高価な評価を含む。 コストを意識したベイズ最適化は、これらの課題に対処する際、目立った解決策である。 コスト効率のよい予算でグローバルな最適化に近づくためには、コスト対応獲得機能(AF)の設計が重要なステップとなる。 しかし、従来の手動設計パラダイムは、通常、広範なドメイン知識を必要とし、労働集約的な試行錯誤プロセスを伴う。 本稿では,大規模言語モデル (LLM) と進化計算 (EC) を統合する新しいフレームワークであるEvolCAFを紹介する。 EvolCAFはアルゴリズム空間におけるクロスオーバーと突然変異を活用し、新しい設計パラダイムを提供し、ドメインの専門知識とモデルトレーニングへの依存を著しく低減する。 設計されたコストアウェアAFは、過去のデータ、サロゲートモデル、予算の詳細から利用可能な情報の利用を最大化する。 獲得関数設計に関する既存の文献でこれまで検討されていなかった新しいアイデアを導入し、明確な解釈により、その振る舞いと意思決定プロセスに関する洞察を提供する。 人的専門家が設計した有名なEIpuとEI-coolの手法と比較して,12の合成問題と3つの実世界のハイパーパラメータチューニングテストセットを含む,様々なタスクにおける顕著な効率性と一般化を示す。

Many real-world optimization scenarios involve expensive evaluation with unknown and heterogeneous costs. Cost-aware Bayesian optimization stands out as a prominent solution in addressing these challenges. To approach the global optimum within a limited budget in a cost-efficient manner, the design of cost-aware acquisition functions (AFs) becomes a crucial step. However, traditional manual design paradigm typically requires extensive domain knowledge and involves a labor-intensive trial-and-error process. This paper introduces EvolCAF, a novel framework that integrates large language models (LLMs) with evolutionary computation (EC) to automatically design cost-aware AFs. Leveraging the crossover and mutation in the algorithm space, EvolCAF offers a novel design paradigm, significantly reduces the reliance on domain expertise and model training. The designed cost-aware AF maximizes the utilization of available information from historical data, surrogate models and budget details. It introduces novel ideas not previously explored in the existing literature on acquisition function design, allowing for clear interpretations to provide insights into its behavior and decision-making process. In comparison to the well-known EIpu and EI-cool methods designed by human experts, our approach showcases remarkable efficiency and generalization across various tasks, including 12 synthetic problems and 3 real-world hyperparameter tuning test sets.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# ソルト・アンド・ピーパーによる季節交互介入予測

Season combinatorial intervention predictions with Salt & Peper ( http://arxiv.org/abs/2404.16907v1 )

ライセンス: Link先を確認
Thomas Gaudelet, Alice Del Vecchio, Eli M Carrami, Juliana Cudini, Chantriolnt-Andreas Kapourani, Caroline Uhler, Lindsay Edwards, (参考訳) 干渉は複雑な生物学的システムの研究において重要な役割を担っている。 薬物発見において、遺伝子介入(CRISPRベースの編集など)は、潜在的治療標的の同定と薬物の作用機構の理解の両方の中心となっている。 CRISPRの進歩と転写学のようなゲノム解析の拡散により、同時に行われる遺伝的介入の膨大な組み合わせ空間をナビゲートすることが新しい課題である。 本研究は,遺伝子組換えが細胞トランスクリプトームに与える影響を推定することに集中している。 生物にインスパイアされたベースラインであるSaltと、前例のない精度を達成するためにSaltの付加的仮定を拡張したディープラーニングモデルであるPeperの2つの新しいコントリビューションを紹介した。 各種メトリクスを基盤とした既存の最先端手法に対する包括的比較と、分布外分析は、現実的な環境での現行モデルの限界を浮き彫りにしている。 この分析は、改良されたモデリング技術とデータ取得戦略の必要性を強調し、遺伝的介入効果のより効果的な探索の道を開く。

Interventions play a pivotal role in the study of complex biological systems. In drug discovery, genetic interventions (such as CRISPR base editing) have become central to both identifying potential therapeutic targets and understanding a drug's mechanism of action. With the advancement of CRISPR and the proliferation of genome-scale analyses such as transcriptomics, a new challenge is to navigate the vast combinatorial space of concurrent genetic interventions. Addressing this, our work concentrates on estimating the effects of pairwise genetic combinations on the cellular transcriptome. We introduce two novel contributions: Salt, a biologically-inspired baseline that posits the mostly additive nature of combination effects, and Peper, a deep learning model that extends Salt's additive assumption to achieve unprecedented accuracy. Our comprehensive comparison against existing state-of-the-art methods, grounded in diverse metrics, and our out-of-distribution analysis highlight the limitations of current models in realistic settings. This analysis underscores the necessity for improved modelling techniques and data acquisition strategies, paving the way for more effective exploration of genetic intervention effects.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# ギャップを埋める:ニューラルネットワークによるガイダンスと制御ネットワークの最適化

Closing the gap: Optimizing Guidance and Control Networks through Neural ODEs ( http://arxiv.org/abs/2404.16908v1 )

ライセンス: Link先を確認
Sebastien Origer, Dario Izzo, (参考訳) 我々は,G&CNET(Guidance & Control Networks, G&CNETs)の精度を改善し, 時間-最適移動と質量-最適着陸の最適制御ポリシーを表現するように訓練した。 どちらの場合も、右辺にニューラルネットワークを組み込んだ通常の微分方程式(Neural ODE)によって説明される宇宙船の力学を利用する。 ニューラルダイナミクスは微分可能であるため、ネットワークパラメータに対するODEの感度は変動方程式を用いて計算することができ、観測されたダイナミクスに基づいてG&CNETパラメータを更新することができる。 まず、行動クローンを用いて最適な軌道のデータセット上でG&CNETをトレーニングする。 これらのネットワークは、最終状態と目標状態の誤差を最小限に抑え、ニューラルODE感度を用いて洗練される。 軌道伝達において、目標への最終誤差は1つの軌道上で99%、500の軌道上で70%減少することを示した。 着陸問題では、誤差の減少は約98-99%(位置)と40-44%(速度)である。 このステップにより、G&CNETの精度が大幅に向上し、運用上の信頼性が向上する。 また,この結果とDAGGER (Dataset Aggregation Method) を比較し,両手法の長所と短所について述べる。

We improve the accuracy of Guidance & Control Networks (G&CNETs), trained to represent the optimal control policies of a time-optimal transfer and a mass-optimal landing, respectively. In both cases we leverage the dynamics of the spacecraft, described by Ordinary Differential Equations which incorporate a neural network on their right-hand side (Neural ODEs). Since the neural dynamics is differentiable, the ODEs sensitivities to the network parameters can be computed using the variational equations, thereby allowing to update the G&CNET parameters based on the observed dynamics. We start with a straightforward regression task, training the G&CNETs on datasets of optimal trajectories using behavioural cloning. These networks are then refined using the Neural ODE sensitivities by minimizing the error between the final states and the target states. We demonstrate that for the orbital transfer, the final error to the target can be reduced by 99% on a single trajectory and by 70% on a batch of 500 trajectories. For the landing problem the reduction in error is around 98-99% (position) and 40-44% (velocity). This step significantly enhances the accuracy of G&CNETs, which instills greater confidence in their reliability for operational use. We also compare our results to the popular Dataset Aggregation method (DaGGER) and allude to the strengths and weaknesses of both methods.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# HEroBM:粗粒から全原子表現への普遍的バックマッピングのための深部同変グラフニューラルネットワーク

HEroBM: a deep equivariant graph neural network for universal backmapping from coarse-grained to all-atom representations ( http://arxiv.org/abs/2404.16911v1 )

ライセンス: Link先を確認
Daniele Angioletti, Stefano Raniolo, Vittorio Limongelli, (参考訳) 分子シミュレーションは、化学、生物学、物質科学の分野で重要な役割を担い、システムの複雑な力学特性を捉えることができる。 この領域内では、粗粒度(CG)技術が大規模システムをサンプリングし、システム表現を単純化して拡張タイムスケールに到達するための貴重なツールとして出現している。 しかし、CGのアプローチにはトレードオフがあり、調査プロセスの解読において大きな関連性を持つ可能性のある、原子論的な詳細を犠牲にしている。 したがって、推奨されるアプローチは、重要なCGコンホメーションを特定し、それらをバックマッピング法で処理し、原子座標を検索することである。 現在、ルールベースの手法は、サブパージオメトリを生成し、エネルギー緩和に依存しており、最適ではない結果をもたらす。 逆に、機械学習技術は高い精度を提供するが、システム間の転送可能性に制限があるか、特定のCGマッピングに関連付けられている。 本研究では,高分解能バックマッピングを実現するために,深部等変グラフニューラルネットワークと階層的アプローチを用いた動的でスケーラブルなHEroBMを提案する。 HEroBMはあらゆるタイプのCGマッピングを処理し、高精度で原子構造を再構築するための汎用的で効率的なプロトコルを提供する。 HEroBMは局所原理に焦点を合わせ、化学空間全体にまたがっており、様々な大きさのシステムに転送可能である。 複雑な実ケースシナリオを含む多様な生物学的システムを通して、我々のフレームワークの汎用性を説明する。 そこで本研究では, コレステロール/リン脂質二層膜内の有機小分子に結合したGタンパク質結合受容体の原子性座標を, エンドツーエンドのバックマッピングにより正確に生成する。

Molecular simulations have assumed a paramount role in the fields of chemistry, biology, and material sciences, being able to capture the intricate dynamic properties of systems. Within this realm, coarse-grained (CG) techniques have emerged as invaluable tools to sample large-scale systems and reach extended timescales by simplifying system representation. However, CG approaches come with a trade-off: they sacrifice atomistic details that might hold significant relevance in deciphering the investigated process. Therefore, a recommended approach is to identify key CG conformations and process them using backmapping methods, which retrieve atomistic coordinates. Currently, rule-based methods yield subpar geometries and rely on energy relaxation, resulting in less-than-optimal outcomes. Conversely, machine learning techniques offer higher accuracy but are either limited in transferability between systems or tied to specific CG mappings. In this work, we introduce HEroBM, a dynamic and scalable method that employs deep equivariant graph neural networks and a hierarchical approach to achieve high-resolution backmapping. HEroBM handles any type of CG mapping, offering a versatile and efficient protocol for reconstructing atomistic structures with high accuracy. Focused on local principles, HEroBM spans the entire chemical space and is transferable to systems of varying sizes. We illustrate the versatility of our framework through diverse biological systems, including a complex real-case scenario. Here, our end-to-end backmapping approach accurately generates the atomistic coordinates of a G protein-coupled receptor bound to an organic small molecule within a cholesterol/phospholipid bilayer.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# DE-CGAN: 条件付き生成対向ネットワークの多様性を向上したrTMS処理予測

DE-CGAN: Boosting rTMS Treatment Prediction with Diversity Enhancing Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2404.16913v1 )

ライセンス: Link先を確認
Matthew Squires, Xiaohui Tao, Soman Elangovan, Raj Gururajan, Haoran Xie, Xujuan Zhou, Yuefeng Li, U Rajendra Acharya, (参考訳) 反復性経頭蓋磁気刺激(repetitive transcranial Magnetic Stimulation, RTMS)は、うつ病に対する治療である。 しかし、この治療に対する反応パターンは矛盾している。 新たな証拠は、人工知能がfMRI接続機能を使用して、ほとんどの患者のrTMS治療結果を予測することを示唆している。 これらのモデルでは、多くの患者に対する治療結果を確実に予測できるが、表現不足なfMRI接続測定では、DNNモデルは治療結果の確実な予測ができない。 そこで本研究では,これらの未表現例を網羅する条件付き一般敵ネットワーク(DE-CGAN)の多様性向上手法を提案する。 DE-CGANは、まずこれらのデータポイントを識別し、データ多様性を高めるために条件付き合成例を作成することで、分類困難な領域で合成例を作成する。 実験により,多様性向上トレーニングを用いて訓練された分類モデルが,従来のデータ拡張手法や既存のベンチマーク結果より優れていたことを示す。 この研究は、トレーニングデータセットの多様性を高めることで、分類モデルのパフォーマンスが向上することを示している。 さらに、この研究は、AI研究者と精神科医の両方が多様な関係を探求するためにより堅牢なデータセットを提供する合成患者の有用性を示す証拠を提供する。

Repetitive Transcranial Magnetic Stimulation (rTMS) is a well-supported, evidence-based treatment for depression. However, patterns of response to this treatment are inconsistent. Emerging evidence suggests that artificial intelligence can predict rTMS treatment outcomes for most patients using fMRI connectivity features. While these models can reliably predict treatment outcomes for many patients for some underrepresented fMRI connectivity measures DNN models are unable to reliably predict treatment outcomes. As such we propose a novel method, Diversity Enhancing Conditional General Adversarial Network (DE-CGAN) for oversampling these underrepresented examples. DE-CGAN creates synthetic examples in difficult-to-classify regions by first identifying these data points and then creating conditioned synthetic examples to enhance data diversity. Through empirical experiments we show that a classification model trained using a diversity enhanced training set outperforms traditional data augmentation techniques and existing benchmark results. This work shows that increasing the diversity of a training dataset can improve classification model performance. Furthermore, this work provides evidence for the utility of synthetic patients providing larger more robust datasets for both AI researchers and psychiatrists to explore variable relationships.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 予測はすべてMoEが必要:専門家の負荷分散は変動から安定化へ

Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing ( http://arxiv.org/abs/2404.16914v1 )

ライセンス: Link先を確認
Peizhuang Cong, Aomufei Yuan, Shimao Chen, Yuxuan Tian, Bowen Ye, Tong Yang, (参考訳) MoEは、モデルの計算複雑性をパラメータの増加とともに線形にスケールしないようにすることで、大型モデルの開発を促進する。 学習スパースゲーティングネットワークは、処理すべきトークンごとに専門家のセットを選択するが、これは、専門家が処理するトークンの数、すなわち、計算の並列化とリソース利用を減らす専門家負荷変動の違いにつながる可能性がある。 この目的のために,本研究では,複数の大規模言語モデルのトレーニングイテレーションにおいて,各専門家の負荷をトレースし,解析し,過渡的状態を「明らかな負荷変動」,安定状態を「時間的局所性」で定義した。 さらに, この2つの状態の特徴と計算オーバーヘッドから, 精度の高い負荷予測を行うための古典的予測アルゴリズムを3つ展開した。 GPT3 350Mモデルでは、次の1000ステップと2,000ステップで専門家の負荷率を予測する平均誤差率は、それぞれ1.3%と1.8%である。 この作業は、専門家配置のための貴重なガイダンスや、MoEモデルのトレーニングのためのリソース割り当てを提供することができます。 本研究に基づき,本研究における過渡的かつ安定的な状態に対する専門家配置方式を提案する。

MoE facilitates the development of large models by making the computational complexity of the model no longer scale linearly with increasing parameters. The learning sparse gating network selects a set of experts for each token to be processed; however, this may lead to differences in the number of tokens processed by each expert over several successive iterations, i.e., the expert load fluctuations, which reduces computational parallelization and resource utilization. To this end, we traced and analyzed loads of each expert in the training iterations for several large language models in this work, and defined the transient state with "obvious load fluctuation" and the stable state with "temporal locality". Moreover, given the characteristics of these two states and the computational overhead, we deployed three classical prediction algorithms that achieve accurate expert load prediction results. For the GPT3 350M model, the average error rates for predicting the expert load proportion over the next 1,000 and 2,000 steps are approximately 1.3% and 1.8%, respectively. This work can provide valuable guidance for expert placement or resource allocation for MoE model training. Based on this work, we will propose an expert placement scheme for transient and stable states in our coming work.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 検証オフチェーン計算のためのzk-SNARKの実行

Servicifying zk-SNARKs Execution for Verifiable Off-chain Computations ( http://arxiv.org/abs/2404.16915v1 )

ライセンス: Link先を確認
Alvaro Alonso Domenech, Jonathan Heiss, Stefan Tai, (参考訳) Zk-SNARKは、検証可能なオフチェーン計算(VOC)によるブロックチェーンのスケールアップを支援する。 zk-SNARK DSLツールキットは算術回路を設計する際の鍵であるが、その後の証明生成ステップを自動で自動化するには不足している。 我々は、VOCベースのソリューションにおけるポータビリティ、相互運用性、管理性の必要性を強調し、クラウドを活用したzk-SNARK証明を生成するためのスケーラブルで再利用可能なソリューションを提供するように設計されたProperving Serviceを導入する。

Zk-SNARKs help scale blockchains with Verifiable Off-chain Computations (VOC). zk-SNARK DSL toolkits are key when designing arithmetic circuits but fall short of automating the subsequent proof-generation step in an automated manner. We emphasize the need for portability, interoperability, and manageability in VOC-based solutions and introduce a Proving Service that is designed to provide a scalable and reusable solution for generating zk-SNARK proofs leveraging clouds.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# Grad Queue : スパース勾配を補強する確率的枠組み

Grad Queue : A probabilistic framework to reinforce sparse gradients ( http://arxiv.org/abs/2404.16917v1 )

ライセンス: Link先を確認
Irfan Mohammad Al Hasib, (参考訳) インフォーマティブな勾配はしばしば大規模なバッチ更新で失われる。 ランダムなデータポイントのバッチ内でスパースコンポーネントを補強するロバストなメカニズムを提案する。 オンライン勾配の有限キューは、期待される瞬時統計を決定するために使用される。 本稿では,これらの統計値を用いて,入射勾配の不足を計測し,その理論的根拠を確立する機能を提案する。 大規模なミニバッチ内の競合するコンポーネントを最小限に抑えるため、サンプルは固有の特徴空間に基づいたクラスタリングによって、アライメントされた目的にグループ化される。 各セントロイドについて空間を計測し、それに応じて重み付けする。 各クラスタから冗長な情報を抽出する強力な直感的な基準は、システムのバックボーンである。 攻撃運動量に無関心な稀な情報は、より大きなミニバッチ水平線で優れた性能を示す。 キューの有効長は、ローカルロスパターンに従うように変数を保持した。 本手法の貢献は,バッチ境界を最適に拡張すると同時に,最小バッチ内多様性を回復することである。 これらはいずれも、ミニマに向かってさらに深く押し上げます。 CIFAR10,MNIST,Reuters Newsのカテゴリデータセットでは,ミニバッチ勾配よりも優れた性能を示した。

Informative gradients are often lost in large batch updates. We propose a robust mechanism to reinforce the sparse components within a random batch of data points. A finite queue of online gradients is used to determine their expected instantaneous statistics. We propose a function to measure the scarcity of incoming gradients using these statistics and establish the theoretical ground of this mechanism. To minimize conflicting components within large mini-batches, samples are grouped with aligned objectives by clustering based on inherent feature space. Sparsity is measured for each centroid and weighted accordingly. A strong intuitive criterion to squeeze out redundant information from each cluster is the backbone of the system. It makes rare information indifferent to aggressive momentum also exhibits superior performance with larger mini-batch horizon. The effective length of the queue kept variable to follow the local loss pattern. The contribution of our method is to restore intra-mini-batch diversity at the same time widening the optimal batch boundary. Both of these collectively drive it deeper towards the minima. Our method has shown superior performance for CIFAR10, MNIST, and Reuters News category dataset compared to mini-batch gradient descent.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# ディープラーニングを用いた予測のためのオンザフライデータ拡張

On-the-fly Data Augmentation for Forecasting with Deep Learning ( http://arxiv.org/abs/2404.16918v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Moisés Santos, Yassine Baghoussi, Carlos Soares, (参考訳) 予測タスクに対処するために、ディープラーニングアプローチがますます使われています。 これらの手法をうまく応用する上で重要な要素は、十分なトレーニングサンプルサイズであり、必ずしも利用できるとは限らない。 これらのシナリオでは、データセットを増強するために通常、合成データ生成技術が適用される。 データ拡張は通常、モデルに適合する前に適用される。 しかしながら、これらのアプローチは単一のデータセットを生成し、その有効性を制限する可能性がある。 この作業では、トレーニングと検証中にデータ拡張を適用することで、この問題に対処するOnDAT(On-the-fly Data Augmentation for Time series)を導入している。 単一の静的なデータセットを事前に生成する従来のメソッドとは対照的に、OnDATはオンザフライで拡張を実行する。 各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。 このプロセスにより、データ空間のより優れた探索が可能になり、過剰適合の可能性を低減し、予測性能を向上させることができると仮定する。 提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。 実験の結果,OnDATはトレーニング前にデータ拡張を適用する戦略よりも,データ拡張を伴わない戦略よりも優れた予測性能をもたらすことが示唆された。 この方法と実験は一般に公開されている。

Deep learning approaches are increasingly used to tackle forecasting tasks. A key factor in the successful application of these methods is a large enough training sample size, which is not always available. In these scenarios, synthetic data generation techniques are usually applied to augment the dataset. Data augmentation is typically applied before fitting a model. However, these approaches create a single augmented dataset, potentially limiting their effectiveness. This work introduces OnDAT (On-the-fly Data Augmentation for Time series) to address this issue by applying data augmentation during training and validation. Contrary to traditional methods that create a single, static augmented dataset beforehand, OnDAT performs augmentation on-the-fly. By generating a new augmented dataset on each iteration, the model is exposed to a constantly changing augmented data variations. We hypothesize this process enables a better exploration of the data space, which reduces the potential for overfitting and improves forecasting performance. We validated the proposed approach using a state-of-the-art deep learning forecasting method and 8 benchmark datasets containing a total of 75797 time series. The experiments suggest that OnDAT leads to better forecasting performance than a strategy that applies data augmentation before training as well as a strategy that does not involve data augmentation. The method and experiments are publicly available.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 重み付きミリ波ネットワークにおける遅延最適データ伝送のための構造強化学習

Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks ( http://arxiv.org/abs/2404.16920v1 )

ライセンス: Link先を確認
Shufan Wang, Guojun Xiong, Shichen Zhang, Huacheng Zeng, Jian Li, Shivendra Panwar, (参考訳) 本研究では,高密度セルフリーミリ波(mmWave)ネットワークにおけるデータパケット送信問題(mmDPT)について検討する。 我々の目標は、APsの限られたサービス容量と、APとユーザ間の信頼性の低い無線チャネルにより、システムの平均遅延を最小限にすることである。 この問題は、フェアネス制約(RMAB-F)を伴うレスレスマルチアームバンディット問題として定式化することができる。 RMAB-Fの最適ポリシーを見つけることは困難であるため、既存の学習アルゴリズムは計算コストが高く、実用的な高密度ミリ波ネットワークには適さない。 本稿では、RMAB-Fで符号化された固有構造を利用して、mmDPTのための構造強化学習(RL)ソリューションを提案する。 そこで我々はまず,RMAB-Fのための低複雑さかつ漸近的に最適な指標ポリシーを設計する。 そこで我々は,この構造情報を利用してmmDPT-TSと呼ばれる構造的RLアルゴリズムを開発し,ベイズ的後悔を証明できることを示す。 さらに重要なことは、mDPT-TSは計算効率が良く、意思決定のためにインデックスポリシーの構造を完全に活用するため、実用的な実装に適している。 現実的なmmWaveネットワークで収集されたデータに基づく広範囲なエミュレーションは、既存のアプローチに比べて、mDPT-TSの顕著な増加を示している。

We study the data packet transmission problem (mmDPT) in dense cell-free millimeter wave (mmWave) networks, i.e., users sending data packet requests to access points (APs) via uplinks and APs transmitting requested data packets to users via downlinks. Our objective is to minimize the average delay in the system due to APs' limited service capacity and unreliable wireless channels between APs and users. This problem can be formulated as a restless multi-armed bandits problem with fairness constraint (RMAB-F). Since finding the optimal policy for RMAB-F is intractable, existing learning algorithms are computationally expensive and not suitable for practical dynamic dense mmWave networks. In this paper, we propose a structured reinforcement learning (RL) solution for mmDPT by exploiting the inherent structure encoded in RMAB-F. To achieve this, we first design a low-complexity and provably asymptotically optimal index policy for RMAB-F. Then, we leverage this structure information to develop a structured RL algorithm called mmDPT-TS, which provably achieves an \tilde{O}(\sqrt{T}) Bayesian regret. More importantly, mmDPT-TS is computation-efficient and thus amenable to practical implementation, as it fully exploits the structure of index policy for making decisions. Extensive emulation based on data collected in realistic mmWave networks demonstrate significant gains of mmDPT-TS over existing approaches.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 変圧器からLLMへのエピデミックモデリングにおける人体移動予測の短期的調査

A Short Survey of Human Mobility Prediction in Epidemic Modeling from Transformers to LLMs ( http://arxiv.org/abs/2404.16921v1 )

ライセンス: Link先を確認
Christian N. Mayemba, D'Jeff K. Nkashama, Jean Marie Tshimula, Maximilien V. Dialufuma, Jean Tshibangu Muabila, Mbuyi Mukendi Didier, Hugues Kanda, René Manassé Galekwa, Heber Dibwe Fita, Serge Mundele, Kalonji Kalala, Aristarque Ilunga, Lambert Mukendi Ntobo, Dominique Muteba, Aaron Aruna Abedi, (参考訳) 本稿では、機械学習技術、特にトランスフォーマーモデルを活用した、流行時の人間の移動パターンの予測における最近の進歩を包括的に調査する。 流行の際の人々の動きを理解することは、病気の拡散をモデル化し、効果的な対応戦略を考案する上で不可欠である。 人口動態の予測は疫学モデルの作成と公衆衛生における効果的な対応計画の策定に不可欠である。 モビリティパターンの予測により、当局は病気の地理的および時間的拡散を予測し、資源をより効率的に割り当て、標的とする介入を実施することができる。 BERTやLLM(Large Language Models)のような事前訓練された言語モデルを用いて,モビリティ予測タスクに特化して,さまざまなアプローチをレビューする。 これらのモデルは、テキストデータ中の複雑な時空間的依存関係とコンテキストパターンをキャプチャする大きな可能性を証明している。

This paper provides a comprehensive survey of recent advancements in leveraging machine learning techniques, particularly Transformer models, for predicting human mobility patterns during epidemics. Understanding how people move during epidemics is essential for modeling the spread of diseases and devising effective response strategies. Forecasting population movement is crucial for informing epidemiological models and facilitating effective response planning in public health emergencies. Predicting mobility patterns can enable authorities to better anticipate the geographical and temporal spread of diseases, allocate resources more efficiently, and implement targeted interventions. We review a range of approaches utilizing both pretrained language models like BERT and Large Language Models (LLMs) tailored specifically for mobility prediction tasks. These models have demonstrated significant potential in capturing complex spatio-temporal dependencies and contextual patterns in textual data.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 大規模言語モデルにおける生成的検索とレコメンデーションに関する調査

A Survey of Generative Search and Recommendation in the Era of Large Language Models ( http://arxiv.org/abs/2404.16924v1 )

ライセンス: Link先を確認
Yongqi Li, Xinyu Lin, Wenjie Wang, Fuli Feng, Liang Pang, Wenjie Li, Liqiang Nie, Xiangnan He, Tat-Seng Chua, (参考訳) Web上の情報爆発により、検索とレコメンデーションは、ユーザの情報ニーズを満たすための基盤となるインフラである。 同じコインの2つの側面として、どちらも同じ中核的な研究問題を回避し、クエリをドキュメントやユーザとマッチングする。 ここ数十年、検索とレコメンデーションは、機械学習ベースのパラダイムやディープラーニングベースのパラダイムなど、同期技術パラダイムシフトを経験してきた。 近年,超知能な生成型大言語モデルが,検索と推薦の新しいパラダイム,すなわち生成的検索(検索)とレコメンデーションを生み出している。 本稿では,情報システムにおける新たなパラダイムを包括的に調査し,総合的な視点から生成的検索とレコメンデーションの展開を要約する。 既存のワークを単純に分類するのではなく、生成パラダイムの統一されたフレームワークを抽象化し、既存のワークをこのフレームワーク内のさまざまなステージに分割して、長所と短所を強調します。 そして、生成的検索とレコメンデーションをそれぞれの課題と区別し、オープンな問題と今後の方向性を特定し、次の情報探索パラダイムを構想する。

With the information explosion on the Web, search and recommendation are foundational infrastructures to satisfying users' information needs. As the two sides of the same coin, both revolve around the same core research problem, matching queries with documents or users with items. In the recent few decades, search and recommendation have experienced synchronous technological paradigm shifts, including machine learning-based and deep learning-based paradigms. Recently, the superintelligent generative large language models have sparked a new paradigm in search and recommendation, i.e., generative search (retrieval) and recommendation, which aims to address the matching problem in a generative manner. In this paper, we provide a comprehensive survey of the emerging paradigm in information systems and summarize the developments in generative search and recommendation from a unified perspective. Rather than simply categorizing existing works, we abstract a unified framework for the generative paradigm and break down the existing works into different stages within this framework to highlight the strengths and weaknesses. And then, we distinguish generative search and recommendation with their unique challenges, identify open problems and future directions, and envision the next information-seeking paradigm.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 不純物を有する格子上の超拡散輸送

Superdiffusive transport on lattices with nodal impurities ( http://arxiv.org/abs/2404.16927v1 )

ライセンス: Link先を確認
Yu-Peng Wang, Jie Ren, Chen Fang, (参考訳) その結果, 1次元格子モデルでは, 相互作用が存在しない場合, ランダムな「ノイズ不純物」の存在下で超拡散輸送を示すことがわかった。 ここで、結節不純物は局所状態として定義され、その波動関数は運動量空間に零点(ノード)を持つ。 輸送行動の定義量である動力学指数$z$は、この結果を確立するために計算される。 具体的には、結節不純物しか持たない乱系において、動的指数 $z=4n/(4n-1)$ はノードの順序である。 システムが時間反転を持つ場合、ノードはペアに現れ、動的指数は$z=8n/(8n-1)$に拡張できる。 1<z<2$の場合、どちらも超拡散輸送を示す。

We show that 1D lattice models exhibit superdiffusive transport in the presence of random "nodal impurities" in the absence of interaction. Here a nodal impurity is defined as a localized state, the wave function of which has zeros (nodes) in momentum space. The dynamics exponent $z$, a defining quantity for transport behaviors, is computed to establish this result. To be specific, in a disordered system having only nodal impurities, the dynamical exponent $z=4n/(4n-1)$ where $n$ is the order of the node. If the system has time reversal, the nodes appear in pairs and the dynamical exponent can be enhanced to $z=8n/(8n-1)$. As $1<z<2$, both cases indicate superdiffusive transport.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# 同期による熱力学的不確かさ関係の違反

Synchronization-induced violation of thermodynamic uncertainty relations ( http://arxiv.org/abs/2404.16936v1 )

ライセンス: Link先を確認
Luca Razzoli, Matteo Carrega, Fabio Cavaliere, Giuliano Benenti, Maura Sassetti, (参考訳) ゆらぎはナノデバイスの機能に影響を及ぼす。 確率的熱力学の枠組みの中で導かれる熱力学的不確実性関係(TURs)は、与えられた相対的なエネルギー電流の分散、すなわち、電流精度が熱力学的コストを持つために、最小の散逸が必要とされることを示している。 したがって、TURが特に量子系に違反し、より低コストで正確な電流をもたらす可能性を探究することは大きな関心事である。 ここでは, 2つの量子調和振動子が, 強い散逸と低温で, 共有熱環境との結合により同期していることを示す。 この体制では、周期的に第2熱貯水池に結合し、時間反転対称性を破り、後者の貯水池の非マルコビアン性を活用することで、有限出力力を維持しながら、局所的な作業電流に対するTURの強い違反を引き起こす。 本結果は, 精度の熱力学における同期の活用の道を開くものである。

Fluctuations affect the functionality of nanodevices. Thermodynamic uncertainty relations (TURs), derived within the framework of stochastic thermodynamics, show that a minimal amount of dissipation is required to obtain a given relative energy current dispersion, that is, current precision has a thermodynamic cost. It is therefore of great interest to explore the possibility that TURs are violated, particularly for quantum systems, leading to accurate currents at lower cost. Here, we show that two quantum harmonic oscillators are synchronized by coupling to a common thermal environment, at strong dissipation and low temperature. In this regime, periodically modulated couplings to a second thermal reservoir, breaking time-reversal symmetry and taking advantage of non-Markovianity of this latter reservoir, lead to strong violation of TURs for local work currents, while maintaining finite output power. Our results pave the way for the use of synchronization in the thermodynamics of precision.
翻訳日:2024-04-29 14:54:11 公開日:2024-04-25
# コンステレーションデータセット:都市間における高高度物体検出のベンチマーク

Constellation Dataset: Benchmarking High-Altitude Object Detection for an Urban Intersection ( http://arxiv.org/abs/2404.16944v1 )

ライセンス: Link先を確認
Mehmet Kerem Turkcan, Sanjeev Narasimhan, Chengbo Zang, Gyung Hyun Je, Bo Yu, Mahshid Ghasemi, Javad Ghaderi, Gil Zussman, Zoran Kostic, (参考訳) コンステレーション(Constellation)は,高標高カメラで観測された高密度都市景観の物体検出研究に適した13K画像のデータセットであり,様々な時間的条件で収集される。 このデータセットは、数メートル離れた地点で観察された歩行者の限られたピクセルフットプリントによって実証された小さな物体検出の問題を探索するキュレートされたデータの必要性に対処する。 これにより、照明、ビルディングシャドー、天気、シーンダイナミクスのバリエーションに対するオブジェクト検出モデルのテストが可能になる。 提案手法は, 車両に比べて小型歩行者の検出性能が低く, 平均精度(AP)の10%の差が認められた。 モデルを事前トレーニングするために構造的に類似したデータセットを使用すると、平均AP(mAP)が1.8%増加する。 さらに、ドメイン固有のデータ拡張を取り入れることで、モデルの性能が向上する。 最高の性能モデルの推測結果から得られた擬似ラベル付きデータを用いることで、モデルの性能が向上する。 最後に、2つの異なる時間間隔で収集したデータを用いてトレーニングしたモデルを比較し、時間とともに交叉条件が変化するため、モデルの性能が低下することを示した。 最高のパフォーマンスモデルは、NVIDIA A100 GPU上での11.5msの推論時間で92.0%の歩行者AP、95.4%のmAPを達成する。

We introduce Constellation, a dataset of 13K images suitable for research on detection of objects in dense urban streetscapes observed from high-elevation cameras, collected for a variety of temporal conditions. The dataset addresses the need for curated data to explore problems in small object detection exemplified by the limited pixel footprint of pedestrians observed tens of meters from above. It enables the testing of object detection models for variations in lighting, building shadows, weather, and scene dynamics. We evaluate contemporary object detection architectures on the dataset, observing that state-of-the-art methods have lower performance in detecting small pedestrians compared to vehicles, corresponding to a 10% difference in average precision (AP). Using structurally similar datasets for pretraining the models results in an increase of 1.8% mean AP (mAP). We further find that incorporating domain-specific data augmentations helps improve model performance. Using pseudo-labeled data, obtained from inference outcomes of the best-performing models, improves the performance of the models. Finally, comparing the models trained using the data collected in two different time intervals, we find a performance drift in models due to the changes in intersection conditions over time. The best-performing model achieves a pedestrian AP of 92.0% with 11.5 ms inference time on NVIDIA A100 GPUs, and an mAP of 95.4%.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# カスタム変異の合成によるファジングMLIR

Fuzzing MLIR by Synthesizing Custom Mutations ( http://arxiv.org/abs/2404.16947v1 )

ライセンス: Link先を確認
Ben Limpanukorn, Jiyuan Wang, Hong Jin Kang, Eric Zitong Zhou, Miryung Kim, (参考訳) マルチレベル中間表現(Multi-Level Intermediate Representation、MLIR)は、下流の開発者がMLIR方言でカスタムIRを定義するための拡張可能なフレームワークを提供することで、より高速なコンパイラ開発を可能にする試みである。 MLIR方言は特定のドメインに適した新しいIRを定義する。 これらのIRの多様性と急速な進化により、利用可能なすべての方言に対してカスタムジェネレータロジックを事前に定義することは不可能である。 SynthFuzzと呼ばれる新しいアプローチを設計し、既存のテストからカスタムの突然変異を自動的に推論し、適用します。 推測されたカスタム突然変異は、パラメータ化され、コンテキストに依存して、ターゲットのコンテキストに応じて調整される。 これにより、新しく導入されたMLIR方言のカスタム突然変異を手作業で書く必要がなくなる。 さらに、SynthFuzzは、有効な編集場所を見つける可能性を高め、k-ancestor-prefixとl-sibling-postfixマッチングを実行することで、無効な編集コンテンツを挿入する可能性を減らす。 SynthFuzzを3つのベースラインと比較する。Grammarinator – カスタムミュータを持たない文法ベースのファジタ,MLIR用のカスタムテストジェネレータであるMLIRSmith,パラメータ生成をサポートするカスタムテストジェネレータであるNeuRI。 この比較は、4つの異なるMLIRプロジェクトで行われ、各プロジェクトはカスタム入力生成と突然変異ロジックを手作業で書くのに何ヶ月もかかるMLIR方言のセットを定義します。 SynthFuzz は平均で入力の多様性を 1.51$\times$ で改善し、ブランチカバレッジを 1.16$\times$ で増加させます。 さらに,我々の文脈依存型カスタム突然変異は有効テストの割合を最大1.11$\times$まで増加させ,SynthFuzzがターゲットコンテキストに対してパラメータ化された突然変異を正しく増加させることを示す。 突然変異パラメータ化は、一般的なMLIR制約に違反するテストの割合を0.57$\times$に減らし、方言固有のコードに時間を費やす。

Multi-Level Intermediate Representation (MLIR) is an effort to enable faster compiler development by providing an extensible framework for downstream developers to define custom IRs with MLIR dialects. MLIR dialects define new IRs that are tailored for specific domains. The diversity and rapid evolution of these IRs make it impractical to pre-define custom generator logic for every available dialect. We design a new approach called SynthFuzz that automatically infers and applies custom mutations from existing tests. Inferred custom mutations are parameterized and context-dependent such that they can be concretized depending on the target context. By doing this, we obviate the need to manually write custom mutations for newly introduced MLIR dialects. Further, SynthFuzz increases the chance of finding effective edit locations and reduces the chance of inserting invalid edit content by performing k-ancestor-prefix and l-sibling-postfix matching. We compare SynthFuzz to three baselines: Grammarinator -- a grammar-based fuzzer without custom mutators, MLIRSmith -- a custom test generator for MLIR, and NeuRI -- a custom test generator with support for parameterized generation. We conduct this comparison on 4 different MLIR projects where each project defines a new set of MLIR dialects that would take months of effort to manually write custom input generation and mutation logic. We show that SynthFuzz on average improves input diversity by 1.51$\times$, which increases branch coverage by 1.16$\times$. Further, we show that our context dependent custom mutation increases the proportion of valid tests by up to 1.11$\times$, indicating that SynthFuzz correctly concretizes its parameterized mutations with respect to the target context. Mutation parameterization reduces the fraction of tests violating general MLIR constraints by 0.57$\times$, increasing the time spent fuzzing dialect-specific code.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 人フィードバックによる分布外検出における偽陽性の処理

Taming False Positives in Out-of-Distribution Detection with Human Feedback ( http://arxiv.org/abs/2404.16954v1 )

ライセンス: Link先を確認
Harit Vishwakarma, Heguang Lin, Ramya Korlakai Vinayak, (参考訳) アウト・オブ・ディストリビューション(OOD)サンプルに対するロバストさは、オープンな世界で機械学習モデルを安全にデプロイするために不可欠である。 最近の研究は、OODの不確実性を定量化するためのスコアリング関数の設計に重点を置いている。 OOD検出のためのスコアリング関数の適切なしきい値を設定することは、OODサンプルが前もって利用できないことが多いため、難しい。 通常、閾値は所望の真正率(TPR)、例えば9,5\%$TPRを達成するように設定される。 しかし、これはOpen-OODベンチマークで見られるように、非常に高い偽陽性率(FPR)につながる可能性がある。 各種OODサンプルを動的に扱う際には,医療診断,FPRの制御など安全クリティカルな実生活応用が不可欠である。 これらの課題に対処するために,専門家のフィードバックを生かした数学的基盤を持つOOD検出フレームワークを提案し,そのしきい値をオンザフライで更新する。 人間のフィードバックを最小化しながら、常にFPRの制約を満たすことが保証されていることを示す理論的結果を提供する。 フレームワークのもう1つの重要な特徴は、OOD不確実性定量化のためのスコアリング関数を扱うことができることである。 合成およびベンチマークOODデータセットを用いた実験により,本手法はTPRを最大化しながら,FPRを最大5\%以上維持可能であることが示された。

Robustness to out-of-distribution (OOD) samples is crucial for safely deploying machine learning models in the open world. Recent works have focused on designing scoring functions to quantify OOD uncertainty. Setting appropriate thresholds for these scoring functions for OOD detection is challenging as OOD samples are often unavailable up front. Typically, thresholds are set to achieve a desired true positive rate (TPR), e.g., $95\%$ TPR. However, this can lead to very high false positive rates (FPR), ranging from 60 to 96\%, as observed in the Open-OOD benchmark. In safety-critical real-life applications, e.g., medical diagnosis, controlling the FPR is essential when dealing with various OOD samples dynamically. To address these challenges, we propose a mathematically grounded OOD detection framework that leverages expert feedback to \emph{safely} update the threshold on the fly. We provide theoretical results showing that it is guaranteed to meet the FPR constraint at all times while minimizing the use of human feedback. Another key feature of our framework is that it can work with any scoring function for OOD uncertainty quantification. Empirical evaluation of our system on synthetic and benchmark OOD datasets shows that our method can maintain FPR at most $5\%$ while maximizing TPR.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 逆ベイズ分類器の特異性

A Notion of Uniqueness for the Adversarial Bayes Classifier ( http://arxiv.org/abs/2404.16956v1 )

ライセンス: Link先を確認
Natalie S. Frank, (参考訳) 本稿では,二項分類の設定において,逆ベイズ分類器に対して一意性という新たな概念を提案する。 この一意性の概念を分析することは、すべての逆ベイズ分類器を1次元のデータ分布のよく動機付けられた族として計算するための単純な手順を生み出す。 この特徴づけは、摂動半径が増加するにつれて、正則性の概念が逆ベイズ分類器に対して改善されることを示すために利用される。 逆ベイズ分類器の境界はしばしばベイズ分類器の境界付近にあることを示す。

We propose a new notion of uniqueness for the adversarial Bayes classifier in the setting of binary classification. Analyzing this notion of uniqueness produces a simple procedure for computing all adversarial Bayes classifiers for a well-motivated family of one dimensional data distributions. This characterization is then leveraged to show that as the perturbation radius increases, certain notions of regularity improve for adversarial Bayes classifiers. We demonstrate with various examples that the boundary of the adversarial Bayes classifier frequently lies near the boundary of the Bayes classifier.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# AIによるインシデントに対する責任--アカウンタビリティのための計算的リフレクティブ均衡フレームワーク

Attributing Responsibility in AI-Induced Incidents: A Computational Reflective Equilibrium Framework for Accountability ( http://arxiv.org/abs/2404.16957v1 )

ライセンス: Link先を確認
Yunfei Ge, Quanyan Zhu, (参考訳) AI(Artificial Intelligence)の広範な統合は、AI対応システムに関わるインシデントが発生した場合の責任と説明責任において、複雑な課題を導入している。 これらのシステムの相互接続性、AIによるインシデントに対する倫理的懸念、AI技術の不確実性、およびそれに対応する規制の欠如が、従来の責任帰属を困難にしている。 この目的のために、この研究は、すべての利害関係者に対して、一貫性と倫理的に許容される責任帰属の枠組みを確立するための計算反射平衡(CRE)アプローチを提案する。 この計算手法は、動的および多面的シナリオを扱う際の概念的アプローチの限界を克服し、責任帰属プロセスにおけるフレームワークの説明可能性、コヒーレンス、適応性を示す構造化分析を提供する。 平衡計算におけるクレームに関連する初期活性化レベルの重要な役割について検討する。 AIを用いた医療意思決定支援システムをケーススタディとして、異なる初期化が様々な責任分散にどのように寄与するかを説明する。 このフレームワークは、AIが引き起こしたインシデントにおける説明責任に関する貴重な洞察を提供し、継続的監視、リフレクション、リフレクションを通じて持続的でレジリエントなシステムの開発を促進する。

The pervasive integration of Artificial Intelligence (AI) has introduced complex challenges in the responsibility and accountability in the event of incidents involving AI-enabled systems. The interconnectivity of these systems, ethical concerns of AI-induced incidents, coupled with uncertainties in AI technology and the absence of corresponding regulations, have made traditional responsibility attribution challenging. To this end, this work proposes a Computational Reflective Equilibrium (CRE) approach to establish a coherent and ethically acceptable responsibility attribution framework for all stakeholders. The computational approach provides a structured analysis that overcomes the limitations of conceptual approaches in dealing with dynamic and multifaceted scenarios, showcasing the framework's explainability, coherence, and adaptivity properties in the responsibility attribution process. We examine the pivotal role of the initial activation level associated with claims in equilibrium computation. Using an AI-assisted medical decision-support system as a case study, we illustrate how different initializations lead to diverse responsibility distributions. The framework offers valuable insights into accountability in AI-induced incidents, facilitating the development of a sustainable and resilient system through continuous monitoring, revision, and reflection.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 分類基準の概観と共通評価実践の批判的考察

A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice ( http://arxiv.org/abs/2404.16958v1 )

ライセンス: Link先を確認
Juri Opitz, (参考訳) 分類システムは数え切れないほど多くの論文で評価されている。 しかし,評価の実践がしばしば誤りであることがわかった。 しばしばメトリクスは議論なしで選択され、曖昧な用語は誤解を招きます。 例えば、多くの研究は、いわゆる「マクロ」メトリクスを使用してシステム(例えば「マクロF1」)をランク付けするが、そのような「マクロ」メトリックから何を期待するかを明確に定義していない。 これは、メトリクスの選択が論文の発見や共有タスクのランキングに影響を与える可能性があるため、プロセスの明確さを最大化すべきである、という問題である。 偏見と有病率という直感的な概念から、論文に示されているような期待を考慮し、一般的な評価指標の分析を行う。 そこで,近年の自然言語処理における共有タスクにおけるメトリクス選択について検討した。 その結果、メートル法の選択はしばしば説得力のある議論で支持されないことが示され、任意のランク付けを任意に見せることができる問題である。 本研究の目的は,より情報的かつ透明なメートル法選択のための概要とガイダンスを提供することであり,有意義な評価を促進することである。

Classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, metrics are selected without arguments, and blurry terminology invites misconceptions. For instance, many works use so-called 'macro' metrics to rank systems (e.g., 'macro F1') but do not clearly specify what they would expect from such a 'macro' metric. This is problematic, since picking a metric can affect paper findings as well as shared task rankings, and thus any clarity in the process should be maximized. Starting from the intuitive concepts of bias and prevalence, we perform an analysis of common evaluation metrics, considering expectations as found expressed in papers. Equipped with a thorough understanding of the metrics, we survey metric selection in recent shared tasks of Natural Language Processing. The results show that metric choices are often not supported with convincing arguments, an issue that can make any ranking seem arbitrary. This work aims at providing overview and guidance for more informed and transparent metric selection, fostering meaningful evaluation.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 遮音システムにおける安定な対称性-検出された位相位相

Stable Symmetry-Protected Topological Phases in Systems with Heralded Noise ( http://arxiv.org/abs/2404.16962v1 )

ライセンス: Link先を確認
Sanket Chirame, Fiona J. Burnell, Sarang Gopalakrishnan, Abhinav Prem, (参考訳) 定常状態が安定な混合状態対称性保護位相(SPT)秩序を示す局所量子チャネルの族を示す。 近年、(\emph{herald})デコヒーレンス過程を識別できる「環境変換」技術の実験的な進歩により、バイアス付き消去ノイズを持つオープンシステムを考える。 本研究では,この手法を用いて局所的訂正プロトコルを構築し,誤差を定常状態の短距離対に効果的に閉じ込める。 本稿では,数値シミュレーションと平均場解析を組み合わせることで,SPTの順序を十分に低いデコヒーレンス率で安定化することを示す。 遮蔽ノイズの速度が増加するにつれて、SPTの順序は最終的に有向パーコレーション遷移によって失われる。 さらに,長さと時間スケールの制限でSPT順序が破壊される一方で,その補正プロトコルは局所的なSPT順序が持続することを保証するのに十分であり,相関長は$\xi \sim (1-f_e)^{-1/2}$と発散する。

We present a family of local quantum channels whose steady-states exhibit stable mixed-state symmetry-protected topological (SPT) order. Motivated by recent experimental progress on "erasure conversion" techniques that allow one to identify (\emph{herald}) decoherence processes, we consider open systems with biased erasure noise, which leads to strongly symmetric heralded errors. We utilize this heralding to construct a local correction protocol that effectively confines errors into short-ranged pairs in the steady-state. Using a combination of numerical simulations and mean-field analysis, we show that our protocol stabilizes SPT order against a sufficiently low rate of decoherence. As the rate of heralded noise increases, SPT order is eventually lost through a directed percolation transition. We further find that while introducing unheralded errors destroys SPT order in the limit of long length- and time-scales, the correction protocol is sufficient for ensuring that local SPT order persists, with a correlation length that diverges as $\xi \sim (1-f_e)^{-1/2}$, where $f_e$ is the fraction of errors that are heralded.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# LLM評価のロバスト性の評価とベンチマークの分布推定

Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks ( http://arxiv.org/abs/2404.16966v1 )

ライセンス: Link先を確認
Melissa Ailem, Katerina Marazopoulou, Charlotte Siska, James Bono, (参考訳) ベンチマークは、LLM(Large Language Models)を評価するための中心的なアプローチとして登場した。 調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。 これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。 これは一般的にはそうではありませんが、代わりに特定のユースケースによって関心の分布が異なります。 1) テストプロンプト間のモデル性能の相関は非ランダムであり,(2) テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更することができる。

Benchmarks have emerged as the central approach for evaluating Large Language Models (LLMs). The research community often relies on a model's average performance across the test prompts of a benchmark to evaluate the model's performance. This is consistent with the assumption that the test prompts within a benchmark represent a random sample from a real-world distribution of interest. We note that this is generally not the case; instead, we hold that the distribution of interest varies according to the specific use case. We find that (1) the correlation in model performance across test prompts is non-random, (2) accounting for correlations across test prompts can change model rankings on major benchmarks, (3) explanatory factors for these correlations include semantic similarity and common LLM failure points.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# COCOLA:Coherence-Oriented Contrastive Learning of Musical Audio Representations

COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations ( http://arxiv.org/abs/2404.16969v1 )

ライセンス: Link先を確認
Ruben Ciranni, Emilian Postolache, Giorgio Mariani, Michele Mancusi, Luca Cosmo, Emanuele Rodolà, (参考訳) サンプル間の調和的・リズム的コヒーレンスをキャプチャする音声表現のコントラスト学習手法であるCOCOLA(Coherence-Oriented Contrastive Learning for Audio)を提案する。 提案手法は,音楽トラックを構成する幹(あるいはそれらの組み合わせ)のレベルで動作し,伴奏生成作業における楽曲合成モデルの客観的評価を可能にする。 また,ControlNet \cite{zhang2023adding}に基づくCompoNetという楽曲生成のための新しいベースラインを導入し,MSDMのタスクを一般化し,COCOLAを用いて後者に対して定量化する。 MUSDB18-HQ、MoisesDB、Slakh2100、CocoChorales)を含むパブリックデータセットでトレーニングされたすべてのモデルをリリースします。

We present COCOLA (Coherence-Oriented Contrastive Learning for Audio), a contrastive learning method for musical audio representations that captures the harmonic and rhythmic coherence between samples. Our method operates at the level of stems (or their combinations) composing music tracks and allows the objective evaluation of compositional models for music in the task of accompaniment generation. We also introduce a new baseline for compositional music generation called CompoNet, based on ControlNet \cite{zhang2023adding}, generalizing the tasks of MSDM, and quantify it against the latter using COCOLA. We release all models trained on public datasets containing separate stems (MUSDB18-HQ, MoisesDB, Slakh2100, and CocoChorales).
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# CriSp:犯罪現場のショットプリントマッチングを強化したトレッド深度マップ

CriSp: Leveraging Tread Depth Maps for Enhanced Crime-Scene Shoeprint Matching ( http://arxiv.org/abs/2404.16972v1 )

ライセンス: Link先を確認
Samia Shafique, Shu Kong, Charless Fowlkes, (参考訳) ショットプリントは、犯罪現場で見られる一般的なタイプの証拠であり、法医学的な調査で定期的に使用される。 しかし, 既存の手法では, トレーニングデータの不足により, 靴データベースにノイズや隠蔽された犯罪現場の靴跡をマッチングするために, ディープラーニングを効果的に活用することはできない。 さらに, 既存の手法はすべて犯罪現場の靴版と一致し, 基準印刷のクリーン化を図っているが, より情報に富んだトレッド深度マップとのマッチングにより, より優れた検索結果が得られることを示す。 マッチングタスクは、印刷物や靴のトレッドの対応する領域(ヒール、つま先等)にのみ類似性を識別する必要があるため、さらに複雑になる。 これらの課題を克服するために、オンライン小売業者の靴のトレッド画像を活用し、市販の予測器を用いて深度マップとクリーンプリントを推定する。 このデータに基づいて,犯罪現場の靴のプリントと深度マップのトレッド・デプス・マップのマッチングを行う。 CriSpには、犯罪現場の靴のプリントをシミュレートするデータ拡張、空間的に認識される特徴を学習するエンコーダ、犯罪現場のプリントの可視領域だけが検索結果に影響を与えることを保証するマスクモジュールが含まれている。 提案手法を検証するために,既存の犯罪現場の靴のデータセットを再処理し,比較のためのベンチマークプロトコルを確立することにより,2つの検証セットを導入する。 このベンチマークでは、CriSpは、このタスクに適した自動靴形マッチングと画像検索の両方において、最先端の手法を大幅に上回っている。

Shoeprints are a common type of evidence found at crime scenes and are used regularly in forensic investigations. However, existing methods cannot effectively employ deep learning techniques to match noisy and occluded crime-scene shoeprints to a shoe database due to a lack of training data. Moreover, all existing methods match crime-scene shoeprints to clean reference prints, yet our analysis shows matching to more informative tread depth maps yields better retrieval results. The matching task is further complicated by the necessity to identify similarities only in corresponding regions (heels, toes, etc) of prints and shoe treads. To overcome these challenges, we leverage shoe tread images from online retailers and utilize an off-the-shelf predictor to estimate depth maps and clean prints. Our method, named CriSp, matches crime-scene shoeprints to tread depth maps by training on this data. CriSp incorporates data augmentation to simulate crime-scene shoeprints, an encoder to learn spatially-aware features, and a masking module to ensure only visible regions of crime-scene prints affect retrieval results. To validate our approach, we introduce two validation sets by reprocessing existing datasets of crime-scene shoeprints and establish a benchmarking protocol for comparison. On this benchmark, CriSp significantly outperforms state-of-the-art methods in both automated shoeprint matching and image retrieval tailored to this task.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# IDIL: インテント駆動型エキスパート行動の模倣学習

IDIL: Imitation Learning of Intent-Driven Expert Behavior ( http://arxiv.org/abs/2404.16989v1 )

ライセンス: Link先を確認
Sangwon Seo, Vaibhav Unhelkar, (参考訳) タスクの達成に直面した場合、人間の専門家は意図的な行動を示す。 彼らの独特な意図は、彼らの計画と決定を形作り、その結果、専門家は、同じタスクを達成するための多様な振る舞いを実証する。 現実世界で遭遇した不確実さと有界な合理性のために、専門家は時々意図を調整し、タスク実行時の行動に影響を与える。 本稿では,これらの多彩な意図駆動行動を模倣する新しい模倣学習アルゴリズムであるIDILを紹介する。 反復的に、異種実証から専門家の意図を推定し、その行動の意図認識モデルを学ぶ。 現代のアプローチとは異なり、IDILは高次元の状態表現でシーケンシャルなタスクに対処すると同時に、敵の訓練(関連する技術の中心)に関連する複雑さと欠点をサイドステッピングする。 実験結果から,IDILが生成したモデルが,近年の模擬学習ベンチマークで生成したモデルとタスク性能の指標を一致または上回っていることが示唆された。 さらに、生成モデルを作成すると、IDILは意図推論の指標において優れたパフォーマンスを示し、人間とエージェントの相互作用に不可欠であり、幅広い専門家の振る舞いを適切に捉えている。

When faced with accomplishing a task, human experts exhibit intentional behavior. Their unique intents shape their plans and decisions, resulting in experts demonstrating diverse behaviors to accomplish the same task. Due to the uncertainties encountered in the real world and their bounded rationality, experts sometimes adjust their intents, which in turn influences their behaviors during task execution. This paper introduces IDIL, a novel imitation learning algorithm to mimic these diverse intent-driven behaviors of experts. Iteratively, our approach estimates expert intent from heterogeneous demonstrations and then uses it to learn an intent-aware model of their behavior. Unlike contemporary approaches, IDIL is capable of addressing sequential tasks with high-dimensional state representations, while sidestepping the complexities and drawbacks associated with adversarial training (a mainstay of related techniques). Our empirical results suggest that the models generated by IDIL either match or surpass those produced by recent imitation learning benchmarks in metrics of task performance. Moreover, as it creates a generative model, IDIL demonstrates superior performance in intent inference metrics, crucial for human-agent interactions, and aptly captures a broad spectrum of expert behaviors.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 構造スパース行列に対する効率的な変分量子線形解法

Efficient Variational Quantum Linear Solver for Structured Sparse Matrices ( http://arxiv.org/abs/2404.16991v1 )

ライセンス: Link先を確認
Abeynaya Gnanasekaran, Amit Surana, (参考訳) 構造スパース行列の文脈における変分量子線形解法(VQLS)を効率的に適用するための新しい手法を開発した。 このような行列は、科学や工学においてユビキタスである偏微分方程式の数値解においてしばしば生じる。 従来、パウリ基底は、グローバル/ローカルなVQLSコスト関数の評価を容易にするために、基礎となる行列のユニタリ分解(LCU)の線形結合に用いられる。 しかし、最悪の場合、パウリ基底は行列サイズに対して二次的にスケールするLCU項の数をもたらす。 交互基底を用いることで、行列の大きさに対して対数的にしかスケールしないテンソル積項の数につながる行列の空間性と基盤構造をよりうまく活用できることが示される。 この新たな基礎は非ユニタリ演算子で構成されているため、グローバル/ローカルなVQLSコスト関数を計算するための効率的な量子回路を設計するために、ユニタリ完備化という概念を用いる。 本稿では,ベル法に基づくユニタリ拡張と測定を含む文献における他の関連する概念と比較し,熱方程式に適用したVQLSを例として用いながら,そのプロス/コンについて論じる。

We develop a novel approach for efficiently applying variational quantum linear solver (VQLS) in context of structured sparse matrices. Such matrices frequently arise during numerical solution of partial differential equations which are ubiquitous in science and engineering. Conventionally, Pauli basis is used for linear combination of unitary (LCU) decomposition of the underlying matrix to facilitate the evaluation the global/local VQLS cost functions. However, Pauli basis in worst case can result in number of LCU terms that scale quadratically with respect to the matrix size. We show that by using an alternate basis one can better exploit the sparsity and underlying structure of matrix leading to number of tensor product terms which scale only logarithmically with respect to the matrix size. Given this new basis is comprised of non-unitary operators, we employ the concept of unitary completion to design efficient quantum circuits for computing the global/local VQLS cost functions. We compare our approach with other related concepts in the literature including unitary dilation and measurement in Bell basis, and discuss its pros/cons while using VQLS applied to Heat equation as an example.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 自然言語検査からスメルを除去する変換のカタログ

A Catalog of Transformations to Remove Smells From Natural Language Tests ( http://arxiv.org/abs/2404.16992v1 )

ライセンス: Link先を確認
Manoel Aranda, Naelson Oliveira, Elvys Soares, Márcio Ribeiro, Davi Romão, Ullyanne Patriota, Rohit Gheyi, Emerson Souza, Ivan Machado, (参考訳) テストの臭いは、保守性の低さ、非決定的な振る舞い、不完全な検証など、テスト活動中に困難を引き起こす可能性がある。 既存の研究は、自動化されたソフトウェアテストにおけるテストの臭いに広範囲に対処してきたが、自然言語テストにおける臭いにはほとんど注意が払われていない。 このような臭いを識別し、カタログ化した研究もあるが、その除去には体系的なアプローチが欠如している。 結果として、自然言語テストの臭いを自動的に識別し除去するツールも不足している。 本稿では,自然言語テストの臭いを7つ除去するために設計された変換のカタログと,自然言語処理(NLP)技術を用いて実装された補助ツールを紹介する。 私たちの研究は、ソフトウェア開発における自然言語テストの品質と信頼性を高めることを目的としています。 この研究は、その貢献を評価するために2倍の実証的戦略を採用している。 まず、15人のソフトウェアテスト専門家による調査で、カタログの変換の受け入れと有用性を評価します。 第2に、Ubuntu OSの実際のテストのサンプルを分析して、自然言語テストの臭いを除去するツールを実証的研究で評価する。 その結果、ソフトウェアテスティングの専門家は、トランスフォーメーションの価値を見出すことができた。 さらに、この自動化ツールは、F-Measureレート83.70%で証明されているように、良好な精度を示す。

Test smells can pose difficulties during testing activities, such as poor maintainability, non-deterministic behavior, and incomplete verification. Existing research has extensively addressed test smells in automated software tests but little attention has been given to smells in natural language tests. While some research has identified and catalogued such smells, there is a lack of systematic approaches for their removal. Consequently, there is also a lack of tools to automatically identify and remove natural language test smells. This paper introduces a catalog of transformations designed to remove seven natural language test smells and a companion tool implemented using Natural Language Processing (NLP) techniques. Our work aims to enhance the quality and reliability of natural language tests during software development. The research employs a two-fold empirical strategy to evaluate its contributions. First, a survey involving 15 software testing professionals assesses the acceptance and usefulness of the catalog's transformations. Second, an empirical study evaluates our tool to remove natural language test smells by analyzing a sample of real-practice tests from the Ubuntu OS. The results indicate that software testing professionals find the transformations valuable. Additionally, the automated tool demonstrates a good level of precision, as evidenced by a F-Measure rate of 83.70%
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# PLLaVA : 映像から映像へのパラメータフリーLLaVA拡張

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning ( http://arxiv.org/abs/2404.16994v1 )

ライセンス: Link先を確認
Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, Jiashi Feng, (参考訳) 視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。 しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算資源とデータ資源を必要としており、ビデオ言語モデルの進歩を妨げる。 本稿では,既存の画像言語事前学習モデルを高精細映像理解に適用するための,単純かつ高効率かつ資源光のアプローチについて検討する。 予備実験では、ビデオデータセットの入力として複数のフレームを持つ事前訓練済み画像言語モデルを直接調整することで、パフォーマンスの飽和や低下につながることが明らかとなった。 我々のさらなる調査は、学習された高ノルムの視覚的特徴のバイアスに起因することが明らかにされている。 この発見を動機として,時間次元に沿った特徴分布を円滑にし,極端特徴から支配的な影響を減らし,簡易かつ効果的なプーリング戦略を提案する。 新しいモデルは「Pooling LLaVA」または「nameofmethod{}」と呼ばれる。 \nameofmethod{}は、ビデオ質問応答タスクとキャプションタスクの両方に対して、最新のベンチマークデータセット上で、最先端のパフォーマンスを新たに達成する。 特に、最近人気のVideo ChatGPTベンチマークにおいて、PLLaVAは5つの評価次元の平均で5つの評価次元のうち3.48のスコアを達成し、GPT4V(IG-VLM)の以前のSOTA結果の9.5%を上回った。 最新のマルチ選択ベンチマークMVBenchでは、PLLaVAはGPT4V(IG-VLM)よりも14.5\%高い20のサブタスクで平均58.1\%の精度を達成した。 コードは \url{https://github.com/magic-research/PLLaVA} で公開されている。

Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the progress of video-language models. This paper investigates a straightforward, highly efficient, and resource-light approach to adapting an existing image-language pre-trained model for dense video understanding. Our preliminary experiments reveal that directly fine-tuning pre-trained image-language models with multiple frames as inputs on video datasets leads to performance saturation or even a drop. Our further investigation reveals that it is largely attributed to the bias of learned high-norm visual features. Motivated by this finding, we propose a simple but effective pooling strategy to smooth the feature distribution along the temporal dimension and thus reduce the dominant impacts from the extreme features. The new model is termed Pooling LLaVA, or \nameofmethod{} in short. \nameofmethod{} achieves new state-of-the-art performance on modern benchmark datasets for both video question-answer and captioning tasks. Notably, on the recent popular Video ChatGPT benchmark, PLLaVA achieves a score of 3.48 out of 5 on average of five evaluated dimensions, exceeding the previous SOTA results from GPT4V (IG-VLM) by 9\%. On the latest multi-choice benchmark MVBench, PLLaVA achieves 58.1\% accuracy on average across 20 sub-tasks, 14.5\% higher than GPT4V (IG-VLM). Code is available at \url{https://github.com/magic-research/PLLaVA}.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# 大規模言語モデルを用いた知識グラフにおけるクラスメンバーシップ関係の評価

Evaluating Class Membership Relations in Knowledge Graphs using Large Language Models ( http://arxiv.org/abs/2404.17000v1 )

ライセンス: Link先を確認
Bradley P. Allen, Paul T. Groth, (参考訳) 知識グラフのバックボーンは、与えられたクラスにエンティティを割り当てるクラスメンバーシップ関係である。 知識工学のプロセスの一環として,クラスを自然言語で表すゼロショット・チェーン・オブ・ソート・クラシファイアを用いて,与えられたエンティティとクラスの記述を処理し,これらの関係の質を評価する新しい手法を提案する。 本手法はWikidataとCaLiGraphの2つの公開知識グラフと7つの大言語モデルを用いて評価する。 gpt-4-0125-preview大言語モデルを用いて、この手法の分類性能は、Wikidataのデータでは0.830、CaLiGraphのデータでは0.893のマクロ平均F1スコアを達成する。 さらに、分類エラーのマニュアル分析では、40.9%のエラーは知識グラフによるもので、16.0%は関係の欠如によるものであり、24.9%は誤って主張された関係によるものである。 これらの結果は,知識グラフの洗練過程において,大規模言語モデルが知識技術者にどのように役立つかを示す。 コードとデータはGithubで公開されている。

A backbone of knowledge graphs are their class membership relations, which assign entities to a given class. As part of the knowledge engineering process, we propose a new method for evaluating the quality of these relations by processing descriptions of a given entity and class using a zero-shot chain-of-thought classifier that uses a natural language intensional definition of a class. We evaluate the method using two publicly available knowledge graphs, Wikidata and CaLiGraph, and 7 large language models. Using the gpt-4-0125-preview large language model, the method's classification performance achieves a macro-averaged F1-score of 0.830 on data from Wikidata and 0.893 on data from CaLiGraph. Moreover, a manual analysis of the classification errors shows that 40.9% of errors were due to the knowledge graphs, with 16.0% due to missing relations and 24.9% due to incorrectly asserted relations. These results show how large language models can assist knowledge engineers in the process of knowledge graph refinement. The code and data are available on Github.
翻訳日:2024-04-29 14:43:43 公開日:2024-04-25
# アジャイルソフトウェア開発における文化的側面の研究における非強制的エラー

What You Use is What You Get: Unforced Errors in Studying Cultural Aspects in Agile Software Development ( http://arxiv.org/abs/2404.17009v1 )

ライセンス: Link先を確認
Michael Neumann, Klaus Schmid, Lars Baumann, (参考訳) コンテキスト: 文化的な側面は人々の振る舞いをガイドする上で非常に重要です。 近年、ソフトウェア工学の研究は、特定の文化的特性の課題を分析する必要性を強調している。 文化的特徴の影響を調べることは、多面的な文化概念のために困難である。 人々の行動、信念、根底にある価値は、文化の異なるレイヤ、例えば、地域、組織、グループによって形成されます。 本研究では,根底にある価値やコラボレーション,コミュニケーションに重点を置くアジャイルアプローチであるアジャイルメソッドに注目します。 このように、文化的・社会的側面は、実際にの使用を成功させる上で非常に重要である。 目的: 本論文では, ホフステデの文化的次元モデルを用いて, 特定の文化的価値を特徴づける際の課題に対処する。 このモデルは、ソフトウェア工学における文化的影響について議論する際によく使われる。 方法:本邦では2例,ドイツでは2例からなる探索的多症例研究を行った。 コントリビューション: 本研究では, 参加者の文化的特徴が, 各国の人々の期待する文化的特徴と大きく異なっていた。 これにより、文化的要因に対処する経験的ソフトウェア工学の研究には、その特性のケース固有の分析が必要であるという結論が導かれる。

Context: Cultural aspects are of high importance as they guide people's behaviour and thus, influence how people apply methods and act in projects. In recent years, software engineering research emphasized the need to analyze the challenges of specific cultural characteristics. Investigating the influence of cultural characteristics is challenging due to the multi-faceted concept of culture. People's behaviour, their beliefs and underlying values are shaped by different layers of culture, e.g., regions, organizations, or groups. In this study, we focus on agile methods, which are agile approaches that focus on underlying values, collaboration and communication. Thus, cultural and social aspects are of high importance for their successful use in practice. Objective: In this paper, we address challenges that arise when using the model of cultural dimensions by Hofstede to characterize specific cultural values. This model is often used when discussing cultural influences in software engineering. Method: As a basis, we conducted an exploratory, multiple case study, consisting of two cases in Japan and two in Germany. Contributions: In this study, we observed that cultural characteristics of the participants differed significantly from cultural characteristics that would typically be expected for people from the respective country. This drives our conclusion that for studies in empirical software engineering that address cultural factors, a case-specific analysis of the characteristics is needed.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# トルコ語モデルの性能比較

Türkçe Dil Modellerinin Performans Karşılaştırması Performance Comparison of Turkish Language Models ( http://arxiv.org/abs/2404.17010v1 )

ライセンス: Link先を確認
Eren Dogan, M. Egemen Uzun, Atahan Uz, H. Emre Seyrek, Ahmed Zeer, Ezgi Sevi, H. Toprak Kesgin, M. Kaan Yuce, M. Fatih Amasyali, (参考訳) 言語モデルがほぼあらゆるタスクを遂行する上で提供してきた発展は、研究者だけでなく社会からも注目され、それらが製品化されている。 商業的に成功している言語モデルもある。 しかし、ユーザはコスト、データプライバシ、規制のために、オープンソースの言語モデルを好むかもしれない。 しかし、これらのモデルの増加にもかかわらず、トルコにおけるパフォーマンスの包括的な比較は行われていない。 この研究は文学におけるこのギャップを埋めることを目的としている。 文脈学習と質問応答能力に基づいて,選択した7つの言語モデルの比較を行った。 文脈学習と質問応答のためのトルコのデータセットを作成し, 自動評価と人的評価を行った。 その結果,質問応答では,教師データセットによる微調整前の事前学習がトルコ語への多言語モデルの適応に成功しており,文脈内学習性能は質問応答性能とはあまり関係がないことがわかった。

The developments that language models have provided in fulfilling almost all kinds of tasks have attracted the attention of not only researchers but also the society and have enabled them to become products. There are commercially successful language models available. However, users may prefer open-source language models due to cost, data privacy, or regulations. Yet, despite the increasing number of these models, there is no comprehensive comparison of their performance for Turkish. This study aims to fill this gap in the literature. A comparison is made among seven selected language models based on their contextual learning and question-answering abilities. Turkish datasets for contextual learning and question-answering were prepared, and both automatic and human evaluations were conducted. The results show that for question-answering, continuing pretraining before fine-tuning with instructional datasets is more successful in adapting multilingual models to Turkish and that in-context learning performances do not much related to question-answering performances.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 半定制約下での相対エントロピーの最適化 --QKDにおける鍵レートを推定するための新しいツール

Optimising the relative entropy under semi definite constraints -- A new tool for estimating key rates in QKD ( http://arxiv.org/abs/2404.17016v1 )

ライセンス: Link先を確認
Gereon Koßmann, René Schwonnek, (参考訳) 半定値制約の下で2つの量子状態の最小相対エントロピーを見つけることは、量子情報理論における様々な応用の数学的中心にある重要な問題である。 本研究では,この最適化に対処する手法を提案する。 我々の主観的動機は、実機の測定統計からQKDの秘密鍵レートを推定する重要なタスクを形成する。 さらに、チャネル容量の計算、実験データからの絡み合いの測定、その他多くの応用がある。 これらすべてのタスクに対して、証明可能な上界と下界の両方を提供することが非常に重要である。 この研究の中心的な成果は効率のよい方法である。 我々は、最近導入されたP.E. Frenkelによる量子相対エントロピーの積分表現の上に構築し、半定値プログラム(SDP)の列として信頼できる境界を提供する。 提案手法は,SDP行列次元の観点から資源効率を保ちながら,証明可能な2次収束を保証する。 さらに、各イテレーション段階で最適なギャップ推定を提供することができます。

Finding the minimal relative entropy of two quantum states under semi definite constraints is a pivotal problem located at the mathematical core of various applications in quantum information theory. In this work, we provide a method that addresses this optimisation. Our primordial motivation stems form the essential task of estimating secret key rates for QKD from the measurement statistics of a real device. Further applications include the computation of channel capacities, the estimation of entanglement measures from experimental data and many more. For all those tasks it is highly relevant to provide both, provable upper and lower bounds. An efficient method for this is the central result of this work. We build on a recently introduced integral representation of quantum relative entropy by P.E. Frenkel and provide reliable bounds as a sequence of semi definite programs (SDPs). Our approach ensures provable quadratic order convergence, while also maintaining resource efficiency in terms of SDP matrix dimensions. Additionally, we can provide gap estimates to the optimum at each iteration stage.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# ビデオゲームにおけるユーザ生成コンテンツのための音声生成にAIを活用する

Leveraging AI to Generate Audio for User-generated Content in Video Games ( http://arxiv.org/abs/2404.17018v1 )

ライセンス: Link先を確認
Thomas Marrinan, Pakeeza Akram, Oli Gurmessa, Anthony Shishkin, (参考訳) ビデオゲームのデザインでは、オーディオ(環境背景音楽とオブジェクト音響効果の両方)が重要な役割を果たす。 サウンドは通常、ゲーム内の特定の場所やオブジェクトのために設計された、事前に作成された資産である。 しかし、ユーザー生成コンテンツは現代のゲーム(例えばカスタム環境の構築やユニークなオブジェクトの作成)で人気が高まっている。 可能性はほぼ無限であるため、ゲーム制作者がユーザー生成コンテンツのオーディオを事前に作成することは不可能である。 ユーザが生成したコンテンツに基づいて、生成人工知能を用いて音楽や音響効果を生み出す方法について検討する。 音声生成のための2つの道について検討する。 1)テキスト・トゥ・オーディオ: ユーザ生成コンテンツのテキスト記述をオーディオ生成装置への入力として使用し、 Image-to-audio: 生成された環境やオブジェクトのレンダリングを Image-to-text ジェネレータへの入力として使用し、結果のテキスト記述をオーディオジェネレータに配管する。 本稿では,ユーザ生成コンテンツに生成人工知能を用いることによる倫理的意味を論じ,ユーザ生成環境やオブジェクトに対して音声が生成される2つのプロトタイプゲームを強調する。

In video game design, audio (both environmental background music and object sound effects) play a critical role. Sounds are typically pre-created assets designed for specific locations or objects in a game. However, user-generated content is becoming increasingly popular in modern games (e.g. building custom environments or crafting unique objects). Since the possibilities are virtually limitless, it is impossible for game creators to pre-create audio for user-generated content. We explore the use of generative artificial intelligence to create music and sound effects on-the-fly based on user-generated content. We investigate two avenues for audio generation: 1) text-to-audio: using a text description of user-generated content as input to the audio generator, and 2) image-to-audio: using a rendering of the created environment or object as input to an image-to-text generator, then piping the resulting text description into the audio generator. In this paper we discuss ethical implications of using generative artificial intelligence for user-generated content and highlight two prototype games where audio is generated for user-created environments and objects.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# Neyman氏のCausal Machine Learning - 個別処理ルールの実験的評価

Neyman Meets Causal Machine Learning: Experimental Evaluation of Individualized Treatment Rules ( http://arxiv.org/abs/2404.17019v1 )

ライセンス: Link先を確認
Michael Lingzhi Li, Kosuke Imai, (参考訳) 1世紀前、ネイマンは最小限の仮定の下でランダム化実験を用いて治療の有効性を評価する方法を示した。 この古典的な反復サンプリングの枠組みは、今日の科学者が専門分野にわたって行った定期的な実験的な分析の基礎となっている。 本稿では,現代の因果機械学習アルゴリズムから導出される個別処理規則(ITR)の有効性を実験的に評価するためにも,Neymanの方法論が有効であることを示す。 特に、クロスフィッティングに基づくトレーニングプロセスによるさらなる不確実性を考慮する方法を示す。 ネイマンのアプローチの第一の利点は、IRTを導出するために使用される機械学習アルゴリズムの特性に関わらず、どんなITRにも適用できることである。 また、ある指標について、ある単位をITRにランダムに割り当てる元アンティーの実験的な評価を行うよりも、ITRの実験的な評価を行う方が効率的であることを示す。 我々の分析は,Neymanの繰り返しサンプリングフレームワークが,その誕生以来の因果推論と同等に関係していることを示している。

A century ago, Neyman showed how to evaluate the efficacy of treatment using a randomized experiment under a minimal set of assumptions. This classical repeated sampling framework serves as a basis of routine experimental analyses conducted by today's scientists across disciplines. In this paper, we demonstrate that Neyman's methodology can also be used to experimentally evaluate the efficacy of individualized treatment rules (ITRs), which are derived by modern causal machine learning algorithms. In particular, we show how to account for additional uncertainty resulting from a training process based on cross-fitting. The primary advantage of Neyman's approach is that it can be applied to any ITR regardless of the properties of machine learning algorithms that are used to derive the ITR. We also show, somewhat surprisingly, that for certain metrics, it is more efficient to conduct this ex-post experimental evaluation of an ITR than to conduct an ex-ante experimental evaluation that randomly assigns some units to the ITR. Our analysis demonstrates that Neyman's repeated sampling framework is as relevant for causal inference today as it has been since its inception.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 物体検出モデルに対するミニマリスト逆転摂動の生成:適応的多段階進化探索手法

Generating Minimalist Adversarial Perturbations to Test Object-Detection Models: An Adaptive Multi-Metric Evolutionary Search Approach ( http://arxiv.org/abs/2404.17020v1 )

ライセンス: Link先を確認
Cristopher McIntyre-Garcia, Adrien Heymans, Beril Borali, Won-Sook Lee, Shiva Nejati, (参考訳) ディープラーニング(DL)モデルはコンピュータビジョンタスクに優れているが、敵の例に感受性がある。 本稿では,オブジェクト検出用DLモデルの敵攻撃に対する堅牢性を評価するアルゴリズムとして,Triple-Metric EvoAttack (TM-EVO)を提案する。 TM-EVOはマルチメトリック・フィットネス機能を用いて、摂動を最小限に抑えた効果的な対角テスト入力を作成するために進化的探索を効率的に導く。 我々は、広く使われているオブジェクト検出DLモデル、DETRとFaster R-CNN、およびオープンソースデータセットであるCOCOとKITTIについてTM-EVOを評価する。 その結果, TM-EVOは最先端のEvoAttackベースラインより優れており, 効率を保ちつつ, ノイズが少なく, 対向試験を行なえることがわかった。

Deep Learning (DL) models excel in computer vision tasks but can be susceptible to adversarial examples. This paper introduces Triple-Metric EvoAttack (TM-EVO), an efficient algorithm for evaluating the robustness of object-detection DL models against adversarial attacks. TM-EVO utilizes a multi-metric fitness function to guide an evolutionary search efficiently in creating effective adversarial test inputs with minimal perturbations. We evaluate TM-EVO on widely-used object-detection DL models, DETR and Faster R-CNN, and open-source datasets, COCO and KITTI. Our findings reveal that TM-EVO outperforms the state-of-the-art EvoAttack baseline, leading to adversarial tests with less noise while maintaining efficiency.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 最大エントロピー符号化を用いたアウト・オブ・ディストリビューション検出

Out-of-Distribution Detection using Maximum Entropy Coding ( http://arxiv.org/abs/2404.17023v1 )

ライセンス: Link先を確認
Mojtaba Abolfazli, Mohammad Zaeri Amirani, Anders Høst-Madsen, June Zhang, Andras Bratincsak, (参考訳) デフォルトの$P$と一連のテストデータ$x^M=\{x_1,x_2,\ldots,x_M\}を与えられた場合、$x^M$が$P$で生成されたかどうかという疑問に答える。 離散分布について、決定的な答えは原理的にはコルモゴロフ=マルティン=L\"{o}f ランダム性によって与えられる。 本稿では,これを連続分布に一般化する。 統計の集合として$T_1(x^M),T_2(x^M),\ldots$を考える。 各統計量に対して、その最大エントロピー分布を関連付け、普遍的なソースコードコーダとする。 最大エントロピー分布は、合計符号長を与えるために結合され、$-\log P(x^M)$と比較される。 このアプローチは多くの理論的特性を満足していることが示される。 実世界のデータの場合、$P$は通常不明である。 我々は、双方向生成ネットワークを用いて、データを潜在空間の標準分布に変換し、そこで最大エントロピー符号化を使用する。 得られた手法を、生成ニューラルネットワークを用いて異常を検出する他の手法と比較する。 ほとんどの場合、私たちの結果はより良いパフォーマンスを示します。

Given a default distribution $P$ and a set of test data $x^M=\{x_1,x_2,\ldots,x_M\}$ this paper seeks to answer the question if it was likely that $x^M$ was generated by $P$. For discrete distributions, the definitive answer is in principle given by Kolmogorov-Martin-L\"{o}f randomness. In this paper we seek to generalize this to continuous distributions. We consider a set of statistics $T_1(x^M),T_2(x^M),\ldots$. To each statistic we associate its maximum entropy distribution and with this a universal source coder. The maximum entropy distributions are subsequently combined to give a total codelength, which is compared with $-\log P(x^M)$. We show that this approach satisfied a number of theoretical properties. For real world data $P$ usually is unknown. We transform data into a standard distribution in the latent space using a bidirectional generate network and use maximum entropy coding there. We compare the resulting method to other methods that also used generative neural networks to detect anomalies. In most cases, our results show better performance.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# LLM型ゲームナラティブにおけるプレイヤー駆動創発

Player-Driven Emergence in LLM-Driven Game Narrative ( http://arxiv.org/abs/2404.17027v1 )

ライセンス: Link先を確認
Xiangyu Peng, Jessica Quaye, Weijia Xu, Chris Brockett, Bill Dolan, Nebojsa Jojic, Gabriel DesGarennes, Ken Lobb, Michael Xu, Jorge Leandro, Claire Jin, Sudha Rao, (参考訳) 我々は,大規模言語モデル (LLM) との相互作用が創発的行動を引き起こし,プレイヤーがゲーム物語の進化に参加する力を与える方法を探る。 我々のテストベッドはテキストアドベンチャーゲームであり、プレイヤーは固定された物語の前提でミステリーを解こうとするが、大きな言語モデルであるGPT-4によって生成された非プレイヤーキャラクターと自由に対話できる。 ゲームプレイのために28人のゲーマーを募集し、GPT-4を使用してゲームログを自動的にゲームプレイの物語を表すノードグラフに変換する。 LLMの非決定論的行動と相互作用することで、プレイヤーはオリジナルの物語の一部ではなく、楽しみとエンゲージメントの可能性がある興味深い新しい創発的ノードを発見できることがわかった。 最も創発的なノードを作ったプレイヤーは、しばしば発見、探索、実験を容易にするゲームを楽しむ傾向にあった。

We explore how interaction with large language models (LLMs) can give rise to emergent behaviors, empowering players to participate in the evolution of game narratives. Our testbed is a text-adventure game in which players attempt to solve a mystery under a fixed narrative premise, but can freely interact with non-player characters generated by GPT-4, a large language model. We recruit 28 gamers to play the game and use GPT-4 to automatically convert the game logs into a node-graph representing the narrative in the player's gameplay. We find that through their interactions with the non-deterministic behavior of the LLM, players are able to discover interesting new emergent nodes that were not a part of the original narrative but have potential for being fun and engaging. Players that created the most emergent nodes tended to be those that often enjoy games that facilitate discovery, exploration and experimentation.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# カラー交換システムにおける生成AI:材料・設計制約による3Dオブジェクトテクスチャの再現性

Generative AI in Color-Changing Systems: Re-Programmable 3D Object Textures with Material and Design Constraints ( http://arxiv.org/abs/2404.17028v1 )

ライセンス: Link先を確認
Yunyi Zhu, Faraz Faruqi, Stefanie Mueller, (参考訳) Generative AIツールの進歩により、デザイナーはテキストや画像ベースのプロンプトを使って既存の3Dモデルを操作できるようになった。 一方、フォトクロミックな色変化システムは、3Dモデルの表面テクスチャをリプログラミングし、物理的オブジェクトのカスタマイズを容易にし、データ表示にオブジェクト表面を使用する可能性を開放する。 しかし、既存のフォトクロミックシステムでは、ユーザが手動で所望のテクスチャを設計し、オブジェクト上のパターンのシミュレーションを検査し、生成されたパターンの有効性を検証する必要がある。 これらの手動設計、検査、検証のステップは、ユーザーが可能なパターンの設計空間を効率的に探索することを妨げる。 したがって、エンド・ツー・エンドのテクスチャ・アプリケーション・プロセスに望まれる自動化ワークフローを設計することで、異なる実践可能なパターンをすばやくイテレーションすることができる。 本ワークショップでは,光クロミック材料を用いたリプログラミング可能な表面の材料および設計制約を伴って,生成型AIシステムの拡張の可能性について論じる。 生成するAIシステムを、フォトクロミック染料で物理的に実現可能な色や素材に制限することにより、ユーザーはテキストや画像ベースのプロンプトを使って、さまざまな実行可能なパターンを探索できるツールを作成できる。 このトピックでは、フォトクロミックな材料制約と、データエンコードされたテクスチャの設計制約の2つの焦点領域を識別する。 私たちは、生成AIツールを使用して、フォトクロミック素材を使用して実行可能なテクスチャを作成する、現在の制限を強調します。 最後に,フォトクロミックな素材制約を考慮に入れた生成型AIの手法を改良し,光クロミックなテクスチャを迅速かつ容易に作成する方法を提案する。

Advances in Generative AI tools have allowed designers to manipulate existing 3D models using text or image-based prompts, enabling creators to explore different design goals. Photochromic color-changing systems, on the other hand, allow for the reprogramming of surface texture of 3D models, enabling easy customization of physical objects and opening up the possibility of using object surfaces for data display. However, existing photochromic systems require the user to manually design the desired texture, inspect the simulation of the pattern on the object, and verify the efficacy of the generated pattern. These manual design, inspection, and verification steps prevent the user from efficiently exploring the design space of possible patterns. Thus, by designing an automated workflow desired for an end-to-end texture application process, we can allow rapid iteration on different practicable patterns. In this workshop paper, we discuss the possibilities of extending generative AI systems, with material and design constraints for reprogrammable surfaces with photochromic materials. By constraining generative AI systems to colors and materials possible to be physically realized with photochromic dyes, we can create tools that would allow users to explore different viable patterns, with text and image-based prompts. We identify two focus areas in this topic: photochromic material constraints and design constraints for data-encoded textures. We highlight the current limitations of using generative AI tools to create viable textures using photochromic material. Finally, we present possible approaches to augment generative AI methods to take into account the photochromic material constraints, allowing for the creation of viable photochromic textures rapidly and easily.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# Dr-SAM:血管画像における血管分割・径推定・異常検出のためのエンドツーエンドフレームワーク

Dr-SAM: An End-to-End Framework for Vascular Segmentation, Diameter Estimation, and Anomaly Detection on Angiography Images ( http://arxiv.org/abs/2404.17029v1 )

ライセンス: Link先を確認
Vazgen Zohranyan, Vagner Navasardyan, Hayk Navasardyan, Jan Borggrefe, Shant Navasardyan, (参考訳) 近年のAIの進歩は、特に血管造影において、診断精度と患者のケアを高めることで、医療画像に大きく変化している。 しかし、既存の研究は大動脈と腸骨動脈の分析に限られており、これら全ては血管の異常の検出と特徴付けのために行われている。 このギャップを埋めるために,血管のセグメンテーション,直径推定,異常解析のための総合的な多段階フレームワークDr-SAMを提案する。 セグメンテーションでは,Segment Anything Model(SAM)上に,医用(血管造影)画像に最適化された正・負の点選択機構を導入する。 そこで本研究では,血管径決定のための形態学的アプローチと組織像駆動型異常検出手法を提案する。 さらに,血管血管造影画像の包括的解析のための新しいベンチマークデータセットを導入し,血管疾患の診断精度の向上と,最終的に血管疾患に直面する患者に対する健康状態の改善につながることを期待する。

Recent advancements in AI have significantly transformed medical imaging, particularly in angiography, by enhancing diagnostic precision and patient care. However existing works are limited in analyzing the aorta and iliac arteries, above all for vascular anomaly detection and characterization. To close this gap, we propose Dr-SAM, a comprehensive multi-stage framework for vessel segmentation, diameter estimation, and anomaly analysis aiming to examine the peripheral vessels through angiography images. For segmentation we introduce a customized positive/negative point selection mechanism applied on top of the Segment Anything Model (SAM), specifically for medical (Angiography) images. Then we propose a morphological approach to determine the vessel diameters followed by our histogram-driven anomaly detection approach. Moreover, we introduce a new benchmark dataset for the comprehensive analysis of peripheral vessel angiography images which we hope can boost the upcoming research in this direction leading to enhanced diagnostic precision and ultimately better health outcomes for individuals facing vascular issues.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# オートフォーカス:全画素マッチングによるエゴ運動予測

Motor Focus: Ego-Motion Prediction with All-Pixel Matching ( http://arxiv.org/abs/2404.17031v1 )

ライセンス: Link先を確認
Hao Wang, Jiayou Qin, Xiwen Chen, Ashish Bastola, John Suchanek, Zihao Gong, Abolfazl Razi, (参考訳) モーション分析は、仮想現実や拡張現実から補助視覚ナビゲーションまで、様々なアプリケーションにおいて重要な役割を果たす。 従来の自動運転技術は先進的ではあるが、広範囲のセンサーアレイや非実用的な計算フレームワークに依存しているため、歩行者アプリケーションに直接変換することはない。 このことは、人間のナビゲーションが人間の動作の予測不可能な性質、携帯機器の処理能力の制限、人間の知覚範囲の制限による指向性応答性の必要性など、ユニークな課題をもたらすため、これらのソリューションを人間のユーザに適用する際の大きなギャップを浮き彫りにしている。 本稿では,運動強調位置の予測と人や機械の動作意図の焦点付けを行うために,光学的フローを用いた動き解析をエゴモーション補償で適用する画像専用手法を提案する。 本稿では、ガウスアグリゲーションを適用して、予測モータ焦点領域を安定化させ、移動方向の予測精度を高めることにより、ハンドヘルドおよびボディマウントデバイスにおけるカメラの揺らぎ問題に対処する。 これはまた、ユーザの即時環境に適応する堅牢でリアルタイムなソリューションを提供する。 さらに,本実験では,従来の高密度光フローベース手法と提案手法のモータ焦点推定の定性解析を行った。 定量的なテストでは,運動焦点推定タスクに特化して収集した小型データセット上で,提案手法の性能を示す。

Motion analysis plays a critical role in various applications, from virtual reality and augmented reality to assistive visual navigation. Traditional self-driving technologies, while advanced, typically do not translate directly to pedestrian applications due to their reliance on extensive sensor arrays and non-feasible computational frameworks. This highlights a significant gap in applying these solutions to human users since human navigation introduces unique challenges, including the unpredictable nature of human movement, limited processing capabilities of portable devices, and the need for directional responsiveness due to the limited perception range of humans. In this project, we introduce an image-only method that applies motion analysis using optical flow with ego-motion compensation to predict Motor Focus-where and how humans or machines focus their movement intentions. Meanwhile, this paper addresses the camera shaking issue in handheld and body-mounted devices which can severely degrade performance and accuracy, by applying a Gaussian aggregation to stabilize the predicted motor focus area and enhance the prediction accuracy of movement direction. This also provides a robust, real-time solution that adapts to the user's immediate environment. Furthermore, in the experiments part, we show the qualitative analysis of motor focus estimation between the conventional dense optical flow-based method and the proposed method. In quantitative tests, we show the performance of the proposed method on a collected small dataset that is specialized for motor focus estimation tasks.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# Siの単純な欠陥からのテレコム波長放射による量子ビット

Quantum bit with telecom wave-length emission from a simple defect in Si ( http://arxiv.org/abs/2404.17032v1 )

ライセンス: Link先を確認
Peter Deák, Song Li, Adam Gali, (参考訳) シリコンの欠陥からのスピン・ツー・フォトン界面は、先進半導体とフォトニクス技術の組み合わせによる量子リピータの実現への大きな期待を持っている。 近年、単純な炭素間質欠陥の制御と消去がシリコンで実現されている。 この欠陥は室温付近で安定な構造を持ち、通信技術で使用される光ファイバーにおいて信号損失が最小となる波長で発生する。 我々の詳細な理論的特徴は、観測された放出のこの欠陥の中立電荷状態への割り当てを確認するものである。 放射は、有界エキシトンの再結合によるものである。 また,量子メモリとして応用可能な準安定三重項状態も発見された。 シリコンにおける欠陥の電子構造と、既知の光学的検出磁気共鳴中心との類似性の分析に基づいて、炭素間質体が量子ビットとして作用し、CMOS互換プラットフォームにおけるスピン-光子界面を実現することができる可能性が示唆された。

Spin-to-photon interfaces from defects in silicon hold great promise towards realizing quantum repeaters with the combination of advanced semiconductor and photonics technologies. Recently, controlled creation and erasure of simple carbon interstitial defects have been successfully realised in silicon. This defect has a stable structure near room temperature and emits in the wave-length where the signal loss is minimal in optical fibres used in communication technologies. Our in-depth theoretical characterization confirms the assignment of the observed emission to the neutral charge state of this defect. We find that the emission is due to the recombination of a bound exciton. We also discovered a metastable triplet state that could be applied as a quantum memory. Based on the analysis of the electronic structure of the defect and its similarities to a known optically detected magnetic resonance centre in silicon, we propose that a carbon interstitial can act as a quantum bit and may realize a spin-to-photon interface in CMOS-compatible platforms.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 実データと合成データの自動生成によるラベル・スカース医用画像セグメンテーションの改善

Auto-Generating Weak Labels for Real & Synthetic Data to Improve Label-Scarce Medical Image Segmentation ( http://arxiv.org/abs/2404.17033v1 )

ライセンス: Link先を確認
Tanvi Deshpande, Eva Prakash, Elsie Gyang Ross, Curtis Langlotz, Andrew Ng, Jeya Maria Jose Valanarasu, (参考訳) ピクセル・バイ・ピクセル・ゴールド・スタンダード・ラベルの作成コスト、専門家の可用性の制限、多様なタスクの存在により、医療画像タスクのためのディープラーニングモデルをトレーニングするためのセグメンテーション・ラベルの生成が困難になる。 本研究では,Segment Anything Model (SAM) や医療用代替MedSAMなどの基礎モデルを活用することで,医療用画像ラベリングのハードルを克服する新たなアプローチを提案する。 我々のパイプラインは、ラベルなしの医療画像に対して弱いラベルを生成し、その後、ラベルのスカースデータセットを増やすためにそれを使用することができる。 我々は、いくつかのゴールドスタンダードラベルでトレーニングされたモデルを利用して、弱いラベル生成のためにMedSAMをインテリジェントにプロンプトすることでこれを実行する。 この自動化により、MedSAMのマニュアルプロンプトステップが不要になり、量に関係なく、実画像と合成画像の両方のラベルを生成するための合理化プロセスが生成される。 我々は, 超音波, 皮膚科, X線など複数のタスクに対するラベルスカース設定実験を行い, パイプラインの有用性を実証した。 コードはhttps://github.com/stanfordmlgroup/Auto-Generate-WLs/で公開されている。

The high cost of creating pixel-by-pixel gold-standard labels, limited expert availability, and presence of diverse tasks make it challenging to generate segmentation labels to train deep learning models for medical imaging tasks. In this work, we present a new approach to overcome the hurdle of costly medical image labeling by leveraging foundation models like Segment Anything Model (SAM) and its medical alternate MedSAM. Our pipeline has the ability to generate weak labels for any unlabeled medical image and subsequently use it to augment label-scarce datasets. We perform this by leveraging a model trained on a few gold-standard labels and using it to intelligently prompt MedSAM for weak label generation. This automation eliminates the manual prompting step in MedSAM, creating a streamlined process for generating labels for both real and synthetic images, regardless of quantity. We conduct experiments on label-scarce settings for multiple tasks pertaining to modalities ranging from ultrasound, dermatology, and X-rays to demonstrate the usefulness of our pipeline. The code is available at https://github.com/stanfordmlgroup/Auto-Generate-WLs/.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 大規模国家空間における行動可能な対実的説明の学習

Learning Actionable Counterfactual Explanations in Large State Spaces ( http://arxiv.org/abs/2404.17034v1 )

ライセンス: Link先を確認
Keziah Naggita, Matthew R. Walter, Avrim Blum, (参考訳) 対実的説明(CFEs)とは、負の分類を持つエージェントが(望まれる)肯定的な分類を達成するための一連の行動である。 本研究では,重み付き集合被覆問題の解に対応する最適CFEの設定について考察する。 特に、エージェントが実行可能なアクションの集合があり、それぞれが独自のコストを持ち、それぞれのエージェントに異なる機能セットを提供する。 エージェントは、ポジティブな分類を達成するために必要なすべての能力を提供する、最も安価なアクションサブセットを実行したいと考えています。 トレーニングデータ(エージェントのインスタンスとそのCFE)から、新しいエージェントに迅速に最適なアクションセットを提供するCFEジェネレータを学習できますか? 本研究では,本課題において,実験的に高い性能を達成できる深層ネットワーク学習手法を提案する。 基礎となる「能力」と行動の効果を明示しない定式化を含む,いくつかの問題定式化について考察する。 我々の問題は、大規模だが決定論的マルコフ決定過程(MDP)のファミリーで最適な政策を学ぶことの1つと見なすこともできる。

Counterfactual explanations (CFEs) are sets of actions that an agent with a negative classification could take to achieve a (desired) positive classification, for consequential decisions such as loan applications, hiring, admissions, etc. In this work, we consider settings where optimal CFEs correspond to solutions of weighted set cover problems. In particular, there is a collection of actions that agents can perform that each have their own cost and each provide the agent with different sets of capabilities. The agent wants to perform the cheapest subset of actions that together provide all the needed capabilities to achieve a positive classification. Since this is an NP-hard optimization problem, we are interested in the question: can we, from training data (instances of agents and their optimal CFEs) learn a CFE generator that will quickly provide optimal sets of actions for new agents? In this work, we provide a deep-network learning procedure that we show experimentally is able to achieve strong performance at this task. We consider several problem formulations, including formulations in which the underlying "capabilities" and effects of actions are not explicitly provided, and so there is an informational challenge in addition to the computational challenge. Our problem can also be viewed as one of learning an optimal policy in a family of large but deterministic Markov Decision Processes (MDPs).
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 盲人と低ビジョンのソフトウェアプロフェッショナルのキャリアモビリティを理解する

Understanding the Career Mobility of Blind and Low Vision Software Professionals ( http://arxiv.org/abs/2404.17036v1 )

ライセンス: Link先を確認
Yoonha Cha, Victoria Jackson, Isabela Figueira, Stacy M. Branham, André van der Hoek, (参考訳) コンテキスト: ソフトウェアエンジニアリング(SE)研究コミュニティの学者は、ソフトウェア産業におけるキャリアの進歩を調査しました。 ソフトウェアプロフェッショナルのキャリアモビリティに個人的および外部的要因がどのように影響を与えるか、そしてジェンダーがキャリアの進歩にどのように影響するか、といった研究トピックが含まれている。 しかし、コミュニティはアクセシビリティのレンズからキャリアのモビリティをまだ検討していない。 具体的には、ブラインドとロービジョンのソフトウェアプロフェッショナル(BLVSP)のキャリアモビリティを妨げる要因を照らす必要がある。 目的:本研究の目的は,BLVSPのキャリアモビリティに影響を与える職場の側面を理解することである。 方法: 異なる役割, 経験年数, 業界セクターを持つ26のBLVSPをインタビューした。 テーマ分析はキャリアモビリティに関連する共通要因を特定するために用いられた。 結果: BLVSPsのキャリアモビリティに影響を及ぼす要因は,(1)技術的課題,(2)BLVSPsに対する同僚の認識,(3)経営進歩に対するBLVSPs自身の認識,(4)BLVSPsの職場におけるアクセシビリティへの投資,の4つであった。 結論: BLVSPのキャリアモビリティを支援するために, ツールデザイナ, 組織, 研究者が, よりアクセスしやすい職場を育成する上での意義を示唆する。

Context: Scholars in the software engineering (SE) research community have investigated career advancement in the software industry. Research topics have included how individual and external factors can impact career mobility of software professionals, and how gender affects career advancement. However, the community has yet to look at career mobility from the lens of accessibility. Specifically, there is a pressing need to illuminate the factors that hinder the career mobility of blind and low vision software professionals (BLVSPs). Objective: This study aims to understand aspects of the workplace that impact career mobility for BLVSPs. Methods: We interviewed 26 BLVSPs with different roles, years of experience, and industry sectors. Thematic analysis was used to identify common factors related to career mobility. Results: We found four factors that impacted the career mobility of BLVSPs: (1) technical challenges, (2) colleagues' perceptions of BLVSPs, (3) BLVSPs' own perceptions on managerial progression, and (4) BLVSPs' investment in accessibility at the workplace. Conclusion: We suggest implications for tool designers, organizations, and researchers towards fostering more accessible workplaces to support the career mobility of BLVSPs.
翻訳日:2024-04-29 14:33:49 公開日:2024-04-25
# 多段階全スライド画像の核位置に基づく点集合登録

Nuclei-Location Based Point Set Registration of Multi-Stained Whole Slide Images ( http://arxiv.org/abs/2404.17041v1 )

ライセンス: Link先を確認
Adith Jeyasangar, Abdullah Alsalemi, Shan E Ahmed Raza, (参考訳) Whole Slide Images (WSIs) は、細胞レベルで組織構造を研究するための特別な詳細を提供する。 腫瘍マイクロ環境(TME)を様々なタンパク質バイオマーカーや細胞サブタイプの文脈で研究するためには、多段階WSIを用いた特徴の分析と登録がしばしば必要である。 マルチステンドWSIペアは通常、正確に登録する際の課題となるスライドアーチファクトや制御組織に加えて、剛性および非剛性変形に悩まされる。 従来の登録法は主に地球規模の剛性/非剛性登録に重点を置いているが、核レベルで複雑な組織変形を伴うスライドの整列に苦慮している。 しかし、核レベルの非剛性登録は、タンパク質バイオマーカーシグネチャの文脈における細胞サブタイプ解析のような下流タスクに必須である。 本稿では,マルチステンド WSI の整合化のための核配置に基づく点集合登録手法を用いた局所レベル非剛性登録に焦点を当てた。 我々は、異なる染色にまたがる顕著で一貫した(大きなレベルまで)原子核の空間分布を利用して空間対応を確立する。 提案手法は,H&EとPHH3の画像対の54個の再構成画像からなるHYRECOデータセットを用いて評価する。 この手法は、優れた核検出アルゴリズムがアクセス可能であることを考慮すれば、他のIHCおよびIF染色WSIにも拡張することができる。 モデルの性能は、確立された登録アルゴリズムに対してテストされ、核レベル登録モデルよりも優れていることを示す。

Whole Slide Images (WSIs) provide exceptional detail for studying tissue architecture at the cell level. To study tumour microenvironment (TME) with the context of various protein biomarkers and cell sub-types, analysis and registration of features using multi-stained WSIs is often required. Multi-stained WSI pairs normally suffer from rigid and non-rigid deformities in addition to slide artefacts and control tissue which present challenges at precise registration. Traditional registration methods mainly focus on global rigid/non-rigid registration but struggle with aligning slides with complex tissue deformations at the nuclei level. However, nuclei level non-rigid registration is essential for downstream tasks such as cell sub-type analysis in the context of protein biomarker signatures. This paper focuses on local level non-rigid registration using a nuclei-location based point set registration approach for aligning multi-stained WSIs. We exploit the spatial distribution of nuclei that is prominent and consistent (to a large level) across different stains to establish a spatial correspondence. We evaluate our approach using the HYRECO dataset consisting of 54 re-stained images of H\&E and PHH3 image pairs. The approach can be extended to other IHC and IF stained WSIs considering a good nuclei detection algorithm is accessible. The performance of the model is tested against established registration algorithms and is shown to outperform the model for nuclei level registration.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# ディープラーニングフレームワークにおけるコードクローンダイナミクスの展開

Unraveling Code Clone Dynamics in Deep Learning Frameworks ( http://arxiv.org/abs/2404.17046v1 )

ライセンス: Link先を確認
Maram Assi, Safwat Hassan, Ying Zou, (参考訳) ディープラーニング(DL)フレームワークは、人工知能の進歩において重要な役割を担い、その急速な成長は、ソフトウェアの品質と保守性に関する包括的な理解の必要性を浮き彫りにしている。 DLフレームワークは、他のシステムと同様に、コードのクローンになりがちです。 コードクローンは同一または非常に類似したソースコードのフラグメントを同じプロジェクト内、あるいは異なるプロジェクトにわたって参照する。 コードクローンは、保守、可読性、バグの伝播に影響を与えるソフトウェア開発に肯定的かつ負の影響を及ぼす可能性がある。 本稿では,DLフレームワークにおけるコードクローンの進化的次元と,それらのフレームワーク間のコード再利用の程度に関する知識ギャップに対処することを目的とする。 われわれは、TensorFlow、Paddle、PyTorch、Aesara、Ray、MXNet、Keras、Jax、BentoMLの9つの人気のあるDLフレームワークのコードクローンを実証的に分析し、(1)各フレームワークのリリースよりも長いコードクローンの進化の特徴、(2)内部リリース、コードクローンパターン、そしてそれらの長期トレンドへの影響について調査する。 以上の結果から,DLフレームワークは4つの異なるクローン化傾向を呈し,これらの傾向が共通かつ異なる特徴を呈していることが明らかとなった。 例えば、クローン進化の傾向によらず、クローン内では持続的にバグ修正活動が行われ、"Serpentine"トレンドではより多く発生する。 さらに、リリースレベルの調査では、短期的なコードクローンのプラクティスが長期的なコードクローンのトレンドに影響を与えることが示されている。 クロスフレームワークコードクローンの調査は、9つの研究されたフレームワークにわたる機能的およびアーキテクチャ的なファイルレベルのクロスフレームワークコードクローンの存在を明らかにしている。 DLフレームワークの開発において、堅牢なクローンプラクティスと協調的なメンテナンスを促進する洞察を提供する。

Deep Learning (DL) frameworks play a critical role in advancing artificial intelligence, and their rapid growth underscores the need for a comprehensive understanding of software quality and maintainability. DL frameworks, like other systems, are prone to code clones. Code clones refer to identical or highly similar source code fragments within the same project or even across different projects. Code cloning can have positive and negative implications for software development, influencing maintenance, readability, and bug propagation. In this paper, we aim to address the knowledge gap concerning the evolutionary dimension of code clones in DL frameworks and the extent of code reuse across these frameworks. We empirically analyze code clones in nine popular DL frameworks, i.e., TensorFlow, Paddle, PyTorch, Aesara, Ray, MXNet, Keras, Jax and BentoML, to investigate (1) the characteristics of the long-term code cloning evolution over releases in each framework, (2) the short-term, i.e., within-release, code cloning patterns and their influence on the long-term trends, and (3) the file-level code clones within the DL frameworks. Our findings reveal that DL frameworks adopt four distinct cloning trends and that these trends present some common and distinct characteristics. For instance, bug-fixing activities persistently happen in clones irrespective of the clone evolutionary trend but occur more in the "Serpentine" trend. Moreover, the within release level investigation demonstrates that short-term code cloning practices impact long-term cloning trends. The cross-framework code clone investigation reveals the presence of functional and architectural adaptation file-level cross-framework code clones across the nine studied frameworks. We provide insights that foster robust clone practices and collaborative maintenance in the development of DL frameworks.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# オープンソース生成AIの中期的リスクと機会

Near to Mid-term Risks and Opportunities of Open Source Generative AI ( http://arxiv.org/abs/2404.17047v1 )

ライセンス: Link先を確認
Francisco Eiras, Aleksandar Petrov, Bertie Vidgen, Christian Schroeder de Witt, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Botos Csaba, Fabro Steibel, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Marvin Imperial, Juan A. Nolazco-Flores, Lori Landay, Matthew Jackson, Paul Röttger, Philip H. S. Torr, Trevor Darrell, Yong Suk Lee, Jakob Foerster, (参考訳) 今後数年間で、ジェネレーティブAIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。 こうした地震的な変化の可能性は、潜在的なリスクについて活発に議論を巻き起こし、特にAI開発をリードする大手テック企業からの厳しい規制を要求した。 この規制は、オープンソースのGenerative AIの誕生する分野を危険にさらしている可能性が高い。 我々は、生成的AIモデルの短期的および中期的オープンソース化の責任について論じる。 ステージを設定するために、まずAIオープンネス分類システムを導入し、それを現在の40の大規模言語モデルに適用する。 次に、オープンソースとクローズドソースAIの異なる利点とリスクを概説し、ベストプラクティスから技術的および科学的貢献の要求まで、潜在的なリスク軽減を提示します。 このレポートは、現在公の場でAIの安全性やその他の社会的影響に関する議論に欠如している声を加えることを願っている。

In the next few years, applications of Generative AI are expected to revolutionize a number of different areas, ranging from science & medicine to education. The potential for these seismic changes has triggered a lively debate about potential risks and resulted in calls for tighter regulation, in particular from some of the major tech companies who are leading in AI development. This regulation is likely to put at risk the budding field of open source Generative AI. We argue for the responsible open sourcing of generative AI models in the near and medium term. To set the stage, we first introduce an AI openness taxonomy system and apply it to 40 current large language models. We then outline differential benefits and risks of open versus closed source AI and present potential risk mitigation, ranging from best practices to calls for technical and scientific contributions. We hope that this report will add a much needed missing voice to the current public discourse on near to mid-term AI safety and other societal impact.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# Loihiのためのトランスダクティブスパイキンググラフニューラルネットワーク

Transductive Spiking Graph Neural Networks for Loihi ( http://arxiv.org/abs/2404.17048v1 )

ライセンス: Link先を確認
Shay Snyder, Victoria Clerico, Guojing Cong, Shruti Kulkarni, Catherine Schuman, Sumedh R. Risbud, Maryam Parsa, (参考訳) グラフニューラルネットワークは、オブジェクト間のペア関係が不可欠である問題に対処するために設計された、ディープラーニングの特殊なブランチとして登場した。 近年の進歩はグラフ畳み込みニューラルネットワークを用いてグラフ構造の特徴を抽出している。 有望な結果にもかかわらず、これらの手法はスパースな特徴のために現実世界のアプリケーションでは困難に直面し、非効率な資源利用をもたらす。 近年の研究は哺乳類の脳からインスピレーションを受け、グラフ構造をモデル化し学習するためにスパイキングニューラルネットワークを使用している。 しかしながら、これらのアプローチは従来のフォン・ノイマンベースのコンピュータシステムに限られており、ハードウェアの非効率さに直面している。 本研究では,Loihi 2向けに設計されたスパイキンググラフニューラルネットワークの完全なニューロモルフィック実装を提案する。 ニューロモルフィックコンピューティングアーキテクチャと互換性のある新しいハイパーパラメータ最適化システムであるLava Bayesian Optimizationを用いて,ネットワークパラメータを最適化する。 本稿では、ニューロモルフィックベイズ最適化と、固定精度スパイキングニューロンを用いた引用グラフ分類の併用による性能効果を示す。 本研究は,既存の浮動小数点法と同等の精度で引用グラフ分類を行う上で,整数精度のLoihi 2対応スパイクニューラルネットワークの有効性を示すものである。

Graph neural networks have emerged as a specialized branch of deep learning, designed to address problems where pairwise relations between objects are crucial. Recent advancements utilize graph convolutional neural networks to extract features within graph structures. Despite promising results, these methods face challenges in real-world applications due to sparse features, resulting in inefficient resource utilization. Recent studies draw inspiration from the mammalian brain and employ spiking neural networks to model and learn graph structures. However, these approaches are limited to traditional Von Neumann-based computing systems, which still face hardware inefficiencies. In this study, we present a fully neuromorphic implementation of spiking graph neural networks designed for Loihi 2. We optimize network parameters using Lava Bayesian Optimization, a novel hyperparameter optimization system compatible with neuromorphic computing architectures. We showcase the performance benefits of combining neuromorphic Bayesian optimization with our approach for citation graph classification using fixed-precision spiking neurons. Our results demonstrate the capability of integer-precision, Loihi 2 compatible spiking neural networks in performing citation graph classification with comparable accuracy to existing floating point implementations.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# マルチエージェントシステムにおけるエージェントパーミッション

Agentive Permissions in Multiagent Systems ( http://arxiv.org/abs/2404.17053v1 )

ライセンス: Link先を確認
Qi Shi, (参考訳) 本稿では,マルチエージェント設定において,エージェントパーミッションの4つの形態を区別することを提案する。 主な技術的成果は、モデルチェックの複雑さ解析、モーダルのセマンティック・アンディフィニティ(セマンティック・アンディフィニティ)、モーダル間の相互作用をキャプチャする完全な論理システムである。

This paper proposes to distinguish four forms of agentive permissions in multiagent settings. The main technical results are the complexity analysis of model checking, the semantic undefinability of modalities that capture these forms of permissions through each other, and a complete logical system capturing the interplay between these modalities.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# CyNetDiff - ネットワーク拡散モデルの高速化実装のためのPythonライブラリ

CyNetDiff -- A Python Library for Accelerated Implementation of Network Diffusion Models ( http://arxiv.org/abs/2404.17059v1 )

ライセンス: Link先を確認
Eliot W. Robson, Dhemath Reddy, Abhishek K. Umrawal, (参考訳) 近年,ネットワーク拡散モデルや関連する問題への関心が高まっている。 最も一般的なものは独立したカスケードモデルと線形しきい値モデルである。 これらのモデルに関する最近の実験の多くは、低レベル言語に適した計算コストのかかるタスクである、大きなグラフ上で実行される多数のシミュレーションを必要とする。 しかし、多くの研究者は、柔軟性と開発時間の短縮のために高レベル言語(Pythonなど)を使うことを好む。 さらに、多くの研究課題において、これらのシミュレーションが最も計算集約的なタスクであるため、低レベル言語の性能を持つ高レベル言語へのインタフェースを備えたライブラリを持つことが望ましい。 このニッチを満たすために,Cythonで記述されたPythonライブラリCyNetDiffを導入する。

In recent years, there has been increasing interest in network diffusion models and related problems. The most popular of these are the independent cascade and linear threshold models. Much of the recent experimental work done on these models requires a large number of simulations conducted on large graphs, a computationally expensive task suited for low-level languages. However, many researchers prefer the use of higher-level languages (such as Python) for their flexibility and shorter development times. Moreover, in many research tasks, these simulations are the most computationally intensive task, so it would be desirable to have a library for these with an interface to a high-level language with the performance of a low-level language. To fill this niche, we introduce CyNetDiff, a Python library with components written in Cython to provide improved performance for these computationally intensive diffusion tasks.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# WheelPose: 車椅子利用者のポース推定性能を改善するためのデータ合成技術

WheelPose: Data Synthesis Techniques to Improve Pose Estimation Performance on Wheelchair Users ( http://arxiv.org/abs/2404.17063v1 )

ライセンス: Link先を確認
William Huang, Sam Ghahremani, Siyou Pei, Yang Zhang, (参考訳) 既存のポーズ推定モデルは、トレーニングデータに表現力の欠如があるため、車椅子利用者にはあまり役に立たない。 データ収集におけるこの相違に対処するデータ合成パイプラインを提案し,その後,車椅子利用者のポーズ推定性能を改善した。 構成可能なパイプラインは,Unityゲームエンジンでシミュレーションされたモーションキャプチャデータとモーション生成出力を用いて車椅子利用者の合成データを生成する。 我々は、人間の評価を行い、認識されたリアリズム、多様性、および異なる背景、モデル、姿勢を合成するパイプラインから合成データセットのセットに対するAIパフォーマンス評価を検証した。 生成したデータセットは、人間の評価者によって現実的と見なされ、既存の画像データセットよりも多様性があり、既存のポーズ推定モデルに基づいて微調整された場合の人物検出とポーズ推定性能が改善された。 この研究を通じて、この研究で実証されたデータ合成技術を用いて、データ中心で人間中心の方法でAIの包摂性に取り組むための将来の努力の足場を構築したいと考えています。 最後に、今後の研究のために、この研究ですべてのコードをオープンソース化し、データセットを生成するのに使用する完全に構成可能なUnity環境を提供します。 再配布とライセンスポリシーのために共有できないモデルの場合、私たちは、そのモデルをソースし、置き換える方法について詳細な指示を与えます。

Existing pose estimation models perform poorly on wheelchair users due to a lack of representation in training data. We present a data synthesis pipeline to address this disparity in data collection and subsequently improve pose estimation performance for wheelchair users. Our configurable pipeline generates synthetic data of wheelchair users using motion capture data and motion generation outputs simulated in the Unity game engine. We validated our pipeline by conducting a human evaluation, investigating perceived realism, diversity, and an AI performance evaluation on a set of synthetic datasets from our pipeline that synthesized different backgrounds, models, and postures. We found our generated datasets were perceived as realistic by human evaluators, had more diversity than existing image datasets, and had improved person detection and pose estimation performance when fine-tuned on existing pose estimation models. Through this work, we hope to create a foothold for future efforts in tackling the inclusiveness of AI in a data-centric and human-centric manner with the data synthesis techniques demonstrated in this work. Finally, for future works to extend upon, we open source all code in this research and provide a fully configurable Unity Environment used to generate our datasets. In the case of any models we are unable to share due to redistribution and licensing policies, we provide detailed instructions on how to source and replace said models.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# 深達度学習と放射線検査による膵周囲浮腫の検出

Detection of Peri-Pancreatic Edema using Deep Learning and Radiomics Techniques ( http://arxiv.org/abs/2404.17064v1 )

ライセンス: Link先を確認
Ziliang Hong, Debesh Jha, Koushik Biswas, Zheyuan Zhang, Yury Velichko, Cemal Yazici, Temel Tirkes, Amir Borhani, Baris Turkbey, Alpay Medetalibeyoglu, Gorkem Durak, Ulas Bagci, (参考訳) 膵周囲浮腫の同定は, 疾患の進行と予後を同定するための重要な指標であり, 膵炎の診断・管理において, 正確な診断・評価の必要性を強調している。 本研究は,膵疾患患者255名から得られた新しいCTデータセットを作製し,アノテート膵セグメンテーションマスクとそれに対応する膵周囲浮腫の診断ラベルを特徴とする。 新たなデータセットを用いて,リニアトランスフォーマーベースセグメンテーションアルゴリズムである \textit{LinTransUNet} モデルの有効性を評価し,CT画像データから膵臓を正確に分割する。 次に, 深層学習モデルと放射能に基づくeXtreme Gradient Boosting (XGBoost) という, 周辺膵浮腫の存在を識別するために, 2つの独特の機械学習分類器を備えた分節膵領域を用いる。 LinTransUNetは80.85\%、mIoU68.73\%という有望な結果を得た。 膵外浮腫検出のための9つのベンチマークされた分類モデルのうち、 \textit{Swin-Tiny} 変圧器モデルは9,8.85 \pm 0.42$と9,8.38\pm 0.17$の最高リコールを示した。 比較として、XGBoostモデルは79.61 pm4.04$の精度と91.05 pm3.28$のリコールを達成した。 私たちのコードは \url{https://github.com/NUBagciLab/Peri-Pancreatic-Edema-Detection} で利用可能です。

Identifying peri-pancreatic edema is a pivotal indicator for identifying disease progression and prognosis, emphasizing the critical need for accurate detection and assessment in pancreatitis diagnosis and management. This study \textit{introduces a novel CT dataset sourced from 255 patients with pancreatic diseases, featuring annotated pancreas segmentation masks and corresponding diagnostic labels for peri-pancreatic edema condition}. With the novel dataset, we first evaluate the efficacy of the \textit{LinTransUNet} model, a linear Transformer based segmentation algorithm, to segment the pancreas accurately from CT imaging data. Then, we use segmented pancreas regions with two distinctive machine learning classifiers to identify existence of peri-pancreatic edema: deep learning-based models and a radiomics-based eXtreme Gradient Boosting (XGBoost). The LinTransUNet achieved promising results, with a dice coefficient of 80.85\%, and mIoU of 68.73\%. Among the nine benchmarked classification models for peri-pancreatic edema detection, \textit{Swin-Tiny} transformer model demonstrated the highest recall of $98.85 \pm 0.42$ and precision of $98.38\pm 0.17$. Comparatively, the radiomics-based XGBoost model achieved an accuracy of $79.61\pm4.04$ and recall of $91.05\pm3.28$, showcasing its potential as a supplementary diagnostic tool given its rapid processing speed and reduced training time. Our code is available \url{https://github.com/NUBagciLab/Peri-Pancreatic-Edema-Detection}.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# 生成逆ネットワークを用いたFR3上中帯域のチャネルモデリング

Channel Modeling for FR3 Upper Mid-band via Generative Adversarial Networks ( http://arxiv.org/abs/2404.17069v1 )

ライセンス: Link先を確認
Yaqi Hu, Mingsheng Yin, Marco Mezzavilla, Hao Guo, Sundeep Rangan, (参考訳) サブ6GHz帯とミリ波帯のそれぞれ固有の制約であるスペクトルの可用性とカバレッジのバランスが期待できるため、上位中帯域(FR3)は近年、新しい世代のモバイルネットワークへの関心を集めている。 ネットワークを効率的に設計し最適化するためには、FR3系が複数の周波数帯域で動作することが期待されているため、チャネルモデリングが重要な役割を果たす。 データ駆動手法、特にGANは、データサンプル間の複雑な関係を捉え、FR3チャネルモデリングに適したツールを提供する。 本稿では,GANに基づくFR3チャネルモデリングのアーキテクチャ,リンク状態モデル,パス生成ネットワークについて述べる。 モデルの比較はレイトレーシングシミュレーションデータと大きく一致した。

The upper mid-band (FR3) has been recently attracting interest for new generation of mobile networks, as it provides a promising balance between spectrum availability and coverage, which are inherent limitations of the sub 6GHz and millimeter wave bands, respectively. In order to efficiently design and optimize the network, channel modeling plays a key role since FR3 systems are expected to operate at multiple frequency bands. Data-driven methods, especially generative adversarial networks (GANs), can capture the intricate relationships among data samples, and provide an appropriate tool for FR3 channel modeling. In this work, we present the architecture, link state model, and path generative network of GAN-based FR3 channel modeling. The comparison of our model greatly matches the ray-tracing simulated data.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# 分散量子コンピューティングのためのコンパイラ:強化学習アプローチ

Compiler for Distributed Quantum Computing: a Reinforcement Learning Approach ( http://arxiv.org/abs/2404.17077v1 )

ライセンス: Link先を確認
Panagiotis Promponas, Akrit Mudvari, Luca Della Chiesa, Paul Polakos, Louis Samuel, Leandros Tassiulas, (参考訳) 大規模量子ビットシステムを必要とする量子プログラムの実践的実現は、現在の技術的制限によって妨げられている。 分散量子コンピューティング(DQC)は、量子リンクを介して複数の量子処理ユニット(QPU)を相互接続し、量子回路の分散実行を容易にすることにより、スケーラビリティへの実行可能なパスを提供する。 DQCでは、EPRペアが生成され、遠隔QPU間で共有され、量子テレポーテーションを可能にし、回路のシームレスな実行を容易にする。 DQCの主な障害は、ハードウェアの制約を克服し、通信を最適化するために洗練された戦略を必要とする、様々なQPUにわたる論理量子ビットから物理量子ビットへの効率的なマッピングとルーティングである。 既存の手法とは異なり、EPRペアの生成とルーティングを共同で管理し、リモート操作をスケジューリングし、ローカルゲートの実行を容易にするSWAPゲートを注入することで、実行時間の短縮を優先する新しいコンパイラを導入する。 本稿では, 量子回路の絡み合い生成の確率的性質と動作要求を考慮した, リアルタイムかつ適応的なコンパイラ設計手法を提案する。 私たちの貢献は2つあります。 i)マルコフ決定過程(MDP)の定式化を用いてDQCの最適コンパイラをモデル化し、最適アルゴリズムの存在を確定する。 (II) DQC環境の複雑さに合わせて, この最適コンパイラを近似する制約付き強化学習法(RL)を導入する。 シミュレーションにより、Double Deep Q-Networks (DDQNs) は、コンパイルされた回路の深さを最小化する学習ポリシーに有効であることを示す。

The practical realization of quantum programs that require large-scale qubit systems is hindered by current technological limitations. Distributed Quantum Computing (DQC) presents a viable path to scalability by interconnecting multiple Quantum Processing Units (QPUs) through quantum links, facilitating the distributed execution of quantum circuits. In DQC, EPR pairs are generated and shared between distant QPUs, which enables quantum teleportation and facilitates the seamless execution of circuits. A primary obstacle in DQC is the efficient mapping and routing of logical qubits to physical qubits across different QPUs, necessitating sophisticated strategies to overcome hardware constraints and optimize communication. We introduce a novel compiler that, unlike existing approaches, prioritizes reducing the expected execution time by jointly managing the generation and routing of EPR pairs, scheduling remote operations, and injecting SWAP gates to facilitate the execution of local gates. We present a real-time, adaptive approach to compiler design, accounting for the stochastic nature of entanglement generation and the operational demands of quantum circuits. Our contributions are twofold: (i) we model the optimal compiler for DQC using a Markov Decision Process (MDP) formulation, establishing the existence of an optimal algorithm, and (ii) we introduce a constrained Reinforcement Learning (RL) method to approximate this optimal compiler, tailored to the complexities of DQC environments. Our simulations demonstrate that Double Deep Q-Networks (DDQNs) are effective in learning policies that minimize the depth of the compiled circuit, leading to a lower expected execution time and likelihood of successful operation before qubits decohere.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# デバイス非依存の弱いコインフリッププロトコルの改善

Improving device-independent weak coin flipping protocols ( http://arxiv.org/abs/2404.17079v1 )

ライセンス: Link先を確認
Atul Singh Arora, Jamie Sikora, Thomas Van Himbeeck, (参考訳) 弱いコインフリップは、アリスとボブが遠隔でコインをひっくり返すが、反対の結果を求める暗号作業である。 この研究は、AliceとBobが互いに信頼せず、量子デバイスも信頼しないデバイスに依存しない状態で、このタスクを研究する。 最良のプロトコルは10年以上前にSilman, Chailloux, Aharon, Kerenidis, Pironio, Massarによって考案された。 この研究は、このようなプロトコルのバイアスを下げる2つの手法、すなわち自己検査と中絶-疎水性合成を提示する。 上記のSCAKPM '11プロトコルにこれらの手法を適用し、連続性予想を仮定すると、バイアスを$\varepsilon \approx 0.29104$に下げる。 これらの手法は, デバイスに依存しないプロトコルの設計において, 様々なタスクにおいて有用であると考えられる。 弱いコインのフリップとは独立に、我々の結果に向かって、$n$のデバイスから$n-1$をテストし、残りのデバイスの性能を、プロトコルで後で使用するために見積もる方法を示す。 この証明は線形プログラミングを使用し、その一般化により、他の分野の応用を見出すことができる。

Weak coin flipping is the cryptographic task where Alice and Bob remotely flip a coin but want opposite outcomes. This work studies this task in the device-independent regime where Alice and Bob neither trust each other, nor their quantum devices. The best protocol was devised over a decade ago by Silman, Chailloux, Aharon, Kerenidis, Pironio, and Massar with bias $\varepsilon \approx 0.33664$, where the bias is a commonly adopted security measure for coin flipping protocols. This work presents two techniques to lower the bias of such protocols, namely self-testing and abort-phobic compositions. We apply these techniques to the SCAKPM '11 protocol above and, assuming a continuity conjecture, lower the bias to $\varepsilon \approx 0.29104$. We believe that these techniques could be useful in the design of device-independent protocols for a variety of other tasks. Independently of weak coin flipping, en route to our results, we show how one can test $n-1$ out of $n$ devices, and estimate the performance of the remaining device, for later use in the protocol. The proof uses linear programming and, due to its generality, may find applications elsewhere.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# セマンティックセグメンテーションを用いたX線画像における大腿骨頭頂部線維角の計算

Calculation of Femur Caput Collum Diaphyseal angle for X-Rays images using Semantic Segmentation ( http://arxiv.org/abs/2404.17083v1 )

ライセンス: Link先を確認
Deepak Bhatia, Muhammad Abdullah, Anne Querfurth, Mahdi Mantash, (参考訳) 本稿では, 深層学習手法を用いてX線画像から大腿部腹側下垂体(CCD)の角度を推定する。 CCD角は股関節疾患の診断において重要な測定であり、正しい予測は外科手術の計画に有効である。 一方、この角度を手動で測定することは、時間集約的で、サーバ間の変動に弱い。 本稿では,X線画像から大腿骨CCD角を確実に推定できるディープラーニングアルゴリズムを提案する。 モデルの性能を訓練し,テストするために,X線画像データセットを用いて大腿骨CCD角計測を行った。 さらに,結果の予測を提示し,ユーザが予測と対話できるようにプロトタイプを構築した。 手術中は不妊状態にあるため,音声コマンドでのみ使用可能なインターフェースを拡張した。 以上の結果から,X線画像上での深層学習モデルでは,左大腿骨では4.3度,右大腿骨では4.9度で,大腿骨のCCD角を精度良く予測できることがわかった。 以上の結果から,深層学習は大腿骨CCD角の予測により効率的かつ正確な手法を提供する可能性が示唆された。

This paper investigates the use of deep learning approaches to estimate the femur caput-collum-diaphyseal (CCD) angle from X-ray images. The CCD angle is an important measurement in the diagnosis of hip problems, and correct prediction can help in the planning of surgical procedures. Manual measurement of this angle, on the other hand, can be time-intensive and vulnerable to inter-observer variability. In this paper, we present a deep-learning algorithm that can reliably estimate the femur CCD angle from X-ray images. To train and test the performance of our model, we employed an X-ray image dataset with associated femur CCD angle measurements. Furthermore, we built a prototype to display the resulting predictions and to allow the user to interact with the predictions. As this is happening in a sterile setting during surgery, we expanded our interface to the possibility of being used only by voice commands. Our results show that our deep learning model predicts the femur CCD angle on X-ray images with great accuracy, with a mean absolute error of 4.3 degrees on the left femur and 4.9 degrees on the right femur on the test dataset. Our results suggest that deep learning has the potential to give a more efficient and accurate technique for predicting the femur CCD angle, which might have substantial therapeutic implications for the diagnosis and management of hip problems.
翻訳日:2024-04-29 14:24:03 公開日:2024-04-25
# ToM-LM:大言語モデルにおける外部シンボリックエクサに対する心推論理論

ToM-LM: Delegating Theory of Mind Reasoning to External Symbolic Executors in Large Language Models ( http://arxiv.org/abs/2404.15515v2 )

ライセンス: Link先を確認
Weizhi Tang, Vaishak Belle, (参考訳) 心の理論(りょうせい、英: Theory of Mind、ToM)とは、個人が心の状態を他人に当てはめる能力のこと。 LLM(Large Language Models)はToMの能力にいくつかの期待を示しているが、それでも複雑なToM推論に苦戦している。 提案手法では,SMCDELモデルチェッカーの外部シンボルエグゼキュータと微調整を併用し,LLMのToM推論能力を向上させる。 提案手法では,まず自然言語のペアとToM問題のシンボリック定式化表現を用いて微調整を行い,ワンショットインコンテキストの例を用いてシンボリック定式化を生成するように指示する。 生成された記号定式化はSMCDELモデルチェッカーによって実行され、透明で検証可能なToM推論を実行し、最終的な結果を与える。 提案手法であるToM-LMは, 構築されたベースラインのすべてに対して, 大幅な改善を示した。 本研究は,ToM推論の特定の構成要素の外部化,主に信念の外部化,およびToM推論の他の側面への一般化に関する新たな見解を提案する。

Theory of Mind (ToM) refers to the ability of individuals to attribute mental states to others. While Large Language Models (LLMs) have shown some promise with ToM ability, they still struggle with complex ToM reasoning. Our approach leverages an external symbolic executor, specifically the SMCDEL model checker, and fine-tuning to improve the ToM reasoning ability of LLMs. In our approach, an LLM is first fine-tuned through pairs of natural language and symbolic formulation representation of ToM problems and is then instructed to generate the symbolic formulation with a one-shot in-context example. The generated symbolic formulation is then executed by the SMCDEL model checker to perform transparent and verifiable ToM reasoning and give the final result. We demonstrate that our approach, ToM-LM, shows a significant improvement over all the constructed baselines. Our study proposes a novel view about externalizing a particular component of ToM reasoning, mainly reasoning about beliefs, and suggests generalizing it to other aspects of ToM reasoning.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-25
# LLMにおける概念抽象化の検出

Detecting Conceptual Abstraction in LLMs ( http://arxiv.org/abs/2404.15848v2 )

ライセンス: Link先を確認
Michaela Regneri, Alhassan Abdelhalim, Sören Laue, (参考訳) 本稿では,大言語モデル (LLM) 内で名詞の抽象化を検出する新しい手法を提案する。 分類学関係における名詞対の心理的動機付けから始めると、ハイパーネミーを示す表面パターンをインスタンス化し、BERTが生成する注意行列を解析する。 結果を2つの反事実集合と比較し、名詞対の分布的類似性にのみ関連付けられない抽象機構においてハイパーネミーを検出できることを示す。 我々の発見は、LLMにおける概念的抽象性の説明可能性への第一歩である。

We present a novel approach to detecting noun abstraction within a large language model (LLM). Starting from a psychologically motivated set of noun pairs in taxonomic relationships, we instantiate surface patterns indicating hypernymy and analyze the attention matrices produced by BERT. We compare the results to two sets of counterfactuals and show that we can detect hypernymy in the abstraction mechanism, which cannot solely be related to the distributional similarity of noun pairs. Our findings are a first step towards the explainability of conceptual abstraction in LLMs.
翻訳日:2024-04-29 12:15:51 公開日:2024-04-25
# 推薦のための混合教師付きグラフコントラスト学習

Mixed Supervised Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2404.15954v2 )

ライセンス: Link先を確認
Weizhi Zhang, Liangwei Yang, Zihe Song, Henry Peng Zou, Ke Xu, Yuanjie Zhu, Philip S. Yu, (参考訳) Recommender System(RecSys)は、オンラインプラットフォームにおいて重要な役割を担い、膨大な情報の中でパーソナライズされた提案を提供する。 グラフコントラスト学習は、二部グラフの教師なし強化を伴う高次協調フィルタリング信号から学習することを目的としており、これはペアワイズレコメンデーション損失とコントラストロスの両方を含むマルチタスク学習フレームワークに大きく依存している。 この分離された設計は、異なる損失から不整合最適化方向を引き起こす可能性があるため、収束時間が長くなり、サブ最適性能さえも生じる。 さらに、RecSysは、拡張中に追加の教師付き協調フィルタリング信号を提供することなく、異なるビューからユーザやイテムを区別することを学ぶため、自己監督によるコントラスト損失はRecSysのデータスパシティ問題を緩和するに足らない。 本稿では、これらの問題に対処するために、MixSGCL(Mixed Supervised Graph Contrastive Learning for Recommendation)を提案する。 MixSGCLはもともと、推奨と教師なしのコントラスト損失のトレーニングを教師付きコントラスト学習損失に統合し、2つのタスクを1つの最適化方向に整合させる。 データの分散性問題に対処するため,既存のユーザ・イテム相互作用に基づいて,より直接的な教師付き協調フィルタリング信号のマイニングを行うノードワイド・エッジワイド・ミックスアップを提案する。 3つの実世界のデータセットに対する大規模な実験は、MixSGCLが最先端の手法を超越し、精度と効率の両方で最高のパフォーマンスを達成していることを示している。 教師付きグラフコントラスト学習におけるMixSGCLの有効性を検証する。

Recommender systems (RecSys) play a vital role in online platforms, offering users personalized suggestions amidst vast information. Graph contrastive learning aims to learn from high-order collaborative filtering signals with unsupervised augmentation on the user-item bipartite graph, which predominantly relies on the multi-task learning framework involving both the pair-wise recommendation loss and the contrastive loss. This decoupled design can cause inconsistent optimization direction from different losses, which leads to longer convergence time and even sub-optimal performance. Besides, the self-supervised contrastive loss falls short in alleviating the data sparsity issue in RecSys as it learns to differentiate users/items from different views without providing extra supervised collaborative filtering signals during augmentations. In this paper, we propose Mixed Supervised Graph Contrastive Learning for Recommendation (MixSGCL) to address these concerns. MixSGCL originally integrates the training of recommendation and unsupervised contrastive losses into a supervised contrastive learning loss to align the two tasks within one optimization direction. To cope with the data sparsity issue, instead unsupervised augmentation, we further propose node-wise and edge-wise mixup to mine more direct supervised collaborative filtering signals based on existing user-item interactions. Extensive experiments on three real-world datasets demonstrate that MixSGCL surpasses state-of-the-art methods, achieving top performance on both accuracy and efficiency. It validates the effectiveness of MixSGCL with our coupled design on supervised graph contrastive learning.
翻訳日:2024-04-29 12:06:07 公開日:2024-04-25
# 信頼度追従検出:リアルタイム追従検出システムの高速化

Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems ( http://arxiv.org/abs/1902.00615v4 )

ライセンス: Link先を確認
Zhicheng Ding, Zhixin Lai, Siyang Li, Panfeng Li, Qikai Yang, Edward Wong, (参考訳) リアルタイム物体追跡は、ディープラーニング手法の計算要求によってさらに悪化する課題である、速度と精度の微妙なバランスを必要とする。 本稿では,中間状態によく似たフレームに対するオブジェクト検出を戦略的に回避し,トラッカーの信頼度を生かしたCTD(Confidence-Triggered Detection)を提案する。 CTDは追跡速度を向上するだけでなく、既存の追跡アルゴリズムを超越して精度も維持する。 種々のトラッカー信頼度しきい値の広範な評価を通じて,トラッキング速度と精度の最適なトレードオフを特定し,パラメータの微調整と実世界のシナリオにおけるCTDの実用性向上に重要な洞察を与える。 各種検出モデルを用いた実験により,CTDフレームワークの堅牢性と汎用性を実証し,資源制約環境におけるリアルタイムトラッキングの実現の可能性を示した。

Real-time object tracking necessitates a delicate balance between speed and accuracy, a challenge exacerbated by the computational demands of deep learning methods. In this paper, we propose Confidence-Triggered Detection (CTD), an innovative approach that strategically bypasses object detection for frames closely resembling intermediate states, leveraging tracker confidence scores. CTD not only enhances tracking speed but also preserves accuracy, surpassing existing tracking algorithms. Through extensive evaluation across various tracker confidence thresholds, we identify an optimal trade-off between tracking speed and accuracy, providing crucial insights for parameter fine-tuning and enhancing CTD's practicality in real-world scenarios. Our experiments across diverse detection models underscore the robustness and versatility of the CTD framework, demonstrating its potential to enable real-time tracking in resource-constrained environments.
翻訳日:2024-04-27 00:45:56 公開日:2024-04-25
# FairCMS: 公正な著作権保護を備えたクラウドメディア共有

FairCMS: Cloud Media Sharing with Fair Copyright Protection ( http://arxiv.org/abs/2105.08899v2 )

ライセンス: Link先を確認
Xiangli Xiao, Yushu Zhang, Leo Yu Zhang, Zhongyun Hua, Zhe Liu, Jiwu Huang, (参考訳) この面倒なメディア共有タスクは、リソースに制約のあるメディア所有者に、クラウドプラットフォーム、すなわち、メディアコンテンツをクラウドに保存し、クラウドに共有させる支援を求めるよう促す。 データプライバシの漏洩やクラウドへのアクセス制御,所有者の著作権侵害,ユーザの権利侵害など,3つの重要なセキュリティ/プライバシの問題が,クラウドメディア共有シナリオで解決する必要がある。 本論文では,上記の3つの問題を同時に解決する手法が存在しないことを踏まえ,FairCMS-IとFairCMS-IIという2つのクラウドメディア共有方式を提案する。 FairCMS-IとFairCMS-IIはプロキシ再暗号化技術と非対称フィンガープリント技術を巧みに利用することにより、上記の3つの問題を異なるプライバシー/効率トレードオフで解決する。 中でもFairCMS-Iはクラウド側の効率性に重点を置いており、FairCMS-IIはメディアコンテンツのセキュリティに重点を置いている。 さらに、FairCMS-IとFairCMS-IIは、オプションのIND-CPA(選択された平文攻撃下での識別性)セキュリティと高いクラウド側効率の点で、既存のクラウドメディア共有の取り組みよりも利点がある。 さらに、FairCMS-IとFairCMS-IIは、所有者が重要なローカルリソースの節約を享受できるようにするため、非対称指紋のプライバシー保護のアウトソーシングと見なすことができる。 最後に、FairCMS-IおよびFairCMS-IIの有効性と効率を実験により実証した。

The onerous media sharing task prompts resource-constrained media owners to seek help from a cloud platform, i.e., storing media contents in the cloud and letting the cloud do the sharing. There are three key security/privacy problems that need to be solved in the cloud media sharing scenario, including data privacy leakage and access control in the cloud, infringement on the owner's copyright, and infringement on the user's rights. In view of the fact that no single technique can solve the above three problems simultaneously, two cloud media sharing schemes are proposed in this paper, named FairCMS-I and FairCMS-II. By cleverly utilizing the proxy re-encryption technique and the asymmetric fingerprinting technique, FairCMS-I and FairCMS-II solve the above three problems with different privacy/efficiency trade-offs. Among them, FairCMS-I focuses more on cloud-side efficiency while FairCMS-II focuses more on the security of the media content, which provides owners with flexibility of choice. In addition, FairCMS-I and FairCMS-II also have advantages over existing cloud media sharing efforts in terms of optional IND-CPA (indistinguishability under chosen-plaintext attack) security and high cloud-side efficiency, as well as exemption from needing a trusted third party. Furthermore, FairCMS-I and FairCMS-II allow owners to reap significant local resource savings and thus can be seen as the privacy-preserving outsourcing of asymmetric fingerprinting. Finally, the feasibility and efficiency of FairCMS-I and FairCMS-II are demonstrated by experiments.
翻訳日:2024-04-27 00:45:56 公開日:2024-04-25
# 開量子系における中間時間ジレンマ:精製弱結合限界に対するフィルタ近似

Intermediate Times Dilemma for Open Quantum System: Filtered Approximation to The Refined Weak Coupling Limit ( http://arxiv.org/abs/2106.05776v3 )

ライセンス: Link先を確認
Marek Winczewski, Antonio Mandarino, Gerardo Suarez, Michał Horodecki, Robert Alicki, (参考訳) 有名なデイビー=GKSL世俗マルコフのマスター方程式は、ほんの数パラメータで開量子系の進化を近似することに成功した。 しかし、完全系列のデービス-GKSL方程式は、時間スケールが十分に短く、すなわち、興味ある系に存在する周波数の差の逆数に匹敵するほど正確に記述することができない。 短い時間でうまく機能するが、この短区間が終わると不適当な相補的アプローチは準分子マスター方程式として知られている。 それでも、どちらのアプローチも中間時間間隔で忠実なダイナミクスを持たない。 同時に、前述の「グレーゾーン」に適用される力学の記述は、マスター方程式よりも計算的にはるかに複雑か、数学的には十分に構造化されていないことが多い。 精製弱結合限界に対するフィルタ近似(FA)は、デービーズ-GKSL方程式の単純化された精神を持ち、中間時間状態におけるダイナミクスの捕捉を可能にする。 同時に、我々の非マルコフ方程式は、完全に正のダイナミクスをもたらす。 スピン-ボソン系とクォート-ボソン系では, 2つの距離の時間スケールが現れる場合, FA方程式の性能を例証する。

The famous Davies-GKSL secular Markovian master equation is tremendously successful in approximating the evolution of open quantum systems in terms of just a few parameters. However, the fully-secular Davies-GKSL equation fails to accurately describe time scales short enough, i.e., comparable to the inverse of differences of frequencies present in the system of interest. A complementary approach that works well for short times but is not suitable after this short interval is known as the quasi-secular master equation. Still, both approaches fail to have any faithful dynamics in the intermediate time interval. Simultaneously, descriptions of dynamics that apply to the aforementioned "grey zone" often are computationally much more complex than master equations or are mathematically not well-structured. The filtered approximation (FA) to the refined weak coupling limit has the simplistic spirit of the Davies-GKSL equation and allows capturing the dynamics in the intermediate time regime. At the same time, our non-Markovian equation yields completely positive dynamics. We exemplify the performance of the FA equation in the cases of the spin-boson system and qutrit-boson system in which two distant time scales appear.
翻訳日:2024-04-27 00:45:56 公開日:2024-04-25
# 垂直・水平データ分割型マルチティアネットワークにおけるクロスサイロフェデレーション学習

Cross-Silo Federated Learning for Multi-Tier Networks with Vertical and Horizontal Data Partitioning ( http://arxiv.org/abs/2108.08930v4 )

ライセンス: Link先を確認
Anirban Das, Timothy Castiglia, Shiqiang Wang, Stacy Patterson, (参考訳) 連携型通信ネットワークにおける連合学習について考察する。 我々のネットワークモデルはサイロの集合で構成され、それぞれがデータの垂直分割を保持する。 各サイロにはハブとクライアントのセットがあり、サイロの垂直データはクライアント間で水平に分割される。 このような2層ネットワークのための通信効率の高い分散学習アルゴリズムであるTiered Decentralized Coordinate Descent (TDCD)を提案する。 各サイロのクライアントは、通信オーバーヘッドを減らすためにハブと更新を共有する前に、複数のローカルなグラデーションステップを実行する。 各ハブは、労働者の更新を平均して座標を調整し、ハブは中間更新を相互に交換する。 本稿では,本アルゴリズムの理論的解析を行い,垂直分割数と局所更新数に対する収束率の依存性を示す。 さらに、様々なデータセットと目的を用いたシミュレーションベースの実験を通して、我々のアプローチを実証的に検証する。

We consider federated learning in tiered communication networks. Our network model consists of a set of silos, each holding a vertical partition of the data. Each silo contains a hub and a set of clients, with the silo's vertical data shard partitioned horizontally across its clients. We propose Tiered Decentralized Coordinate Descent (TDCD), a communication-efficient decentralized training algorithm for such two-tiered networks. The clients in each silo perform multiple local gradient steps before sharing updates with their hub to reduce communication overhead. Each hub adjusts its coordinates by averaging its workers' updates, and then hubs exchange intermediate updates with one another. We present a theoretical analysis of our algorithm and show the dependence of the convergence rate on the number of vertical partitions and the number of local updates. We further validate our approach empirically via simulation-based experiments using a variety of datasets and objectives.
翻訳日:2024-04-27 00:45:56 公開日:2024-04-25
# 非教師付き異常検出のための二次ニューロンを用いた異種オートエンコーダ

Quadratic Neuron-empowered Heterogeneous Autoencoder for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2204.01707v2 )

ライセンス: Link先を確認
Jing-Xiao Liao, Bo-Jian Hou, Hang-Cheng Dong, Hao Zhang, Xiaoge Zhang, Jinwei Sun, Shiping Zhang, Feng-Lei Fan, (参考訳) 生物学的ニューロンの複雑さと多様性にインスパイアされた二次ニューロンは、現在のニューロンの内部積を単純化された二次関数で置き換えることが提案されている。 このような新しいタイプのニューロンを採用することで、ディープラーニングの開発に新たな視点がもたらされる。 二次ニューロンを解析する際には、不均一ネットワークがニューロンの多項式数とよく近似できる関数が存在するが、純粋に従来的あるいは二次的ネットワークは、同じレベルのエラーを達成するために指数的な数のニューロンを必要とする。 ヘテロジニアスネットワークにおけるこの理論的な結果によって、我々は従来のニューロンと二次ニューロンを直接オートエンコーダに統合し、新しいタイプのヘテロジニアスオートエンコーダを作成する。 我々の知る限りでは、異なる種類のニューロンから構成される最初の異種自己エンコーダである。 次に、提案した異種オートエンコーダを、表データの教師なし異常検出と故障信号の保持に適用する。 異常検出は、データ未知性、異常特徴の不均一性、特徴不明性などの困難に直面し、提案した異種オートエンコーダに適している。 その特徴表現能力は、様々な異常データ(異種性)を特徴付けることができ、異常を正常(通知不能)から識別し、正常サンプル(未知)の分布を正確に学習することができる。 実験により、異種オートエンコーダは他の最先端モデルと比較して競合的に機能することが示された。

Inspired by the complexity and diversity of biological neurons, a quadratic neuron is proposed to replace the inner product in the current neuron with a simplified quadratic function. Employing such a novel type of neurons offers a new perspective on developing deep learning. When analyzing quadratic neurons, we find that there exists a function such that a heterogeneous network can approximate it well with a polynomial number of neurons but a purely conventional or quadratic network needs an exponential number of neurons to achieve the same level of error. Encouraged by this inspiring theoretical result on heterogeneous networks, we directly integrate conventional and quadratic neurons in an autoencoder to make a new type of heterogeneous autoencoders. To our best knowledge, it is the first heterogeneous autoencoder that is made of different types of neurons. Next, we apply the proposed heterogeneous autoencoder to unsupervised anomaly detection for tabular data and bearing fault signals. The anomaly detection faces difficulties such as data unknownness, anomaly feature heterogeneity, and feature unnoticeability, which is suitable for the proposed heterogeneous autoencoder. Its high feature representation ability can characterize a variety of anomaly data (heterogeneity), discriminate the anomaly from the normal (unnoticeability), and accurately learn the distribution of normal samples (unknownness). Experiments show that heterogeneous autoencoders perform competitively compared to other state-of-the-art models.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 量子SWITCHによる情報バックフローの活性化

Activating information backflow with the assistance of quantum SWITCH ( http://arxiv.org/abs/2206.04524v3 )

ライセンス: Link先を確認
Ananda G. Maity, Samyadeb Bhattacharya, (参考訳) マルコフ的でない間は、情報のバックフローを示すことはない。 これら2つの動的マップの適用順序が明確でないシナリオでは,このような動的マップが2つ検討されている場合,有効なチャネルが情報バックフローを示す可能性があることを示す。 特に、そのようなチャネルを活性化するために量子SWITCHを使用する。 対照的に、これらのチャンネルのアクティベートは、連続または並列動作でそのようなチャンネルのコピーを多用しても不可能である。 次に、この量子SWITCH実験の背景となる力学を調べた結果、CP(Complete Positive)-ディバイザビリティとP(Positive)-ディバイザビリティの両方の量子SWITCHが作用した後、情報逆流の活性化とともにチャネルのディバイザビリティが破壊されることが判明した。 本研究では、量子SWITCHの利点を、その動的挙動を調べることによって解明する。

There are certain dynamics while being non-Markovian, do never exhibit information backflow. We show that if two such dynamical maps are considered in a scenario where the order of application of these two dynamical maps are not definite, the effective channel can manifest information backflow. In particular, we use quantum SWITCH to activate such a channel. In contrast, activation of those channels are not possible even if one uses many copies of such channels in series or in parallel action. We then investigate the dynamics behind the quantum SWITCH experiment and find out that after the action of quantum SWITCH both the CP (Complete Positive)- divisibility and P (Positive)- divisibility of the channel breaks down, along with the activation of information backflow. Our study elucidate the advantage of quantum SWITCH by investigating its dynamical behavior.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 波高予測のための回帰による出力確率予測

Exceedance Probability Forecasting via Regression for Significant Wave Height Prediction ( http://arxiv.org/abs/2206.09821v3 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo, (参考訳) 波高予測は、海洋データ分析において重要な問題である。 この問題は、船舶の航路を管理したり、波からのエネルギー生産を見積もるなど、いくつかの海上作戦に関係している。 本研究は,沿岸災害の原因となる大きな波高の極端な値の予測に焦点をあてる。 このタスクは、超越確率予測問題としてフレーム化される。 そこで本研究では,有意波高が予め定義された臨界しきい値を超える確率を推定することを目的とする。 この問題は通常確率的二項分類モデルを用いて解決される。 そこで本研究では,予測モデルに基づく新しい手法を提案する。 確率的バイナリ予測は意思決定に関する情報を合理化し、ポイント予測はデータダイナミクスに関するさらなる洞察を与えることができる。 提案手法は, 累積分布関数を用いて, 点予測を超越確率推定に変換する。 カナダ・ハリファックス沿岸のブイから得られたデータを用いて実験を行った。 その結果,提案手法は,超越確率予測のための最先端手法よりも優れていることが示唆された。

Significant wave height forecasting is a key problem in ocean data analytics. This problem is relevant in several maritime operations, such as managing the passage of vessels or estimating the energy production from waves. In this work, we focus on the prediction of extreme values of significant wave height that can cause coastal disasters. This task is framed as an exceedance probability forecasting problem. Accordingly, we aim to estimate the probability that the significant wave height will exceed a predefined critical threshold. This problem is usually solved using a probabilistic binary classification model. Instead, we propose a novel approach based on a forecasting model. A probabilistic binary forecast streamlines information for decision-making, and point forecasts can provide additional insights into the data dynamics. The proposed method works by converting point forecasts into exceedance probability estimates using the cumulative distribution function. We carried out experiments using data from a buoy placed on the coast of Halifax, Canada. The results suggest that the proposed methodology is better than state-of-the-art approaches for exceedance probability forecasting.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 非パラメトリック選択モデルのアクティブラーニング

Active Learning for Non-Parametric Choice Models ( http://arxiv.org/abs/2208.03346v2 )

ライセンス: Link先を確認
Fransisca Susan, Negin Golrezaei, Ehsan Emamjomeh-Zadeh, David Kempe, (参考訳) 本研究では,消費者の判断に基づいて,非パラメトリック選択モデルを積極的に学習する問題について検討する。 このような選択モデルが識別できない可能性があることを示す否定的な結果を示す。 識別可能性の問題を克服するために、選択モデルの有向非巡回グラフ(DAG)表現を導入する。 この表現は、すべての選択確率を計算できるという意味で、利用可能なデータから推測できる選択モデルに関する全ての情報を証明的に符号化する。 アイテム集合の集合に対する正確な選択確率が与えられた場合、DAGを再構築することができる。 しかし、この方法論を拡張して、アクティブな学習プロセス中に得られたノイズの多い選択周波数データからDAGを推定しようとすると、不正確になる。 この課題に対処するため,DAGレベルのエラー伝搬を効果的に管理する包含排除手法を提案し,より正確なDAG推定を行う。 この手法を用いて,提案アルゴリズムは基礎となる非パラメトリック選択モデルのDAG表現を推定する。 このアルゴリズムは、頻繁なランクの集合がランダムに一様に描画されたときに(多項式時間で)効率的に動作する。 頻繁な嗜好型の中で最も人気のある項目の分布を積極的に繰り返し提供し、選択した項目を観察することで学習する。 提案アルゴリズムは, 消費者の嗜好に基づく合成データセットと公開データセットの両方において, 対応する非アクティブ学習推定アルゴリズムと比較して, 頻繁な嗜好の集合をより効果的に回収することを示した。 これらの結果は,我々のアルゴリズムの価値と,消費者行動のモデル化におけるアクティブラーニングアプローチの適用性を明らかにするものである。

We study the problem of actively learning a non-parametric choice model based on consumers' decisions. We present a negative result showing that such choice models may not be identifiable. To overcome the identifiability problem, we introduce a directed acyclic graph (DAG) representation of the choice model. This representation provably encodes all the information about the choice model which can be inferred from the available data, in the sense that it permits computing all choice probabilities. We establish that given exact choice probabilities for a collection of item sets, one can reconstruct the DAG. However, attempting to extend this methodology to estimate the DAG from noisy choice frequency data obtained during an active learning process leads to inaccuracies. To address this challenge, we present an inclusion-exclusion approach that effectively manages error propagation across DAG levels, leading to a more accurate estimate of the DAG. Utilizing this technique, our algorithm estimates the DAG representation of an underlying non-parametric choice model. The algorithm operates efficiently (in polynomial time) when the set of frequent rankings is drawn uniformly at random. It learns the distribution over the most popular items among frequent preference types by actively and repeatedly offering assortments of items and observing the chosen item. We demonstrate that our algorithm more effectively recovers a set of frequent preferences on both synthetic and publicly available datasets on consumers' preferences, compared to corresponding non-active learning estimation algorithms. These findings underscore the value of our algorithm and the broader applicability of active-learning approaches in modeling consumer behavior.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# PA-Boot: マルチプロセッサセキュアブートのための形式的に検証された認証プロトコル

PA-Boot: A Formally Verified Authentication Protocol for Multiprocessor Secure Boot ( http://arxiv.org/abs/2209.07936v2 )

ライセンス: Link先を確認
Zhuoruo Zhang, Chenyang Yu, Rui Chang, Mingshuai Chen, Bo Feng, He Huang, Qinming Dai, Wenbo Shen, Yongwang Zhao, (参考訳) ハードウェアサプライチェーン攻撃は、マルチプロセッサシステムのブートプロセスに重大なセキュリティ脅威を引き起こしている。 本稿では,プロセッサ認証機構の欠如により,マルチプロセッサのセキュアブートを回避可能なハードウェアサプライチェーンアタックサーフェスを提案する。 このような攻撃に対する防御として,マルチプロセッサシステムにおけるセキュアブートのためのプロセッサ認証プロトコルとして,PA-Bootを提案する。 PA-Bootは機能的に正しいことが証明され、例えば、プロセッサ置換、man-in-the-middle攻撃、証明書の改ざんなど、複数の敵動作を検出することが保証されている。 PA-Bootの微細な形式化とその完全に機械化されたセキュリティ証明は、306 lemmas/theorems および ~7,100 LoC のIsabelle/HOL定理証明器で実行される。 概念実証実装の実験は、PA-Bootがブートプロセス攻撃をかなり小さなオーバーヘッドで効果的に識別でき、それによってマルチプロセッサシステムのセキュリティが向上することを示している。

Hardware supply-chain attacks are raising significant security threats to the boot process of multiprocessor systems. This paper identifies a new, prevalent hardware supply-chain attack surface that can bypass multiprocessor secure boot due to the absence of processor-authentication mechanisms. To defend against such attacks, we present PA-Boot, the first formally verified processor-authentication protocol for secure boot in multiprocessor systems. PA-Boot is proved functionally correct and is guaranteed to detect multiple adversarial behaviors, e.g., processor replacements, man-in-the-middle attacks, and tampering with certificates. The fine-grained formalization of PA-Boot and its fully mechanized security proofs are carried out in the Isabelle/HOL theorem prover with 306 lemmas/theorems and ~7,100 LoC. Experiments on a proof-of-concept implementation indicate that PA-Boot can effectively identify boot-process attacks with a considerably minor overhead and thereby improve the security of multiprocessor systems.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 任意次元における非ブロックバンド理論のアメーバ定式化

Amoeba Formulation of Non-Bloch Band Theory in Arbitrary Dimensions ( http://arxiv.org/abs/2212.11743v2 )

ライセンス: Link先を確認
Hong-Yi Wang, Fei Song, Zhong Wang, (参考訳) 非エルミートスキン効果は、非エルミート系のエネルギーバンドを劇的に再認識し、通常のブロッホ・バンド理論がその特性として根本的に不十分であることを意味する。 ブリルアンゾーンの概念が一般化された非ブロックバンド理論は、1つの空間次元における非エルミート系の研究に広く応用されている。 しかし、高次元への一般化は困難である。 ここでは,アメーバと呼ばれる自然幾何学的対象に基づいて,任意の空間次元における非エルミタンスキン効果と非ブロッホバンド理論の定式化を開発する。 我々の理論は、1次元を超えて非エルミート帯域を研究するための一般的な枠組みを提供する。 エネルギースペクトル、固有状態プロファイル、一般化されたブリルアンゾーンを含む非エルミートバンドの重要な量は、このアプローチから効率的に得ることができる。

The non-Hermitian skin effect dramatically reshapes the energy bands of non-Hermitian systems, meaning that the usual Bloch band theory is fundamentally inadequate as their characterization. The non-Bloch band theory, in which the concept of Brillouin zone is generalized, has been widely applied to investigate non-Hermitian systems in one spatial dimension. However, its generalization to higher dimensions has been challenging. Here, we develop a formulation of the non-Hermitian skin effect and non-Bloch band theory in arbitrary spatial dimensions, which is based on a natural geometrical object known as the amoeba. Our theory provides a general framework for studying non-Hermitian bands beyond one dimension. Key quantities of non-Hermitian bands, including the energy spectrum, eigenstates profiles, and the generalized Brillouin zone, can be efficiently obtained from this approach.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 操作量子力学と最小スクランブル

Operational Quantum Mereology and Minimal Scrambling ( http://arxiv.org/abs/2212.14340v4 )

ライセンス: Link先を確認
Paolo Zanardi, Emanuel Dallas, Faidon Andreadakis, Seth Lloyd, (参考訳) 本稿では,系の力学則から生じる自然量子サブシステムとは何か,という問いに答える。 この質問に答えるために、まず可観測性の観点から一般化テンソル積構造(gTPS)を作用素部分代数 $\cal A$ とその可換体の双対として定義する。 第2に、gTPSを動的に選択するために、短時間でスクランブルする最小限の情報の運用基準を提案する。 このようにして、創発的なサブシステムは、最も長い情報的アイデンティティを保持するサブシステムである。 この戦略は、時間秩序相関関数(OTOC)の代数版、すなわち$\cal A$-OTOCの短期展開という観点からガウススクランブル率を定義することによって定量化される。 ガウスのスクランブルレートは、サブシステムへの一般分割の物理的に重要なケースに対して解析的に計算され、サブシステム間の相互作用強度の最小化という観点から、直感的で説得力のある物理的解釈を持つことが示されている。

In this paper we will attempt to answer the following question: what are the natural quantum subsystems which emerge out of a system's dynamical laws? To answer this question we first define generalized tensor product structures (gTPS) in terms of observables, as dual pairs of an operator subalgebra $\cal A$ and its commutant. Second, we propose an operational criterion of minimal information scrambling at short time scales to dynamically select gTPS. In this way the emergent subsystems are those which maintain the longest informational identity. This strategy is made quantitative by defining a Gaussian scrambling rate in terms of the short-time expansion of an algebraic version of the Out of Time Order Correlation (OTOC) function i.e., the $\cal A$-OTOC. The Gaussian scrambling rate is computed analytically for physically important cases of general division into subsystems, and is shown to have an intuitive and compelling physical interpretation in terms of minimizing the interaction strength between subsystems.
翻訳日:2024-04-27 00:37:16 公開日:2024-04-25
# 一般量子ウィーランドの不等式

A generic quantum Wielandt's inequality ( http://arxiv.org/abs/2301.08241v3 )

ライセンス: Link先を確認
Yifan Jia, Angela Capel, (参考訳) 量子ウィランドの不等式は、生成系内の要素の積の長さ-k$が$M_n(\mathbb{C})$であるような最小長$k$の最適上限を与える。 一般に$k$は$\mathcal{O}(n^2)$の次数でなければならないと推測されている。 本稿では、これまでの文献で問題がどのように研究されてきたのか、また線型代数における古典的問題との関係、すなわち代数 $M_n(\mathbb{C})$ の長さについて概説する。 量子ウィーランドの不等式の一般的なバージョンを提供し、確率 1 で最適な長さを与える。 より具体的には、[KS16] に基づいて、$k$ が次数 $\Theta(\log n)$ であることを証明する。 この結果は、ランダムな量子チャネルのプライミティティ指数に新たなバウンダリを与えることを意味する。 さらに、プロジェクテッド・アンタングルド・ペア状態の長年の開問題に新たな光を当て、ほとんどすべての変換不変なPEPS(特に行列積状態)が、辺長が$\Omega( \log n )$ の格子上の周期的境界条件を持つことを結論付ける。 行列リー代数の同様の特性を観察し、ランダムリー生成系に対して数値的な結果を与える。

Quantum Wielandt's inequality gives an optimal upper bound on the minimal length $k$ such that length-$k$ products of elements in a generating system span $M_n(\mathbb{C})$. It is conjectured that $k$ should be of order $\mathcal{O}(n^2)$ in general. In this paper, we give an overview of how the question has been studied in the literature so far and its relation to a classical question in linear algebra, namely the length of the algebra $M_n(\mathbb{C})$. We provide a generic version of quantum Wielandt's inequality, which gives the optimal length with probability one. More specifically, we prove based on [KS16] that $k$ generically is of order $\Theta(\log n)$, as opposed to the general case, in which the best bound to date is $\mathcal O(n^2 \log n)$. Our result implies a new bound on the primitivity index of a random quantum channel. Furthermore, we shed new light on a long-standing open problem for Projected Entangled Pair State, by concluding that almost any translation-invariant PEPS (in particular, Matrix Product State) with periodic boundary conditions on a grid with side length of order $\Omega( \log n )$ is the unique ground state of a local Hamiltonian. We observe similar characteristics for matrix Lie algebras and provide numerical results for random Lie-generating systems.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# Baggingが見積もり不要の安定性を提供

Bagging Provides Assumption-free Stability ( http://arxiv.org/abs/2301.12600v3 )

ライセンス: Link先を確認
Jake A. Soloff, Rina Foygel Barber, Rebecca Willett, (参考訳) バギングは、機械学習モデルを安定化するための重要なテクニックである。 本稿では,任意のモデルに対するバギングの安定性に関する有限サンプル保証を導出する。 この結果から,データの分布,基本アルゴリズムの特性,あるいは共変数の次元性に関する仮定は得られない。 私たちの保証は、バッグングの多くの変種に適用され、定数まで最適です。 実験結果から, バッグングが高度に不安定なベースアルゴリズムの安定化に成功していることが明らかとなった。

Bagging is an important technique for stabilizing machine learning models. In this paper, we derive a finite-sample guarantee on the stability of bagging for any model. Our result places no assumptions on the distribution of the data, on the properties of the base algorithm, or on the dimensionality of the covariates. Our guarantee applies to many variants of bagging and is optimal up to a constant. Empirical results validate our findings, showing that bagging successfully stabilizes even highly unstable base algorithms.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# マルチアンテナシステムにおける電子オーバー・ザ・エア・フェデレーション学習

Digital Over-the-Air Federated Learning in Multi-Antenna Systems ( http://arxiv.org/abs/2302.14648v3 )

ライセンス: Link先を確認
Sihua Wang, Mingzhe Chen, Cong Shen, Changchuan Yin, Christopher G. Brinton, (参考訳) 本稿では,現実的な無線マルチインプット・マルチアウトプット(MIMO)通信システム上での連系学習(FL)の性能最適化について検討する。 特に、エッジデバイスが(ローカル収集データを用いて訓練された)ローカルFLモデルをビームフォーミングを用いてパラメータサーバ(PS)に送信し、送信予定デバイスの数を最大化するMIMOシステムを考える。 中央コントローラとして機能するPSは、受信したローカルFLモデルを使用してグローバルFLモデルを生成し、それを全デバイスにブロードキャストする。 無線ネットワークの帯域幅が限られているため、効率的な無線データアグリゲーションを実現するためにAirCompが採用されている。 しかし、無線チャネルのフェードはAirCompベースのFLスキームにおいて集約歪みを生じさせる。 この課題に対処するために,デジタル変調とAirCompを組み合わせたFedAvg(FedAvg)アルゴリズムを提案する。 これは、現在のFLモデルパラメータに基づいてビームフォーミング行列を動的に調整し、送信誤差を最小化し、FL性能を確保する最適化問題として定式化されたビームフォーミング設計により達成される。 この目的を達成するために、まずビームフォーミング行列が異なるイテレーションにおけるFedAvgの性能にどのように影響するかを解析的に特徴付ける。 この関係に基づいて、人工知能ニューラルネットワーク(ANN)を用いて、全デバイスの局所FLモデルを推定し、将来のモデル伝送のためにPSのビーム形成行列を調整する。 提案手法のアルゴリズム的優位性と改良性能は,広範囲な数値実験により実証された。

In this paper, the performance optimization of federated learning (FL), when deployed over a realistic wireless multiple-input multiple-output (MIMO) communication system with digital modulation and over-the-air computation (AirComp) is studied. In particular, a MIMO system is considered in which edge devices transmit their local FL models (trained using their locally collected data) to a parameter server (PS) using beamforming to maximize the number of devices scheduled for transmission. The PS, acting as a central controller, generates a global FL model using the received local FL models and broadcasts it back to all devices. Due to the limited bandwidth in a wireless network, AirComp is adopted to enable efficient wireless data aggregation. However, fading of wireless channels can produce aggregate distortions in an AirComp-based FL scheme. To tackle this challenge, we propose a modified federated averaging (FedAvg) algorithm that combines digital modulation with AirComp to mitigate wireless fading while ensuring the communication efficiency. This is achieved by a joint transmit and receive beamforming design, which is formulated as an optimization problem to dynamically adjust the beamforming matrices based on current FL model parameters so as to minimize the transmitting error and ensure the FL performance. To achieve this goal, we first analytically characterize how the beamforming matrices affect the performance of the FedAvg in different iterations. Based on this relationship, an artificial neural network (ANN) is used to estimate the local FL models of all devices and adjust the beamforming matrices at the PS for future model transmission. The algorithmic advantages and improved performance of the proposed methodologies are demonstrated through extensive numerical experiments.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# ハードウェア要件としての説明可能性:説明可能なハードウェア(XHW)の導入

Explainability as a Requirement for Hardware: Introducing Explainable Hardware (XHW) ( http://arxiv.org/abs/2302.14661v2 )

ライセンス: Link先を確認
Timo Speith, Julian Speith, Steffen Becker, Yixin Zou, Asia Biega, Christof Paar, (参考訳) 今日のデジタル技術の時代には、コンピューティングシステムに関する倫理的な懸念が増している。 このような懸念の焦点は現在、ソフトウェアの要件に焦点を当てていますが、この記事では、ハードウェア領域、特にマイクロチップに注目します。 例えば、現代のマイクロチップの不透明さは、悪意のあるアクターがそれらを操作でき、システムの整合性を脅かすため、セキュリティ上の問題を引き起こす。 その結果、政府は安全なマイクロチップのサプライチェーンを促進するために大幅に投資した。 本稿では,ハードウェアの不透明さに対処するために,説明可能なハードウェア(XHW)の概念を紹介する。 説明可能なAI(XAI)と説明可能なソフトウェアシステムに関する以前の研究に触発され、私たちは、関連するステークホルダー、ハードウェアに関する可能性のある要件、これらの要件を満たすための説明可能性アプローチを含むXHWを達成するためのフレームワークを開発しました。 18人のハードウェア専門家による探索的な調査を通じて、このフレームワークの応用を紹介し、潜在的な研究ギャップを発見する。 我々の研究は、XHWに関する今後の研究と構造化された議論の基礎を築いた。

In today's age of digital technology, ethical concerns regarding computing systems are increasing. While the focus of such concerns currently is on requirements for software, this article spotlights the hardware domain, specifically microchips. For example, the opaqueness of modern microchips raises security issues, as malicious actors can manipulate them, jeopardizing system integrity. As a consequence, governments invest substantially to facilitate a secure microchip supply chain. To combat the opaqueness of hardware, this article introduces the concept of Explainable Hardware (XHW). Inspired by and building on previous work on Explainable AI (XAI) and explainable software systems, we develop a framework for achieving XHW comprising relevant stakeholders, requirements they might have concerning hardware, and possible explainability approaches to meet these requirements. Through an exploratory survey among 18 hardware experts, we showcase applications of the framework and discover potential research gaps. Our work lays the foundation for future work and structured debates on XHW.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# GADformer: 軌道上のグループ異常検出のための透過トランスフォーマーモデル

GADformer: A Transparent Transformer Model for Group Anomaly Detection on Trajectories ( http://arxiv.org/abs/2303.09841v2 )

ライセンス: Link先を確認
Andreas Lohrer, Darpan Malik, Claudius Zelenka, Peer Kröger, (参考訳) グループ異常検出(GAD)は、個々のメンバーが異常ではない場合の異常なパターンを特定する。 このタスクは複数の分野において重要な意味を持ち、軌道のような列も群として考えることができる。 群は異質性や大きさの多様性が増すにつれて、特に監督なしに集団異常の検出が困難になる。 リカレントニューラルネットワークはよく確立されたディープシーケンスモデルであるが、シーケンス長の増大に伴い性能が低下する可能性がある。 そこで本稿では,非教師付きおよび半教師付き設定におけるトラジェクトリ上での注意駆動型GADモデルであるGADformerを紹介する。 注意に基づくGADにより集団異常を検出できることを示す。 また,Block-Attention-anomaly-Score (BAS)を導入し,注意パターンを評価することでモデルの透明性を高める。 それに加えて、合成軌道生成は様々なアブレーション研究を可能にする。 広範にわたる実験では,3つの実世界のデータセットと合成データに対するトラジェクティブノイズと新規性に対するロバスト性について,我々のアプローチと関連する研究について検討する。

Group Anomaly Detection (GAD) identifies unusual pattern in groups where individual members might not be anomalous. This task is of major importance across multiple disciplines, in which also sequences like trajectories can be considered as a group. As groups become more diverse in heterogeneity and size, detecting group anomalies becomes challenging, especially without supervision. Though Recurrent Neural Networks are well established deep sequence models, their performance can decrease with increasing sequence lengths. Hence, this paper introduces GADformer, a BERT-based model for attention-driven GAD on trajectories in unsupervised and semi-supervised settings. We demonstrate how group anomalies can be detected by attention-based GAD. We also introduce the Block-Attention-anomaly-Score (BAS) to enhance model transparency by scoring attention patterns. In addition to that, synthetic trajectory generation allows various ablation studies. In extensive experiments we investigate our approach versus related works in their robustness for trajectory noise and novelties on synthetic data and three real world datasets.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# 古典的な量子非シグナリングボックス

Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v3 )

ライセンス: Link先を確認
Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins, Sandu Popescu, (参考訳) ここでは、古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。 このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。 論文で論じられている主な問題は、既に知られている物体、すなわち、事前に共有された量子粒子に作用するC-Cボックスから、C-Qボックスまたは全てのC-Qボックスを構築することができるかどうかである。 C-Q ボックスの大規模なクラスは非遺伝的であることを示す。 特に、純状態の出力を持つ全ての二部C-Qボックスが非GAであることを示す。 また,解答がまだオープンな混合状態を出力するマルチパーティC-Qボックスなど,一般問題に対処するための様々な戦略も提示する。 最後に、非常に単純なC-Qボックスでさえ、それらをシミュレートするために大量のC-C非局所相関を必要とすることを示す。

Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist 'genuine' C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non-genuine. In particular, we show that all bi-partite C-Q boxes with outputs that are pure states are non-genuine. We also present various strategies for addressing the general problem, i.e. for multi-partite C-Q boxes which output mixed states, whose answer is still open. Finally, we show that even some very simple non-genuine C-Q boxes require large amounts of C-C nonlocal correlations in order to simulate them.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# 機械学習・アズ・ア・サービス推論の低コスト結果検証のための生成フレームワーク

A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference ( http://arxiv.org/abs/2304.00083v4 )

ライセンス: Link先を確認
Abhinav Kumar, Miguel A. Guirao Aguilera, Reza Tourani, Satyajayant Misra, (参考訳) 機械学習(ML)の人気が高まり、さまざまなセンシティブなドメインにデプロイされるようになり、MLのセキュリティとプライバシを重視した大きな研究がもたらされた。 しかし、Augmented/Virtual Realityのようないくつかのアプリケーションでは、アウトソースされたMLタスクの整合性検証がより重要である。 マルチパーティ計算や証明ベースシステムといった既存のソリューションは、計算オーバーヘッドがかなり大きいため、リアルタイムアプリケーションには適さない。 MLaaS(ML-as-a-Service)推論をリアルタイムに検証するための新しいフレームワークであるFidesを提案する。 Fidesは、信頼された実行環境内で実行中に対応するサービスモデルを検証するための、空間を動的に蒸留し微調整する、新しい、効率的な蒸留技術である、Greedy Distillation Transfer Learningを特徴としている。 Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。 Fidesはまた、攻撃が特定されるたびに元のクラスを予測する再分類機能を提供する。 攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。 評価の結果,攻撃検出では98%,再分類では94%の精度が得られた。

The growing popularity of Machine Learning (ML) has led to its deployment in various sensitive domains, which has resulted in significant research focused on ML security and privacy. However, in some applications, such as Augmented/Virtual Reality, integrity verification of the outsourced ML tasks is more critical--a facet that has not received much attention. Existing solutions, such as multi-party computation and proof-based systems, impose significant computation overhead, which makes them unfit for real-time applications. We propose Fides, a novel framework for real-time integrity validation of ML-as-a-Service (MLaaS) inference. Fides features a novel and efficient distillation technique--Greedy Distillation Transfer Learning--that dynamically distills and fine-tunes a space and compute-efficient verification model for verifying the corresponding service model while running inside a trusted execution environment. Fides features a client-side attack detection model that uses statistical analysis and divergence measurements to identify, with a high likelihood, if the service model is under attack. Fides also offers a re-classification functionality that predicts the original class whenever an attack is identified. We devised a generative adversarial network framework for training the attack detection and re-classification models. The evaluation shows that Fides achieves an accuracy of up to 98% for attack detection and 94% for re-classification.
翻訳日:2024-04-27 00:27:30 公開日:2024-04-25
# コーディネート変換による勾配法の改善:量子機械学習への応用

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning ( http://arxiv.org/abs/2304.06768v2 )

ライセンス: Link先を確認
Pablo Bermejo, Borja Aizpurua, Roman Orus, (参考訳) 機械学習アルゴリズムは、古典的バージョンと量子的バージョンの両方において、勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。 全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。 実際には、これはAIアプリケーションに対する劇的な計算とエネルギーコストをもたらす。 本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。 我々の手法は座標変換に基づいており、幾らか変動回転に似ており、コスト関数自体に依存するパラメータ空間に余分な方向を追加し、より効率的に構成環境を探索することができる。 提案手法の有効性は,多数の量子機械学習アルゴリズムを高速化し,その性能を著しく向上させることによって評価される。

Machine learning algorithms, both in their classical and quantum versions, heavily rely on optimization algorithms based on gradients, such as gradient descent and alike. The overall performance is dependent on the appearance of local minima and barren plateaus, which slow-down calculations and lead to non-optimal solutions. In practice, this results in dramatic computational and energy costs for AI applications. In this paper we introduce a generic strategy to accelerate and improve the overall performance of such methods, allowing to alleviate the effect of barren plateaus and local minima. Our method is based on coordinate transformations, somehow similar to variational rotations, adding extra directions in parameter space that depend on the cost function itself, and which allow to explore the configuration landscape more efficiently. The validity of our method is benchmarked by boosting a number of quantum machine learning algorithms, getting a very significant improvement in their performance.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# ディープニューラルネットワークの近似と補間

Approximation and interpolation of deep neural networks ( http://arxiv.org/abs/2304.10552v2 )

ライセンス: Link先を確認
Vlad-Raul Constantinescu, Ionel Popescu, (参考訳) 本稿では、過度にパラメータ化された状態において、ディープニューラルネットワークが普遍近似を提供し、アクティベーション関数が局所的に$L^1(\RR)$でありアフィン関数ではない限り、任意のデータセットを補間できることを示す。 さらに、活性化関数が滑らかでそのような補間ネットワークが存在するなら、補間するパラメータの集合は多様体を形成する。 さらに,補間点において評価された損失関数のヘシアン特性について述べる。 最後の節では、活性化関数の一般的な条件下でそのような点を見つけるための実用的な確率的方法を提案する。

In this paper, we prove that in the overparametrized regime, deep neural network provide universal approximations and can interpolate any data set, as long as the activation function is locally in $L^1(\RR)$ and not an affine function. Additionally, if the activation function is smooth and such an interpolation networks exists, then the set of parameters which interpolate forms a manifold. Furthermore, we give a characterization of the Hessian of the loss function evaluated at the interpolation points. In the last section, we provide a practical probabilistic method of finding such a point under general conditions on the activation function.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# 記述に基づくテキストの類似性

Description-Based Text Similarity ( http://arxiv.org/abs/2305.12517v3 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg, (参考訳) 与えられたセマンティクスでテキストを識別することは、多くの情報検索シナリオの中心である。 ベクトル埋め込みに対する類似性探索は、この能力の中心にあるように見えるが、現在のテキスト埋め込みに反映される類似性はコーパス駆動であり、多くのユースケースでは矛盾し、準最適である。 では、テキストを効果的に検索する上で、類似性のよい概念は何だろうか? 我々は,その内容の抽象的な記述とそれに対応する「emph{description based similarity}」の概念に基づいて,テキストの検索の必要性を特定する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルはLLMのプロンプトを通じて、正と負のペアを使ってトレーニングされ、LLMからのデータを使って、元のモデルではすぐには不可能な新しい機能を作成する方法を示している。

Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# IDEA: グラフ対逆ロバスト性のための不変ディフェンス

IDEA: Invariant Defense for Graph Adversarial Robustness ( http://arxiv.org/abs/2305.15792v2 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Bingbing Xu, Xueqi Cheng, (参考訳) グラフニューラルネットワーク(GNN)の成功にもかかわらず、敵攻撃に対するその脆弱性は、実用的なアプリケーションに重大な課題をもたらす。 既存の防御手法は、観測された敵の限られた例または事前に定義されたヒューリスティックのため、目に見えない攻撃の下で深刻な性能低下に悩まされる。 これらの制約に対処するため、我々はグラフ対逆攻撃の因果関係を分析し、グラフ対逆ロバスト性を達成するために因果的特徴が重要であると結論づける。 これらの因果的特徴を学習するために,敵攻撃(IDEA)に対する不変因果解法を革新的に提案する。 我々は,情報理論の観点から,ノードと構造に基づく分散目標を導出する。 IDEAは、ラベルの強い予測可能性と攻撃間の不変性を保証する。 大規模な実験では、IDEAは5つのデータセットすべてに対する5つの攻撃に対して、最先端の防御性能を達成している。 IDEAの実装はhttps://anonymous.4open.science/r/IDEAで公開されている。

Despite the success of graph neural networks (GNNs), their vulnerability to adversarial attacks poses tremendous challenges for practical applications. Existing defense methods suffer from severe performance decline under unseen attacks, due to either limited observed adversarial examples or pre-defined heuristics. To address these limitations, we analyze the causalities in graph adversarial attacks and conclude that causal features are key to achieve graph adversarial robustness, owing to their determinedness for labels and invariance across attacks. To learn these causal features, we innovatively propose an Invariant causal DEfense method against adversarial Attacks (IDEA). We derive node-based and structure-based invariance objectives from an information-theoretic perspective. IDEA ensures strong predictability for labels and invariant predictability across attacks, which is provably a causally invariant defense across various attacks. Extensive experiments demonstrate that IDEA attains state-of-the-art defense performance under all five attacks on all five datasets. The implementation of IDEA is available at https://anonymous.4open.science/r/IDEA.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# 多部グラフ表現によるスパースニューラルネットワークのトポロジからの理解

Understanding Sparse Neural Networks from their Topology via Multipartite Graph Representations ( http://arxiv.org/abs/2305.16886v2 )

ライセンス: Link先を確認
Elia Cunegatti, Matteo Farina, Doina Bucur, Giovanni Iacca, (参考訳) Pruning-at-Initialization (PaI)アルゴリズムは、SNN(Sparse Neural Networks)を提供する。 プルーンに 'emph{how} に重点を置いているが、SNN の \emph{what topological metrics} が \emph{good performance} を特徴づけていることはいまだ分かっていない。 これまでの作業から、SNNのパフォーマンスを予測できるレイヤワイドなトポロジメトリクス(Ramanujanベースのメトリクス)があります。 これらのメトリクスを利用するには、Graph Encodings(GE)を介してネットワーク層を表現する適切な方法が必要であり、BGE(Bipartite Graph Encodings)が現在のemph{de-facto}標準となっている。 それでも既存のBGEは入力の影響を無視し、SNNをエンドツーエンドで特徴づけない。 さらに、ラマヌジャンに基づくメトリクスの徹底的な研究により、BGEと組み合わせた場合、それらが性能予測器と同等に優れていることが判明した。 両方のギャップを埋めるため、線形層と畳み込み層の両方を持つSNNの総合的なトポロジ解析を設計する。 (i)SNNとMGEのための新しい入力対応マルチパートグラフ符号化(MGE) (II) MGE上の新しいエンドツーエンドのトポロジメトリクスの設計。 これらの斬新さから、以下のことが分かる。 (a)提案したMGEは、現在の入力に依存しないBGEから計算した指標よりも、精度低下の予測器としてはるかに優れたトポロジカルメトリクスを抽出することができる。 b) どの指標が、異なる疎度レベルと異なるアーキテクチャにおいて重要であるか。 (c)我々のトポロジカルメトリクスの混合は、ラマヌジャンのメトリクスよりもPaIアルゴリズムを効果的にランク付けすることができる。 コードベースはhttps://github.com/eliacunegatti/mge-snnで公開されている。

Pruning-at-Initialization (PaI) algorithms provide Sparse Neural Networks (SNNs) which are computationally more efficient than their dense counterparts, and try to avoid performance degradation. While much emphasis has been directed towards \emph{how} to prune, we still do not know \emph{what topological metrics} of the SNNs characterize \emph{good performance}. From prior work, we have layer-wise topological metrics by which SNN performance can be predicted: the Ramanujan-based metrics. To exploit these metrics, proper ways to represent network layers via Graph Encodings (GEs) are needed, with Bipartite Graph Encodings (BGEs) being the \emph{de-facto} standard at the current stage. Nevertheless, existing BGEs neglect the impact of the inputs, and do not characterize the SNN in an end-to-end manner. Additionally, thanks to a thorough study of the Ramanujan-based metrics, we discover that they are only as good as the \emph{layer-wise density} as performance predictors, when paired with BGEs. To close both gaps, we design a comprehensive topological analysis for SNNs with both linear and convolutional layers, via (i) a new input-aware Multipartite Graph Encoding (MGE) for SNNs and (ii) the design of new end-to-end topological metrics over the MGE. With these novelties, we show the following: (a) The proposed MGE allows to extract topological metrics that are much better predictors of the accuracy drop than metrics computed from current input-agnostic BGEs; (b) Which metrics are important at different sparsity levels and for different architectures; (c) A mixture of our topological metrics can rank PaI algorithms more effectively than Ramanujan-based metrics. The codebase is publicly available at https://github.com/eliacunegatti/mge-snn.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# 吐き気からのCOVID-19検出

COVID-19 Detection from Exhaled Breath ( http://arxiv.org/abs/2305.19211v2 )

ライセンス: Link先を確認
Nicolo Bellarmino, Giorgio Bozzini, Riccardo Cantoro, Francesco Castelletti, Michele Castelluzzo, Carla Ciricugno, Raffaele Correale, Daniela Dalla Gasperina, Francesco Dentali, Giovanni Poggialini, Piergiorgio Salerno, Giovanni Squillero, Stefano Taborelli, (参考訳) SARS-CoV-2(SARS-CoV-2)は2019年に発生し、新型コロナウイルスのパンデミックを引き起こし、今後4年間で7億7000万件の感染者のうち700万人が死亡した。 世界保健機関(WHO)は感染率の監視と削減に前例のない取り組みを呼び掛け、新たな診断方法の研究を推し進めた。 本稿では,吐き気のみを利用する,安価で高速で非侵襲的な検知システムを提案する。 具体的には、10〜351質量帯の質量スペクトルを、高精度分光計と組み合わせた元のナノサンプリング装置を用いて測定し、その後、原スペクトルをカスタムソフトウェアアルゴリズムで処理し、クリーンで拡張されたデータを最終的に最先端の機械学習アルゴリズムで分類する。 2021年から2022年の間、症状がみられたり、比較的最近病気から回復したために、感染を心配していた約300人の被験者に対して、コントロールされていない臨床試験が実施された。 簡便な使用にもかかわらず,従来のポリメラーゼ鎖反応と抗原検査に匹敵する性能を示した(精度0.95,リコール0.94,特異0.96,F1スコア0.92)。 これらの結果を踏まえて,本システムでは,より迅速で侵襲的でない方法で,最先端の手法に匹敵する結果が得られるため,今後の感染拡大に伴う定期的なスクリーニングや迅速な対応に多大な貢献が期待できると考えている。

The SARS-CoV-2 coronavirus emerged in 2019, causing a COVID-19 pandemic that resulted in 7 million deaths out of 770 million reported cases over the next four years. The global health emergency called for unprecedented efforts to monitor and reduce the rate of infection, pushing the study of new diagnostic methods. In this paper, we introduce a cheap, fast, and non-invasive detection system, which exploits only the exhaled breath. Specifically, provided an air sample, the mass spectra in the 10--351 mass-to-charge range are measured using an original nano-sampling device coupled with a high-precision spectrometer; then, the raw spectra are processed by custom software algorithms; the clean and augmented data are eventually classified using state-of-the-art machine-learning algorithms. An uncontrolled clinical trial was conducted between 2021 and 2022 on some 300 subjects who were concerned about being infected, either due to exhibiting symptoms or having quite recently recovered from illness. Despite the simplicity of use, our system showed a performance comparable to the traditional polymerase-chain-reaction and antigen testing in identifying cases of COVID-19 (that is, 0.95 accuracy, 0.94 recall, 0.96 specificity, and 0.92 F1-score). In light of these outcomes, we think that the proposed system holds the potential for substantial contributions to routine screenings and expedited responses during future epidemics, as it yields results comparable to state-of-the-art methods, providing them in a more rapid and less invasive manner.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# Brainformers: 効率性のためのシンプルさのトレーディング

Brainformers: Trading Simplicity for Efficiency ( http://arxiv.org/abs/2306.00008v2 )

ライセンス: Link先を確認
Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang, Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le, Claire Cui, James Laudon, Jeff Dean, (参考訳) トランスフォーマーは、自然言語処理とコンピュータビジョンにおける最近の成功の中心である。 トランスフォーマーは、ディープネットワークを構築するために、フィードフォワードとセルフアテンションの間で層が交代する、ほぼ均一なバックボーンを持つ。 ここでは、この設計選択を調査し、異なる層プリミティブの置換を持つより複雑なブロックの方が、より効率的であることが見いだされる。 この知見を用いて,フィードフォワード層,高密度フィードフォワード層,アテンション層,各種層正規化およびアクティベーション関数などの多様な層からなる複雑なブロック,Brainformerを開発した。 Brainformerは、品質と効率の両面で、最先端の高密度でスパースなトランスフォーマーよりも一貫して優れています。 トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、GLaMと比べ、2倍のトレーニング収束と5倍のステップタイムを示す。 下流タスク評価では、Brainformerは、GLaMと同様の数のアクティベートパラメータを持つよりも、微調整で、3%高いSuperGLUEスコアを示す。 最後に、Brainformerは、スナップショット評価においてトークン毎の同様の計算でNASで導出されたプライマー密度モデルよりも大幅に優れています。

Transformers are central to recent successes in natural language processing and computer vision. Transformers have a mostly uniform backbone where layers alternate between feed-forward and self-attention in order to build a deep network. Here we investigate this design choice and find that more complex blocks that have different permutations of layer primitives can be more efficient. Using this insight, we develop a complex block, named Brainformer, that consists of a diverse sets of layers such as sparsely gated feed-forward layers, dense feed-forward layers, attention layers, and various forms of layer normalization and activation functions. Brainformer consistently outperforms the state-of-the-art dense and sparse Transformers, in terms of both quality and efficiency. A Brainformer model with 8 billion activated parameters per token demonstrates 2x faster training convergence and 5x faster step time compared to its GLaM counterpart. In downstream task evaluation, Brainformer also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM with a similar number of activated parameters. Finally, Brainformer largely outperforms a Primer dense model derived with NAS with similar computation per token on fewshot evaluations.
翻訳日:2024-04-27 00:17:35 公開日:2024-04-25
# モーダル内およびランク付け型クロスモーダルハードネガティクスとの対比によるビシオ・言語学的構成理解の促進

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding ( http://arxiv.org/abs/2306.08832v4 )

ライセンス: Link先を確認
Le Zhang, Rabiul Awal, Aishwarya Agrawal, (参考訳) 視覚言語モデル(VLM)は、CLIPのような強力な画像テキスト理解能力を示し、ゼロショット画像分類、画像テキスト検索、テキスト・ツー・イメージ生成などの下流タスクの進歩を促進する。 しかし、既存のVLMの組成推論能力は依然として低いままである。 この制限の根源は、事前訓練データセットのイメージとキャプション間の不適切なアライメントにある。 さらに、現在の対照的な学習目的は、関係、行動、属性のようなきめ細かい基礎的なコンポーネントに焦点を合わせず、結果として"言葉のバグ"表現をもたらす。 本稿では,VLMの合成推論を改善するためのシンプルで効果的な手法を提案する。 本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 私たちのアプローチでは特定のアノテーションは必要とせず、余分なパラメータを発生させません。 CLIPと統合すると、5つの視覚言語構成ベンチマークで最先端のベースラインよりも顕著な改善が得られます。 ソースコードはhttps://github.com/lezhang7/Enhance-FineGrained.comで公開しています。

Vision-Language Models (VLMs), such as CLIP, exhibit strong image-text comprehension abilities, facilitating advances in several downstream tasks such as zero-shot image classification, image-text retrieval, and text-to-image generation. However, the compositional reasoning abilities of existing VLMs remains subpar. The root of this limitation lies in the inadequate alignment between the images and captions in the pretraining datasets. Additionally, the current contrastive learning objective fails to focus on fine-grained grounding components like relations, actions, and attributes, resulting in "bag-of-words" representations. We introduce a simple and effective method to improve compositional reasoning in VLMs. Our method better leverages available datasets by refining and expanding the standard image-text contrastive learning framework. Our approach does not require specific annotations and does not incur extra parameters. When integrated with CLIP, our technique yields notable improvement over state-of-the-art baselines across five vision-language compositional benchmarks. We open-source our code at https://github.com/lezhang7/Enhance-FineGrained.
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# 線形モデルにおけるDropout Regularization Versus $\ell_2$-Penalization

Dropout Regularization Versus $\ell_2$-Penalization in the Linear Model ( http://arxiv.org/abs/2306.10529v2 )

ライセンス: Link先を確認
Gabriel Clara, Sophie Langer, Johannes Schmidt-Hieber, (参考訳) 線形回帰モデルにおける降下を伴う勾配降下の統計的挙動について検討する。 特に、期待と共分散行列の収束に対する非漸近境界が導出される。 その結果、線形モデルにおけるドロップアウトとl2-正則化の間の広く引用される関係についてより光を当てた。 我々は、勾配勾配勾配のダイナミクスと、ドロップアウトによって引き起こされる追加のランダム性の間の相互作用により、より微妙な関係を示す。 さらに、正規化効果を持たず最小二乗推定器に収束する簡易なドロップアウト変種について検討する。

We investigate the statistical behavior of gradient descent iterates with dropout in the linear regression model. In particular, non-asymptotic bounds for the convergence of expectations and covariance matrices of the iterates are derived. The results shed more light on the widely cited connection between dropout and l2-regularization in the linear model. We indicate a more subtle relationship, owing to interactions between the gradient descent dynamics and the additional randomness induced by dropout. Further, we study a simplified variant of dropout which does not have a regularizing effect and converges to the least squares estimator
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# 深層強化学習の構造と課題

Structure in Deep Reinforcement Learning: A Survey and Open Problems ( http://arxiv.org/abs/2306.16021v3 )

ライセンス: Link先を確認
Aditya Mohan, Amy Zhang, Marius Lindauer, (参考訳) 関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。 しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクス、ノイズ信号、そして大きな状態と行動空間によって特徴づけられる。 この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如などに起因する。 これらの課題を克服し、これらの重要な指標にまたがるパフォーマンスを改善するために、問題に関する構造的な情報をRL学習プロセスに組み込むことが有望な方法である。 RLの様々なサブフィールドは、そのような誘導バイアスを組み込む方法を提案している。 我々は、これらの多様な方法論を統一的な枠組みの下で融合させ、学習問題における構造の役割に光を当て、これらの手法を構造を取り入れた異なるパターンに分類する。 この包括的フレームワークを活用することで、構造化されたRLの課題に関する貴重な洞察を提供し、RL研究におけるデザインパターンの視点の基礎となる。 この新たな視点は、現実世界のシナリオをよりうまく処理できる、より効率的で効率的なRLアルゴリズムを開発するための、将来の進歩と支援の道を開く。

Reinforcement Learning (RL), bolstered by the expressive capabilities of Deep Neural Networks (DNNs) for function approximation, has demonstrated considerable success in numerous applications. However, its practicality in addressing various real-world scenarios, characterized by diverse and unpredictable dynamics, noisy signals, and large state and action spaces, remains limited. This limitation stems from poor data efficiency, limited generalization capabilities, a lack of safety guarantees, and the absence of interpretability, among other factors. To overcome these challenges and improve performance across these crucial metrics, one promising avenue is to incorporate additional structural information about the problem into the RL learning process. Various sub-fields of RL have proposed methods for incorporating such inductive biases. We amalgamate these diverse methodologies under a unified framework, shedding light on the role of structure in the learning problem, and classify these methods into distinct patterns of incorporating structure. By leveraging this comprehensive framework, we provide valuable insights into the challenges of structured RL and lay the groundwork for a design pattern perspective on RL research. This novel perspective paves the way for future advancements and aids in developing more effective and efficient RL algorithms that can potentially handle real-world scenarios better.
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# インスタンス識別手法の視覚表現学習を支援する意味陽性ペア

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods ( http://arxiv.org/abs/2306.16122v2 )

ライセンス: Link先を確認
Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong, (参考訳) インスタンス識別に基づく自己教師付き学習アルゴリズム(SSL)は、いくつかの下流タスクにおいて、競争力のある結果を示し、教師付き学習アルゴリズムよりも優れています。 このようなアプローチでは、データ拡張を用いて、同じインスタンスの2つのビュー(すなわち、正のペア)を作成し、自明な解に崩壊することなく、埋め込み空間にこれらのビューを引き付けることによって、モデルが良い表現を学ぶように促す。 しかし、データ拡張は正のペアを表す場合に限られており、対照的な学習におけるインスタンス間の反発プロセスは、類似のカテゴリを持つインスタンスにとって重要な特徴を捨てる可能性がある。 そこで本研究では,類似したセマンティックな内容のイメージを識別し,ポジティブな例として扱うアプローチを提案し,表現学習において重要な特徴を破棄する可能性を減らすとともに,潜在表現の豊かさを高める。 私たちのアプローチは汎用的であり、MoCoやSimSiamのような自己管理型のインスタンス識別フレームワークでも機能します。 提案手法を評価するために,ImageNet, STL-10, CIFAR-10の3つのベンチマークデータセットを用いて,異なるインスタンス識別SSLアプローチを用いて実験を行った。 実験の結果, 800エポック以上の線形評価プロトコル下では, バニラMoCo-v2を4.1%改善した。 また、半教師付き学習、下流タスクにおける伝達学習、オブジェクト検出の結果についても報告する。

Self-supervised learning algorithms (SSL) based on instance discrimination have shown promising results, performing competitively or even outperforming supervised learning counterparts in some downstream tasks. Such approaches employ data augmentation to create two views of the same instance (i.e., positive pairs) and encourage the model to learn good representations by attracting these views closer in the embedding space without collapsing to the trivial solution. However, data augmentation is limited in representing positive pairs, and the repulsion process between the instances during contrastive learning may discard important features for instances that have similar categories. To address this issue, we propose an approach to identify those images with similar semantic content and treat them as positive instances, thereby reducing the chance of discarding important features during representation learning and increasing the richness of the latent representation. Our approach is generic and could work with any self-supervised instance discrimination frameworks such as MoCo and SimSiam. To evaluate our method, we run experiments on three benchmark datasets: ImageNet, STL-10 and CIFAR-10 with different instance discrimination SSL approaches. The experimental results show that our approach consistently outperforms the baseline methods across all three datasets; for instance, we improve upon the vanilla MoCo-v2 by 4.1% on ImageNet under a linear evaluation protocol over 800 epochs. We also report results on semi-supervised learning, transfer learning on downstream tasks, and object detection.
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# 時間的結合摂動を考慮したゲーム理論ロバスト強化学習

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations ( http://arxiv.org/abs/2307.12062v3 )

ライセンス: Link先を確認
Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Benjamin Eysenbach, Tuomas Sandholm, Furong Huang, Stephen McAleer, (参考訳) 強化学習システム(RL)の展開には、不確実性に対する堅牢性や、不特定性をモデル化する必要があるが、従来のロバストなRL手法は通常、時間にわたって独立して導入されるノイズについてのみ研究する。 しかし、実際的な不確実性の源は、通常は時間をかけて結合される。 我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。 この課題に対処するために、時間的に結合されたロバストなRL問題を部分的に観察可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。 このゲーム内で近似平衡を求めることにより、GRADは時間的に結合した摂動に対する一般的な堅牢性を最適化する。 連続制御タスクの実験では、従来の手法と比較して、時間的に結合した摂動と非結合的な摂動の両方において、異なる攻撃領域に対する様々な種類の攻撃に対して高い堅牢性を達成することが示されている。

Deploying reinforcement learning (RL) systems requires robustness to uncertainty and model misspecification, yet prior robust RL methods typically only study noise introduced independently across time. However, practical sources of uncertainty are usually coupled across time. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially observable two-player zero-sum game. By finding an approximate equilibrium within this game, GRAD optimizes for general robustness against temporally-coupled perturbations. Experiments on continuous control tasks demonstrate that, compared with prior methods, our approach achieves a higher degree of robustness to various types of attacks on different attack domains, both in settings with temporally-coupled perturbations and decoupled perturbations.
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# DoDo学習: パブリックな図形をターゲットとした乱用検出のための言語モデルにおけるDomain-Demographic Transfer

DoDo Learning: DOmain-DemOgraphic Transfer in Language Models for Detecting Abuse Targeted at Public Figures ( http://arxiv.org/abs/2307.16811v3 )

ライセンス: Link先を確認
Angus R. Williams, Hannah Rose Kirk, Liam Burke, Yi-Ling Chung, Ivan Debono, Pica Johansson, Francesca Stevens, Jonathan Bright, Scott A. Hale, (参考訳) 市民はソーシャルメディア上で乱暴な乱用を受け、公共生活への積極的な参加に影響を及ぼす。 自動化されたシステムは大規模な不正行為を特定することができるが、トレーニングデータのラベル付けは高価で複雑で、潜在的に有害である。 したがって、システムは効率的で汎用的であり、オンライン虐待の共有と特定の側面の両方を扱うことが望ましい。 我々は、あるドメインや人口統計学で訓練された分類器が、より一般化可能な乱用分類器を構築するために、いかにして他のドメインに移行できるかを理解するために、クロスグループテキスト分類のダイナミクスを探求する。 28,000のラベル付きエントリを含む新しいDODOデータセットを使用して、DOmains(スポーツと政治)とDemOgraphics(女性と男性)のパブリックな人物を対象にしたつぶやきを分類する言語モデルを微調整する。 私たちはそれを見つける。 一 少量の多様なデータは、一般化及びモデル適応に非常に有益である。 (ii) モデルは人口統計学的に容易に伝達できるが、ドメイン間データに基づいて訓練されたモデルはより一般化できる。 三 一般性に寄与する団体、及び (iv)データセットの類似性は転送可能性の信号である。

Public figures receive a disproportionate amount of abuse on social media, impacting their active participation in public life. Automated systems can identify abuse at scale but labelling training data is expensive, complex and potentially harmful. So, it is desirable that systems are efficient and generalisable, handling both shared and specific aspects of online abuse. We explore the dynamics of cross-group text classification in order to understand how well classifiers trained on one domain or demographic can transfer to others, with a view to building more generalisable abuse classifiers. We fine-tune language models to classify tweets targeted at public figures across DOmains (sport and politics) and DemOgraphics (women and men) using our novel DODO dataset, containing 28,000 labelled entries, split equally across four domain-demographic pairs. We find that (i) small amounts of diverse data are hugely beneficial to generalisation and model adaptation; (ii) models transfer more easily across demographics but models trained on cross-domain data are more generalisable; (iii) some groups contribute more to generalisability than others; and (iv) dataset similarity is a signal of transferability.
翻訳日:2024-04-27 00:07:23 公開日:2024-04-25
# SynAuG: データ不均衡問題に対する合成データのエクスプロイト

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems ( http://arxiv.org/abs/2308.00994v3 )

ライセンス: Link先を確認
Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh, (参考訳) トレーニングデータにおけるデータの不均衡は、しばしば訓練されたモデルからのバイアスのある予測をもたらし、それによって倫理的および社会的問題を引き起こす。 簡単な解決策は、トレーニングデータを慎重にキュレートすることだが、現代のニューラルネットワークの膨大な規模を考えると、これは労働集約的で非現実的だ。 生成モデルの最近の発展に触発された本研究では,データ不均衡問題に対処するための合成データの可能性について検討する。 具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。 実験の結果,実データと合成データのドメインギャップはあるものの,SynAuGを用いたトレーニングに続いて,いくつかの実データを用いて微調整を行うことで,データ不均衡の問題に対処し,既存のタスク固有のメソッドを越えながら,多種多様なタスクにおける印象的なパフォーマンスを実現することができた。

Data imbalance in training data often leads to biased predictions from trained models, which in turn causes ethical and social issues. A straightforward solution is to carefully curate training data, but given the enormous scale of modern neural networks, this is prohibitively labor-intensive and thus impractical. Inspired by recent developments in generative models, this paper explores the potential of synthetic data to address the data imbalance problem. To be specific, our method, dubbed SYNAuG, leverages synthetic data to equalize the unbalanced distribution of training data. Our experiments demonstrate that, although a domain gap between real and synthetic data exists, training with SYNAuG followed by fine-tuning with a few real samples allows to achieve impressive performance on diverse tasks with different data imbalance issues, surpassing existing task-specific methods for the same purpose.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# I3:インストラクションを前提としたイントロスペクティブ検索

I3: Intent-Introspective Retrieval Conditioned on Instructions ( http://arxiv.org/abs/2308.10025v2 )

ライセンス: Link先を確認
Kaihang Pan, Juncheng Li, Wenjie Wang, Hao Fei, Hongye Song, Wei Ji, Jun Lin, Xiaozhong Liu, Tat-Seng Chua, Siliang Tang, (参考訳) 近年の研究では、厳密な検索モデルは、特定の学習データを持たない広範囲な検索タスクにおいて、異なる検索タスクが、しばしば異なる検索意図を伴っているため、うまく機能し難いことが示されている。 この課題に対処するために,本研究では,検索意図を柔軟に記述する命令を活用するとともに,タスク固有のトレーニングを伴わずにインストラクションに条件付きで,様々なタスクにわたってインテント・イントロスペクティブ検索を行う統合検索システムであるI3を導入する。 I3は、プラグイン可能なイントロスペクタを、入力クエリと命令を共同で推論することで、特定の検索意図を理解するためのパラメータ分離的な方法で革新的に組み込み、イントロスペクタをイントロスペクタ対応検索のための元の検索モデルにシームレスに統合する。 さらに,段階的に学習する意図学習を提案する。 LLM生成データを利用してI3フェーズ・バイ・フェイズを訓練し、プログレッシブ・ストラクチャー・プルーニング(Progress Structure pruning)とデバック・エクスポーレーション・データ・リファインメント(Droback Extrapolation-based data refinement)という2つの重要な設計を具現した。 BEIRベンチマークでは、I3はタスク特化レトリバーで設計されたベースライン手法を著しく上回り、タスク特化チューニングなしで最先端のゼロショット性能を実現している。

Recent studies indicate that dense retrieval models struggle to perform well on a wide variety of retrieval tasks that lack dedicated training data, as different retrieval tasks often entail distinct search intents. To address this challenge, in this work we leverage instructions to flexibly describe retrieval intents and introduce I3, a unified retrieval system that performs Intent-Introspective retrieval across various tasks, conditioned on Instructions without any task-specific training. I3 innovatively incorporates a pluggable introspector in a parameter-isolated manner to comprehend specific retrieval intents by jointly reasoning over the input query and instruction, and seamlessly integrates the introspected intent into the original retrieval model for intent-aware retrieval. Furthermore, we propose progressively-pruned intent learning. It utilizes extensive LLM-generated data to train I3 phase-by-phase, embodying two key designs: progressive structure pruning and drawback extrapolation-based data refinement. Extensive experiments show that in the BEIR benchmark, I3 significantly outperforms baseline methods designed with task-specific retrievers, achieving state-of-the-art zero-shot performance without any task-specific tuning.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# 線形および二次一般化不確実性原理における重力波の共鳴検出器

Resonant detectors of gravitational wave in the linear and quadratic generalized uncertainty principle framework ( http://arxiv.org/abs/2308.11215v2 )

ライセンス: Link先を確認
Sukanta Bhattacharyya, Soham Sen, Sunandan Gangopadhyay, (参考訳) 本研究では,線形および二次運動量不確かさを持つ一般化不確かさ原理(GUP)フレームワークにおける重力波の共振バー検出器について考察する。 これらの検出器のフォノンモードは、入ってくる重力波との相互作用によって振動する。 この不確実性原理の枠組みでは、これらの検出器上での入射重力波によって誘起される共鳴周波数と遷移速度を計算する。 エネルギー固有状態と固有値が GUP パラメータによって修正されるのを観察する。 また、二次GUP解析に存在しない一般化不確実性関係における線形次数モーメント補正の存在により、隣接する2つのエネルギー準位間の非消滅遷移確率も観察する(http://dx.doi.org/10.1088/1361-6382/abac45, Class. Quantum Grav. 37 (2020) 195006]。 この解析で得られた遷移速度の形式を用いて,次元を持たない GUP パラメータの有界値を得る。

In this work, we consider a resonant bar detector of gravitational wave in the generalized uncertainty principle (GUP) framework with linear and quadratic momentum uncertainties. The phonon modes in these detectors vibrate due to the interaction with the incoming gravitational wave. In this uncertainty principle framework, we calculate the resonant frequencies and transition rates induced by the incoming gravitational waves on these detectors. We observe that the energy eigenstates and the eigenvalues get modified by the GUP parameters. We also observe non-vanishing transition probabilities between two adjacent energy levels due to the existence of the linear order momentum correction in the generalized uncertainty relation which was not present in the quadratic GUP analysis [http://dx.doi.org/10.1088/1361-6382/abac45, Class. Quantum Grav. 37 (2020) 195006]. We finally obtain bounds on the dimensionless GUP parameters using the form of the transition rates obtained during this analysis.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# 自己注意を考慮した動的適応型構造方程式モデリングに基づく欠落データ計算

Missing Data Imputation Based on Dynamically Adaptable Structural Equation Modeling with Self-Attention ( http://arxiv.org/abs/2308.12388v4 )

ライセンス: Link先を確認
Ou Deng, Qun Jin, (参考訳) 電子健康記録(EHR)を含む複雑なデータセットで欠落したデータに対処することは、医療における正確な分析と意思決定を保証するために重要である。 本稿では,SESA(Self-attention Method)を用いた動的適応型構造方程式モデリング(SEM)を提案する。 SESAは、自己アテンション機構を組み込むことで、従来のSEMベースの手法を超えて革新し、多様なEHRデータセットにおけるモデルの適応性と精度を向上させる。 このような拡張により、SESAはインプットを動的に調整し最適化し、静的SEMフレームワークの制限を克服できる。 実験により,EHRの欠落データを効果的に処理するための,堅牢な予測SESA性能の達成を実証した。 さらに、SESAアーキテクチャは、SEMにおける潜在的な誤特定を正すだけでなく、因果発見アルゴリズムと相乗して、基礎となるデータ構造に基づく計算ロジックを洗練させる。 このような機能は、その能力を強調し、EHRデータ分析などにおけるアプリケーションの可能性を広げ、データ計算分野における合理的な飛躍を象徴している。

Addressing missing data in complex datasets including electronic health records (EHR) is critical for ensuring accurate analysis and decision-making in healthcare. This paper proposes dynamically adaptable structural equation modeling (SEM) using a self-attention method (SESA), an approach to data imputation in EHR. SESA innovates beyond traditional SEM-based methods by incorporating self-attention mechanisms, thereby enhancing model adaptability and accuracy across diverse EHR datasets. Such enhancement allows SESA to dynamically adjust and optimize imputation and overcome the limitations of static SEM frameworks. Our experimental analyses demonstrate the achievement of robust predictive SESA performance for effectively handling missing data in EHR. Moreover, the SESA architecture not only rectifies potential mis-specifications in SEM but also synergizes with causal discovery algorithms to refine its imputation logic based on underlying data structures. Such features highlight its capabilities and broadening applicational potential in EHR data analysis and beyond, marking a reasonable leap forward in the field of data imputation.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# LuViRAデータセットの検証と議論:視覚・無線・音声センサを屋内位置推定に用いる場合の比較

LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization ( http://arxiv.org/abs/2309.02961v2 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Erik Tegler, Jens Gulin, Nikhil Challa, Fredrik Tufvesson, Ove Edfors, Kalle Astrom, Steffen Malkowsky, Liang Liu, (参考訳) 本稿では,視覚,ラジオ,および音声に基づくローカライゼーションアルゴリズムのユニークな比較分析と評価を行う。 我々は、最近発表されたLund University Vision, Radio, and Audio (LuViRA)データセットを使って、上記のセンサーの最初のベースラインを作成します。 屋内のローカライゼーションタスクに各センサを使用する際の課題をいくつか挙げる。 各センサーは、現在の最先端のローカライズアルゴリズムと組み合わせて、ローカライズ精度、環境変化に対する信頼性と感度、キャリブレーション要件、潜在的なシステムの複雑さなど、さまざまな側面で評価される。 具体的には、RGB-Dカメラを用いたビジョンベースローカライゼーションのためのORB-SLAM3アルゴリズム、MIMO技術を用いた無線ベースローカライゼーションのための機械学習アルゴリズム、分散マイクロホンを用いた音声ベースローカライゼーションのためのSFS2アルゴリズムについて述べる。 この結果は、センサフュージョン、コンテキスト、環境に配慮した適応を通じて、堅牢で高精度なマルチセンサローカライゼーションシステムの開発のためのガイドラインおよび基盤として機能する。

We present a unique comparative analysis, and evaluation of vision, radio, and audio based localization algorithms. We create the first baseline for the aforementioned sensors using the recently published Lund University Vision, Radio, and Audio (LuViRA) dataset, where all the sensors are synchronized and measured in the same environment. Some of the challenges of using each specific sensor for indoor localization tasks are highlighted. Each sensor is paired with a current state-of-the-art localization algorithm and evaluated for different aspects: localization accuracy, reliability and sensitivity to environment changes, calibration requirements, and potential system complexity. Specifically, the evaluation covers the ORB-SLAM3 algorithm for vision-based localization with an RGB-D camera, a machine-learning algorithm for radio-based localization with massive MIMO technology, and the SFS2 algorithm for audio-based localization with distributed microphones. The results can serve as a guideline and basis for further development of robust and high-precision multi-sensory localization systems, e.g., through sensor fusion, context, and environment-aware adaptation.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# 光格子における大規模原子配列の高忠実度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v3 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher, (参考訳) 中立原子に基づく量子シミュレーションの最近の進歩は、高分解能で単原子感度のイメージング技術から大きく恩恵を受けている。 光学格子や光ツイーザにおける原子の局所的な検出を実現するために、様々なアプローチが開発されている。 アルカリ-アース原子やアルカリ-アース原子の場合、狭い光学遷移の存在は、冷却機構がトラップ電位の微分光学レベルシフトを空間的に解決する能力から生じる新しいタイプのシホス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,高忠実度 (99.971(1)\%$) と高生存率 (99.80(5)\%$) のシィフス冷却によるストロンチウム原子のイメージングを示す。 最大399ドルのツイーザーを持つ大規模ツイーザーアレイの原子のピンニング電位として光学格子を用い、繰り返し、高忠実な格子-ツイーザー-格子転移を示す。 さらに、MOTから直接約10000の原子で格子をロードし、生存確率と分類忠実度を99.2\%$より良く組み合わせた10000ドルの格子サイトをスケーラブルに撮像する。 この格子は将来,光ツイーザアレイの連続的な補充のための局所的にアドレス化可能でソート可能な貯水池として機能する。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.971(1)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate loading the lattice with approximately 10000 atoms directly from the MOT and scalable imaging over $>10000$ lattice sites with a combined survival probability and classification fidelity better than $99.2\%$. Our lattice thus serves as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# DOMAIN:軽度保存モデルベースオフリン強化学習

DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning ( http://arxiv.org/abs/2309.08925v2 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou, (参考訳) オフラインデータセットから環境モデルを学習し,より多くのアウト・オブ・ディストリビューションモデルデータを生成するモデルベース強化学習(RL)は,オフラインRLにおける分布シフト問題に対する効果的なアプローチとなっている。 学習環境と実際の環境のギャップのため、正確なオフラインデータと不正確なモデルデータのバランスをとるために、保守性はアルゴリズムに組み込まれるべきである。 現在のアルゴリズムの保守性は、主にモデルの不確実性推定に依存している。 しかし、不確実性推定は信頼性が低く、特定のシナリオでは性能が低下する。 そこで本稿では,モデルの不確実性を推定することなく,MilDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。 DOMAINはモデルサンプルの適応的なサンプリング分布を導入し、モデルデータペナルティを適応的に調整することができる。 本稿では,領域外においてDOMAINが学習したQ値が真のQ値の下限であること,DOMAINは従来のモデルベースオフラインRLアルゴリズムよりも保守的ではなく,セキュリティポリシーの改善が保証されていることを理論的に示す。 大規模な実験の結果、DOMAINは、D4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れており、一般化を必要とするタスクにおいて、他のRLアルゴリズムよりも優れたパフォーマンスを実現している。

Model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in offline RL. Due to the gap between the learned and actual environment, conservatism should be incorporated into the algorithm to balance accurate offline data and imprecise model data. The conservatism of current algorithms mostly relies on model uncertainty estimation. However, uncertainty estimation is unreliable and leads to poor performance in certain scenarios, and the previous methods ignore differences between the model data, which brings great conservatism. Therefore, this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm (DOMAIN) without estimating model uncertainty to address the above issues. DOMAIN introduces adaptive sampling distribution of model samples, which can adaptively adjust the model data penalty. In this paper, we theoretically demonstrate that the Q value learned by the DOMAIN outside the region is a lower bound of the true Q value, the DOMAIN is less conservative than previous model-based offline RL algorithms and has the guarantee of security policy improvement. The results of extensive experiments show that DOMAIN outperforms prior RL algorithms on the D4RL dataset benchmark, and achieves better performance than other RL algorithms on tasks that require generalization.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# SpeechAlign: 音声翻訳アライメント評価のためのフレームワーク

SpeechAlign: a Framework for Speech Translation Alignment Evaluation ( http://arxiv.org/abs/2309.11585v2 )

ライセンス: Link先を確認
Belen Alastruey, Aleix Sant, Gerard I. Gállego, David Dale, Marta R. Costa-jussà, (参考訳) 音声から音声への翻訳と音声からテキストへの翻訳は、現在研究のダイナミックな領域である。 本稿では,これらの分野を推し進めるためのフレームワークであるSpeechAlignについて述べる。 SpeechAlignフレームワークには2つのコアコンポーネントがある。 まず、適切な評価データセットの欠如に対処するため、英独翻訳ゴールドアライメントデータセットに基づく音声ゴールドアライメントデータセットを提案する。 第2に、音声モデル内のアライメント品質を評価するために、音声アライメント誤り率(SAER)と時間重み付き音声アライメント誤り率(TW-SAER)の2つの新しい指標を導入する。 前者は各単語に等しく重みを与えるが、後者は音声信号中の単語の長さに基づいて重みを割り当てる。 SpeechAlignを公開することによって、モデルアセスメントのためのアクセシブルな評価フレームワークを提供し、それをオープンソースの音声翻訳モデルのベンチマークに利用する。 そこで本研究では,音声音声翻訳と音声テキスト翻訳の分野における研究の進展に貢献する。

Speech-to-Speech and Speech-to-Text translation are currently dynamic areas of research. In our commitment to advance these fields, we present SpeechAlign, a framework designed to evaluate the underexplored field of source-target alignment in speech models. The SpeechAlign framework has two core components. First, to tackle the absence of suitable evaluation datasets, we introduce the Speech Gold Alignment dataset, built upon a English-German text translation gold alignment dataset. Secondly, we introduce two novel metrics, Speech Alignment Error Rate (SAER) and Time-weighted Speech Alignment Error Rate (TW-SAER), which enable the evaluation of alignment quality within speech models. While the former gives equal importance to each word, the latter assigns weights based on the length of the words in the speech signal. By publishing SpeechAlign we provide an accessible evaluation framework for model assessment, and we employ it to benchmark open-source Speech Translation models. In doing so, we contribute to the ongoing research progress within the fields of Speech-to-Speech and Speech-to-Text translation.
翻訳日:2024-04-26 23:57:24 公開日:2024-04-25
# 散乱長と電位形状制御を持つピコケルビンエネルギーへの物質-波の衝突

Matter-wave collimation to picokelvin energies with scattering length and potential shape control ( http://arxiv.org/abs/2310.04383v3 )

ライセンス: Link先を確認
Alexander Herbst, Timothé Estrampes, Henning Albers, Robin Corgier, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul, Dennis Schlippert, (参考訳) 原子干渉計の感度は、物質波の衝突による原子アンサンブルの膨張を制限することで、長いパルス分離時間を実現し、コントラストの喪失を防ぐ能力に依存する。 ここでは、異なる散乱長で$^{39}$Kボース=アインシュタイン凝縮体にレンズプロトコルを適用することにより、原子間相互作用がコリメーションに与える影響について検討する。 相互作用を表わすため、1方向のエネルギーは340 pm 12$ pKである。 我々の結果は正確なシミュレーションによって支えられ、これによって2次元の弾道膨張エネルギーを438 pm 77$ pKで外挿することができる。 そこで本研究では,パルスデルタキックを付加することにより,PKを1,16ドル以下で3次元展開できる高度なシナリオを提案する。 マイクログラビティや長いベースライン環境を必要とせず, 通常の双極子トラップ装置において, 2桁のpK領域における1時間10^5$以上の原子と3次元エネルギーでアンサンブルを実現する方法について検討した。

The sensitivity of atom interferometers depends on their ability to realize long pulse separation times and prevent loss of contrast by limiting the expansion of the atomic ensemble within the interferometer beam through matter-wave collimation. Here we investigate the impact of atomic interactions on collimation by applying a lensing protocol to a $^{39}$K Bose-Einstein condensate at different scattering lengths. Tailoring interactions, we measure energies corresponding to $340 \pm 12$ pK in one direction. Our results are supported by an accurate simulation, which allows us to extrapolate a 2D ballistic expansion energy of $438 \pm 77$ pK. Based on our findings we propose an advanced scenario, which enables 3D expansion energies below $16$ pK by implementing an additional pulsed delta-kick. Our results pave the way to realize ensembles with more than $1\times10^5$ atoms and 3D energies in the two-digit pK range in typical dipole trap setups without the need for micro-gravity or long baseline environments.
翻訳日:2024-04-26 23:47:37 公開日:2024-04-25
# Lemur: プログラムの自動検証に大規模言語モデルを統合する

Lemur: Integrating Large Language Models in Automated Program Verification ( http://arxiv.org/abs/2310.04870v5 )

ライセンス: Link先を確認
Haoze Wu, Clark Barrett, Nina Narodytska, (参考訳) LLMの実証されたコード理解能力は、検証ツールで難しいプログラムプロパティに関する高度な抽象的推論を必要とするタスクである自動プログラム検証に使用できるかどうかという問題を提起する。 自動プログラム検証のためのLLMと自動推論器のパワーを組み合わせるための一般的な手法を提案する。 我々は、この方法論をトランジションルールの集合として公式に記述し、その健全性を証明する。 本稿では,音声自動検証手法として計算をインスタンス化し,一連の合成および競合ベンチマークの実践的改善を実証する。

The demonstrated code-understanding capability of LLMs raises the question of whether they can be used for automated program verification, a task that demands high-level abstract reasoning about program properties that is challenging for verification tools. We propose a general methodology to combine the power of LLMs and automated reasoners for automated program verification. We formally describe this methodology as a set of transition rules and prove its soundness. We instantiate the calculus as a sound automated verification procedure and demonstrate practical improvements on a set of synthetic and competition benchmarks.
翻訳日:2024-04-26 23:47:37 公開日:2024-04-25
# 二重発色エニグマの解明:学習した特徴空間のレンズによる深部分析

Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space ( http://arxiv.org/abs/2310.13572v3 )

ライセンス: Link先を確認
Yufei Gu, Xiaoqing Zheng, Tomaso Aste, (参考訳) 二重降下は機械学習領域において直感に反する側面を示し、研究者は様々なモデルやタスクでその現象を観察してきた。 特定の文脈において、この現象に関するいくつかの理論的説明が提案されているが、深層学習における現象を考慮に入れた理論はまだ確立されていない。 本研究では、二重降下現象を再考し、その発生がノイズデータの存在に強く影響されていることを示す。 学習した表現の特徴空間を包括的に解析することにより、ノイズの多いデータで訓練された不完全なモデルに二重降下が生じていることを明らかにする。 二重降下は、まず補間するまでノイズデータを学習し、次に過パラメータ化による暗黙の正規化を加えることによって、ノイズから情報を分離する能力を持つモデルの結果である、と我々は主張する。

Double descent presents a counter-intuitive aspect within the machine learning domain, and researchers have observed its manifestation in various models and tasks. While some theoretical explanations have been proposed for this phenomenon in specific contexts, an accepted theory to account for its occurrence in deep learning remains yet to be established. In this study, we revisit the phenomenon of double descent and demonstrate that its occurrence is strongly influenced by the presence of noisy data. Through conducting a comprehensive analysis of the feature space of learned representations, we unveil that double descent arises in imperfect models trained with noisy data. We argue that double descent is a consequence of the model first learning the noisy data until interpolation and then adding implicit regularization via over-parameterization acquiring therefore capability to separate the information from the noise.
翻訳日:2024-04-26 23:47:37 公開日:2024-04-25
# ZTD$_{JAVA}$:ゼロトラスト依存によるソフトウェアサプライチェーン脆弱性の緩和

ZTD$_{JAVA}$: Mitigating Software Supply Chain Vulnerabilities via Zero-Trust Dependencies ( http://arxiv.org/abs/2310.14117v2 )

ライセンス: Link先を確認
Paschal C. Amusuo, Kyle A. Robinson, Tanmay Singla, Huiyun Peng, Aravind Machiry, Santiago Torres-Arias, Laurent Simon, James C. Davis, (参考訳) Log4Jのようなサードパーティのソフトウェアコンポーネントは、ソフトウェア開発を加速するが、かなりのリスクをもたらす。 これらのコンポーネントは、多くのソフトウェアサプライチェーン攻撃を引き起こしている。 これらの攻撃は、サードパーティのソフトウェアコンポーネントがアプリケーションに暗黙的に信頼されているため、成功する。 サードパーティのソフトウェアコンポーネントからのリスクを軽減するために、いくつかのセキュリティディフェンスが存在するが、いずれも、一般的な攻撃に対して防御するために必要な要件をすべて満たしていない。 個々のソリューションがオペレーティングシステムリソースへの悪意あるアクセスを防ぎ、依存関係を認識し、最小限の特権の発見を可能にする。 そのため、ソフトウェアサプライチェーンの攻撃を防ぐことはできない。 本稿では,NIST Zero Trust Architectureをソフトウェアアプリケーションに適用することを提案する。 我々のゼロトラスト依存性の概念は、NIST ZTAの原則をアプリケーションの依存性に適用します。 まず、サードパーティのソフトウェアコンポーネントとその脆弱性を調査し、ゼロトラスト依存の期待される有効性と実現可能性を評価する。 そして、ソフトウェアアプリケーションへのゼロトラスト依存の適用を可能にするシステム設計であるZTDSYSと、Javaアプリケーションに対するプロトタイプであるZTDJAVAを提案する。 最後に、再現された脆弱性と現実的なアプリケーションの評価から、ZTDJAVAは一般的な脆弱性クラスに対して防御でき、無視可能なコストを導入でき、設定や使用が容易であることを示す。

Third-party software components like Log4J accelerate software application development but introduce substantial risk. These components have led to many software supply chain attacks. These attacks succeed because third-party software components are implicitly trusted in an application. Although several security defenses exist to reduce the risks from third-party software components, none of them fulfills the full set of requirements needed to defend against common attacks. No individual solution prevents malicious access to operating system resources, is dependency-aware, and enables the discovery of least privileges, all with low runtime costs. Consequently, they cannot prevent software supply chain attacks. This paper proposes applying the NIST Zero Trust Architecture to software applications. Our Zero Trust Dependencies concept applies the NIST ZTA principles to an application's dependencies. First, we assess the expected effectiveness and feasibility of Zero Trust Dependencies using a study of third-party software components and their vulnerabilities. Then, we present a system design, ZTDSYS, that enables the application of Zero Trust Dependencies to software applications and a prototype, ZTDJAVA, for Java applications. Finally, with evaluations on recreated vulnerabilities and realistic applications, we show that ZTDJAVA can defend against prevalent vulnerability classes, introduces negligible cost, and is easy to configure and use.
翻訳日:2024-04-26 23:47:37 公開日:2024-04-25
# Pix2HDR -- 高速HDRビデオのための画素単位の取得と深層学習に基づく合成アプローチ

Pix2HDR -- A pixel-wise acquisition and deep learning-based synthesis approach for high-speed HDR videos ( http://arxiv.org/abs/2310.16139v2 )

ライセンス: Link先を確認
Caixin Wang, Jie Zhang, Matthew A. Wilson, Ralph Etienne-Cummings, (参考訳) 多くの視覚応用において、広い動きと光の強さで正確なダイナミックシーンを捉えることが不可欠である。 しかし、カメラのフレームレートがダイナミックレンジを制限するため、高速ハイダイナミックレンジ(HDR)ビデオの取得は困難である。 既存の方法はマルチ露光フレームを取得するために速度を犠牲にする。 しかし、これらのフレーム内の不整合運動は、なおもHDR融合アルゴリズムの複雑さを生じさせ、結果としてアーティファクトが生じる。 フレームベースの露光の代わりに、個々のピクセルを様々な露光や位相オフセットでサンプリングする。 モノクロ・ピクセル・ワイド・プログラマブル・イメージセンサに実装したサンプリング・パターンは,高ダイナミックレンジでの高速な動きを同時にキャプチャする。 次に、深層ニューラルネットワークから学習した重みをエンド・ツー・エンドの重み付けでHDRビデオに変換し、動きのぼかしを最小限に抑えて高時空間分解能を実現する。 我々は、1000FPSでエイリアスフリーのHDRビデオの取得を実証し、低照度条件下での高速な動きと明るい背景を解消する。 複雑なシーンをデコードする際の深層ニューラルネットワークの強度と画素ワイドサンプリングパターンの汎用性を組み合わせることにより,動的条件下での視覚システムの適応性と性能を大幅に向上させる。

Accurately capturing dynamic scenes with wide-ranging motion and light intensity is crucial for many vision applications. However, acquiring high-speed high dynamic range (HDR) video is challenging because the camera's frame rate restricts its dynamic range. Existing methods sacrifice speed to acquire multi-exposure frames. Yet, misaligned motion in these frames can still pose complications for HDR fusion algorithms, resulting in artifacts. Instead of frame-based exposures, we sample the videos using individual pixels at varying exposures and phase offsets. Implemented on a monochrome pixel-wise programmable image sensor, our sampling pattern simultaneously captures fast motion at a high dynamic range. We then transform pixel-wise outputs into an HDR video using end-to-end learned weights from deep neural networks, achieving high spatiotemporal resolution with minimized motion blurring. We demonstrate aliasing-free HDR video acquisition at 1000 FPS, resolving fast motion under low-light conditions and against bright backgrounds - both challenging conditions for conventional cameras. By combining the versatility of pixel-wise sampling patterns with the strength of deep neural networks at decoding complex scenes, our method greatly enhances the vision system's adaptability and performance in dynamic conditions.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# MyriadAL: 病理学のためのアクティブショットラーニング

MyriadAL: Active Few Shot Learning for Histopathology ( http://arxiv.org/abs/2310.16161v2 )

ライセンス: Link先を確認
Nico Schiavone, Jingyi Wang, Shuangzhi Li, Roger Zemp, Xingyu Li, (参考訳) アクティブラーニング(AL)とFew Shot Learning(FSL)は,近年,優れた成果を上げているラベル効率のよい2つの手法である。 しかし、両方の学習パラダイムにおけるほとんどの先行技術は、膨大な未学習データの富を探索することができない。 本研究では、アノテーションの予算が非常に限られているが、目的とするタスクに対する大量の不正なデータが利用可能であるシナリオにおいて、この問題に対処する。 この研究は、ラベリングが違法に高価である、病理学の文脈におけるものである。 この目的のために我々は,MAL (Myriad Active Learning) という,対照的な学習エンコーダ,擬似ラベル生成,ループ内の新しいクエリサンプル選択など,活発な数個のショットラーニングフレームワークを導入する。 具体的には、得られたデータ表現とクラスタリング知識が、ALループを活性化する基盤となる、自己管理的な方法で、未学習データをマッサージすることを提案する。 各ALサイクルのオラクルからのフィードバックにより、エンコーダの上の浅いタスク固有ネットを最適化することにより、未ラベルデータの擬似ラベルを洗練する。 これらの更新された擬似ラベルは、アクティブな学習クエリ選択プロセスの通知と改善に役立つ。 さらに、既存の不確実性対策を組み合わせる新しいレシピを導入し、不確実性リスト全体を利用してALのサンプル冗長性を低減した。 2つの公開病理学データセットに対する大規模な実験により、MALは以前の研究よりもテスト精度、マクロF1スコア、ラベルの効率が優れており、データセットの5%しかラベル付けせず、完全に教師付きされたアルゴリズムに匹敵するテスト精度を達成できることが示された。

Active Learning (AL) and Few Shot Learning (FSL) are two label-efficient methods which have achieved excellent results recently. However, most prior arts in both learning paradigms fail to explore the wealth of the vast unlabelled data. In this study, we address this issue in the scenario where the annotation budget is very limited, yet a large amount of unlabelled data for the target task is available. We frame this work in the context of histopathology where labelling is prohibitively expensive. To this end, we introduce an active few shot learning framework, Myriad Active Learning (MAL), including a contrastive-learning encoder, pseudo-label generation, and novel query sample selection in the loop. Specifically, we propose to massage unlabelled data in a self-supervised manner, where the obtained data representations and clustering knowledge form the basis to activate the AL loop. With feedback from the oracle in each AL cycle, the pseudo-labels of the unlabelled data are refined by optimizing a shallow task-specific net on top of the encoder. These updated pseudo-labels serve to inform and improve the active learning query selection process. Furthermore, we introduce a novel recipe to combine existing uncertainty measures and utilize the entire uncertainty list to reduce sample redundancy in AL. Extensive experiments on two public histopathology datasets show that MAL has superior test accuracy, macro F1-score, and label efficiency compared to prior works, and can achieve a comparable test accuracy to a fully supervised algorithm while labelling only 5% of the dataset.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 周波数領域におけるNOON状態干渉

NOON-state interference in the frequency domain ( http://arxiv.org/abs/2311.00338v2 )

ライセンス: Link先を確認
Dongjin Lee, Woncheol Shin, Sebae Park, Junyeop Kim, Heedeuk Shin, (参考訳) 様々な自由度にまたがる絡み合いの検証は、基礎物理学の理解を高め、高次元の量子状態にまで拡張し、量子技術のスケーラビリティを約束する上で重要なものである。 本稿では,周波数領域における光子数経路の絡み合いをブラッグ散乱4波混合を用いて50%の確率で1光子周波数を別の周波数に変換する周波数ビームスプリッタにより実証する。 単一モードファイバ内の2光子NOON状態は周波数領域で発生し、単光子干渉と比較して2光子干渉が2倍の高分解能で示され、干渉計の優れた安定性を示す。 この周波数領域における量子状態の翻訳の成功は、魅力的な量子現象の発見とスケーラブルな量子情報処理への道を開くだろう。

The examination of entanglement across various degrees of freedom has been pivotal in augmenting our understanding of fundamental physics, extending to high dimensional quantum states, and promising the scalability of quantum technologies. In this paper, we demonstrate the photon number path entanglement in the frequency domain by implementing a frequency beam splitter that converts the single-photon frequency to another with 50% probability using Bragg scattering four-wave mixing. The two-photon NOON state in a single-mode fiber is generated in the frequency domain, manifesting the two-photon interference with two-fold enhanced resolution compared to that of single-photon interference, showing the outstanding stability of the interferometer. This successful translation of quantum states in the frequency domain will pave the way toward the discovery of fascinating quantum phenomena and scalable quantum information processing.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 日頭電力価格予測のための適応的標準化手法

An adaptive standardisation methodology for Day-Ahead electricity price forecasting ( http://arxiv.org/abs/2311.02610v2 )

ライセンス: Link先を確認
Carlos Sebastián, Carlos E. González-Guillén, Jesús Juan, (参考訳) 電力市場における日頭価格の研究は、時系列予測において最も一般的な問題の一つである。 これまでの研究は、市場の洗練されたダイナミクスを捉えるために、ますます複雑な学習アルゴリズムを使うことに重点を置いてきた。 しかし、複雑さが増大しても大幅な改善が得られないしきい値が存在する。 本研究では,市場において一般的に発生するデータセットシフトの影響を軽減するために,適応標準化を導入することで,代替手法を提案する。 これにより、学習アルゴリズムは、対象変数と説明変数の真の関係を明らかにすることを優先することができる。 文献に記載されていない2つの新しいデータセットを含む5つの異なる市場を調査した。 これらのデータセットは、従来のデータセットが示さない、現在の市場コンテキストをより現実的な表現を提供する。 その結果、文学(LEAR、DNN)において広く受け入れられている学習アルゴリズムを用いて、5つの市場すべてで大幅な改善が示された。 特に,提案手法と文献に提示された方法論を組み合わせることで,最良の結果が得られる。 この大きな進歩は、この分野での新しい研究ラインを明らかにし、予測モデルの性能を高めるための適応変換の可能性を強調している。

The study of Day-Ahead prices in the electricity market is one of the most popular problems in time series forecasting. Previous research has focused on employing increasingly complex learning algorithms to capture the sophisticated dynamics of the market. However, there is a threshold where increased complexity fails to yield substantial improvements. In this work, we propose an alternative approach by introducing an adaptive standardisation to mitigate the effects of dataset shifts that commonly occur in the market. By doing so, learning algorithms can prioritize uncovering the true relationship between the target variable and the explanatory variables. We investigate five distinct markets, including two novel datasets, previously unexplored in the literature. These datasets provide a more realistic representation of the current market context, that conventional datasets do not show. The results demonstrate a significant improvement across all five markets using the widely accepted learning algorithms in the literature (LEAR and DNN). In particular, the combination of the proposed methodology with the methodology previously presented in the literature obtains the best results. This significant advancement unveils new lines of research in this field, highlighting the potential of adaptive transformations in enhancing the performance of forecasting models.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# Promptキャッシュ: 低レイテンシ推論のためのモジュールアテンション再利用

Prompt Cache: Modular Attention Reuse for Low-Latency Inference ( http://arxiv.org/abs/2311.04934v2 )

ライセンス: Link先を確認
In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong, (参考訳) 本稿では,LLMプロンプト間の注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法であるPrompt Cacheを提案する。 多くの入力プロンプトは、システムメッセージ、プロンプトテンプレート、コンテキスト用のドキュメントなど、重なり合うテキストセグメントを持つ。 我々の重要な洞察は、頻繁に発生するテキストセグメントの注意状態を推論サーバにプリ計算し、保存することで、これらのセグメントがユーザプロンプトに現れると、それらを効率的に再利用できるということである。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。 このスキーマは、注意状態の再利用中に位置精度を保証し、ユーザにプロンプトでキャッシュされた状態にアクセスするインターフェースを提供する。 プロトタイプ実装を用いて,複数の LLM にまたがる Prompt Cache を評価する。 本稿では,特にドキュメントベースの質問応答やレコメンデーションなどのより長いプロンプトにおいて,Prompt Cacheは遅延を著しく低減することを示す。 改善点は、GPUベースの推論では8倍、CPUベースの推論では60倍まで、出力精度を維持しながら、モデルパラメータの変更を必要としない。

We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and documents provided for context. Our key insight is that by precomputing and storing the attention states of these frequently occurring text segments on the inference server, we can efficiently reuse them when these segments appear in user prompts. Prompt Cache employs a schema to explicitly define such reusable text segments, called prompt modules. The schema ensures positional accuracy during attention state reuse and provides users with an interface to access cached states in their prompt. Using a prototype implementation, we evaluate Prompt Cache across several LLMs. We show that Prompt Cache significantly reduce latency in time-to-first-token, especially for longer prompts such as document-based question answering and recommendations. The improvements range from 8x for GPU-based inference to 60x for CPU-based inference, all while maintaining output accuracy and without the need for model parameter modifications.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 量子時空間相関における時間矢印の推定

Inferring the arrow of time in quantum spatiotemporal correlations ( http://arxiv.org/abs/2311.07086v3 )

ライセンス: Link先を確認
Xiangjing Liu, Qian Chen, Oscar Dahlsten, (参考訳) 量子実験から得られた測定データに付随する時間順序を2回および任意の数量子ビットで示す方法について検討する。 時間推定問題の矢印を定義する。 我々は、時間反転の下で対称あるいは非対称な初期状態と最終状態の条件を考える。 擬似密度行列時空間状態を用いて時空間計測データを表現した。 CPTPであるフォワードプロセスと、逆ユニタリディレーションに基づく新しいリカバリマップによって得られるリバースプロセスとがある。 非対称な条件に対して、このプロトコルは、データがユニタリディレーション回復マップと一致しているか、CPTPマップと一致しているかを決定する。 対称条件の場合、リカバリマップは有効なCPTPマップを生成し、実験はどちらの方向にも行われたかもしれない。 また、Leifer-Spekkens あるいは ProcessMatrix の時空状態へのアプローチの適応についても論じる。

We consider how to tell the time-ordering associated with measurement data from quantum experiments at two times and any number of qubits. We define an arrow of time inference problem. We consider conditions on the initial and final states that are symmetric or asymmetric under time reversal. We represent the spatiotemporal measurement data via the pseudo density matrix space-time state. There is a forward process which is CPTP and a reverse process which is obtained via a novel recovery map based on inverting unitary dilations. For asymmetric conditions, the protocol determines whether the data is consistent with the unitary dilation recovery map or the CPTP map. For symmetric conditions, the recovery map yields a valid CPTP map and the experiment may have taken place in either direction. We also discuss adapting the approach to the Leifer-Spekkens or Process matrix space-time states.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 不規則時系列に対する動的局所的注意を伴う2段階集約

Two-Stage Aggregation with Dynamic Local Attention for Irregular Time Series ( http://arxiv.org/abs/2311.07744v2 )

ライセンス: Link先を確認
Xingyu Chen, Xiaochen Zheng, Amina Mollaysa, Manuel Schürch, Ahmed Allam, Michael Krauthammer, (参考訳) 不規則な多変量時系列データは、測定された変数/信号(特徴)の連続的な観測とこれらの特徴の様々なサンプリングレート(記録/測定)の間の時間間隔を特徴とする。 これらの不規則さを考慮に入れながら時系列をモデル化することは、機械学習手法にとって依然として難しい課題である。 本稿では,動的局所注意を伴う2段階アグリゲーションプロセスであるTADを紹介し,多変量時系列における時間的および特徴的不規則性を調和させる。 第1段階では、不規則な時系列は、各ステップで利用可能なすべての特徴を使用して時間的埋め込み(TE)を行う。 このプロセスは利用可能な各特徴の寄与を保存し、時間ステップ毎に固定次元表現を生成する。 第2段階では、適応的なウィンドウサイズを持つダイナミックローカルアテンション(DLA)機構が導入されている。 DLAは特徴特化ウィンドウを用いて時間記録を集約し、特徴特化サンプリングレートをキャプチャする不規則な時間間隔を調和させる。 その後、階層的なMLPミキサー層がマルチスケールパッチを通してDLAの出力を処理し、下流のタスクに様々なスケールで情報を活用する。 TADAは最新のMIMIC IVデータセットを含む3つの実世界のデータセットで最先端の手法より優れており、不規則な多変量時系列の処理とその様々な実世界の応用の可能性を強調している。

Irregular multivariate time series data is characterized by varying time intervals between consecutive observations of measured variables/signals (i.e., features) and varying sampling rates (i.e., recordings/measurement) across these features. Modeling time series while taking into account these irregularities is still a challenging task for machine learning methods. Here, we introduce TADA, a Two-stageAggregation process with Dynamic local Attention to harmonize time-wise and feature-wise irregularities in multivariate time series. In the first stage, the irregular time series undergoes temporal embedding (TE) using all available features at each time step. This process preserves the contribution of each available feature and generates a fixed-dimensional representation per time step. The second stage introduces a dynamic local attention (DLA) mechanism with adaptive window sizes. DLA aggregates time recordings using feature-specific windows to harmonize irregular time intervals capturing feature-specific sampling rates. Then hierarchical MLP mixer layers process the output of DLA through multiscale patching to leverage information at various scales for the downstream tasks. TADA outperforms state-of-the-art methods on three real-world datasets, including the latest MIMIC IV dataset, and highlights its effectiveness in handling irregular multivariate time series and its potential for various real-world applications.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 物理インフォームドニューラルネットワークを用いたデータ駆動建築エネルギー効率予測

Data-driven building energy efficiency prediction using physics-informed neural networks ( http://arxiv.org/abs/2311.08035v2 )

ライセンス: Link先を確認
Vasilis Michalakopoulos, Sotiris Pelekis, Giorgos Kormpakis, Vagelis Karakolis, Spiros Mouzakitis, Dimitris Askounis, (参考訳) 個別の封筒成分の熱損失に基づく住宅における建築エネルギー性能の予測は難しい課題である。 この分野はまだ初期段階であり、特にデータ駆動アプローチに関して、この特定領域ではこれまで比較的限られた研究がなされている点に注意が必要だ。 本稿では,この問題に対処するための新しい物理インフォームドニューラルネットワークモデルを提案する。 一般ビルディング情報,監査特性,暖房エネルギー消費を含む未公開データセットの利用を通じて,ディープラーニングモデルに一般ビルディング情報を提供する一方,モデル出力は構造成分と実際にエネルギー性能証明(EPC)の基本要素であるいくつかの熱特性から構成される。 このニューラルネットワークの上に、物理方程式に基づく関数が、熱損失に基づいて建物のエネルギー消費を計算し、ディープラーニングモデルの損失関数を強化する。 この手法は、ラトビアのリガにある256の建物の実例調査で検証されている。 本研究は,人間の主導によるエネルギー効率監査とは対照的に,建物の基本特性に基づいて,予測精度,自動化方法,およびデータ駆動型エネルギー効率性能の予測を行う上で有望な結果が得られた。

The analytical prediction of building energy performance in residential buildings based on the heat losses of its individual envelope components is a challenging task. It is worth noting that this field is still in its infancy, with relatively limited research conducted in this specific area to date, especially when it comes for data-driven approaches. In this paper we introduce a novel physics-informed neural network model for addressing this problem. Through the employment of unexposed datasets that encompass general building information, audited characteristics, and heating energy consumption, we feed the deep learning model with general building information, while the model's output consists of the structural components and several thermal properties that are in fact the basic elements of an energy performance certificate (EPC). On top of this neural network, a function, based on physics equations, calculates the energy consumption of the building based on heat losses and enhances the loss function of the deep learning model. This methodology is tested on a real case study for 256 buildings located in Riga, Latvia. Our investigation comes up with promising results in terms of prediction accuracy, paving the way for automated, and data-driven energy efficiency performance prediction based on basic properties of the building, contrary to exhaustive energy efficiency audits led by humans, which are the current status quo.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# ケーラー非線形性の非ガウス動力学の初期状態依存性を解くための行列積状態のシミュレーション

Simulation of Matrix Product States to Unveil the Initial State Dependency of non-Gaussian Dynamics of Kerr Nonlinearity ( http://arxiv.org/abs/2311.11314v2 )

ライセンス: Link先を確認
Souvik Agasti, (参考訳) 時間進化ブロックデシメーション (TEBD) アルゴリズムを用いて, 自由散逸性およびコヒーレントなKerr非線形系をシミュレートし, 初期状態が系の正確な量子力学に与える影響について検討する。 2つのコヒーレント分岐の重ね合わせは、古典的でない時間力学をもたらす。 ウィグナー状態表現は、系が2つの異なる枝に飽和し、異なる軌道を進化させることで、進化を通して非ガス化をもたらすことを確認している。 さらに、時間進化が初期状態の残留的な影響に苦しむことも見いだす。

We simulate a free dissipative and coherent-driven Kerr nonlinear system using a time-evolving block decimation (TEBD) algorithm, to study the impact of the initial state on the exact quantum dynamics of the system. The superposition of two coherent branches results in non-classical time dynamics. The Wigner state representation confirms that the system ends up saturating to two different branches, through evolving different trajectories, resulting in de-Gaussification throughout evolution. Furthermore, we also see that the time evolution suffers a residual effect of the initial state.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# 機械学習における解釈可能性と説明可能性の関係について

On the Relationship Between Interpretability and Explainability in Machine Learning ( http://arxiv.org/abs/2311.11491v2 )

ライセンス: Link先を確認
Benjamin Leblanc, Pascal Germain, (参考訳) 解釈可能性と説明可能性は、高度な意思決定とトラブルシューティングに関して、機械学習の分野でますます注目を集めている。 両者は予測者とその決定プロセスに関する情報を提供するため、単一のエンドに対して2つの独立した手段と見なされることが多い。 複雑なブラックボックスモデル用に設計された説明可能性技術、あるいは多くの説明可能性ツールを無視した解釈可能なアプローチ。 本稿では,解釈可能性と説明可能性が相互に代用されるという共通の考え方に対して,主要な欠点を列挙し,両者の欠点を緩和する方法について論じる。 そこで我々は、解釈可能性と説明可能性に関する新たな視点を求め、それぞれの資産を活用しながら、両方のトピックを同時にターゲットとして作業する。

Interpretability and explainability have gained more and more attention in the field of machine learning as they are crucial when it comes to high-stakes decisions and troubleshooting. Since both provide information about predictors and their decision process, they are often seen as two independent means for one single end. This view has led to a dichotomous literature: explainability techniques designed for complex black-box models, or interpretable approaches ignoring the many explainability tools. In this position paper, we challenge the common idea that interpretability and explainability are substitutes for one another by listing their principal shortcomings and discussing how both of them mitigate the drawbacks of the other. In doing so, we call for a new perspective on interpretability and explainability, and works targeting both topics simultaneously, leveraging each of their respective assets.
翻訳日:2024-04-26 23:37:50 公開日:2024-04-25
# スワンソン振動子のフェルミオン拡大の例外点と基底状態絡み合いスペクトル

Exceptional points and ground-state entanglement spectrum of a fermionic extension of the Swanson oscillator ( http://arxiv.org/abs/2401.17189v2 )

ライセンス: Link先を確認
Akash Sinha, Aritra Ghosh, Bijan Bagchi, (参考訳) 二次ハミルトニアンの一般表現からなる非エルミタン量子系のよく知られた例であるスワンソン発振器の構造に触発され、2つのフェルミオン発振器を含むようなスキームのフェルミオン拡張と、粒子数を保存しない双線型カップリング項を提案する。 我々は固有値と固有ベクトルを決定し、固有状態のうち2つが自己直交関係を示す対応する固有ベクトルと結合する例外点の出現を明らかにする。 我々は基底状態の絡み合いスペクトルと絡み合いエントロピーを2つの異なる方法で計算する。 非エルミートハミルトニアンの固有ベクトルの通常の双正規化を含むアプローチに加えて、固有ベクトルがディラックノルムに関して正規化される場合についても論じる。 このモデルは、基底状態の交差が存在するため、量子相転移を示す。

Motivated by the structure of the Swanson oscillator, which is a well-known example of a non-hermitian quantum system consisting of a general representation of a quadratic Hamiltonian, we propose a fermionic extension of such a scheme which incorporates two fermionic oscillators, together with bilinear-coupling terms that do not conserve particle number. We determine the eigenvalues and eigenvectors, and expose the appearance of exceptional points where two of the eigenstates coalesce with the corresponding eigenvectors exhibiting the self-orthogonality relation. We compute the entanglement spectrum and entanglement entropy of the ground state in two different ways, with one of them being via the Gelfand-Naimark-Segal construction. In addition to the approach involving the usual bi-normalization of the eigenvectors of the non-hermitian Hamiltonian, we also discuss the case where the eigenvectors are normalized with respect to the Dirac norms. It is found that the model exhibits a quantum phase transition due to the presence of a ground-state crossing.
翻訳日:2024-04-26 23:27:32 公開日:2024-04-25
# TorchMD-Net 2.0:分子シミュレーションのための高速ニューラルネットワークの可能性

TorchMD-Net 2.0: Fast Neural Network Potentials for Molecular Simulations ( http://arxiv.org/abs/2402.17660v2 )

ライセンス: Link先を確認
Raul P. Pelaez, Guillem Simeon, Raimondas Galvelis, Antonio Mirarchi, Peter Eastman, Stefan Doerr, Philipp Thölke, Thomas E. Markland, Gianni De Fabritiis, (参考訳) 分子シミュレーションにおける計算速度、予測精度、普遍的適用性のバランスをとることは、永続的な課題である。 本稿では,従来の力場からニューラルネットワークに基づくポテンシャルへのシフトにおいて,TorchMD-Netソフトウェアにおける重要な進歩を示す。 TorchMD-Netのより包括的で汎用的なフレームワークへの進化が強調され、TensorNetのような最先端アーキテクチャが取り入れられている。 このトランスフォーメーションはモジュラーデザインアプローチを通じて実現され、科学コミュニティ内でカスタマイズされたアプリケーションを促進する。 最も顕著な拡張は計算効率の大幅な向上であり、テンソルネットモデルのエネルギーと力の計算において非常に顕著な加速を実現し、性能は以前の繰り返しよりも2倍から10倍に向上した。 その他の拡張としては、周期的境界条件をサポートする高度に最適化された隣接探索アルゴリズムや、既存の分子動力学フレームワークとのスムーズな統合などがある。 さらに、アップデートされたバージョンでは、物理的なプリエントを統合する機能が導入され、研究におけるアプリケーションスペクトルとユーティリティが強化された。 このソフトウェアはhttps://github.com/torchmd/torchmd-net.comで入手できる。

Achieving a balance between computational speed, prediction accuracy, and universal applicability in molecular simulations has been a persistent challenge. This paper presents substantial advancements in the TorchMD-Net software, a pivotal step forward in the shift from conventional force fields to neural network-based potentials. The evolution of TorchMD-Net into a more comprehensive and versatile framework is highlighted, incorporating cutting-edge architectures such as TensorNet. This transformation is achieved through a modular design approach, encouraging customized applications within the scientific community. The most notable enhancement is a significant improvement in computational efficiency, achieving a very remarkable acceleration in the computation of energy and forces for TensorNet models, with performance gains ranging from 2-fold to 10-fold over previous iterations. Other enhancements include highly optimized neighbor search algorithms that support periodic boundary conditions and the smooth integration with existing molecular dynamics frameworks. Additionally, the updated version introduces the capability to integrate physical priors, further enriching its application spectrum and utility in research. The software is available at https://github.com/torchmd/torchmd-net.
翻訳日:2024-04-26 23:27:32 公開日:2024-04-25
# ジェネレーティブAIによる電力市場信号の予測

Forecasting Electricity Market Signals via Generative AI ( http://arxiv.org/abs/2403.05743v3 )

ライセンス: Link先を確認
Xinyi Wang, Qing Zhao, Lang Tong, (参考訳) 本稿では,電力市場信号の確率予測のための生成的人工知能アプローチを提案する。 非パラメトリック時系列のWiener-Kallianpur革新表現にインスパイアされた、弱いイノベーションオートエンコーダアーキテクチャと、将来の時系列サンプルを生成する時系列の標準独立かつ同一に分散されたイノベーションシーケンスを抽出する新しいディープラーニングアルゴリズムを提案する。 提案手法の有効性は, 理想的な訓練条件下では, 生成したサンプルが基底真理と同じ条件付き確率分布を持つことを証明することによって確立される。 リアルタイム市場運用における動的・揮発性時系列の3つの応用について考察する。 一 蓄電池等の自己予定資源の位置的限界価格予測 二 為替市場における仮想入札者の地域間価格スプレッド予測 三 周波数規制のエリア制御誤差予測 複数の独立系オペレーターの市場データに基づく数値的研究は、確率的および点予測の両指標の下で、古典的および近代的な機械学習手法を先導するよりも、提案した生成予測器の優れた性能を示す。

This paper presents a generative artificial intelligence approach to probabilistic forecasting of electricity market signals, such as real-time locational marginal prices and area control error signals. Inspired by the Wiener-Kallianpur innovation representation of nonparametric time series, we propose a weak innovation autoencoder architecture and a novel deep learning algorithm that extracts the canonical independent and identically distributed innovation sequence of the time series, from which future time series samples are generated. The validity of the proposed approach is established by proving that, under ideal training conditions, the generated samples have the same conditional probability distribution as that of the ground truth. Three applications involving highly dynamic and volatile time series in real-time market operations are considered: (i) locational marginal price forecasting for self-scheduled resources such as battery storage participants, (ii) interregional price spread forecasting for virtual bidders in interchange markets, and (iii) area control error forecasting for frequency regulations. Numerical studies based on market data from multiple independent system operators demonstrate the superior performance of the proposed generative forecaster over leading classical and modern machine learning techniques under both probabilistic and point forecasting metrics.
翻訳日:2024-04-26 23:27:32 公開日:2024-04-25
# マルチパーティネットワークにおける量子コーディネート率

Quantum Coordination Rates in Multi-Partite Networks ( http://arxiv.org/abs/2403.11893v2 )

ライセンス: Link先を確認
Hosen Nator, Uzi Pereg, (参考訳) 最適調整速度は、マルチパーティ量子ネットワークの3つの一次設定で決定され、複数のパーティ間の共同量子状態をシミュレートするために必要となる最小限のリソースを特徴付ける。 本研究では,(1)狭い絡み合いを持つカスケードネットワーク,(2)1つの送信機と2つの受信機からなる放送ネットワーク,(3)2つの送信機と1つの受信機を備えた多重アクセスネットワークについて検討する。 我々は,各設定において,漸近的に達成可能なコミュニケーションと絡み合い率について,必要かつ十分な条件を確立する。 最後に、量子戦略を持つ非局所ゲームにおいて、結果が意味することを示す。

The optimal coordination rates are determined in three primary settings of multi-partite quantum networks, thus characterizing the minimal resources required in order to simulate a joint quantum state among multiple parties. We study the following models: (1) a cascade network with limited entanglement, (2) a broadcast network, which consists of a single sender and two receivers, (3) a multiple-access network with two senders and a single receiver. We establish the necessary and sufficient conditions on the asymptotically-achievable communication and entanglement rates in each setting. At last, we show the implications of our results on nonlocal games with quantum strategies.
翻訳日:2024-04-26 23:27:32 公開日:2024-04-25
# 深層学習に基づく放射線学レポート作成研究の体系的レビュー

A Systematic Review of Deep Learning-based Research on Radiology Report Generation ( http://arxiv.org/abs/2311.14199v2 )

ライセンス: Link先を確認
Chang Liu, Yuanhe Tian, Yan Song, (参考訳) 放射線学報告生成(RRG)は,臨床放射線写真,例えば胸部X線画像から自由テキスト記述を自動的に生成することを目的としている。 RRGは、臨床自動化の促進に不可欠な役割を担い、経験の浅い医師や放射線医の業務を緩和するための実践的な支援を提供する。 したがって、これらの有意義なポテンシャルを考えると、RRGの研究は過去半年で爆発的な成長を経験しており、特にディープラーニングアプローチの急速な発展と共にである。 既存の研究は、様々なモダリティの強化の観点からRRGを実行し、視覚情報とテキスト情報の両方から詳細な特徴を持つレポート生成プロセスを最適化するための洞察を与え、それら間の相互モーダル相互作用によりRRGを促進する。 本稿では,深層学習に基づくRRGについて,様々な観点から概観する。 具体的には、まず、無線グラフのタスク固有の特徴、レポート、それらの間の相互モーダル関係に基づいて、重要なRRGアプローチを取り上げ、その後、従来のベンチマークデータセットを評価指標で説明し、その後、異なるアプローチのパフォーマンスを分析し、最後に、今後の課題とトレンドについて概説する。 本論文の目的は,既存の文献を理解するためのツールとして機能し,RRG分野における潜在的に有意義な研究を促進することである。

Radiology report generation (RRG) aims to automatically generate free-text descriptions from clinical radiographs, e.g., chest X-Ray images. RRG plays an essential role in promoting clinical automation and presents significant help to provide practical assistance for inexperienced doctors and alleviate radiologists' workloads. Therefore, consider these meaningful potentials, research on RRG is experiencing explosive growth in the past half-decade, especially with the rapid development of deep learning approaches. Existing studies perform RRG from the perspective of enhancing different modalities, provide insights on optimizing the report generation process with elaborated features from both visual and textual information, and further facilitate RRG with the cross-modal interactions among them. In this paper, we present a comprehensive review of deep learning-based RRG from various perspectives. Specifically, we firstly cover pivotal RRG approaches based on the task-specific features of radiographs, reports, and the cross-modal relations between them, and then illustrate the benchmark datasets conventionally used for this task with evaluation metrics, subsequently analyze the performance of different approaches and finally offer our summary on the challenges and the trends in future directions. Overall, the goal of this paper is to serve as a tool for understanding existing literature and inspiring potential valuable research in the field of RRG.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# FRNet: スケーラブルLiDARセグメンテーションのためのフラストタルラウンジネットワーク

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation ( http://arxiv.org/abs/2312.04484v2 )

ライセンス: Link先を確認
Xiang Xu, Lingdong Kong, Hui Shuai, Qingshan Liu, (参考訳) LiDARセグメンテーションは、先進的な自動運転システムにおいて重要なコンポーネントとなっている。 最近のレンジビューLiDARセグメンテーションアプローチは、リアルタイム処理の可能性を示唆している。 しかし、これらは必然的に腐敗した文脈情報に悩まされ、予測洗練のための後処理技術に大きく依存する。 本研究では,対応するフラストタルLiDAR点を用いた範囲画像のコンテキスト情報復元を目的とした簡易かつ強力なFRNetを提案する。 まず、フラストラム特徴エンコーダモジュールを用いて、シーンの一貫性を保ち、ポイントレベルの予測に不可欠であるフラストラム領域内のポイントごとの特徴を抽出する。 次に、フラスタム点融合モジュールを導入し、ポイントごとの特徴を階層的に更新し、各ポイントがフラスタム特徴を介してより多くの周辺情報を抽出できるようにする。 最後に、ヘッドフュージョンモジュールを使用して、最終的なセマンティック予測のために異なるレベルで機能をフューズする。 さまざまなタスク設定の下で4つのLiDARセグメンテーションベンチマークで実施された大規模な実験はFRNetの優位性を示している。 特にFRNetはSemanticKITTIとnuScenesのテストセットで73.3%と82.5%のmIoUスコアを達成した。 FRNetは競争力のある性能を達成する一方で、最先端のアプローチの5倍の速度で動作している。 このような高い効率性は、よりスケーラブルなLiDARセグメンテーションの新たな可能性を開く。 コードはhttps://github.com/Xiangxu-0103/FRNetで公開されている。

LiDAR segmentation has become a crucial component in advanced autonomous driving systems. Recent range-view LiDAR segmentation approaches show promise for real-time processing. However, they inevitably suffer from corrupted contextual information and rely heavily on post-processing techniques for prediction refinement. In this work, we propose FRNet, a simple yet powerful method aimed at restoring the contextual information of range image pixels using corresponding frustum LiDAR points. Firstly, a frustum feature encoder module is used to extract per-point features within the frustum region, which preserves scene consistency and is crucial for point-level predictions. Next, a frustum-point fusion module is introduced to update per-point features hierarchically, enabling each point to extract more surrounding information via the frustum features. Finally, a head fusion module is used to fuse features at different levels for final semantic prediction. Extensive experiments conducted on four popular LiDAR segmentation benchmarks under various task setups demonstrate the superiority of FRNet. Notably, FRNet achieves 73.3% and 82.5% mIoU scores on the testing sets of SemanticKITTI and nuScenes. While achieving competitive performance, FRNet operates 5 times faster than state-of-the-art approaches. Such high efficiency opens up new possibilities for more scalable LiDAR segmentation. The code has been made publicly available at https://github.com/Xiangxu-0103/FRNet.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# BELT: 昔ながらのバックドア攻撃は、バックドアの排他的リフティングによって、最先端の防御を回避できる

BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting ( http://arxiv.org/abs/2312.04902v2 )

ライセンス: Link先を確認
Huming Qiu, Junjie Sun, Mi Zhang, Xudong Pan, Min Yang, (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃の影響を受けやすく、悪意のある機能が組み込まれ、攻撃者が誤った分類をトリガーすることができる。 旧来のバックドア攻撃は、被害者のモデルで簡単に学習できる強力なトリガー機能を使用する。 入力変動に対する堅牢性にもかかわらず、ロバスト性は意図しないトリガー活性化の可能性を高める。 これは既存の防御に遡り、バックドアを起動する元のトリガの近似的な置き換えが、元のトリガと同一でない、例えばリバースエンジニアリングやサンプルオーバーレイによって見つかる。 本稿では,バックドア攻撃の新たな特徴,すなわち,入力変動の存在下で有効なバックドアトリガの能力を測定する,バックドア攻撃の新たな特徴について検討する。 バックドア排他性(バックドア排他性)の概念に基づいて,バックドアとファジィトリガの関連性を抑える新しい手法であるバックドア排他性(Backdoor Exclusivity LifTing, BELT)を提案し, 防御回避のためのバックドア排他性(バックドア排他性)を高める。 3つの一般的なバックドア・ベンチマークを総合的に評価した結果,従来のバックドア・アタック(バックドア・アタック)のステルス性は著しく向上し,バックドア・アタック(バックドア・アタック)が7種類のバックドア・アタック(バックドア・アタック)を回避できた。 例えば、初期のバックドア攻撃の1つは、BELTによって強化されたBadNetで、バックドアモデルを認識するABSやMOTHを含む最先端の防御を回避している。

Deep neural networks (DNNs) are susceptible to backdoor attacks, where malicious functionality is embedded to allow attackers to trigger incorrect classifications. Old-school backdoor attacks use strong trigger features that can easily be learned by victim models. Despite robustness against input variation, the robustness however increases the likelihood of unintentional trigger activations. This leaves traces to existing defenses, which find approximate replacements for the original triggers that can activate the backdoor without being identical to the original trigger via, e.g., reverse engineering and sample overlay. In this paper, we propose and investigate a new characteristic of backdoor attacks, namely, backdoor exclusivity, which measures the ability of backdoor triggers to remain effective in the presence of input variation. Building upon the concept of backdoor exclusivity, we propose Backdoor Exclusivity LifTing (BELT), a novel technique which suppresses the association between the backdoor and fuzzy triggers to enhance backdoor exclusivity for defense evasion. Extensive evaluation on three popular backdoor benchmarks validate, our approach substantially enhances the stealthiness of four old-school backdoor attacks, which, after backdoor exclusivity lifting, is able to evade seven state-of-the-art backdoor countermeasures, at almost no cost of the attack success rate and normal utility. For example, one of the earliest backdoor attacks BadNet, enhanced by BELT, evades most of the state-of-the-art defenses including ABS and MOTH which would otherwise recognize the backdoored model.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# 重み付き導入による差分差分に対する融合型2ウェイ固定効果

Fused Extended Two-Way Fixed Effects for Difference-in-Differences with Staggered Adoptions ( http://arxiv.org/abs/2312.05985v2 )

ライセンス: Link先を確認
Gregory Faletto, (参考訳) 停滞した導入下での差分差分に対する正準二方向固定効果推定器のバイアスに対処するため、Woldridge (2021) は拡張二方向固定効果推定器を提案し、多くのパラメータを追加した。 しかし、これは効率を低下させる。 これらのパラメータのいくつかを等しく制限する(例えば、コホート内でのその後の治療効果)ことは役立つが、アドホックな制限はバイアスを再導入する可能性がある。 本研究では,FETWFE(Fused extended two-way fixed effect)という,単一チューニングパラメータを持つ機械学習推定器を提案する。 FETWFEは、適切な空間的仮定の下で、確率が1の傾向の正しい制限を識別し、効率を向上することを示す。 また, FETWFEの特異性, オラクル特性, および漸近正規性についても, 条件付きまたは辺方向の平行な傾向下での不均一な辺縁処理効果推定器を用いて検証し, 条件付き平均処理効果について同じ結果を示した。 シミュレーション研究におけるFETWFEの実証と実証応用について述べる。

To address the bias of the canonical two-way fixed effects estimator for difference-in-differences under staggered adoptions, Wooldridge (2021) proposed the extended two-way fixed effects estimator, which adds many parameters. However, this reduces efficiency. Restricting some of these parameters to be equal (for example, subsequent treatment effects within a cohort) helps, but ad hoc restrictions may reintroduce bias. We propose a machine learning estimator with a single tuning parameter, fused extended two-way fixed effects (FETWFE), that enables automatic data-driven selection of these restrictions. We prove that under an appropriate sparsity assumption FETWFE identifies the correct restrictions with probability tending to one, which improves efficiency. We also prove the consistency, oracle property, and asymptotic normality of FETWFE for several classes of heterogeneous marginal treatment effect estimators under either conditional or marginal parallel trends, and we prove the same results for conditional average treatment effects under conditional parallel trends. We demonstrate FETWFE in simulation studies and an empirical application.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# 不確実なデータを用いたニューラルネットワークのトレーニング:エキスパートアプローチの混合

Training of Neural Networks with Uncertain Data: A Mixture of Experts Approach ( http://arxiv.org/abs/2312.08083v4 )

ライセンス: Link先を確認
Lucas Luttner, (参考訳) 本稿では、ニューラルネットワーク(NN)に基づく予測モデルにおけるアレラトリック不確実性に対処する新しいソリューションである「エキスパートの不確実性認識混合(uMoE)」を紹介する。 既存の方法論は主に推論中の不確実性を管理することに集中しているが、uMoEはトレーニングフェーズに不確実性を独自に埋め込む。 Divide and Conquer"戦略を用いて、uMoEは不確実な入力空間をより管理可能なサブ空間に戦略的に分割する。 エキスパートコンポーネントで構成され、それぞれのサブスペースの不確実性に基づいて個別にトレーニングされる。 ゲーティングユニットであるエキスパートを概観し、これらのサブスペースにまたがる不確実なインプットの分布に関する追加情報を活用し、重み付けを動的に調整し、地平からの偏差を最小限に抑える。 本研究は,データ不確実性を効果的に管理するために,ベースライン法よりもuMoEの方が優れていることを示す。 さらに, 包括的ロバスト性解析により, 種々の不確実性レベルへの適応性を示し, 最適しきい値パラメータを提案する。 この革新的なアプローチは、バイオメディカル信号処理、自律運転、生産品質管理など、様々なda-ta-drivenドメインに適用可能である。

This paper introduces the "Uncertainty-aware Mixture of Experts" (uMoE), a novel solution aimed at addressing aleatoric uncertainty within Neural Network (NN) based predictive models. While existing methodologies primarily concentrate on managing uncertainty during inference, uMoE uniquely embeds uncertainty into the training phase. Employing a "Divide and Conquer" strategy, uMoE strategically partitions the uncertain input space into more manageable subspaces. It comprises Expert components, individually trained on their respective subspace uncertainties. Overarching the Experts, a Gating Unit, leveraging additional information regarding the distribution of uncertain in-puts across these subspaces, dynamically adjusts the weighting to minimize deviations from ground truth. Our findings demonstrate the superior performance of uMoE over baseline methods in effectively managing data uncertainty. Furthermore, through a comprehensive robustness analysis, we showcase its adaptability to varying uncertainty levels and propose optimal threshold parameters. This innovative approach boasts broad applicability across diverse da-ta-driven domains, including but not limited to biomedical signal processing, autonomous driving, and production quality control.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# STaR:軽量音声自己監督学習モデルのための音声時間関係の蒸留

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models ( http://arxiv.org/abs/2312.09040v2 )

ライセンス: Link先を確認
Kangwook Jang, Sungnyun Kim, Hoirin Kim, (参考訳) Transformerベースの音声自己教師学習(SSL)モデルの優れた性能にもかかわらず、その大きなパラメータサイズと計算コストは、それらを利用するのが好ましくない。 本研究では,音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。 従来の音声フレームの表現と直接一致する従来の研究とは異なり、STaR蒸留は音声フレーム間の時間的関係を伝達する。 3つのSTaR蒸留目標を探索し、最終STaR損失として最適な組み合わせを選択する。 HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。 提案手法は,異なる音声SSLモデルに適用可能であり,より少ないパラメータで頑健な性能を維持できることを示す。

Albeit great performance of Transformer-based speech selfsupervised learning (SSL) models, their large parameter size and computational cost make them unfavorable to utilize. In this study, we propose to compress the speech SSL models by distilling speech temporal relation (STaR). Unlike previous works that directly match the representation for each speech frame, STaR distillation transfers temporal relation between speech frames, which is more suitable for lightweight student with limited capacity. We explore three STaR distillation objectives and select the best combination as the final STaR loss. Our model distilled from HuBERT BASE achieves an overall score of 79.8 on SUPERB benchmark, the best performance among models with up to 27 million parameters. We show that our method is applicable across different speech SSL models and maintains robust performance with further reduced parameters.
翻訳日:2024-04-26 23:17:45 公開日:2024-04-25
# 適応最適化のない電子状態に対する高精度かつゲート効率の量子アンセッツェ

Accurate and gate-efficient quantum ansätze for electronic states without adaptive optimisation ( http://arxiv.org/abs/2312.09761v4 )

ライセンス: Link先を確認
Hugh G. A. Burton, (参考訳) 量子コンピュータが、多体問題の指数的メモリスケーリングを克服する能力は、量子化学を変革することが期待されている。 量子アルゴリズムは量子デバイス上での電子状態の正確な表現を必要とするが、現在の近似は物理対称性を保ちながら化学的精度とゲート効率を組み合わせるのに苦労し、各分子に波動関数のアンザッツを調整する測定集約適応法に依存している。 本報告では, 化学的精度の高い分子エネルギーを, 回路構造をよく定義する対称性保存・ゲート効率アンサッツを提案する。 提案手法は、局所量子ビット接続、軌道最適化、一般化原子価結合理論との接続を利用して、浅い量子回路で得られる精度を最大化する。 テトラメチレンエタンのベンゼン、水、一重項-三重項ギャップを含む弱い電子相関を持つ分子の数値シミュレーションにより、化学的に正確なエネルギーは、最先端の適応アンザッツ技術と比較して最大84%少ない2ビットゲートで達成されることを示した。

The ability of quantum computers to overcome the exponential memory scaling of many-body problems is expected to transform quantum chemistry. Quantum algorithms require accurate representations of electronic states on a quantum device, but current approximations struggle to combine chemical accuracy and gate-efficiency while preserving physical symmetries, and rely on measurement-intensive adaptive methods that tailor the wave function ansatz to each molecule. In this contribution, we present a symmetry-preserving and gate-efficient ansatz that provides chemically accurate molecular energies with a well-defined circuit structure. Our approach exploits local qubit connectivity, orbital optimisation, and connections with generalised valence bond theory to maximise the accuracy that is obtained with shallow quantum circuits. Numerical simulations for molecules with weak and strong electron correlation, including benzene, water, and the singlet-triplet gap in tetramethyleneethane, demonstrate that chemically accurate energies are achieved with as much as 84% fewer two-qubit gates compared to state-of-the-art adaptive ansatz techniques.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# ハミルトニアンシミュレーションによる対流方程式の量子アルゴリズム

Quantum Algorithm for Solving the Advection Equation using Hamiltonian Simulation ( http://arxiv.org/abs/2312.09784v2 )

ライセンス: Link先を確認
Peter Brearley, Sylvain Laizet, (参考訳) 離散時間マーチング演算子をハミルトニアンシミュレーションに埋め込み, 対流方程式を解く量子アルゴリズムを提案する。 一次元の対流は、一階微分の中央有限差分作用素が反エルミート的であるため、直接シミュレートすることができる。 ここで、これは工業的に関係のある、現実的な境界条件と任意の有限差分ステンシルを持つ多次元流れに拡張される。 初期量子状態の単一コピーが要求され、回路深さは時間ステップの数、時間マーチング演算子の間隔、許容誤差の逆数とともに線形に増大する。 2次元流路流と蓋駆動キャビティ構成で輸送されるスカラーの状態ベクトルシミュレーションを,提案手法の概念実証として提示する。

A quantum algorithm for solving the advection equation by embedding the discrete time-marching operator into Hamiltonian simulations is presented. One-dimensional advection can be simulated directly since the central finite difference operator for first-order derivatives is anti-Hermitian. Here, this is extended to industrially relevant, multi-dimensional flows with realistic boundary conditions and arbitrary finite difference stencils. A single copy of the initial quantum state is required and the circuit depth grows linearly with the required number of time steps, the sparsity of the time-marching operator and the inverse of the allowable error. Statevector simulations of a scalar transported in a two-dimensional channel flow and lid-driven cavity configuration are presented as a proof of concept of the proposed approach.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# 量子コンピュータを用いたシュウィンガーモデルの1次相転移

First-Order Phase Transition of the Schwinger Model with a Quantum Computer ( http://arxiv.org/abs/2312.12831v3 )

ライセンス: Link先を確認
Takis Angelides, Pranay Naredi, Arianna Crippa, Karl Jansen, Stefan Kühn, Ivano Tavernelli, Derek S. Wang, (参考訳) 本稿では,変分量子固有解法 (VQE) を用いてトポロジカル$\theta$-termの存在下での格子シュウィンガーモデルの1次位相遷移について検討する。 Wilson と Stagered fermion の2つの異なるフェミオン離散化を用いて、両離散化に適したパラメトリックアンサッツ回路を開発し、ノイズがない場合に理想的なVQE最適化を古典的にシミュレートしてそれらの性能を比較する。 古典的なシミュレーションによって得られた状態は、IBMの超伝導量子ハードウェア上で準備される。 本研究では, 電場密度と粒子数, モデルの位相構造を明らかにする観測可能な観測値が, 量子ハードウェアから確実に得られることを示す。 連続体外挿に必要なシステムサイズを最小化するために,行列積状態を用いた連続体限界について検討し,その結果を連続体摂動理論と比較した。 付加的な質量再正規化を考慮に入れることは、より小さなシステムサイズで得られる精度を高めるのに不可欠である。 さらに、観測可能量について、普遍性を観測し、両方のフェルミオンの離散化は同じ連続極限を生成する。

We explore the first-order phase transition in the lattice Schwinger model in the presence of a topological $\theta$-term by means of the variational quantum eigensolver (VQE). Using two different fermion discretizations, Wilson and staggered fermions, we develop parametric ansatz circuits suitable for both discretizations, and compare their performance by simulating classically an ideal VQE optimization in the absence of noise. The states obtained by the classical simulation are then prepared on the IBM's superconducting quantum hardware. Applying state-of-the art error-mitigation methods, we show that the electric field density and particle number, observables which reveal the phase structure of the model, can be reliably obtained from the quantum hardware. To investigate the minimum system sizes required for a continuum extrapolation, we study the continuum limit using matrix product states, and compare our results to continuum mass perturbation theory. We demonstrate that taking the additive mass renormalization into account is vital for enhancing the precision that can be obtained with smaller system sizes. Furthermore, for the observables we investigate we observe universality, and both fermion discretizations produce the same continuum limit.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# テキスト・トゥ・イメージ・ソフトウェアの自動テスト

Automated Testing for Text-to-Image Software ( http://arxiv.org/abs/2312.12933v2 )

ライセンス: Link先を確認
Siqi Gu, (参考訳) 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。 テキスト・トゥ・イメージ(T2I)ソフトウェアは、最も広く使われているソフトウェアの一つであり、クロスモーダル・プロセスに携わることで、単純なテキスト入力で画像の合成に使用される。 しかし、いくつかの分野でかなりの進歩があったにもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低さ、テキスト画像情報のミスマッチなど、しばしば欠陥や誤りに遭遇する。 T2Iソフトウェアのクロスモーダルな性質は、従来のテスト手法が欠陥を検出するのを困難にしている。 テストオラクルの欠如は、テストの複雑さをさらに高める。 この欠陥に対処するため,本研究では,T2Iソフトウェア用に設計された最初のテスト手法である,テキスト・ツー・イメージ・ソフトウェアの自動クロスモーダルテスト手法であるACTestingを提案する。 本研究は, セマンティック情報における一貫性の維持という基本原理に従って, エンティティと関係三重項に基づくテストサンプルを構築し, クロスモーダルマッチングの課題を克服する。 まず,T2Iソフトウェアの変成関係を設計し,適応性密度で導かれる3種類の突然変異演算子を実装した。 実験では,広く使用されている4つのT2Iソフトウェア上でACTestを行う。 その結果、ACTestingはエラー検出テストを生成することができ、ベースラインと比較してテキストイメージの一貫性を最大20%削減できることがわかった。 また,提案した変成関係に基づいて,各変異演算子の有効性を効果的に示すアブレーション研究も行った。 その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。

Recently, creative generative artificial intelligence software has emerged as a pivotal assistant, enabling users to generate content and seek inspiration rapidly. Text-to-image (T2I) software, being one of the most widely used among them, is used to synthesize images with simple text input by engaging in a cross-modal process. However, despite substantial advancements in several fields, T2I software often encounters defects and erroneous, including omitting focal entities, low image realism, and mismatched text-image information. The cross-modal nature of T2I software makes it challenging for traditional testing methods to detect defects. Lacking test oracles further increases the complexity of testing. To address this deficiency, we propose ACTesting, an Automated Cross-modal Testing Method of Text-to-Image software, the first testing method designed specifically for T2I software. We construct test samples based on entities and relationship triples following the fundamental principle of maintaining consistency in the semantic information to overcome the cross-modal matching challenges. To address the issue of testing oracle scarcity, we first design the metamorphic relation for T2I software and implement three types of mutation operators guided by adaptability density. In the experiment, we conduct ACTesting on four widely-used T2I software. The results show that ACTesting can generate error-revealing tests, reducing the text-image consistency by up to 20% compared with the baseline. We also conduct the ablation study that effectively showcases the efficacy of each mutation operator, based on the proposed metamorphic relation. The results demonstrate that ACTesting can identify abnormal behaviors of T2I software effectively.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# サービス効率と平等のバランスをとるための拡張p中間問題

Extended p-median problems for balancing service efficiency and equality ( http://arxiv.org/abs/2312.14408v2 )

ライセンス: Link先を確認
Yunfeng Kong, Chenchen Lian, Guangli Zhang, Shiyan Zhai, (参考訳) この記事では、サービスの効率と平等のバランスをとるための場所問題を扱います。 公共サービスシステムでは、他のサービスにアクセスするのに長い旅行距離が必要な場合、うらやましい思いをする人もいます。 走行距離をサービス施設としきい値距離と比較することにより、エンビーの強度を測定することができる。 サービス効率と等価性の間のトレードオフのために,全エンビー関数を用いて4つの拡張されたp中間問題を提案する。 新しい問題の5つの解析的性質が数学的に証明されている。 新しい問題は、よく設計された3つのインスタンスでテストされた。 実験により,旅行コストと空間的エンビーを最小化することにより,標準偏差,平均絶対偏差,旅行距離間のジーニ係数などの等式を著しく改善できることを示した。 また, 施設数の観点からサービス供給が提供される場合, 走行距離をわずかに増加させることで, サービス平等性を大幅に向上させることができることを示した。 施設数でサービス供給量が増えると、サービス効率と空間平等の両方を著しく向上させることができる。

This article deals with the location problem for balancing the service efficiency and equality. In public service systems, some people may feel envy in case that they need longer travel distance to access services than others. The strength of the envy can be measured by comparing one's travel distance to service facility with a threshold distance. Using the total envy function, four extended p-median problems are proposed for trade-off between service efficiency and equality. Five analytical properties of the new problems are mathematically proven. The new problems were tested on three sets of well-designed instances. The experimentation shows that the equality measures, such as the standard deviation, the mean absolute deviation, and the Gini coefficient between travel distances, can be substantially improved by minimizing the travel cost and the spatial envy. The experimentation also shows that, when the service supply is given in terms of the number of facilities, the service equality can be considerably improved by slightly increasing the travel distance. When the service supply is increased in terms of the number of facilities, both the service efficiency and spatial equality can be significantly improved.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# Decorrelated Event Classifier Transformer Neural Networkによる重要度学習の試み

Training towards significance with the decorrelated event classifier transformer neural network ( http://arxiv.org/abs/2401.00428v2 )

ライセンス: Link先を確認
Jaebak Kim, (参考訳) 実験粒子物理学では、多くのタスクに機械学習を用いており、ひとつの応用は信号とバックグラウンドイベントの分類である。 この分類は、質量共鳴探索において期待される重要性を高めるために分析領域を結合するために用いられる。 自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。 本研究では, イベント分類器変換器を用いて解析領域を結合し, ネットワークを特別な手法で訓練する手法を提案する。 ここで開発された技術は、ネットワークの出力と再構成された質量との相関性を高めることができる。 この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。

Experimental particle physics uses machine learning for many of tasks, where one application is to classify signal and background events. The classification can be used to bin an analysis region to enhance the expected significance for a mass resonance search. In natural language processing, one of the leading neural network architectures is the transformer. In this work, an event classifier transformer is proposed to bin an analysis region, in which the network is trained with special techniques. The techniques developed here can enhance the significance and reduce the correlation between the network's output and the reconstructed mass. It is found that this trained network can perform better than boosted decision trees and feed-forward networks.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# カーマグノンを用いた非相反非接触光子遮断

Nonreciprocal Unconventional Photon Blockade with Kerr Magnons ( http://arxiv.org/abs/2401.02251v2 )

ライセンス: Link先を確認
Xiao-Hong Fan, Yi-Ning Zhang, Jun-Po Yu, Ming-Yue Liu, Wen-Di He, Hai-Chao Li, Wei Xiong, (参考訳) 片方向信号の操作を可能にする非相互デバイスは、量子情報処理と量子ネットワークにとって不可欠である。 本稿では,YIG(Yettrium-iron-garnet)球に結合したマイクロ波空洞とKerr非線形性を持つマグノンからなる非線形空洞-マグノン系を提案する。 非相互性は方向依存的なカー効果から来ており、スピンキャビティと散逸結合を持つ以前の提案とは異なる。 単一球面の場合、非相反的でない光子遮断は、ケーラー係数を正から負に、あるいはその逆の2つの活性経路間の非相反的破壊的干渉を操作することによって実現できる。 システムパラメータを最適化することにより、完全かつ十分に調整された非相互不整合光子遮断を予測することができる。 反対のカー効果を持つ2つの球体の場合、2つのキャビティとマグノンの結合強度が対称であるときに、相互の不定形光子遮断のみが観測される。 しかし、結合強度やカー強度が非対称となると、非相互非伝統的な光子遮断が現れる。 これは、2次元非線形キャビティ-マグノン系が相互と非相互の光子遮断の遷移を切り替えるために用いられることを意味する。 本研究は非線形キャビティマグノニクスにおける非相反光子遮断効果の研究のための潜在的プラットフォームを提供する。

Nonreciprocal devices, allowing to manipulate one-way signals, are crucial to quantum information processing and quantum network. Here we propose a nonlinear cavity-magnon system, consisting of a microwave cavity coupled to one or two yttrium-iron-garnet (YIG) spheres supporting magnons with Kerr nonlinearity, to investigate nonreciprocal unconventional photon blockade. The nonreciprocity originates from the direction-dependent Kerr effect, distinctly different from previous proposals with spinning cavities and dissipative couplings. For a single sphere case, nonreciprocal unconventional photon blockade can be realized by manipulating the nonreciprocal destructive interference between two active paths, via vary the Kerr coefficient from positive to negative, or vice versa. By optimizing the system parameters, the perfect and well-tuned nonreciprocal unconventional photon blockade can be predicted. For the case of two spheres with opposite Kerr effects, only reciprocal unconventional photon blockade can be observed when two cavity-magnon coupling strengths Kerr strengths are symmetric. However, when coupling strengths or Kerr strengths become asymmetric, nonreciprocal unconventional photon blockade appears. This implies that two-sphere nonlinear cavity-magnon systems can be used to switch the transition between reciprocal and nonreciprocal unconventional photon blockades. Our study offers a potential platform for investigating nonreciprocal photon blockade effect in nonlinear cavity magnonics.
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# 非有界不定点集合をもつ非双曲非線形写像の安定性と機械学習への応用

On the Stability of a non-hyperbolic nonlinear map with non-bounded set of non-isolated fixed points with applications to Machine Learning ( http://arxiv.org/abs/2401.03051v2 )

ライセンス: Link先を確認
Roberta Hansen, Matias Vera, Lautaro Estienne, Luciana Ferrer, Pablo Piantanida, (参考訳) 本稿では、一階非線形差分方程式から定義されるSUCPAアルゴリズムの収束解析を、教師付き機械学習分類器によって出力されるスコアを補正するために最初に開発した。 収束解析は、アルゴリズムから導出される非線形写像の局所的および大域的安定性を研究することにより、力学系問題として対処される。 この写像は指数関数と有理関数の合成によって定義されるが、非有界な不定点集合を持つ非双曲型であることが分かる。 したがって、収束解析を解くための非標準的手法は、アドホックな幾何学的アプローチによって構成される。 二項分類問題(二次元写像)に対して、この写像が全世界的に漸近的に安定であることを厳密に証明する。 実世界の応用に関する数値実験は,大言語モデルとキャットドー画像分類を用いた感性極性という2つの異なる分類問題を用いて理論的結果を支援するために行われた。 より多くのクラスに対して、数値的なエビデンスはアルゴリズムの同じ振る舞いを示し、これは自然言語推論の例で示される。 実験コードは、以下のリポジトリでオンラインで公開されている。

This paper deals with the convergence analysis of the SUCPA (Semi Unsupervised Calibration through Prior Adaptation) algorithm, defined from a first-order non-linear difference equations, first developed to correct the scores output by a supervised machine learning classifier. The convergence analysis is addressed as a dynamical system problem, by studying the local and global stability of the nonlinear map derived from the algorithm. This map, which is defined by a composition of exponential and rational functions, turns out to be non-hyperbolic with a non-bounded set of non-isolated fixed points. Hence, a non-standard method for solving the convergence analysis is used consisting of an ad-hoc geometrical approach. For a binary classification problem (two-dimensional map), we rigorously prove that the map is globally asymptotically stable. Numerical experiments on real-world application are performed to support the theoretical results by means of two different classification problems: Sentiment Polarity performed with a Large Language Model and Cat-Dog Image classification. For a greater number of classes, the numerical evidence shows the same behavior of the algorithm, and this is illustrated with a Natural Language Inference example. The experiment codes are publicly accessible online at the following repository: https://github.com/LautaroEst/sucpa-convergence
翻訳日:2024-04-26 23:08:00 公開日:2024-04-25
# 眼の広いシャット : マルチモーダルLDMの視覚的欠点を探る

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs ( http://arxiv.org/abs/2401.06209v2 )

ライセンス: Link先を確認
Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie, (参考訳) 視覚は言語に十分か? 近年のマルチモーダルモデルの発展は主に、大規模言語モデル(LLM)の強力な推論能力に起因している。 しかし、ビジュアルコンポーネントは通常、インスタンスレベルのコントラスト言語イメージ事前トレーニング(CLIP)にのみ依存する。 近年のMLLM(Multimodal LLM)の視覚能力は,いまだに体系的な欠点を呈している。 これらの誤りの根源を理解するために,CLIPの視覚埋め込み空間と視覚のみの自己教師型学習とのギャップについて検討する。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。 これらのペアを使って、Multimodal Visual Patterns (MMVP)ベンチマークを構築する。 MMVPは、GPT-4Vを含む最先端のシステムが、9つの基本的な視覚的パターンにまたがる簡単な質問に苦しむ領域を公開している。 さらに,様々なCLIPに基づく視覚・言語モデルの評価を行い,CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。 これらの課題に対処するための最初の取り組みとして,MLLMと視覚自己教師型学習機能を統合することで,視覚的グラウンド機能を大幅に向上させることができる,Mixture of Features (MoF)アプローチを提案する。 両研究は、視覚表現学習は依然としてオープンな課題であり、将来のマルチモーダルシステムには正確な視覚的基盤が不可欠であることを示唆している。

Is vision good enough for language? Recent advancements in multimodal models primarily stem from the powerful reasoning abilities of large language models (LLMs). However, the visual component typically depends only on the instance-level contrastive language-image pre-training (CLIP). Our research reveals that the visual capabilities in recent multimodal LLMs (MLLMs) still exhibit systematic shortcomings. To understand the roots of these errors, we explore the gap between the visual embedding space of CLIP and vision-only self-supervised learning. We identify ''CLIP-blind pairs'' - images that CLIP perceives as similar despite their clear visual differences. With these pairs, we construct the Multimodal Visual Patterns (MMVP) benchmark. MMVP exposes areas where state-of-the-art systems, including GPT-4V, struggle with straightforward questions across nine basic visual patterns, often providing incorrect answers and hallucinated explanations. We further evaluate various CLIP-based vision-and-language models and found a notable correlation between visual patterns that challenge CLIP models and those problematic for multimodal LLMs. As an initial effort to address these issues, we propose a Mixture of Features (MoF) approach, demonstrating that integrating vision self-supervised learning features with MLLMs can significantly enhance their visual grounding capabilities. Together, our research suggests visual representation learning remains an open challenge, and accurate visual grounding is crucial for future successful multimodal systems.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# 顔認識システムにおける偽造と疑似攻撃の再考

Rethinking Impersonation and Dodging Attacks on Face Recognition Systems ( http://arxiv.org/abs/2401.08903v3 )

ライセンス: Link先を確認
Fengfan Zhou, Qianyu Zhou, Bangjie Yin, Hui Zheng, Xuequan Lu, Lizhuang Ma, Hefei Ling, (参考訳) 顔認識(FR)システムは、知覚不能な摂動を通じて良質な顔画像を操作する敵の例によって容易に認識できる。 FRに対する敵対攻撃には、偽装(標的)攻撃とドッジ(対象外)攻撃の2種類がある。 従来の方法では、FRに対する偽装攻撃を成功させることが多いが、ブラックボックス設定でFRに対するドッジ攻撃を成功させるとは限らない。 本稿では,敵対的事例の生成を同時に行うことが重要視される。 そこで,本稿では,既存事例を微調整し,擬人化能力を維持しつつ,そのドッジ能力を高めるための,Adversarial Pruning (Adv-Pruning) と呼ばれる新たな攻撃手法を提案する。 アドブ・プルーニングはプライミング、プルーニング、修復段階で構成されている。 具体的には,従来の逆方向の摂動の領域的優先度を測定するための逆方向優先度定量化法を提案し,絶対モデル出力のばらつきに最小限の影響のあるものを同定・解放する。 次に、ビザドグラディエント適応(Biased Gradient Adaptation)を行い、攻撃者と被害者の双方の意思決定境界を横切るために、空き地に対する妨害攻撃に有利な摂動を追加し、元の摂動の特徴を優先的に保持し、ドッジ性能を向上させることにより、敵の例を適応させる。 その結果、ドッジ能力を効果的に向上しつつ、元の敵の例の偽装能力を維持できることがわかった。 包括的実験は、最先端の敵攻撃と比較して、本手法の優位性を実証している。

Face Recognition (FR) systems can be easily deceived by adversarial examples that manipulate benign face images through imperceptible perturbations. Adversarial attacks on FR encompass two types: impersonation (targeted) attacks and dodging (untargeted) attacks. Previous methods often achieve a successful impersonation attack on FR; However, it does not necessarily guarantee a successful dodging attack on FR in the black-box setting. In this paper, our key insight is that the generation of adversarial examples should perform both impersonation and dodging attacks simultaneously. To this end, we propose a novel attack method termed as Adversarial Pruning (Adv-Pruning), to fine-tune existing adversarial examples to enhance their dodging capabilities while preserving their impersonation capabilities. Adv-Pruning consists of Priming, Pruning, and Restoration stages. Concretely, we propose Adversarial Priority Quantification to measure the region-wise priority of original adversarial perturbations, identifying and releasing those with minimal impact on absolute model output variances. Then, Biased Gradient Adaptation is presented to adapt the adversarial examples to traverse the decision boundaries of both the attacker and victim by adding perturbations favoring dodging attacks on the vacated regions, preserving the prioritized features of the original perturbations while boosting dodging performance. As a result, we can maintain the impersonation capabilities of original adversarial examples while effectively enhancing dodging capabilities. Comprehensive experiments demonstrate the superiority of our method compared with state-of-the-art adversarial attacks.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# アンサンブル型量子メモリと単一スピン光子トランスデューサを用いたハイブリッド量子リピータ

Hybrid Quantum Repeaters with Ensemble-based Quantum Memories and Single-spin Photon Transducers ( http://arxiv.org/abs/2401.12395v2 )

ライセンス: Link先を確認
Fenglei Gu, Shankar G Menon, David Maier, Antariksha Das, Tanmoy Chakraborty, Wolfgang Tittel, Hannes Bernien, Johannes Borregaard, (参考訳) 数百キロにわたる信頼性の高い量子通信は、量子インターネットにとって非常に必要な要件である。 光子損失を克服するためには、遠隔ネットワークノード間の量子中継局の配置が必要である。 この目的のために、さまざまな量子ハードウェアが開発されており、各プラットフォームには独自の機会と課題がある。 本稿では、2つの有望なハードウェアプラットフォームをハイブリッド量子リピータアーキテクチャに組み合わせて、コストを削減し、長距離量子通信の性能を高めることを提案する。 単一スピンで光子を生成し、変換し、変調するデバイスである単一スピン光子トランスデューサと、アンサンブルベースの量子メモリがどのように結合するかを概説する。 特定の例として、ナノフォトニック共振器に結合した1つのルビジウム(Rb)原子が高レートでテレコム可視光子源として機能し、可視光子がサリウムドープ結晶メモリ(Tmメモリ)の記憶に適合し、テレコム光子が低損失ファイバ伝播に適合することを示す。 我々はTmとRbの遷移が互いに共鳴していることを実験的に検証した。 解析の結果,最大16のリピータ局を用いて,最大350個の記憶モードを持つ2つのTmメモリと4つのRb原子を同時に装備することにより,最大1000kmの距離で毎秒数百キュービットを超える量子通信速度を達成できることがわかった。

Reliable quantum communication over hundreds of kilometers is a daunting yet necessary requirement for a quantum internet. To overcome photon loss, the deployment of quantum repeater stations between distant network nodes is necessary. A plethora of different quantum hardware is being developed for this purpose, each platform with its own opportunities and challenges. Here, we propose to combine two promising hardware platforms in a hybrid quantum repeater architecture to lower the cost and boost the performance of long-distance quantum communication. We outline how ensemble-based quantum memories combined with single-spin photon transducers, which are devices that can generate, convert, and modulate photons with single spins, can facilitate massive multiplexing, efficient photon generation, and quantum logic for amplifying communication rates. As a specific example, we describe how a single Rubidium (Rb) atom coupled to nanophotonic resonators can function as a high-rate, telecom-visible entangled photon source with the visible photon being compatible with storage in a Thulium-doped crystal memory (Tm-memory) and the telecom photon being compatible with low loss fiber propagation. We experimentally verify that Tm and Rb transitions are in resonance with each other. Our analysis shows that by employing up to 16 repeater stations, each equipped with two Tm-memories capable of holding up to 350 storage modes, along with four single Rb atoms, one can reach a quantum communication rate exceeding hundreds of qubits per second across distances of up to 1000 km.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# 不確実性定量化によるLCMのベンチマーク

Benchmarking LLMs via Uncertainty Quantification ( http://arxiv.org/abs/2401.12794v2 )

ライセンス: Link先を確認
Fanghua Ye, Mingming Yang, Jianhui Pang, Longyue Wang, Derek F. Wong, Emine Yilmaz, Shuming Shi, Zhaopeng Tu, (参考訳) 各種機関からのオープンソースのLarge Language Models(LLM)の普及は,包括的評価手法の必要性を浮き彫りにした。 しかし、広く認知されているHuggingFaceオープンLLMリーダーボードのような現在の評価プラットフォームは、LLMを徹底的に評価する上で欠かせない重要な側面を無視している。 このギャップを埋めるために、不確実な定量化を統合する新しいベンチマーク手法を導入する。 本研究は,5つの自然言語処理タスクにまたがる8つのLLM(LLMシリーズ)について検討した。 以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。 これらの結果はLLMの評価に不確かさを取り入れることの重要性を浮き彫りにした。

The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves eight LLMs (LLM series) spanning five representative natural language processing tasks. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# Delocate: ランダムに位置決めされたトレーパー付きディープフェイクビデオの検出と位置決め

Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces ( http://arxiv.org/abs/2401.13516v3 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou, (参考訳) ディープフェイクビデオはますます現実的になりつつあり、フレームごとに異なる顔の領域を微妙に改ざんしている。 その結果、既存のDeepfake検出手法の多くは、未知のドメインのDeepfakeビデオを検出するのに苦労し、改ざんされた領域を正確に特定する。 そこで本研究では,未知のドメインのDeepfakeビデオの認識とローカライズが可能なDelocateという,新しいDeepfake検出モデルを提案する。 OurmethodはRecovering and Localizationという2つのステージから構成される。 回復段階において、モデルランダムは興味のある領域(ROI)を隠蔽し、痕跡を改ざんすることなく実際の顔を再構成する。 ローカライゼーション段階において、リカバリフェーズの出力とフォージェリーグラウンドの真理マスクは、フォージェリーローカライゼーションプロセスの導出を補助する。 このプロセスは、偽の顔の回復段階と回復不良を戦略的に強調し、改ざんされた領域の局所化を容易にする。 広範に使用されている4つのベンチマークデータセットの大規模な実験により、乱れ領域のローカライズに限らず、クロスドメイン検出性能も向上することが示された。

Deepfake videos are becoming increasingly realistic, showing subtle tampering traces on facial areasthat vary between frames. Consequently, many existing Deepfake detection methods struggle to detect unknown domain Deepfake videos while accurately locating the tampered region. To address thislimitation, we propose Delocate, a novel Deepfake detection model that can both recognize andlocalize unknown domain Deepfake videos. Ourmethod consists of two stages named recoveringand localization. In the recovering stage, the modelrandomly masks regions of interest (ROIs) and reconstructs real faces without tampering traces, resulting in a relatively good recovery effect for realfaces and a poor recovery effect for fake faces. Inthe localization stage, the output of the recoveryphase and the forgery ground truth mask serve assupervision to guide the forgery localization process. This process strategically emphasizes the recovery phase of fake faces with poor recovery, facilitating the localization of tampered regions. Ourextensive experiments on four widely used benchmark datasets demonstrate that Delocate not onlyexcels in localizing tampered areas but also enhances cross-domain detection performance.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# TIP-Editor:テキストプロンプと画像プロンプの両方に追随する正確な3Dエディタ

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts ( http://arxiv.org/abs/2401.14828v3 )

ライセンス: Link先を確認
Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan, (参考訳) テキスト駆動の3Dシーン編集は、その利便性とユーザフレンドリさから大きな注目を集めている。 しかし, 既存の手法では, テキスト記述に固有の制約があるため, 特定の外観や編集結果の位置を正確に制御できない。 そこで本研究では,テキストと画像のプロンプトを受け入れる3Dシーン編集フレームワークTIPEditorと,編集領域を指定する3Dバウンディングボックスを提案する。 画像プロンプトにより、ユーザは、テキスト記述を補完するターゲットコンテンツの詳細な外観/スタイルを便利に指定でき、その外観を正確に制御できる。 具体的には、TIP-Editorは、既存のシーンと参照画像の表現をよりよく学習するために、段階的に2Dパーソナライズ戦略を採用しており、そこでは、バウンディングボックスが指定した正しいオブジェクト配置を促進するために、ローカライズ損失が提案されている。 さらに、TIPEditorは、明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、バックグラウンドを一定に保ちながらローカル編集を容易にする。 TIP-Editorは、テキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行い、編集品質のベースラインと、そのプロンプトへのアライメントを質的かつ定量的に一貫して上回ることを示した。

Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# 時空間IoTデータセットにおけるユーザレベルプライバシによる平均推定

Mean Estimation with User-Level Privacy for Spatio-Temporal IoT Datasets ( http://arxiv.org/abs/2401.15906v7 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, Prajjwal Gupta, Aditya Vikram Singh, Novoneel Chakraborty, Abhay Sharma, (参考訳) 本稿では,交通データセットからの速度値のサンプル平均値のプライベートリリースの問題について考察する。 私たちの重要な貢献は、ユーザレベルの微分プライベートアルゴリズムの開発です。これは、慎重に選択されたパラメータ値を組み込んで、実際のデータセットの低い推定エラーを保証し、プライバシを確保します。 インドシティのITMS(Intelligent Traffic Management System)データ上で,未知の分布から,異なるバスの速度が潜在的に非単位の方法で引き出される場合,また,異なるバスが提供した速度サンプルの数が異なる場合のアルゴリズムをテストする。 次に、ITMSデータに基づいて生成された大規模な合成データセットにアルゴリズムを適用する。 ここでは,観測された性能傾向の理論的正当性と,推定誤差の低いアルゴリズムサブルーチンの選択を推奨する。 最後に, 擬似ユーザ生成に基づくアルゴリズムの性能を, ミニマックスアプローチにより評価し, 擬似ユーザ生成のための新しい手順を考案し, 最悪ケースの総推定誤差を最適化する。 論文で論じているアルゴリズムは、一般的な時空間IoTデータセットに容易に適用でき、所望値の微分プライベート平均を解放することができる。

This paper considers the problem of the private release of sample means of speed values from traffic datasets. Our key contribution is the development of user-level differentially private algorithms that incorporate carefully chosen parameter values to ensure low estimation errors on real-world datasets, while ensuring privacy. We test our algorithms on ITMS (Intelligent Traffic Management System) data from an Indian city, where the speeds of different buses are drawn in a potentially non-i.i.d. manner from an unknown distribution, and where the number of speed samples contributed by different buses is potentially different. We then apply our algorithms to large synthetic datasets, generated based on the ITMS data. Here, we provide theoretical justification for the observed performance trends, and also provide recommendations for the choices of algorithm subroutines that result in low estimation errors. Finally, we characterize the best performance of pseudo-user creation-based algorithms on worst-case datasets via a minimax approach; this then gives rise to a novel procedure for the creation of pseudo-users, which optimizes the worst-case total estimation error. The algorithms discussed in the paper are readily applicable to general spatio-temporal IoT datasets for releasing a differentially private mean of a desired value.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# 量子力学における確率について

On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v4 )

ライセンス: Link先を確認
Inge S. Helland, (参考訳) これは、量子力学の解釈に関する議論、一方のアンドレイ・クレンニコフと他方のブレイク・ステーシーとR\"ディガー・シャックの間での議論に関連するある概念を明確にしようとする試みである。 この議論の中心は量子確率の概念である。 私はまずQBist派で確率の概念を取り上げ、量子確率を計算するためのBorn公式について独自の議論をします。 その関係において、量子論の基礎と解釈への私のアプローチのいくつかの結果もスケッチします。 最終的な発言をする前に、QB主義に関する一般的な見解を代替解釈の可能性として論じます。

This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then give my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# 空間行動単位キューによる表情認識の誘導

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v3 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger, (参考訳) 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。 専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間的行動単位(\aus)を関連付ける。 本稿では、同様の専門家の手順を踏襲する。 新しい学習戦略が提案され, \au cues を分類器訓練に明示的に組み込むことで, 深い解釈可能なモデルを訓練することができる。 トレーニング中は、入力された画像表現ラベルと顔ランドマークとともに、このauコードブックを使用して、表情が興味のある最も識別性の高い画像領域を示す \auヒートマップを構築する。 この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、分類器の空間層の特徴を \au ヒートマップと相関させることによって達成される。 合成損失を用いて、分類器は、専門家決定過程をシミュレートし、 \au マップと相関した解釈可能な視覚層対応の注意を与えながら、画像を正しく分類するように訓練される。 我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。 我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。 2つの公開ベンチマークである \rafdb と \affectnet のデータセットを広範囲に評価した結果,提案手法は分類性能を劣化させることなく階層的解釈性を向上させることができることがわかった。 さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。

Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (\aus) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate \au cues into classifier training, allowing to train deep interpretable models. During training, this \au codebook is used, along with the input image expression label, and facial landmarks, to construct a \au heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \au heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with \au maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks \rafdb, and \affectnet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
翻訳日:2024-04-26 21:08:18 公開日:2024-04-25
# マンバは学習方法を学ぶことができるか? 文脈内学習課題の比較研究

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks ( http://arxiv.org/abs/2402.04248v2 )

ライセンス: Link先を確認
Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos, (参考訳) Mamba (Gu & Dao, 2023) のような状態空間モデル(SSM)は、ゲーティング、畳み込み、入力依存トークン選択を組み込んだ言語モデリングにおけるトランスフォーマーネットワークの代替として提案されており、マルチヘッドアテンションの二次コストを軽減している。 SSMは、競合性能を示すが、そのインコンテキスト学習(ICL)能力は、パラメータ最適化なしでタスクの実行を可能にする現代の言語モデルの顕著な創発的特性であり、Transformerと比較して過小評価されている。 本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。 その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。 しかし、SSMは非標準検索機能を含むタスクでは不足している。 これらの制約に対処するため、我々はMambaFormerというハイブリッドモデルを導入しました。 この結果から,ハイブリッドアーキテクチャは言語モデルにおけるICL向上に有望な道筋を提供する可能性が示唆された。

State-space models (SSMs), such as Mamba (Gu & Dao, 2023), have been proposed as alternatives to Transformer networks in language modeling, by incorporating gating, convolutions, and input-dependent token selection to mitigate the quadratic cost of multi-head attention. Although SSMs exhibit competitive performance, their in-context learning (ICL) capabilities, a remarkable emergent property of modern language models that enables task execution without parameter optimization, remain underexplored compared to Transformers. In this study, we evaluate the ICL performance of SSMs, focusing on Mamba, against Transformer models across various tasks. Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning. However, SSMs fall short in tasks involving non-standard retrieval functionality. To address these limitations, we introduce a hybrid model, MambaFormer, that combines Mamba with attention blocks, surpassing individual models in tasks where they struggle independently. Our findings suggest that hybrid architectures offer promising avenues for enhancing ICL in language models.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# VerAs: VerifyがSTEM Labのレポートを評価

VerAs: Verify then Assess STEM Lab Reports ( http://arxiv.org/abs/2402.05224v2 )

ライセンス: Link先を確認
Berk Atil, Mahsa Sheikhi Karizaki, Rebecca J. Passonneau, (参考訳) 批判的思考スキルへのSTEM教育への注目が高まる中、科学の執筆は調査スキルを強調するカリキュラムにおいてさらに重要な役割を担っている。 最近発表された2組の大学レベルの研究室レポートのデータセットは、複数の次元を利用する解析的評価ルーリックに依存しており、主題の知識と良い説明の一般的な構成要素を規定している。 各分析次元は6ポイントのスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。 手動のアセスメントは遅く、大きなクラスのすべての生徒の一貫性の調整が難しい。 STEMの被験者におけるオープンエンド質問の自動評価には多くの作業があるが、ラボレポートのような長文の執筆には、はるかに少ない作業がなされている。 我々は,Open Domain Question Answering (OpenQA) のアプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。 VerAsはまず、あるレポートが与えられたルーリック次元に関連する内容を含むかどうかを検証し、もしそうであれば、関連する文を評価する。 研究室のレポートでは、VerAsはOpenQAシステムまたはAutomated Essay Scoring(AES)に基づいて複数のベースラインを上回ります。 VerAsは、中学の物理学エッセイの分析ルーブリックでもうまく機能している。

With an increasing focus in STEM education on critical thinking skills, science writing plays an ever more important role in curricula that stress inquiry skills. A recently published dataset of two sets of college level lab reports from an inquiry-based physics curriculum relies on analytic assessment rubrics that utilize multiple dimensions, specifying subject matter knowledge and general components of good explanations. Each analytic dimension is assessed on a 6-point scale, to provide detailed feedback to students that can help them improve their science writing skills. Manual assessment can be slow, and difficult to calibrate for consistency across all students in large classes. While much work exists on automated assessment of open-ended questions in STEM subjects, there has been far less work on long-form writing such as lab reports. We present an end-to-end neural architecture that has separate verifier and assessment modules, inspired by approaches to Open Domain Question Answering (OpenQA). VerAs first verifies whether a report contains any content relevant to a given rubric dimension, and if so, assesses the relevant sentences. On the lab reports, VerAs outperforms multiple baselines based on OpenQA systems or Automated Essay Scoring (AES). VerAs also performs well on an analytic rubric for middle school physics essays.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# ChemLLM: 化学大言語モデル

ChemLLM: A Chemical Large Language Model ( http://arxiv.org/abs/2402.06852v2 )

ライセンス: Link先を確認
Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Wanli Ouyang, Dongzhan Zhou, Shufei Zhang, Mao Su, Han-Sen Zhong, Yuqiang Li, (参考訳) 大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。 しかし、コミュニティには化学に特化したLLMが欠落している。 第一に、ほとんどの化学データと科学的知識は構造化データベースに格納され、モデルが直接使用するときの一貫性のある対話を維持する能力を制限する。 第二に、ほとんどの化学タスクを包含する客観的かつ公正なベンチマークがない。 本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。 また、命令チューニング用に特別に設計されたデータセットであるChemDataと、9つの必須化学タスクをカバーする堅牢なベンチマークであるChemBenchも含まれている。 ChemLLMは、流体対話相互作用を持つ化学分野にまたがる様々なタスクを実行するのに適している。 特に、ChemLLMは、コアケミカルタスクにおいて、GPT-4に匹敵する結果を達成し、一般的なシナリオにおいて、同様のサイズのLLMと競合する性能を示す。 ChemLLMは化学研究の新たな道のりを歩み、構造化された化学知識を対話システムに組み込む手法は、様々な科学分野においてLSMを開発するための新しい標準となる。 コード、データセット、モデルウェイトはhttps://hf.co/AI4Chemで公開されている。

Large language models (LLMs) have made impressive progress in chemistry applications. However, the community lacks an LLM specifically designed for chemistry. The main challenges are two-fold: firstly, most chemical data and scientific knowledge are stored in structured databases, which limits the model's ability to sustain coherent dialogue when used directly. Secondly, there is an absence of objective and fair benchmark that encompass most chemistry tasks. Here, we introduce ChemLLM, a comprehensive framework that features the first LLM dedicated to chemistry. It also includes ChemData, a dataset specifically designed for instruction tuning, and ChemBench, a robust benchmark covering nine essential chemistry tasks. ChemLLM is adept at performing various tasks across chemical disciplines with fluid dialogue interaction. Notably, ChemLLM achieves results comparable to GPT-4 on the core chemical tasks and demonstrates competitive performance with LLMs of similar size in general scenarios. ChemLLM paves a new path for exploration in chemical studies, and our method of incorporating structured chemical knowledge into dialogue systems sets a new standard for developing LLMs in various scientific fields. Codes, Datasets, and Model weights are publicly accessible at https://hf.co/AI4Chem
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# 一般選好モデルを用いた人のフィードバックからのオンライン反復強化学習

Online Iterative Reinforcement Learning from Human Feedback with General Preference Model ( http://arxiv.org/abs/2402.07314v2 )

ライセンス: Link先を確認
Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang, (参考訳) 本研究では,人間フィードバックからの強化学習(RLHF)について,一般の嗜好に基づく研究を行った。 特に、報酬関数が存在するとは仮定せず、優先信号は以前の作品のほとんどがそうであるようにブラッドリー・テリーモデルから引き出される。 我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。 この定式化の学習目的は、競合するLLMよりもKL規則化された選好オラクルに一貫して好まれるようにポリシーを見つけることである。 このフレームワークは報奨ベースよりも厳密な汎用性を示し,事前選択した選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムと,トレーニングの過程で選好のオラクルに問い合わせるオンライン学習を提案する。 提案手法の有効性を実証研究により検証した。

We study Reinforcement Learning from Human Feedback (RLHF) under a general preference oracle. In particular, we do not assume that there exists a reward function and the preference signal is drawn from the Bradley-Terry model as most of the prior works do. We consider a standard mathematical formulation, the reverse-KL regularized minimax game between two LLMs for RLHF under general preference oracle. The learning objective of this formulation is to find a policy so that it is consistently preferred by the KL-regularized preference oracle over any competing LLMs. We show that this framework is strictly more general than the reward-based one, and propose sample-efficient algorithms for both the offline learning from a pre-collected preference dataset and online learning where we can query the preference oracle along the way of training. Empirical studies verify the effectiveness of the proposed framework.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# 連系自動車におけるハイブリッド機能融合による協調的セマンティック占有予測

Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles ( http://arxiv.org/abs/2402.07635v2 )

ライセンス: Link先を確認
Rui Song, Chenwei Liang, Hu Cao, Zhiran Yan, Walter Zimmer, Markus Gross, Andreas Festag, Alois Knoll, (参考訳) 自動車両における協調的知覚は、エージェント間の情報の交換を利用して、知覚結果を高めることを目的としている。 従来のカメラベースの協調3D認識手法では、通常、環境の表現として3Dバウンディングボックスや鳥の目視を用いる。 しかし、これらのアプローチは、包括的な3D環境予測を提供するには不十分である。 このギャップを埋めるために、我々は3Dセマンティック占有率予測のための最初の方法を紹介した。 特に、ハイブリッド融合による局所的な3Dセマンティック占有率予測を改善する 一 意味的・占有的タスクの特徴、及び (ii)車両間で共有される圧縮直交注意機能。 さらに、セマンティック占有率予測のために設計された協調認識データセットが欠如しているため、より堅牢な評価のために、3次元セマンティック占有率ラベルを含むように、現在の協調認識データセットを拡張した。 実験の結果、以下のことが明らかになった。 一 一つの車両の実績を30%以上上回る合理的占有率予測を行い、 (II) 道路環境におけるセマンティック・アウェアネスの精度向上とセマンティック・アウェアネスの強化を図った後続の知覚応用において, 最先端の協調3D検出技術よりも優れたセマンティック・アウェアネス・モデルを構築した。

Collaborative perception in automated vehicles leverages the exchange of information between agents, aiming to elevate perception results. Previous camera-based collaborative 3D perception methods typically employ 3D bounding boxes or bird's eye views as representations of the environment. However, these approaches fall short in offering a comprehensive 3D environmental prediction. To bridge this gap, we introduce the first method for collaborative 3D semantic occupancy prediction. Particularly, it improves local 3D semantic occupancy predictions by hybrid fusion of (i) semantic and occupancy task features, and (ii) compressed orthogonal attention features shared between vehicles. Additionally, due to the lack of a collaborative perception dataset designed for semantic occupancy prediction, we augment a current collaborative perception dataset to include 3D collaborative semantic occupancy labels for a more robust evaluation. The experimental findings highlight that: (i) our collaborative semantic occupancy predictions excel above the results from single vehicles by over 30%, and (ii) models anchored on semantic occupancy outpace state-of-the-art collaborative 3D detection techniques in subsequent perception applications, showcasing enhanced accuracy and enriched semantic-awareness in road environments.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# AutoTutorが大規模言語モデルに到達 - リッチペダゴギーとガードレールを備えた言語モデルチュートリアル

AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails ( http://arxiv.org/abs/2402.09216v3 )

ライセンス: Link先を確認
Sankalan Pal Chowdhury, Vilém Zouhar, Mrinmaya Sachan, (参考訳) 大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。 本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。 LLMの共通の落とし穴は、学生に答えを漏らすなど、望まれる教育戦略からの逸脱であり、一般に保証を与えないことである。 特定のガードレールを持つLLMは、被験者に取って代わることができるが、総合的な教育設計は、最高の学習結果を得るために手作業で行う必要があると仮定する。 この原理に基づいて, MWPTutor という, LLM を用いて予め定義された有限状態トランスデューサの状態空間を埋める, エンドツーエンドの学習システムを構築した。 このアプローチは、長年にわたって学習科学者によって開発されてきた伝統的な学習システムの構造と教育を保ちながら、LLMベースのアプローチのさらなる柔軟性をもたらす。 数学語問題に基づく2つのデータセットの人間による評価研究を通して、我々のハイブリッドアプローチは、指示されたが、それ以外は自由なGPT-4よりも、より優れた総合的なチューリングスコアが得られることを示す。 MWPTutorは完全にモジュール化されており、個々のモジュールを改善したり、それに従うことができる異なる教育戦略を使用することで、コミュニティがパフォーマンスを向上させるためのスコープを開放している。

Large Language Models (LLMs) have found several use cases in education, ranging from automatic question generation to essay evaluation. In this paper, we explore the potential of using Large Language Models (LLMs) to author Intelligent Tutoring Systems. A common pitfall of LLMs is their straying from desired pedagogical strategies such as leaking the answer to the student, and in general, providing no guarantees. We posit that while LLMs with certain guardrails can take the place of subject experts, the overall pedagogical design still needs to be handcrafted for the best learning results. Based on this principle, we create a sample end-to-end tutoring system named MWPTutor, which uses LLMs to fill in the state space of a pre-defined finite state transducer. This approach retains the structure and the pedagogy of traditional tutoring systems that has been developed over the years by learning scientists but brings in additional flexibility of LLM-based approaches. Through a human evaluation study on two datasets based on math word problems, we show that our hybrid approach achieves a better overall tutoring score than an instructed, but otherwise free-form, GPT-4. MWPTutor is completely modular and opens up the scope for the community to improve its performance by improving individual modules or using different teaching strategies that it can follow.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# DEEM: スタンス検出のための動的経験豊富なエキスパートモデリング

DEEM: Dynamic Experienced Expert Modeling for Stance Detection ( http://arxiv.org/abs/2402.15264v2 )

ライセンス: Link先を確認
Xiaolong Wang, Yile Wang, Sijie Cheng, Peng Li, Yang Liu, (参考訳) 最近の研究は、大規模言語モデル(LLM)を用いて姿勢検出タスクを解くための予備的な試みを行い、有望な結果を示している。 しかしながら、姿勢検出は通常詳細な背景知識を必要とするため、バニラ推論法は専門的かつ正確な分析を行うためにドメイン知識を無視する可能性がある。 したがって、LSMの推論を改善する余地は残っており、特にLSMの生成能力を利用して特定の専門家(マルチエージェント)をシミュレートして姿勢を検出する。 本稿では, 詳細な説明を必要とする既存のマルチエージェントワークと異なり, 得られた経験者を利用した動的経験者モデリング(DEEM)手法を提案し, LLMを半パラメトリックな手法で推論し, 専門家をより一般化し信頼性の高いものにする。 実験結果から,DEMは3つの標準ベンチマークにおいて常に最良の結果を得ることができ,自己整合性推論による手法よりも優れ,LCMのバイアスを低減できることがわかった。

Recent work has made a preliminary attempt to use large language models (LLMs) to solve the stance detection task, showing promising results. However, considering that stance detection usually requires detailed background knowledge, the vanilla reasoning method may neglect the domain knowledge to make a professional and accurate analysis. Thus, there is still room for improvement of LLMs reasoning, especially in leveraging the generation capability of LLMs to simulate specific experts (i.e., multi-agents) to detect the stance. In this paper, different from existing multi-agent works that require detailed descriptions and use fixed experts, we propose a Dynamic Experienced Expert Modeling (DEEM) method which can leverage the generated experienced experts and let LLMs reason in a semi-parametric way, making the experts more generalizable and reliable. Experimental results demonstrate that DEEM consistently achieves the best results on three standard benchmarks, outperforms methods with self-consistency reasoning, and reduces the bias of LLMs.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# 大規模言語モデルを用いた術後リスク予測

Predicting postoperative risks using large language models ( http://arxiv.org/abs/2402.17493v3 )

ライセンス: Link先を確認
Bing Xue, Charles Alba, Joanna Abraham, Thomas Kannampallil, Chenyang Lu, (参考訳) 術後のリスクを予測することは、効果的なケア管理と計画に影響を及ぼす可能性がある。 各種チューニング手法を用いて, 臨床テキストによる術後リスク予測のための大規模言語モデル (LLM) について検討した。 2018年から2021年の間,バーンズ・ユダヤ人病院(BJH)の84,875人の患者を対象とし,術後7日間のICU持続時間に基づく追跡調査を行った。 MIMIC-IIIデータセットにメソッドが複製された。 その結果,30日間の死亡,肺塞栓症,肺炎が認められた。 3つのLLM (BioGPT, ClinicalBERT, BioClinicalBERT) に対して, 自己指導的目的, ラベルを半監督的微調整に組み込むこと, マルチタスク学習による基礎的モデリングを行った。 モデル性能をAUROC & AUPRC を用いて分類タスクと回帰タスクの MSE & R2 と比較した。 コホートの平均年齢は56.9歳(16.8歳)、男性50.3%、白人74%だった。 事前訓練されたLLMは従来の単語の埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。 自己監督微調整によるモデルの適用により、AUROCは3.2%、AUPRCは1.5%の性能向上、半監督微調整は1.8%、AUPRCは2%、基礎モデリングは3.6%、AUROCは2.6%向上した。 事前訓練された臨床LSMは、未確認データによる術後リスク予測の機会を提供し、微調整によるさらなる改善は、ノート固有の周術期のユースケースに事前訓練されたモデルを適用することの利点を示唆している。 ラベルを組み込むことでパフォーマンスをさらに向上させることができる。 基本モデルの優れた性能は、周術期医療における汎用LSMに向けたタスク非依存学習の可能性を示している。

Predicting postoperative risk can inform effective care management & planning. We explored large language models (LLMs) in predicting postoperative risk through clinical texts using various tuning strategies. Records spanning 84,875 patients from Barnes Jewish Hospital (BJH) between 2018 & 2021, with a mean duration of follow-up based on the length of postoperative ICU stay less than 7 days, were utilized. Methods were replicated on the MIMIC-III dataset. Outcomes included 30-day mortality, pulmonary embolism (PE) & pneumonia. Three domain adaptation & finetuning strategies were implemented for three LLMs (BioGPT, ClinicalBERT & BioClinicalBERT): self-supervised objectives; incorporating labels with semi-supervised fine-tuning; & foundational modelling through multi-task learning. Model performance was compared using the AUROC & AUPRC for classification tasks & MSE & R2 for regression tasks. Cohort had a mean age of 56.9 (sd: 16.8) years; 50.3% male; 74% White. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC & 14% for AUPRC. Adapting models through self-supervised finetuning further improved performance by 3.2% for AUROC & 1.5% for AUPRC Incorporating labels into the finetuning procedure further boosted performances, with semi-supervised finetuning improving by 1.8% for AUROC & 2% for AUPRC & foundational modelling improving by 3.6% for AUROC & 2.6% for AUPRC compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions with unseen data, & further improvements from finetuning suggests benefits in adapting pre-trained models to note-specific perioperative use cases. Incorporating labels can further boost performance. The superior performance of foundational models suggests the potential of task-agnostic learning towards the generalizable LLMs in perioperative care.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# FlowCyt:フローサイトメトリーベンチマークにおける複数クラス分類のためのディープラーニングアプローチの比較検討

FlowCyt: A Comparative Study of Deep Learning Approaches for Multi-Class Classification in Flow Cytometry Benchmarking ( http://arxiv.org/abs/2403.00024v2 )

ライセンス: Link先を確認
Lorenzo Bini, Fatemeh Nassajian Mojarrad, Margarita Liarou, Thomas Matthes, Stéphane Marchand-Maillet, (参考訳) 本稿ではフローサイトメトリーデータにおけるマルチクラスシングルセル分類のための最初の総合的なベンチマークであるFlowCytを提案する。 このデータセットは、30人の患者の骨髄サンプルからなり、各細胞は12個のマーカーで特徴づけられる。 地上の真理ラベルは、Tリンパ球、Bリンパ球、単球、肥満細胞、造血幹細胞(HSPC)の5種類の血液学的細胞を識別する。 実験では、患者1人当たり100万の細胞で、教師付き誘導学習と半教師付きトランスダクティブ学習を利用する。 ベースラインメソッドには、ガウス混合モデル、XGBoost、ランダムフォレスト、ディープニューラルネットワーク、グラフニューラルネットワーク(GNN)などがある。 GNNは、グラフ符号化データにおける空間的関係を利用して、優れた性能を示す。 このベンチマークは、血液細胞表現型に関する洞察を得るために、臨床関連分類タスクの標準化された評価と探索分析を可能にする。 これは、リッチな注釈付きヘテロジニアスデータセットを備えた最初の公開フローサイトメトリーベンチマークである。 単細胞解析のための新しい方法論の開発と厳密な評価を強化する。

This paper presents FlowCyt, the first comprehensive benchmark for multi-class single-cell classification in flow cytometry data. The dataset comprises bone marrow samples from 30 patients, with each cell characterized by twelve markers. Ground truth labels identify five hematological cell types: T lymphocytes, B lymphocytes, Monocytes, Mast cells, and Hematopoietic Stem/Progenitor Cells (HSPCs). Experiments utilize supervised inductive learning and semi-supervised transductive learning on up to 1 million cells per patient. Baseline methods include Gaussian Mixture Models, XGBoost, Random Forests, Deep Neural Networks, and Graph Neural Networks (GNNs). GNNs demonstrate superior performance by exploiting spatial relationships in graph-encoded data. The benchmark allows standardized evaluation of clinically relevant classification tasks, along with exploratory analyses to gain insights into hematological cell phenotypes. This represents the first public flow cytometry benchmark with a richly annotated, heterogeneous dataset. It will empower the development and rigorous assessment of novel methodologies for single-cell analysis.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# If-Onlysの偶像: カウンターファクトファクトファクトの解説をガイドとして見つけたか?

Even-Ifs From If-Onlys: Are the Best Semi-Factual Explanations Found Using Counterfactuals As Guides? ( http://arxiv.org/abs/2403.00980v2 )

ライセンス: Link先を確認
Saugat Aryal, Mark T. Keane, (参考訳) 近年,eXplainable AI(XAI)では,ブラックボックスAIシステムの特徴入力の変更が,(通常は否定的な)意思決定結果にどのような変化をもたらすかを説明するために,"if-only"説明を用いたファクトファクトファクトが広く普及している。 さらに近年では、「偶数」の説明を用いた半実例が注目されている。 彼らは、AIシステムの意思決定結果を変えない機能インプットの変更を解明し、より有益なリコースを提案する可能性がある。 半事実的手法の中には、半事実的生産(いわゆる反事実的誘導法)を導くためのクエリインスタンスに反事実的手法を用いるものもあれば、非事実的手法(いわゆる非事実的手法)は存在しないものもある。 本研究では,5つの重要な指標を用いて,7つのデータセット上で8つの半実例手法の総合的なテストを行い,最良の半実例を見つけるためには,反実例ガイダンスが必要であるかどうかを判断する。 これらのテストの結果は、決定領域の他の側面の計算は、より優れた半現実的XAIをもたらすことを示唆している。

Recently, counterfactuals using "if-only" explanations have become very popular in eXplainable AI (XAI), as they describe which changes to feature-inputs of a black-box AI system result in changes to a (usually negative) decision-outcome. Even more recently, semi-factuals using "even-if" explanations have gained more attention. They elucidate the feature-input changes that do not change the decision-outcome of the AI system, with a potential to suggest more beneficial recourses. Some semi-factual methods use counterfactuals to the query-instance to guide semi-factual production (so-called counterfactual-guided methods), whereas others do not (so-called counterfactual-free methods). In this work, we perform comprehensive tests of 8 semi-factual methods on 7 datasets using 5 key metrics, to determine whether counterfactual guidance is necessary to find the best semi-factuals. The results of these tests suggests not, but rather that computing other aspects of the decision space lead to better semi-factual XAI.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# 神経コンピューティングへ向けて - オートエンコーダとしてのニューロン

Toward Neuromic Computing: Neurons as Autoencoders ( http://arxiv.org/abs/2403.02331v4 )

ライセンス: Link先を確認
Larry Bull, (参考訳) 本稿では、神経バックプロパゲーションが樹状突起処理を用いて、個々のニューロンが自己エンコーディングを行うことを可能にするという考えを述べる。 非常に単純な接続重み探索ヒューリスティックおよび人工ニューラルネットワークモデルを用いて、フィードフォワードネットワークの隠蔽層における各ニューロンに対する自己エンコーディングのインターリーブ効果について検討した。 これは、オートエンコーディングの標準的な階層化アプローチとは対照的である。 このような個別化処理は有害ではなく、ネットワーク学習を改善することができる。

This short paper presents the idea that neural backpropagation is using dendritic processing to enable individual neurons to perform autoencoding. Using a very simple connection weight search heuristic and artificial neural network model, the effects of interleaving autoencoding for each neuron in a hidden layer of a feedforward network are explored. This is contrasted to the standard layered approach to autoencoding. It is shown that such individualised processing is not detrimental and can improve network learning.
翻訳日:2024-04-26 20:58:26 公開日:2024-04-25
# RulePrompt: プロンプティングPLMと自己Iterative Logical Ruleを用いた弱修正テキスト分類

RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules ( http://arxiv.org/abs/2403.02932v2 )

ライセンス: Link先を確認
Miaomiao Li, Jiaqi Zhu, Yang Wang, Yi Yang, Yilin Li, Hongan Wang, (参考訳) ゼロショットテキスト分類(ゼロショットテキスト分類、英: zero-shot text classification)またはデータレステキスト分類(英: dataless text classification、WSTC)は、動的でオープンなWeb環境において大量のテキストを分類できるため注目されている。 最近普及しているPLM(Pre-trained Language Models)の助けを借りて、多くの研究は、手作業による工芸品と/または自動で発声器を識別してカテゴリの確率を推定したが、これらのカテゴリー指示語の効果を区別することはできなかった。 本稿では, PLMが各カテゴリを効果的に理解するために, まず, 論理式を用いたルールベース知識の新たな形態を提案し, カテゴリの意味を特徴付ける。 そこで本研究では,ルールマイニングモジュールとルールエンハンスド擬似ラベル生成モジュールからなるWSTCタスク用ルールプロンプトと,PLMを協調させる自己教師型微調整モジュールを開発した。 この枠組み内では、テキストに割り当てられた不正確な擬似ラベルと、カテゴリに関連する不正確な論理規則が相互に代替的な方法で強化される。 これは、知識(ルール)の自己決定的なクローズドループを確立して利用し、シードワードが出発点となる。 提案手法の有効性とロバスト性を検証する実験により,最先端の弱教師付き手法を著しく上回る結果を得た。 さらに、我々のアプローチは解釈可能なカテゴリルールをもたらし、容易に定義されたカテゴリを曖昧にすることの利点を証明している。

Weakly supervised text classification (WSTC), also called zero-shot or dataless text classification, has attracted increasing attention due to its applicability in classifying a mass of texts within the dynamic and open Web environment, since it requires only a limited set of seed words (label names) for each category instead of labeled data. With the help of recently popular prompting Pre-trained Language Models (PLMs), many studies leveraged manually crafted and/or automatically identified verbalizers to estimate the likelihood of categories, but they failed to differentiate the effects of these category-indicative words, let alone capture their correlations and realize adaptive adjustments according to the unlabeled corpus. In this paper, in order to let the PLM effectively understand each category, we at first propose a novel form of rule-based knowledge using logical expressions to characterize the meanings of categories. Then, we develop a prompting PLM-based approach named RulePrompt for the WSTC task, consisting of a rule mining module and a rule-enhanced pseudo label generation module, plus a self-supervised fine-tuning module to make the PLM align with this task. Within this framework, the inaccurate pseudo labels assigned to texts and the imprecise logical rules associated with categories mutually enhance each other in an alternative manner. That establishes a self-iterative closed loop of knowledge (rule) acquisition and utilization, with seed words serving as the starting point. Extensive experiments validate the effectiveness and robustness of our approach, which markedly outperforms state-of-the-art weakly supervised methods. What is more, our approach yields interpretable category rules, proving its advantage in disambiguating easily-confused categories.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# Gemini 1.5: 数百万のコンテキストトークンにわたるマルチモーダル理解のアンロック

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context ( http://arxiv.org/abs/2403.05530v2 )

ライセンス: Link先を確認
Gemini Team, Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry, Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontanon, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Shane Gu, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Sébastien M. R. Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Kiran Vodrahalli, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Zeyncep Cankara, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Lora Aroyo, Zhufeng Pan, Zachary Nado, Jakub Sygnowski, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Yamini Bansal, Xavier Garcia, Mehran Kazemi, Piyush Patil, Ishita Dasgupta, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Qingze Wang, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Raphaël Lopez Kaufman, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Chris Welty, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Adam Iwanicki, Alejandro Lince, Alexander Chen, Christina Lyu, Carl Lebsack, Jordan Griffith, Meenu Gaba, Paramjit Sandhu, Phil Chen, Anna Koop, Ravi Rajwar, Soheil Hassas Yeganeh, Solomon Chang, Rui Zhu, Soroush Radpour, Elnaz Davoodi, Ving Ian Lei, Yang Xu, Daniel Toyama, Constant Segal, Martin Wicke, Hanzhao Lin, Anna Bulanova, Adrià Puigdomènech Badia, Nemanja Rakićević, Pablo Sprechmann, Angelos Filos, Shaobo Hou, Víctor Campos, Nora Kassner, Devendra Sachan, Meire Fortunato, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Ying Xu, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Alanna Walton, Alicia Parrish, Mark Epstein, Sara McCarthy, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals, (参考訳) 本稿では,Geminiファミリーの最新モデルであるGemini 1.5 Proについて紹介する。これは,複数の長い文書やビデオや音声の時間を含む数百万のコンテキストのトークンから,きめ細かい情報をリコールし,推論することのできる,計算効率の高いマルチモーダル・オブ・エキスパート・モデルである。 Gemini 1.5 Proは、モダリティの長いコンテキスト検索タスクのほぼ完全なリコールを実現し、長いドキュメントQA、長いビデオQA、長いコンテキストASRの最先端を改善し、幅広いベンチマークでGemini 1.0 Ultraの最先端のパフォーマンスにマッチするか、上回っている。 Gemini 1.5 Proの長文能力の限界を調べたところ、少なくとも10万個のトークン(Claude 2.1 (200k) や GPT-4 Turbo (128k) といった既存のモデルに対する世代的な飛躍)まで、次のトーケン予測とほぼ完璧な検索(>99%)の改善が継続されていることがわかった。 最後に、フロンティアにおける大きな言語モデルの驚くべき新機能を強調します。世界200人未満の話者を持つ言語であるKalamangの文法マニュアルを与えられたとき、同じコンテンツから学んだ人と同じレベルで、英語をKalamangに翻訳することを学びました。

In this report, we present the latest model of the Gemini family, Gemini 1.5 Pro, a highly compute-efficient multimodal mixture-of-experts model capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. Gemini 1.5 Pro achieves near-perfect recall on long-context retrieval tasks across modalities, improves the state-of-the-art in long-document QA, long-video QA and long-context ASR, and matches or surpasses Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5 Pro's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 2.1 (200k) and GPT-4 Turbo (128k). Finally, we highlight surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# 多分解能特徴の統合による正確な空間遺伝子発現予測

Accurate Spatial Gene Expression Prediction by integrating Multi-resolution features ( http://arxiv.org/abs/2403.07592v2 )

ライセンス: Link先を確認
Youngmin Chung, Ji Hun Ha, Kyeong Chan Im, Joo Sang Lee, (参考訳) 空間転写学(ST)技術の最近の進歩は、組織コンテキスト内での詳細な遺伝子発現解析を促進する。 しかし、STの高コストと方法論的な制限はより堅牢な予測モデルを必要とする。 そこで本研究では,全スライド画像(WSI)から空間的遺伝子発現を予測するための新しいディープラーニングフレームワークであるTRIPLEXを紹介する。 TRIPLEXは多解像度の特徴を独自に利用し、個々の部位の細胞形態、これらの部位の周囲の局所的な状況、そしてグローバルな組織組織を捉えている。 これらの特徴を効果的な融合戦略を通じて統合することにより、TRIPLEXは正確な遺伝子発現予測を実現する。 10XゲノミクスのVisiumデータを用いた3つのパブリックSTデータセットを用いた総合的なベンチマーク研究により、TRIPLEXはMean Squared Error(MSE)、Mean Absolute Error(MAE)、Pearson correlation Coefficient(PCC)において現在の最先端モデルよりも優れていることを示した。 このモデルの予測は、がんの診断と治療の進歩におけるTRIPLEXのポテンシャルを裏付ける、基底真理遺伝子発現プロファイルや腫瘍アノテーションと密接に一致している。

Recent advancements in Spatial Transcriptomics (ST) technology have facilitated detailed gene expression analysis within tissue contexts. However, the high costs and methodological limitations of ST necessitate a more robust predictive model. In response, this paper introduces TRIPLEX, a novel deep learning framework designed to predict spatial gene expression from Whole Slide Images (WSIs). TRIPLEX uniquely harnesses multi-resolution features, capturing cellular morphology at individual spots, the local context around these spots, and the global tissue organization. By integrating these features through an effective fusion strategy, TRIPLEX achieves accurate gene expression prediction. Our comprehensive benchmark study, conducted on three public ST datasets and supplemented with Visium data from 10X Genomics, demonstrates that TRIPLEX outperforms current state-of-the-art models in Mean Squared Error (MSE), Mean Absolute Error (MAE), and Pearson Correlation Coefficient (PCC). The model's predictions align closely with ground truth gene expression profiles and tumor annotations, underscoring TRIPLEX's potential in advancing cancer diagnosis and treatment.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# CleanAgent: LLMベースのエージェントによるデータ標準化の自動化

CleanAgent: Automating Data Standardization with LLM-based Agents ( http://arxiv.org/abs/2403.08291v2 )

ライセンス: Link先を確認
Danrui Qi, Jiannan Wang, (参考訳) データ標準化は、データサイエンスのライフサイクルにおいて重要な部分です。 Pandasのようなツールは堅牢な機能を提供しますが、コードのさまざまな列タイプへのカスタマイズに必要な複雑さと手作業は、大きな課題を引き起こします。 ChatGPTのような大きな言語モデル(LLM)は、自然言語の理解とコード生成を通じてこのプロセスを自動化することを約束している。 これらの課題を解決するため、我々は列型を標準化するための宣言的で統一されたAPIを備えたPythonライブラリを提案し、簡潔なAPI呼び出しでLLMのコード生成を単純化する。 我々はまず,Dataprepライブラリのコンポーネントとして記述されたDataprep.Cleanを提案する。 次に、データ標準化プロセスを自動化するために、Dataprep.CleanとLLMベースのエージェントを統合するCleanAgentフレームワークを紹介します。 CleanAgentでは、データサイエンティストは要件を一度だけ提供し、ハンズフリーで自動標準化プロセスを可能にする。

Data standardization is a crucial part in data science life cycle. While tools like Pandas offer robust functionalities, their complexity and the manual effort required for customizing code to diverse column types pose significant challenges. Although large language models (LLMs) like ChatGPT have shown promise in automating this process through natural language understanding and code generation, it still demands expert-level programming knowledge and continuous interaction for prompt refinement. To solve these challenges, our key idea is to propose a Python library with declarative, unified APIs for standardizing column types, simplifying the code generation of LLM with concise API calls. We first propose Dataprep.Clean which is written as a component of the Dataprep Library, offers a significant reduction in complexity by enabling the standardization of specific column types with a single line of code. Then we introduce the CleanAgent framework integrating Dataprep.Clean and LLM-based agents to automate the data standardization process. With CleanAgent, data scientists need only provide their requirements once, allowing for a hands-free, automatic standardization process.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# GaussCtrl: テキスト駆動型3Dガウス分割編集

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.08733v3 )

ライセンス: Link先を確認
Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu, (参考訳) 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。 まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。 これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。 これにより、より高速な編集が可能となり、視覚的品質も向上する。 これは2つの条件によって達成される。 (a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。 (b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。 実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。

We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# ChartThinker: チャート要約を最適化するためのコンテキストチェーンアプローチ

ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization ( http://arxiv.org/abs/2403.11236v2 )

ライセンス: Link先を確認
Mengsha Liu, Daoyuan Chen, Yaliang Li, Guian Fang, Ying Shen, (参考訳) データビジュアライゼーションは、データを提示し、その価値ある洞察をマイニングするための重要な手段となる。 グラフ要約のタスクは、自然言語処理技術を通じて、チャートの詳細なデータ解析を容易にする。 しかし、既存のアプローチには、視覚言語マッチングと推論能力の面では、依然として顕著な欠陥がある。 これらの制約に対処するため、本研究では、グラフの括弧と微調整命令の大規模なデータセットを構築した。 このデータセット内のさまざまなトピックや視覚的なスタイルを幅広くカバーしているため、トレーニングデータの観点から、マッチングの度合いが向上する。 さらに,思考の連鎖と文脈検索の戦略に基づいて深い分析を合成し,生成した要約の論理的コヒーレンスと精度を向上させることを目的とした,革新的なチャート要約手法であるChartThinkerを提案する。 キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、一貫して優れたパフォーマンスを示し、7つの評価指標よりも8つの最先端モデルを上回っています。 私たちのデータセットとコードは公開されています。

Data visualization serves as a critical means for presenting data and mining its valuable insights. The task of chart summarization, through natural language processing techniques, facilitates in-depth data analysis of charts. However, there still are notable deficiencies in terms of visual-language matching and reasoning ability for existing approaches. To address these limitations, this study constructs a large-scale dataset of comprehensive chart-caption pairs and fine-tuning instructions on each chart. Thanks to the broad coverage of various topics and visual styles within this dataset, better matching degree can be achieved from the view of training data. Moreover, we propose an innovative chart summarization method, ChartThinker, which synthesizes deep analysis based on chains of thought and strategies of context retrieval, aiming to improve the logical coherence and accuracy of the generated summaries. Built upon the curated datasets, our trained model consistently exhibits superior performance in chart summarization tasks, surpassing 8 state-of-the-art models over 7 evaluation metrics. Our dataset and codes are publicly accessible.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# LLMの意思決定はどこまで進んでいるか? マルチエージェント環境におけるLLMのゲーム能力の評価

How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments ( http://arxiv.org/abs/2403.11807v2 )

ライセンス: Link先を確認
Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang, Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu, (参考訳) 様々な種類の能力を必要とする複雑なタスクである意思決定は、LLM(Large Language Models)を評価するための優れたフレームワークを提供する。 本研究では, LLMの意思決定能力について, 十分に確立された分野であるゲーム理論のレンズを用いて検討した。 2人以上のエージェントが同時に参加するゲームに特化しています。 次に,従来の8種類のマルチエージェントゲームを含むGAMA-Benchを紹介した。 これらのゲームにおいて,モデルの性能を定量的に評価するためのスコアリング方式を設計する。 GAMA-Benchを用いて, LLMの堅牢性, 一般化可能性, 拡張戦略について検討する。 その結果, GPT-3.5はロバスト性に満足するが, 一般化性は比較的限定的であることがわかった。 しかし、その性能はChain-of-Thoughtのようなアプローチによって改善できる。 さらに,様々なLCMに対して評価を行い,GAMA-Bench 上で GPT-4 が他のモデルより優れており,スコアは 60.5 であることを確認した。 さらに、Gemini-1.0-Pro と GPT-3.5 (0613, 1106, 0125) はGAMA-Bench に類似したインテリジェンスを示す。 コードと実験結果はhttps://github.com/CUHK-ARISE/GAMABench.comで公開されている。

Decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing Large Language Models (LLMs). Our research investigates LLMs' decision-making capabilities through the lens of a well-established field, Game Theory. We focus specifically on games that support the participation of more than two agents simultaneously. Subsequently, we introduce our framework, GAMA-Bench, including eight classical multi-agent games. We design a scoring scheme to assess a model's performance in these games quantitatively. Through GAMA-Bench, we investigate LLMs' robustness, generalizability, and enhancement strategies. Results reveal that while GPT-3.5 shows satisfying robustness, its generalizability is relatively limited. However, its performance can be improved through approaches such as Chain-of-Thought. Additionally, we conduct evaluations across various LLMs and find that GPT-4 outperforms other models on GAMA-Bench, achieving a score of 60.5. Moreover, Gemini-1.0-Pro and GPT-3.5 (0613, 1106, 0125) demonstrate similar intelligence on GAMA-Bench. The code and experimental results are made publicly available via https://github.com/CUHK-ARISE/GAMABench.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# 観測不能な条件下での公正さの監査

Auditing Fairness under Unobserved Confounding ( http://arxiv.org/abs/2403.14713v2 )

ライセンス: Link先を確認
Yewon Byun, Dylan Sam, Michael Oberst, Zachary C. Lipton, Bryan Wilder, (参考訳) 不等式の存在は、意思決定システムの結果、特に人間の生命が危険にさらされている場合に、根本的な問題である。 しかし、不公平さや不平等の概念を推定することは、特にリスクのような難しい概念に依存している場合、困難である。 このようなリスクの測定は、観測されていない共同創設者が過去の決定や成果に共同で影響を与えていない場合に、正確に得ることができる。 しかし、現実の世界では、この仮定はめったに成立しない。 本稿では, リスク要因がすべて観察されているという仮定を完全に取り除いたり緩和したりしても, 高リスク者に対して治療率に有意な限界を与えることができるという驚くべき結果を示す。 私たちは、現実の多くの設定(例えば、新しい治療のリリース)において、偏見のないリスクの見積を導き出すために、アロケーションの前にデータを持っているという事実を使用します。 既存の意思決定システムの不公平な結果を原則的に評価することができる。 例えば、Paxlovidアロケーションの現実的な研究において、我々のフレームワークは、観察された人種的不平等が、重要な観察された共変量と同じ強さを持つ未観測の共同設立者によって説明できないことを確実に特定しています。

The presence of inequity is a fundamental problem in the outcomes of decision-making systems, especially when human lives are at stake. Yet, estimating notions of unfairness or inequity is difficult, particularly if they rely on hard-to-measure concepts such as risk. Such measurements of risk can be accurately obtained when no unobserved confounders have jointly influenced past decisions and outcomes. However, in the real world, this assumption rarely holds. In this paper, we show a surprising result that one can still give meaningful bounds on treatment rates to high-risk individuals, even when entirely eliminating or relaxing the assumption that all relevant risk factors are observed. We use the fact that in many real-world settings (e.g., the release of a new treatment) we have data from prior to any allocation to derive unbiased estimates of risk. This result is of immediate practical interest: we can audit unfair outcomes of existing decision-making systems in a principled manner. For instance, in a real-world study of Paxlovid allocation, our framework provably identifies that observed racial inequity cannot be explained by unobserved confounders of the same strength as important observed covariates.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# 3次元テスト時間適応のためのバックプロパゲーションフリーネットワーク

Backpropagation-free Network for 3D Test-time Adaptation ( http://arxiv.org/abs/2403.18442v2 )

ライセンス: Link先を確認
Yanshuo Wang, Ali Cheraghian, Zeeshan Hayder, Jie Hong, Sameera Ramasinghe, Shafin Rahman, David Ahmedt-Aristizabal, Xuesong Li, Lars Petersson, Mehrtash Harandi, (参考訳) 現実世界のシステムは、しばしば時間とともに新しいデータに遭遇し、ターゲットのドメインシフトを経験する。 既存のテスト時間適応(TTA)手法は、計算的に重く、メモリ集約的なバックプロパゲーションに基づくアプローチを適用する傾向がある。 本稿では,TTAのバックプロパゲーションフリーアプローチを3次元データの特定の場合に適用する手法を提案する。 我々のモデルは、ソースドメインに関する知識と補完的なターゲットドメイン固有の情報を維持するために、2ストリームアーキテクチャを使用します。 我々のモデルのバックプロパゲーションフリーな性質は、よく知られた忘れの問題に対処し、エラーの蓄積問題を緩和するのに役立ちます。 提案手法は, 疑似ラベル付けの通常うるさいプロセスや, 費用がかかる自己指導型トレーニングへの依存を解消する。 さらに,本手法は部分空間学習を活用し,二つの領域間の分散分散を効果的に低減する。 さらに、新しいエントロピーベースの適応核融合戦略を用いて、ソースドメイン特化ストリームとターゲットドメイン特化ストリームをアライメントする。 一般的なベンチマーク実験により,本手法の有効性が示された。 コードは \url{https://github.com/abie-e/BFTT3D} で入手できる。

Real-world systems often encounter new data over time, which leads to experiencing target domain shifts. Existing Test-Time Adaptation (TTA) methods tend to apply computationally heavy and memory-intensive backpropagation-based approaches to handle this. Here, we propose a novel method that uses a backpropagation-free approach for TTA for the specific case of 3D data. Our model uses a two-stream architecture to maintain knowledge about the source domain as well as complementary target-domain-specific information. The backpropagation-free property of our model helps address the well-known forgetting problem and mitigates the error accumulation issue. The proposed method also eliminates the need for the usually noisy process of pseudo-labeling and reliance on costly self-supervised training. Moreover, our method leverages subspace learning, effectively reducing the distribution variance between the two domains. Furthermore, the source-domain-specific and the target-domain-specific streams are aligned using a novel entropy-based adaptive fusion strategy. Extensive experiments on popular benchmarks demonstrate the effectiveness of our method. The code will be available at \url{https://github.com/abie-e/BFTT3D}.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# 反トラスト、Amazon、アルゴリズム監査

Antitrust, Amazon, and Algorithmic Auditing ( http://arxiv.org/abs/2403.18623v2 )

ライセンス: Link先を確認
Abhisek Dash, Abhijnan Chakraborty, Saptarshi Ghosh, Animesh Mukherjee, Jens Frankenreiter, Stefan Bechtold, Krishna P. Gummadi, (参考訳) デジタル市場において、反トラスト法と特別規制は、今日のデジタルプラットフォームがすべての人の生活で果たす支配的な役割にもかかわらず、市場が競争力を維持することを目的としている。 伝統的な市場とは異なり、市場参加者の行動はこれらの市場で容易に観察できる。 我々は、Amazonが一般的に自己紹介と表現されるプラクティスにどの程度従事しているかについて、一連の実証的な調査を提示する。 本稿では,アルゴリズム監査をベースとし,大規模デジタル市場を規制する規制環境において,この論文で使用されるコンピュータサイエンスツールをどのように利用できるかについて議論する。

In digital markets, antitrust law and special regulations aim to ensure that markets remain competitive despite the dominating role that digital platforms play today in everyone's life. Unlike traditional markets, market participant behavior is easily observable in these markets. We present a series of empirical investigations into the extent to which Amazon engages in practices that are typically described as self-preferencing. We discuss how the computer science tools used in this paper can be used in a regulatory environment that is based on algorithmic auditing and requires regulating digital markets at scale.
翻訳日:2024-04-26 20:48:34 公開日:2024-04-25
# 分散プロファイルを持つ不特定分散データに対するリッジ回帰の高次元解析

High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile ( http://arxiv.org/abs/2403.20200v2 )

ライセンス: Link先を確認
Jérémie Bigot, Issa-Mbenard Dabo, Camille Male, (参考訳) 高次元線形回帰は、独立分布および同一分布データの文脈で徹底的に研究されている。 本稿では,独立な非独立分散データに対する高次元回帰モデルについて検討する。 この目的のために、観測された予測器(または特徴)の集合は、分散プロファイルを持ち、次元が比例的に増加するランダム行列であると仮定する。 ランダム・エフェクト・モデルと仮定し、そのような分散プロファイルを持つ線形回帰に対するリッジ推定器の予測リスクについて検討する。 この設定では、このリスクとリッジ推定子の自由度の決定論的等価性を提供する。 ある種の分散プロファイルでは、リッジ正規化パラメータがゼロとなるとき、最小ノルム最小二乗推定器の高次元回帰におけるよく知られた二重降下現象の出現が強調される。 また、この予測リスクの形状が二重降下と異なる分散プロファイルを示す。 この結果の証明は、回帰モデルを研究するためにこれまで検討されていない分散プロファイルの存在下でのランダム行列理論のツールに基づいている。 数値実験により、前述の決定論的等価性の精度を、リッジ回帰の予測リスクの計算結果に示す。 また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。

High-dimensional linear regression has been thoroughly studied in the context of independent and identically distributed data. We propose to investigate high-dimensional regression models for independent but non-identically distributed data. To this end, we suppose that the set of observed predictors (or features) is a random matrix with a variance profile and with dimensions growing at a proportional rate. Assuming a random effect model, we study the predictive risk of the ridge estimator for linear regression with such a variance profile. In this setting, we provide deterministic equivalents of this risk and of the degree of freedom of the ridge estimator. For certain class of variance profile, our work highlights the emergence of the well-known double descent phenomenon in high-dimensional regression for the minimum norm least-squares estimator when the ridge regularization parameter goes to zero. We also exhibit variance profiles for which the shape of this predictive risk differs from double descent. The proofs of our results are based on tools from random matrix theory in the presence of a variance profile that have not been considered so far to study regression models. Numerical experiments are provided to show the accuracy of the aforementioned deterministic equivalents on the computation of the predictive risk of ridge regression. We also investigate the similarities and differences that exist with the standard setting of independent and identically distributed data.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# 画像冗長性低減のためのランクパッチの学習

Learning to Rank Patches for Unbiased Image Redundancy Reduction ( http://arxiv.org/abs/2404.00680v2 )

ライセンス: Link先を確認
Yang Luo, Zhineng Chen, Peng Zhou, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang, (参考訳) 画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。 既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。 しかし、現在の指導法は監視信号に依存している。 ラベル付きカテゴリと整合したコンテンツを保存するためにモデルを強制し、ラベルなしカテゴリに属するコンテンツを破棄する。 このカテゴリー的帰納バイアスは、これらの手法を現実のシナリオでは効果的にしない。 この問題に対処するために,Learning to Rank Patches (LTRP) と呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。 マスク画像モデルにおける画像再構成は,マスキング比が高い場合の可視パッチの除去に敏感である(例:90\%)。 そこで我々は,このパッチを用いて,各パッチの意味密度スコアを推定し,このパッチを使用せずに再構成の変動を定量化し,パッチを擬似スコアでランク付けする方法を学習する,という2つのステップを用いてLTRPを実装した。 プロセス全体が自己管理され、分類的帰納バイアスのジレンマから抜け出す。 さまざまなデータセットやタスクに関する広範な実験を設計する。 その結果, LTRPは画像内容の公平な評価により, 教師付きおよび他の自己監督手法よりも優れていた。

Images suffer from heavy spatial redundancy because pixels in neighboring regions are spatially correlated. Existing approaches strive to overcome this limitation by reducing less meaningful image regions. However, current leading methods rely on supervisory signals. They may compel models to preserve content that aligns with labeled categories and discard content belonging to unlabeled categories. This categorical inductive bias makes these methods less effective in real-world scenarios. To address this issue, we propose a self-supervised framework for image redundancy reduction called Learning to Rank Patches (LTRP). We observe that image reconstruction of masked image modeling models is sensitive to the removal of visible patches when the masking ratio is high (e.g., 90\%). Building upon it, we implement LTRP via two steps: inferring the semantic density score of each patch by quantifying variation between reconstructions with and without this patch, and learning to rank the patches with the pseudo score. The entire process is self-supervised, thus getting out of the dilemma of categorical inductive bias. We design extensive experiments on different datasets and tasks. The results demonstrate that LTRP outperforms both supervised and other self-supervised methods due to the fair assessment of image content.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# ガウススムースススライスススライス確率分岐

Gaussian-Smoothed Sliced Probability Divergences ( http://arxiv.org/abs/2404.03273v2 )

ライセンス: Link先を確認
Mokhtar Z. Alaya, Alain Rakotomamonjy, Maxime Berar, Gilles Gasso, (参考訳) ガウススムースにスライスされたワッサースタイン距離は、データ上のプライバシーを保ちながら確率分布を比較するために最近導入された。 これは、非平凡な(私的でない)パフォーマンスと同じようなパフォーマンスを提供することが示されている。 しかし、そのような計量の計算および統計的性質はまだ十分に確立されていない。 この研究は、この距離の理論的性質と、ガウススムーズスライスされた発散体として表される一般化されたバージョンの性質を考察する。 まず、滑らか化とスライシングが計量特性と弱位相を保存することを示す。 そのような発散のサンプル複雑性を研究するために、滑らかにプロジェクションされた$\mu$に対する二重経験分布に対して$\hat{\hat\mu}_{n} を導入する。 分布 $\hat{\hat\mu}_{n}$ は二重サンプリング過程の結果であり、原点分布 $\mu$ と、単位球面上の$\mu$ の射影の畳み込みとガウス滑らか化による2番目のサンプリングである。 特に、ガウスの滑らかなスライスされたワッサーシュタイン距離に注目し、それが$O(n^{-1/2})$で収束することを証明している。 また、滑らかなパラメータに関して異なる発散の連続性を含む他の性質も導出する。 プライバシ保護ドメイン適応の文脈における実証的研究で理論的知見を支持する。

Gaussian smoothed sliced Wasserstein distance has been recently introduced for comparing probability distributions, while preserving privacy on the data. It has been shown that it provides performances similar to its non-smoothed (non-private) counterpart. However, the computationaland statistical properties of such a metric have not yet been well-established. This work investigates the theoretical properties of this distance as well as those of generalized versions denoted as Gaussian-smoothed sliced divergences. We first show that smoothing and slicing preserve the metric property and the weak topology. To study the sample complexity of such divergences, we then introduce $\hat{\hat\mu}_{n}$ the double empirical distribution for the smoothed-projected $\mu$. The distribution $\hat{\hat\mu}_{n}$ is a result of a double sampling process: one from sampling according to the origin distribution $\mu$ and the second according to the convolution of the projection of $\mu$ on the unit sphere and the Gaussian smoothing. We particularly focus on the Gaussian smoothed sliced Wasserstein distance and prove that it converges with a rate $O(n^{-1/2})$. We also derive other properties, including continuity, of different divergences with respect to the smoothing parameter. We support our theoretical findings with empirical studies in the context of privacy-preserving domain adaptation.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# DiffCJK:CJK文字生成のための条件拡散モデル

DiffCJK: Conditional Diffusion Model for High-Quality and Wide-coverage CJK Character Generation ( http://arxiv.org/abs/2404.05212v2 )

ライセンス: Link先を確認
Yingtao Tian, (参考訳) 中国語、日本語、韓国語(CJK)は、多くの母語話者を抱え、社会や文化に大きな影響を与えている。 CJK言語の型付けは、スクリプトの複雑さとユニークな文学的伝統のために、幅広い要件を課している。 この型付けプロセスの重要な側面は、CJKフォントが約10万文字に対して一貫したグリフのセットを提供する必要があることである。 しかし、そのようなフォントの作成は本質的に労働集約的で高価であり、タイプセット、歴史的、美学、芸術目的のための新しいCJKフォントの開発を著しく妨げている。 このギャップを埋めるために,拡散型生成モデルの最近の進歩を動機とし,単一の条件付き標準グリフ形式からターゲット型でグリフを生成する新しい拡散法を提案する。 実験の結果,本手法は印刷スタイルと手書きスタイルの両方のフォントを生成することができることがわかった。 さらに,本手法はCJK以外の中国語にヒントを得たスクリプトに対して,目覚ましいゼロショットの一般化機能を示す。 また,本手法はスムーズなスタイルの補間を容易にするとともに,フォント生成プロセスにおいて重要なベクトル化に適したビットマップ画像を生成する。 要約して,提案手法は,CJK文字のための高品質な生成モデル支援フォント作成への扉を開く。

Chinese, Japanese, and Korean (CJK), with a vast number of native speakers, have profound influence on society and culture. The typesetting of CJK languages carries a wide range of requirements due to the complexity of their scripts and unique literary traditions. A critical aspect of this typesetting process is that CJK fonts need to provide a set of consistent-looking glyphs for approximately one hundred thousand characters. However, creating such a font is inherently labor-intensive and expensive, which significantly hampers the development of new CJK fonts for typesetting, historical, aesthetic, or artistic purposes. To bridge this gap, we are motivated by recent advancements in diffusion-based generative models and propose a novel diffusion method for generating glyphs in a targeted style from a single conditioned, standard glyph form. Our experiments show that our method is capable of generating fonts of both printed and hand-written styles, the latter of which presents a greater challenge. Moreover, our approach shows remarkable zero-shot generalization capabilities for non-CJK but Chinese-inspired scripts. We also show our method facilitates smooth style interpolation and generates bitmap images suitable for vectorization, which is crucial in the font creation process. In summary, our proposed method opens the door to high-quality, generative model-assisted font creation for CJK characters, for both typesetting and artistic endeavors.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# 一定製品市場メーカーのための自動攻撃合成

Automated Attack Synthesis for Constant Product Market Makers ( http://arxiv.org/abs/2404.05297v2 )

ライセンス: Link先を確認
Sujin Han, Jinseo Kim, Sung-Ju Lee, Insu Yun, (参考訳) 分散金融は、従来の金融では不可能だった多くの新しい応用を可能にする。 しかし、コンポーザビリティのバグなど、新しいタイプの脆弱性も導入されている。 構成可能性のバグは、複数のスマートコントラクトが連携する際の誤った振る舞いにつながる問題を指す。 構成可能性のバグの典型的な例は、トークン契約と、分散取引における最も広く使われているモデルであるCPMM(Constant Product Market Makers)の間のバグである。 2022年以降、23回の攻撃により合計220万USドルが失われた。 スマートコントラクト監査会社であるBlockSecは、2023年2月に138件のエクスプロイトが発生したと報告している。 本稿では,CPMMコンポーザビリティバグに対するエンドツーエンドのエクスプロイトを自動的に検出し,生成するCPMM-Exploiterを提案する。 このようなエンドツーエンドのエクスプロイトの生成は、複数の契約の巨大な検索スペースと、金融サービスに関連するさまざまな手数料のために困難である。 この問題に対処するために,これらの脆弱性に関する現実世界のエクスプロイトを調査し,それらが2つの安全不変量に違反して発生することを確認した。 そこで我々は,これらのバグの検出を目的とした新しい文法ベースのファズーであるCPMM-Exploiterを実装した。 CPMM-Exploiterはファジィを使って不変性を壊すトランザクションを見つける。 そして、これらのトランザクションを洗練して、攻撃者に利益をもたらす。 実世界の2つのエクスプロイトデータセット上でCPMM-Exploiterを評価した。 CPMM-Exploiterはそれぞれ0.91と0.89のリコールを獲得し、5つのベースラインはそれぞれ0.36と0.58のリコールを達成した。 さらに,EthereumおよびBinanceネットワークの最新ブロック上でCPMM-Exploiterを動作させることにより,CPMM-Exploiterの評価を行った。 18の新たなエクスプロイトを成功させ、合計で12.9万米ドルの利益を得ることができた。

Decentralized Finance enables many novel applications that were impossible in traditional finances. However, it also introduces new types of vulnerabilities, such as composability bugs. The composability bugs refer to issues that lead to erroneous behaviors when multiple smart contracts operate together. One typical example of composability bugs is those between token contracts and Constant Product Market Makers (CPMM), the most widely used model for Decentralized Exchanges. Since 2022, 23 exploits of such kind have resulted in a total loss of 2.2M USD. BlockSec, a smart contract auditing company, once reported that 138 exploits of such kind occurred just in February 2023. We propose CPMM-Exploiter, which automatically detects and generates end-to-end exploits for CPMM composability bugs. Generating such end-to-end exploits is challenging due to the large search space of multiple contracts and various fees involved with financial services. To tackle this, we investigated real-world exploits regarding these vulnerabilities and identified that they arise due to violating two safety invariants. Based on this observation, we implemented CPMM-Exploiter, a new grammar-based fuzzer targeting the detection of these bugs. CPMM-Exploiter uses fuzzing to find transactions that break the invariants. It then refines these transactions to make them profitable for the attacker. We evaluated CPMM-Exploiter on two real-world exploit datasets. CPMM-Exploiter obtained recalls of 0.91 and 0.89, respectively, while five baselines achieved maximum recalls of 0.36 and 0.58, respectively. We further evaluated CPMM-Exploiter by running it on the latest blocks of the Ethereum and Binance networks. It successfully generated 18 new exploits, which can result in 12.9K USD profit in total.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# L字型カダノフ・ベイム輪郭における量子不純物問題の解法

Solving quantum impurity problems on the L-shaped Kadanoff-Baym contour ( http://arxiv.org/abs/2404.05410v2 )

ライセンス: Link先を確認
Ruofan Chen, Chu Guo, (参考訳) 経路積分形式は、量子不純物問題に対する多くの強力な数値法の構築ブロックである。 しかし、既存のフェルミオン経路積分に基づく数値計算は想像時間または実時間軸でのみ行われており、L字型カダノフ・バイム輪郭で定式化された最も一般的なシナリオは未探索のままである。 本研究では、最近開発されたグラスマン時間進化行列積演算子(GTEMPO)法を拡張し、カダノフ・バイム輪郭に直接量子不純物問題を解く。 得られた手法は数値的に正確であり、時間離散化誤差と行列積状態結合切断誤差という2つの数値誤差の出所しかなく、どちらもよく制御できる。 この手法の精度は、非相互作用の場合の正確な解と、単軌道アンダーソン不純物モデルに対する実時間および虚時間軸上の既存の計算に対して数値的に証明される。 提案手法は, 制御の少ない近似を用いる場合が多く, 動的平均場理論とその非平衡拡張における実時間不純物解法としても利用できる, 代替手法のベンチマークベースラインとして最適である。

The path integral formalism is the building block of many powerful numerical methods for quantum impurity problems. However, existing fermionic path integral based numerical calculations have only been performed in either the imaginary-time or the real-time axis, while the most generic scenario formulated on the L-shaped Kadanoff-Baym contour is left unexplored. In this work, we extended the recently developed Grassmann time-evolving matrix product operator (GTEMPO) method to solve quantum impurity problems directly on the Kadanoff-Baym contour. The resulting method is numerically exact, with only two sources of numerical errors, e.g., the time discretization error and the matrix product state bond truncation error, which can both be well controlled. The accuracy of this method is numerically demonstrated against exact solutions in the noninteracting case, and against existing calculations on the real- and imaginary-time axes for the single-orbital Anderson impurity model. Our method is a perfect benchmarking baseline for its alternatives which often employ less-controlled approximations, and can also be used as a real-time impurity solver in dynamical mean field theory and its non-equilibrium extension.
翻訳日:2024-04-26 20:38:42 公開日:2024-04-25
# Kuboを用いた効率的な量子ギブスサンプリング--Martin--Schwingerの詳細なバランス条件

Efficient quantum Gibbs samplers with Kubo--Martin--Schwinger detailed balance condition ( http://arxiv.org/abs/2404.05998v2 )

ライセンス: Link先を確認
Zhiyan Ding, Bowen Li, Lin Lin, (参考訳) リンドブラッド力学やその他の開系力学は、量子コンピュータ上の効率的なギブズサンプリングへの有望な道を提供する。 これらの提案では、リンドブラディアンは、古典モンテカルロ法や分子動力学法で人工サーモスタットを設計するアルゴリズム的な構成によって得られる。 近年、Chen, Kastoryano, Gily\'en (arXiv:2311.09207) は、Kubo--Martin-Schwinger (KMS) の詳細なバランス条件を満たす最初の効率的な実装可能なリンドブラディアンを導入した。 このギブスサンプリング器は連続パラメータ化されたジャンプ演算子の集合を用い、各ジャンプ演算子を実装するために必要なエネルギー分解能は、精度と混合時間にのみ対数的に依存する。 本研究では,Fagnola と Umanit\`a によるKMS詳細平衡リンドブラディアンの構造的特徴に基づいて,離散的なジャンプ演算子のみを用いる効率的な量子ギブズサンプリング器群(数値は 1 個程度)を開発する。 本手法はリンドブラディアンの量子ギブズサンプリングの実装と解析を単純化し,特にChen, Kastoryano, Gily\enの構成を包含する。

Lindblad dynamics and other open-system dynamics provide a promising path towards efficient Gibbs sampling on quantum computers. In these proposals, the Lindbladian is obtained via an algorithmic construction akin to designing an artificial thermostat in classical Monte Carlo or molecular dynamics methods, rather than treated as an approximation to weakly coupled system-bath unitary dynamics. Recently, Chen, Kastoryano, and Gily\'en (arXiv:2311.09207) introduced the first efficiently implementable Lindbladian satisfying the Kubo--Martin--Schwinger (KMS) detailed balance condition, which ensures that the Gibbs state is a fixed point of the dynamics and is applicable to non-commuting Hamiltonians. This Gibbs sampler uses a continuously parameterized set of jump operators, and the energy resolution required for implementing each jump operator depends only logarithmically on the precision and the mixing time. In this work, we build upon the structural characterization of KMS detailed balanced Lindbladians by Fagnola and Umanit\`a, and develop a family of efficient quantum Gibbs samplers that only use a discrete set of jump operators (the number can be as few as one). Our methodology simplifies the implementation and the analysis of Lindbladian-based quantum Gibbs samplers, and encompasses the construction of Chen, Kastoryano, and Gily\'en as a special instance.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# アンダーバッグングのレプリカ解析

A replica analysis of under-bagging ( http://arxiv.org/abs/2404.09779v2 )

ライセンス: Link先を確認
Takashi Takahashi, (参考訳) アンダーバッグング(Under-bagging, UB)は, サンプリングとバッグングを併用したアンサンブル学習法である。 サンプリング中の試料サイズの減少に起因する分散の増大をバッグングを用いて低減することは自然なアプローチである。 しかし近年、一般化線形モデルでは、クラス不均衡構造を考慮しない単純バッグングとリッジ正規化が同じ結果をもたらすことが指摘されている。 したがって、線形モデルのトレーニングにおいて、アンダーサンプルデータセットの数に比例する計算コストの増大を必要とするUBを使う方がよいかどうかは明らかではない。 このような状況を踏まえ、本研究ではUBの急激な漸近をヒューリスティックに導き、二成分混合データから線形分類器を訓練するシナリオにおいて、不均衡データから学習する他の標準手法と比較する。 比較した手法には、サブサンプルデータの単一実現を用いてモデルをトレーニングするアンダーサンプリング(US)法と、全データに重み付き損失を持つモデルをトレーニングする単純な重み付け(SW)法が含まれる。 特に少数クラスのサイズが小さい場合において、クラス不均衡が大きい場合であっても、少数クラスのサイズを維持しながら、多数クラスのサイズを増大させることにより、UBの性能が向上することが示されている。 これは、多数派が大きくなるにつれて性能が変化しない米国と、不均衡が増加するにつれて性能が低下するSWとは対照的である。 これらの結果は,クラス不均衡の構造を考慮せずに一般線形モデルのトレーニングを行う場合と異なる。

Under-bagging (UB), which combines under sampling and bagging, is a popular ensemble learning method for training classifiers on an imbalanced data. Using bagging to reduce the increased variance caused by the reduction in sample size due to under sampling is a natural approach. However, it has recently been pointed out that in generalized linear models, naive bagging, which does not consider the class imbalance structure, and ridge regularization can produce the same results. Therefore, it is not obvious whether it is better to use UB, which requires an increased computational cost proportional to the number of under-sampled data sets, when training linear models. Given such a situation, in this study, we heuristically derive a sharp asymptotics of UB and use it to compare with several other standard methods for learning from imbalanced data, in the scenario where a linear classifier is trained from a two-component mixture data. The methods compared include the under-sampling (US) method, which trains a model using a single realization of the subsampled data, and the simple weighting (SW) method, which trains a model with a weighted loss on the entire data. It is shown that the performance of UB is improved by increasing the size of the majority class while keeping the size of the minority fixed, even though the class imbalance can be large, especially when the size of the minority class is small. This is in contrast to US, whose performance does not change as the size of the majority class increases, and SW, whose performance decreases as the imbalance increases. These results are different from the case of the naive bagging when training generalized linear models without considering the structure of the class imbalance, indicating the intrinsic difference between the ensembling and the direct regularization on the parameters.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# OneChart: 1つの補助トークンによるチャート構造抽出

OneChart: Purify the Chart Structural Extraction via One Auxiliary Token ( http://arxiv.org/abs/2404.09987v2 )

ライセンス: Link先を確認
Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang, (参考訳) チャート解析は、スタイル、価値、テキストなどの多様性のために大きな課題となる。 数十億のパラメータを持つ先進的な大規模視覚言語モデル(LVLM)でさえ、そのようなタスクを満足して処理するのに苦労する。 そこで我々は,チャート情報の構造抽出に特化して考案された信頼性エージェントであるOneChartを提案する。 一般的なLVLMと同様に、OneChartは自己回帰的な本体を組み込んでいる。 出力の数値的な部分の信頼性を高めるために,全トークンの先頭に配置された補助トークンと追加のデコーダを導入する。 数値的に最適化された(補助的な)トークンは、後続のグラフ解析用のトークンが因果的注意を通して強化された数値的特徴をキャプチャすることを可能にする。 さらに、補助トークンの活用により、生成したコンテンツに対する信頼スコアを提供することで、チャート解析結果の信頼性を評価できる自己評価機構を考案した。 現在の最先端(SOTA)チャートパーシングモデル(例えば、DePlot、ChartVLM、ChartAst、OneChart)と比較すると、0.2億のパラメータしか楽しんでいないにもかかわらず、複数の公開ベンチマークでチャート構造抽出を行うのに、平均精度(AP)ではかなり優れています。 さらに、チャート解析エージェントとして、下流のChartQAベンチマークで人気のLVLM(LLaVA-1.6)に対して10%以上の精度向上をもたらす。

Chart parsing poses a significant challenge due to the diversity of styles, values, texts, and so forth. Even advanced large vision-language models (LVLMs) with billions of parameters struggle to handle such tasks satisfactorily. To address this, we propose OneChart: a reliable agent specifically devised for the structural extraction of chart information. Similar to popular LVLMs, OneChart incorporates an autoregressive main body. Uniquely, to enhance the reliability of the numerical parts of the output, we introduce an auxiliary token placed at the beginning of the total tokens along with an additional decoder. The numerically optimized (auxiliary) token allows subsequent tokens for chart parsing to capture enhanced numerical features through causal attention. Furthermore, with the aid of the auxiliary token, we have devised a self-evaluation mechanism that enables the model to gauge the reliability of its chart parsing results by providing confidence scores for the generated content. Compared to current state-of-the-art (SOTA) chart parsing models, e.g., DePlot, ChartVLM, ChartAst, OneChart significantly outperforms in Average Precision (AP) for chart structural extraction across multiple public benchmarks, despite enjoying only 0.2 billion parameters. Moreover, as a chart parsing agent, it also brings 10%+ accuracy gains for the popular LVLM (LLaVA-1.6) in the downstream ChartQA benchmark.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# シャッフルモデルにおけるプライベートベクトル平均推定:多くのメッセージを必要とする最適なレート

Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages ( http://arxiv.org/abs/2404.10201v2 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Jelani Nelson, Huy L. Nguyen, Kunal Talwar, Samson Zhou, (参考訳) プライバシのシャッフルモデルにおいて,プライバシのプライベートベクトル平均推定の問題は,それぞれが単位ベクトル$v^{(i)} \in\mathbb{R}^d$を持つ場合である。 我々は,$\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)$ message per users を用いて,最適なエラーを実現する新しいマルチメッセージプロトコルを提案する。 さらに、最適なエラーを達成するための(バイアスのない)プロトコルは、各ユーザーが$\Omega(\min(n\varepsilon^2,d)/\log(n))$メッセージを送信し、メッセージ複雑性の最適性を対数要素まで示す必要があることを示す。 さらに、シングルメッセージ設定について検討し、平均二乗誤差 $\mathcal{O}(dn^{d/(d+2)}\varepsilon^{-4/(d+2)})$ を達成するプロトコルを設計する。 さらに、任意のシングルメッセージプロトコルが平均2乗誤差$\Omega(dn^{d/(d+2)})$を発生させなければならないことを示し、このプロトコルが$\varepsilon = \Theta(1)$の標準設定で最適であることを示す。 最後に、悪意のあるユーザに対するロバスト性を調査し、悪意のあるユーザが単一のシャフラーで大きな付加的エラーを発生させることができることを示す。

We study the problem of private vector mean estimation in the shuffle model of privacy where $n$ users each have a unit vector $v^{(i)} \in\mathbb{R}^d$. We propose a new multi-message protocol that achieves the optimal error using $\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)$ messages per user. Moreover, we show that any (unbiased) protocol that achieves optimal error requires each user to send $\Omega(\min(n\varepsilon^2,d)/\log(n))$ messages, demonstrating the optimality of our message complexity up to logarithmic factors. Additionally, we study the single-message setting and design a protocol that achieves mean squared error $\mathcal{O}(dn^{d/(d+2)}\varepsilon^{-4/(d+2)})$. Moreover, we show that any single-message protocol must incur mean squared error $\Omega(dn^{d/(d+2)})$, showing that our protocol is optimal in the standard setting where $\varepsilon = \Theta(1)$. Finally, we study robustness to malicious users and show that malicious users can incur large additive error with a single shuffler.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# InfoMatch:半スーパービジョン画像分類のためのエントロピーニューラル推定

InfoMatch: Entropy Neural Estimation for Semi-Supervised Image Classification ( http://arxiv.org/abs/2404.11003v2 )

ライセンス: Link先を確認
Qi Han, Zhibo Tian, Chengwei Xia, Kun Zhan, (参考訳) 擬似的監督と整合性正規化を利用した半教師画像分類は顕著な成功を収めた。 しかし、現在進行中の課題は、ラベルなしデータの可能性を完全に活用することにある。 これを解決するために,情報エントロピーニューラル推定を用いて,ラベルのないサンプルのポテンシャルを利用する。 コントラスト学習にインスパイアされたエントロピーは、異なる拡張ビュー間での相互情報の低境界を最大化することによって推定される。 さらに,画像分類器の後部の情報エントロピーが,ソフトマックス予測の確率関数を最大化することにより近似されることを理論的に分析する。 これらの知見に導かれ、予測確率分布が基底構造分布と密接に一致することを保証するため、両視点からモデルを最適化する。 情報エントロピーとの理論的関連性を考えると、我々はこの手法をInfoMatchと命名する。 広範な実験を通じて,その優れた性能を示す。 ソースコードはhttps://github.com/kunzhan/InfoMatch.comで入手できる。

Semi-supervised image classification, leveraging pseudo supervision and consistency regularization, has demonstrated remarkable success. However, the ongoing challenge lies in fully exploiting the potential of unlabeled data. To address this, we employ information entropy neural estimation to utilize the potential of unlabeled samples. Inspired by contrastive learning, the entropy is estimated by maximizing a lower bound on mutual information across different augmented views. Moreover, we theoretically analyze that the information entropy of the posterior of an image classifier is approximated by maximizing the likelihood function of the softmax predictions. Guided by these insights, we optimize our model from both perspectives to ensure that the predicted probability distribution closely aligns with the ground-truth distribution. Given the theoretical connection to information entropy, we name our method InfoMatch. Through extensive experiments, we show its superior performance. The source code is available at https://github.com/kunzhan/InfoMatch.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# LongEmbed:ロングコンテキスト検索のための埋め込みモデルの拡張

LongEmbed: Extending Embedding Models for Long Context Retrieval ( http://arxiv.org/abs/2404.12096v2 )

ライセンス: Link先を確認
Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li, (参考訳) 埋め込みモデルは、IRやRAGのような現代のNLPアプリケーションにおいて重要な役割を果たす。 LLMのコンテキスト制限は100万トークンを超えているが、埋め込みモデルは8kトークンを超えない狭いコンテキストウインドウに制限されている。 本稿では、既存の埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせずに32kまで制限をプッシュする。 まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。 LongEmbedは2つの合成タスクと4つの慎重に選択された現実世界タスクで構成され、様々な長さの文書と分散ターゲット情報を含んでいる。 ベンチマークの結果は、これらのモデルを改善するための大きな余地を浮き彫りにしている。 これに基づいて、総合的な実験により、位置補間のようなトレーニング不要なコンテキストウィンドウ拡張戦略が、元のコンテキストが512か4kを超えるかに関わらず、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。 さらに、絶対位置符号化(APE)を用いたモデルでは、より詳細な微調整を行い、顕著な性能向上を得られる可能性を示し、短い入力に対して元の動作を厳密に保存する。 回転位置埋め込み(RoPE)を用いたモデルでは、NTKやSelfExtendといったRoPE固有の手法を用いることで、コンテキストウィンドウ拡張におけるAPEよりもRoPEの方が優れていることを示す。 今後の研究を容易にするため、LongEmbedベンチマークとともにE5-Base-4kとE5-RoPE-Baseをリリースする。

Embedding models play a pivot role in modern NLP applications such as IR and RAG. While the context limit of LLMs has been pushed beyond 1 million tokens, embedding models are still confined to a narrow context window not exceeding 8k tokens, refrained from application scenarios requiring long inputs such as legal contracts. This paper explores context window extension of existing embedding models, pushing the limit to 32k without requiring additional training. First, we examine the performance of current embedding models for long context retrieval on our newly constructed LongEmbed benchmark. LongEmbed comprises two synthetic tasks and four carefully chosen real-world tasks, featuring documents of varying length and dispersed target information. Benchmarking results underscore huge room for improvement in these models. Based on this, comprehensive experiments show that training-free context window extension strategies like position interpolation can effectively extend the context window of existing embedding models by several folds, regardless of their original context being 512 or beyond 4k. Furthermore, for models employing absolute position encoding (APE), we show the possibility of further fine-tuning to harvest notable performance gains while strictly preserving original behavior for short inputs. For models using rotary position embedding (RoPE), significant enhancements are observed when employing RoPE-specific methods, such as NTK and SelfExtend, indicating RoPE's superiority over APE for context window extension. To facilitate future research, we release E5-Base-4k and E5-RoPE-Base, along with the LongEmbed benchmark.
翻訳日:2024-04-26 20:28:54 公開日:2024-04-25
# 概念駆動型知識トレースを用いた個人化予測機構

Personalized Forgetting Mechanism with Concept-Driven Knowledge Tracing ( http://arxiv.org/abs/2404.12127v2 )

ライセンス: Link先を確認
Shanshan Wang, Ying Hu, Xun Yang, Zhongzhou Zhang, Keyang Wang, Xingyi Zhang, (参考訳) 知識追跡(KT)は、過去の学習データを分析し、将来の学習成績を予測することによって、学習プロセス全体を通して、学生の知識状態の変化を追跡することを目的としている。 既存の曲線理論に基づく知識追跡モデルでは、学生の個人化や、忘れる過程の因果関係を無視して、時間間隔によって引き起こされる一般的な忘れについてのみ考慮している。 これらの課題に対処するために,知識概念間の階層的関係を統合し,学生の認知能力を取り入れた概念駆動型パーソナライズド・フォーッティング・ナレッジ・トレーシング・モデル(CPF)を提案する。 まず,学習過程と学習過程の両方に,生徒のパーソナライズされた能力を統合することにより,学習者の個人的学習の獲得と,認知能力による学習率の差を明確に識別する。 第二に、知識点間の階層的関係を考慮し、先駆的知識概念行列を設計し、忘れる過程における因果関係をシミュレートするとともに、それに続く知識点を忘れることによる潜在的影響を統合する。 提案手法は,特定知識概念の学習だけでなく,生涯学習プロセスにも適用可能である。 3つの公開データセットの総合的な実験結果から、CPFは、生徒のパフォーマンスを予測するために、現在の忘れる曲線理論に基づく手法よりも優れており、CPFは、パーソナライズされた忘れるメカニズムを通じて、生徒の知識状態の変化をより良くシミュレートできることを示した。

Knowledge Tracing (KT) aims to trace changes in students' knowledge states throughout their entire learning process by analyzing their historical learning data and predicting their future learning performance. Existing forgetting curve theory based knowledge tracing models only consider the general forgetting caused by time intervals, ignoring the individualization of students and the causal relationship of the forgetting process. To address these problems, we propose a Concept-driven Personalized Forgetting knowledge tracing model (CPF) which integrates hierarchical relationships between knowledge concepts and incorporates students' personalized cognitive abilities. First, we integrate the students' personalized capabilities into both the learning and forgetting processes to explicitly distinguish students' individual learning gains and forgetting rates according to their cognitive abilities. Second, we take into account the hierarchical relationships between knowledge points and design a precursor-successor knowledge concept matrix to simulate the causal relationship in the forgetting process, while also integrating the potential impact of forgetting prior knowledge points on subsequent ones. The proposed personalized forgetting mechanism can not only be applied to the learning of specifc knowledge concepts but also the life-long learning process. Extensive experimental results on three public datasets show that our CPF outperforms current forgetting curve theory based methods in predicting student performance, demonstrating CPF can better simulate changes in students' knowledge status through the personalized forgetting mechanism.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# BLINK: マルチモーダルな大規模言語モデルは理解できるが知覚できない

BLINK: Multimodal Large Language Models Can See but Not Perceive ( http://arxiv.org/abs/2404.12390v2 )

ライセンス: Link先を確認
Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna, (参考訳) Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。 ほとんどのBlinkタスクは、人間によって「瞬き」で解決できる(例えば、相対的な深さ推定、視覚的対応、法医学的検出、多視点推論)。 しかし、これらの認識要求タスクは、自然言語による調停に抵抗するため、現在のマルチモーダル LLM にとって大きな課題となった。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。 ヒトは平均で95.70%の精度を持つが、Blinkは既存のマルチモーダルLLMでは驚くほど困難であり、GPT-4Vとジェミニでも51.26%と45.72%の精度で、ランダムな推測よりも13.17%と7.63%高い。 我々の分析は、専門的なCVモデルがこれらの問題をはるかに改善し、将来の改善の道筋を示唆していることも強調している。 われわれはBlinkがコミュニティを刺激し、マルチモーダルLLMが人間レベルの視覚的知覚に追いつくのに役立つと信じている。

We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# RAGCache: 検索拡張ジェネレーションのための効率的な知識キャッシュ

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.12457v2 )

ライセンス: Link先を確認
Chao Jin, Zili Zhang, Xuanlin Jiang, Fangyue Liu, Xin Liu, Xuanzhe Liu, Xin Jin, (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)と外部知識データベースの強みを統合することで、様々な自然言語処理タスクにおいて大幅に改善されている。 しかし、RAGは長いシーケンス生成を導入し、高い計算とメモリコストをもたらす。 本稿では,RAGに適した新しいマルチレベル動的キャッシュシステムであるRAGCacheを提案する。 我々の分析は、現在のRAGシステムのベンチマークを行い、性能ボトルネック(知識注入による長いシーケンス)と最適化機会(知識の中間状態のキャッシュ)を指摘します。 これらの知見に基づいて、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュするRAGCacheを設計する。 RAGCacheはLLM推論特性とRAG検索パターンを意識した代替ポリシーを提案する。 また、検索と推論のステップを動的にオーバーラップして、エンドツーエンドのレイテンシを最小限にする。 我々は、RAGCacheを実装し、最先端のLLM推論システムであるvLLMと、最先端のベクトルデータベースであるFaissで評価する。 実験結果から、RAGCacheは、Faisと統合されたvLLMと比較して、最初のトークン(TTFT)までの時間を最大4倍に削減し、スループットを最大2.1倍改善することが示された。

Retrieval-Augmented Generation (RAG) has shown significant improvements in various natural language processing tasks by integrating the strengths of large language models (LLMs) and external knowledge databases. However, RAG introduces long sequence generation and leads to high computation and memory costs. We propose RAGCache, a novel multilevel dynamic caching system tailored for RAG. Our analysis benchmarks current RAG systems, pinpointing the performance bottleneck (i.e., long sequence due to knowledge injection) and optimization opportunities (i.e., caching knowledge's intermediate states). Based on these insights, we design RAGCache, which organizes the intermediate states of retrieved knowledge in a knowledge tree and caches them in the GPU and host memory hierarchy. RAGCache proposes a replacement policy that is aware of LLM inference characteristics and RAG retrieval patterns. It also dynamically overlaps the retrieval and inference steps to minimize the end-to-end latency. We implement RAGCache and evaluate it on vLLM, a state-of-the-art LLM inference system and Faiss, a state-of-the-art vector database. The experimental results show that RAGCache reduces the time to first token (TTFT) by up to 4x and improves the throughput by up to 2.1x compared to vLLM integrated with Faiss.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# FlagVNE: ネットワークリソース割り当てのためのフレキシブルで汎用的な強化学習フレームワーク

FlagVNE: A Flexible and Generalizable Reinforcement Learning Framework for Network Resource Allocation ( http://arxiv.org/abs/2404.12633v3 )

ライセンス: Link先を確認
Tianfu Wang, Qilin Fan, Chao Wang, Long Yang, Leilei Ding, Nicholas Jing Yuan, Hui Xiong, (参考訳) VNE(Virtual Network Embedding)は、仮想ネットワーク要求(VNR)を物理インフラにマッピングすることを目的とした、ネットワーク仮想化における重要なリソース割り当てタスクである。 強化学習(RL)は近年,この問題に対する有望な解決策として浮上している。 しかし、既存のRLベースのVNE法は、一方向のアクション設計と一方向のトレーニング戦略によって制限されており、探索性や一般化性が制限される。 本稿では,FLexible And Generalizable RL framework for VNE(FragVNE)を提案する。 具体的には,仮想ノードと物理ノードの同時選択を可能にする双方向動作に基づくマルコフ決定プロセスモデルを設計し,解空間の探索性を向上させる。 広範かつダイナミックな動作空間に取り組むために,適応的な動作確率分布を生成し,高い訓練効率を確保する階層型デコーダを設計する。 さらに, 様々なVNRサイズに対する一般化問題を克服するために, 各VNRサイズに対する専門的な政策訓練を容易にする, カリキュラムスケジューリング戦略を備えたメタRLベースのトレーニング手法を提案する。 最後に、多数の実験結果から、FragVNEが複数の主要な指標にまたがって有効であることが示されている。 私たちのコードはGitHubで入手可能です(https://github.com/GeminiLight/flag-vne)。

Virtual network embedding (VNE) is an essential resource allocation task in network virtualization, aiming to map virtual network requests (VNRs) onto physical infrastructure. Reinforcement learning (RL) has recently emerged as a promising solution to this problem. However, existing RL-based VNE methods are limited by the unidirectional action design and one-size-fits-all training strategy, resulting in restricted searchability and generalizability. In this paper, we propose a FLexible And Generalizable RL framework for VNE, named FlagVNE. Specifically, we design a bidirectional action-based Markov decision process model that enables the joint selection of virtual and physical nodes, thus improving the exploration flexibility of solution space. To tackle the expansive and dynamic action space, we design a hierarchical decoder to generate adaptive action probability distributions and ensure high training efficiency. Furthermore, to overcome the generalization issue for varying VNR sizes, we propose a meta-RL-based training method with a curriculum scheduling strategy, facilitating specialized policy training for each VNR size. Finally, extensive experimental results show the effectiveness of FlagVNE across multiple key metrics. Our code is available at GitHub (https://github.com/GeminiLight/flag-vne).
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# 部分グラフスケッチを用いた半教師付きノード分類のためのグラフ畳み込みネットワーク

Graph Convolutional Network For Semi-supervised Node Classification With Subgraph Sketching ( http://arxiv.org/abs/2404.12724v2 )

ライセンス: Link先を確認
Zibin Huang, Jun Xian, (参考訳) 本稿では,従来のグラフ畳み込みニューラルネットワーク(GCN)に基づくGLDGCN(Graph-Learning-Dual Graph Convolutional Neural Network)を提案する。 半教師付きノード分類タスクにGLDGCNを適用する。 ベースライン法と比較して,Citeseer,Cora,Pubmedの3つの引用ネットワークの分類精度が高く,ハイパーパラメータの選択とネットワーク深度について分析・議論する。 GLDGCNは、古典的なソーシャルネットワークKarateClubと、新しいWiki-CSデータセットでもうまく機能している。 実験中に大きなグラフを処理するアルゴリズムの能力が不十分であるため、GCNにサブグラフクラスタリングと確率勾配降下法を導入し、Clustering Graph Convolutional Neural Networkに基づく半教師付きノード分類アルゴリズムを設計し、GCNが大きなグラフを処理でき、そのアプリケーション価値が向上する。 PPIデータセット(5万ノード以上)とRedditデータセット(20万ノード以上)の2つの古典的大規模グラフに対する半教師付きノード分類実験を完了し、性能も向上した。

In this paper, we propose the Graph-Learning-Dual Graph Convolutional Neural Network called GLDGCN based on the classic Graph Convolutional Neural Network(GCN) by introducing dual convolutional layer and graph learning layer. We apply GLDGCN to the semi-supervised node classification task. Compared with the baseline methods, we achieve higher classification accuracy on three citation networks Citeseer, Cora and Pubmed, and we also analyze and discussabout selection of the hyperparameters and network depth. GLDGCN also perform well on the classic social network KarateClub and the new Wiki-CS dataset. For the insufficient ability of our algorithm to process large graphs during the experiment, we also introduce subgraph clustering and stochastic gradient descent methods into GCN and design a semi-supervised node classification algorithm based on the CLustering Graph Convolutional neural Network, which enables GCN to process large graph and improves its application value. We complete semi-supervised node classification experiments on two classic large graph which are PPI dataset (more than 50,000 nodes) and Reddit dataset (more than 200,000 nodes), and also perform well.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# アルゴリズムの変更は十分ではない: eGFR方程式からのレース調整の除去の評価

Algorithmic Changes Are Not Enough: Evaluating the Removal of Race Adjustment from the eGFR Equation ( http://arxiv.org/abs/2404.12812v3 )

ライセンス: Link先を確認
Marika M. Cusick, Glenn M. Chertow, Douglas K. Owens, Michelle Y. Williams, Sherri Rose, (参考訳) レース調整を除去するための臨床アルゴリズムの変更が提案され、複数の健康状態に対して実施されている。 推定糸球体濾過率 (eGFR) 式によるレース調整の除去は慢性腎疾患 (CKD) の相違を減少させる可能性があるが, 実施後の臨床研究は行われていない。 そこで我々は,1つの医療システムであるスタンフォード・ヘルス・ケア(Stanford Health Care,SHC)における,黒人またはアフリカ系アメリカ人の腎症紹介と訪問の四半期率の変更を伴わないeGFR式(CKD-EPI 2021)の導入を検討した。 2019年1月1日から2023年9月1日までに血清クレアチニンまたは血清シスタチンCを1回以上記録した21歳以上の成人547,194人についてコホート調査を行った。 研究期間中、CKD-EPI 2021の実装は、ブラックまたはアフリカ系アメリカ人として記録された、または全体コホートにおいて、四半期の腎学参照率を変更しなかった。 SHC腎科クリニックでの入院率の調整後, CKD-EPI 2021の受診率は34例 (95% CI 29 39) と188例 (175, 201) であった。 レース調整が実施されなかった場合、推定率は38 (95% CI: 28, 53) と189 (165, 218) とほぼ同一であった。 eGFR方程式の変更は、他の多くの構造的不等式が残っているため、CKDケア意思決定における健康的公平を達成するには不十分である可能性が高い。

Changing clinical algorithms to remove race adjustment has been proposed and implemented for multiple health conditions. Removing race adjustment from estimated glomerular filtration rate (eGFR) equations may reduce disparities in chronic kidney disease (CKD), but has not been studied in clinical practice after implementation. Here, we assessed whether implementing an eGFR equation (CKD-EPI 2021) without adjustment for Black or African American race modified quarterly rates of nephrology referrals and visits within a single healthcare system, Stanford Health Care (SHC). Our cohort study analyzed 547,194 adult patients aged 21 and older who had at least one recorded serum creatinine or serum cystatin C between January 1, 2019 and September 1, 2023. During the study period, implementation of CKD-EPI 2021 did not modify rates of quarterly nephrology referrals in those documented as Black or African American or in the overall cohort. After adjusting for capacity at SHC nephrology clinics, estimated rates of nephrology referrals and visits with CKD-EPI 2021 were 34 (95% CI 29, 39) and 188 (175, 201) per 10,000 patients documented as Black or African American. If race adjustment had not been removed, estimated rates were nearly identical: 38 (95% CI: 28, 53) and 189 (165, 218) per 10,000 patients. Changes to the eGFR equation are likely insufficient to achieve health equity in CKD care decision-making as many other structural inequities remain.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# 予測精度の把握による校正の最適化

Optimizing Calibration by Gaining Aware of Prediction Correctness ( http://arxiv.org/abs/2404.13016v2 )

ライセンス: Link先を確認
Yuchi Liu, Lei Wang, Yuli Zou, James Zou, Liang Zheng, (参考訳) モデルのキャリブレーションは、信頼性と予測の正しさを一致させることを目的としている。 クロスエントロピー(CE)損失はキャリブレータトレーニングに広く使われており、基底真理クラスに対する信頼を高めるためにモデルを強制する。 しかし、CEの損失には固有の制限がある。 例えば、狭い誤分類の場合、CE損失によって訓練された校正器は、誤った予測されたクラス(例えば、テストサンプルが誤って分類され、地上の真理クラスにおけるソフトマックススコアが約0.4)に高い信頼をもたらすことがしばしばあり、これは望ましくない。 本稿では, キャリブレーションの目的から得られた, ポストホックキャリブレーションの新たなキャリブレーション手法を提案する。 直感的に、提案する目的関数は、キャリブレータが間違った予測されたサンプルに対するモデルの信頼性を低下させ、正しい予測されたサンプルに対する信頼性を高めることを要求する。 サンプル自体が正しさを示す能力が不足しているため、校正訓練中に変換されたバージョン(例えば、回転、グレースケール、カラージッタ)を使用する。 本手法は, 個別検体を用いて, 個別検体を用いて, 分布内および分布外検体上での競合校正性能を, 最先端検体と比較して評価した。 さらに,本手法とCE損失と平均二乗誤差損失との差が指摘され,後者は校正目的から逸脱することがある。

Model calibration aims to align confidence with prediction correctness. The Cross-Entropy (CE) loss is widely used for calibrator training, which enforces the model to increase confidence on the ground truth class. However, we find the CE loss has intrinsic limitations. For example, for a narrow misclassification, a calibrator trained by the CE loss often produces high confidence on the wrongly predicted class (e.g., a test sample is wrongly classified and its softmax score on the ground truth class is around 0.4), which is undesirable. In this paper, we propose a new post-hoc calibration objective derived from the aim of calibration. Intuitively, the proposed objective function asks that the calibrator decrease model confidence on wrongly predicted samples and increase confidence on correctly predicted samples. Because a sample itself has insufficient ability to indicate correctness, we use its transformed versions (e.g., rotated, greyscaled and color-jittered) during calibrator training. Trained on an in-distribution validation set and tested with isolated, individual test samples, our method achieves competitive calibration performance on both in-distribution and out-of-distribution test sets compared with the state of the art. Further, our analysis points out the difference between our method and commonly used objectives such as CE loss and mean square error loss, where the latters sometimes deviates from the calibration aim.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# 臨床教育の模擬患者としての大規模言語モデルの活用

Leveraging Large Language Model as Simulated Patients for Clinical Education ( http://arxiv.org/abs/2404.13066v2 )

ライセンス: Link先を確認
Yanzeng Li, Cheng Zeng, Jialun Zhong, Ruoyu Zhang, Minhao Zhang, Lei Zou, (参考訳) シミュレーション患者(SP)は,学生の実践に現実的なシナリオを提供することによって,臨床医学教育において重要な役割を担っている。 しかし、訓練と雇用の高コストは、重い作業負荷や、実際の患者を一貫して描写する潜在的なリスクとともに、このタイプの臨床訓練へのアクセスを制限する。 近年,コンピュータ・プログラムをベースとしたシミュレートされた患者の統合が教育ツールとして重要視されている。 LLM(Large Language Models)の急速な発展に伴い、対話型人工知能とロールプレイングにおける特有な能力が実証され、仮想シミュレートされた患者(VSP)を実装するための選択肢となった。 本稿では,臨床医学教育における LLM の可能性を活用した,CureFun と呼ばれる統合型モデル診断フレームワークを提案する。 この枠組みは, 学生とシミュレーション患者との自然な会話を促進し, その対話を評価し, 臨床検査のスキルを高めることを提案する。 総合的な評価を通じて,本手法は,他のLSMベースのチャットボットと比較して,より正確で専門的なSP-scenarioの対話フローを示し,患者をシミュレートする能力を示す。 さらに、CureFunの評価能力を活用し、いくつかの医療用LCMを評価し、診断能力の観点からLLMを仮想医師として使う可能性と限界について議論する。

Simulated Patients (SPs) play a crucial role in clinical medical education by providing realistic scenarios for student practice. However, the high cost of training and hiring qualified SPs, along with the heavy workload and potential risks they face in consistently portraying actual patients, limit students' access to this type of clinical training. Consequently, the integration of computer program-based simulated patients has emerged as a valuable educational tool in recent years. With the rapid development of Large Language Models (LLMs), their exceptional capabilities in conversational artificial intelligence and role-playing have been demonstrated, making them a feasible option for implementing Virtual Simulated Patient (VSP). In this paper, we present an integrated model-agnostic framework called CureFun that harnesses the potential of LLMs in clinical medical education. This framework facilitates natural conversations between students and simulated patients, evaluates their dialogue, and provides suggestions to enhance students' clinical inquiry skills. Through comprehensive evaluations, our approach demonstrates more authentic and professional SP-scenario dialogue flows compared to other LLM-based chatbots, thus proving its proficiency in simulating patients. Additionally, leveraging CureFun's evaluation ability, we assess several medical LLMs and discuss the possibilities and limitations of using LLMs as virtual doctors from the perspective of their diagnostic abilities.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# グローバルデジタル民主主義によるグローバルデジタルプラットフォーム構築のための草の根アーキテクチャ

A Grassroots Architecture to Supplant Global Digital Platforms by a Global Digital Democracy ( http://arxiv.org/abs/2404.13468v2 )

ライセンス: Link先を確認
Ehud Shapiro, (参考訳) 我々は、地域デジタルコミュニティの社会的、経済的、市民的、政治的ニーズ、およびそれらの連合を支援するために設計された、草の根と呼ばれるグローバルデジタルプラットフォームに対するアーキテクチャ上の代替案を提示する。 Grassrootsプラットフォームは、地域コミュニティにグローバルデジタルプラットフォームに代わるものを提供し、メンバーのスマートフォンでのみ運用し、ネットワーク自体以外のグローバルリソースを禁止します。 このような共同体は、初期資本や外部クレジットなしでデジタル経済を形成し、主権的な民主主義と連邦を行使し、最終的にはグローバルなデジタル民主主義の草の根を形成する。

We present an architectural alternative to global digital platforms termed grassroots, designed to serve the social, economic, civic, and political needs of local digital communities, as well as their federation. Grassroots platforms may offer local communities an alternative to global digital platforms while operating solely on the smartphones of their members, forsaking any global resources other than the network itself. Such communities may form digital economies without initial capital or external credit, exercise sovereign democratic governance, and federate, ultimately resulting in the grassroots formation of a global digital democracy.
翻訳日:2024-04-26 20:19:09 公開日:2024-04-25
# システムレビューのスクリーニングプロセスの高速化に向けたLCMの利用の約束と課題

The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews ( http://arxiv.org/abs/2404.15667v2 )

ライセンス: Link先を確認
Aleksi Huotala, Miikka Kuutila, Paul Ralph, Mika Mäntylä, (参考訳) システムレビュー (SR) は、ソフトウェア工学(SE)における一般的な研究手法である。 しかし、SRの実施には平均67週間を要する。 したがって、SRプロセスの任意のステップを自動化することで、SRに関連する労力を減らすことができる。 本研究の目的は,Large Language Models (LLMs) がヒューマンスクリーニングの抽象化を簡素化し,タイトル抽出スクリーニングを自動化することでタイトル抽出スクリーニングを高速化できるかどうかを検討することである。 我々は,従来のSRからオリジナルと簡易の両方の抽象化を用いて,人間が20論文のタイトルや要約をスクリーニングする実験を行った。 GPT-3.5とGPT-4 LLMでヒトスクリーニング実験を再現し、同じスクリーニング作業を行った。 また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。 最後に,LLM再生におけるプロンプトの再設計が性能改善につながるかを検討した。 テキストの単純化はスクリーニング性能を向上させるには至らなかったが、スクリーニングに使用される時間を短縮した。 審査員の科学的識字能力と研究者の地位はスクリーニング性能を予測する。 いくつかのLDMとプロンプトの組み合わせは、スクリーニングタスクにおいて人間のスクリーニングと同様に機能する。 以上の結果から, GPT-4 LLM は従来の GPT-3.5 よりも優れていたことが示唆された。 さらに、Few-shotとOne-shotのプロンプトはZero-shotのプロンプトを上回っている。 スクリーニングプロセスにおけるLLMによるテキストの簡易化は,人間のパフォーマンスを著しく向上させるものではない。 LLMをタイトル抽出スクリーニングの自動化に利用することは有望と思われるが、現在のLLMは人間のスクリーニングよりもはるかに正確ではない。 SRのスクリーニングプロセスにおけるLLMの使用を推奨するためには、さらなる研究が必要である。 将来のSR研究は、LLMスクリーニングによるより包括的な実験を可能にするために、スクリーニングデータ付き複製パッケージを公開することを推奨する。

Systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if Large Language Models (LLMs) can accelerate title-abstract screening by simplifying abstracts for human screeners, and automating title-abstract screening. We performed an experiment where humans screened titles and abstracts for 20 papers with both original and simplified abstracts from a prior SR. The experiment with human screeners was reproduced with GPT-3.5 and GPT-4 LLMs to perform the same screening tasks. We also studied if different prompting techniques (Zero-shot (ZS), One-shot (OS), Few-shot (FS), and Few-shot with Chain-of-Thought (FS-CoT)) improve the screening performance of LLMs. Lastly, we studied if redesigning the prompt used in the LLM reproduction of screening leads to improved performance. Text simplification did not increase the screeners' screening performance, but reduced the time used in screening. Screeners' scientific literacy skills and researcher status predict screening performance. Some LLM and prompt combinations perform as well as human screeners in the screening tasks. Our results indicate that the GPT-4 LLM is better than its predecessor, GPT-3.5. Additionally, Few-shot and One-shot prompting outperforms Zero-shot prompting. Using LLMs for text simplification in the screening process does not significantly improve human performance. Using LLMs to automate title-abstract screening seems promising, but current LLMs are not significantly more accurate than human screeners. To recommend the use of LLMs in the screening process of SRs, more research is needed. We recommend future SR studies publish replication packages with screening data to enable more conclusive experimenting with LLM screening.
翻訳日:2024-04-26 20:09:25 公開日:2024-04-25
# Retrieval and Distill: オンラインレコメンデーションシステムのための一時データシフトフリーパラダイム

Retrieval and Distill: A Temporal Data Shift-Free Paradigm for Online Recommendation System ( http://arxiv.org/abs/2404.15678v2 )

ライセンス: Link先を確認
Lei Zheng, Ning Li, Weinan Zhang, Yong Yu, (参考訳) 現在のレコメンデーションシステムは、歴史的データの配信とオンラインデータの配信との不整合である時間的データシフトの深刻な問題の影響を著しく受けている。 既存のモデルのほとんどは、データのシフトから学ぶことのできる、転送可能な一時的なデータシフトのない情報を見渡すことで、更新データの利用に重点を置いている。 本稿では,ある固定探索空間が与えられた場合,検索空間内のデータとデータとの関係が時間とともに不変であることを示す,時間不変なアソシエーション定理を提案する。 この原理を応用して、我々は、シフトデータを用いてデータシフトフリーのレコメンデーションネットワークをトレーニングできる検索ベースのレコメンデーションシステムフレームワークを設計し、リコメンデーションシステムにおける元のモデルの予測性能を大幅に向上させた。 しかし、検索ベースのレコメンデーションモデルは、オンラインにデプロイする際、かなりの推論時間コストに直面している。 これを解決するため,我々は,関連するネットワークからの情報をシフトデータを用いてパラメータ化モジュールに抽出できる蒸留フレームワークをさらに設計した。 蒸留されたモデルはオリジナルのモデルと並んでオンラインに展開でき、推論時間は最小限に抑えられる。 複数の実データセットに対する大規模な実験により、我々のフレームワークはシフトデータを利用することで、元のモデルの性能を大幅に改善することを示した。

Current recommendation systems are significantly affected by a serious issue of temporal data shift, which is the inconsistency between the distribution of historical data and that of online data. Most existing models focus on utilizing updated data, overlooking the transferable, temporal data shift-free information that can be learned from shifting data. We propose the Temporal Invariance of Association theorem, which suggests that given a fixed search space, the relationship between the data and the data in the search space keeps invariant over time. Leveraging this principle, we designed a retrieval-based recommendation system framework that can train a data shift-free relevance network using shifting data, significantly enhancing the predictive performance of the original model in the recommendation system. However, retrieval-based recommendation models face substantial inference time costs when deployed online. To address this, we further designed a distill framework that can distill information from the relevance network into a parameterized module using shifting data. The distilled model can be deployed online alongside the original model, with only a minimal increase in inference time. Extensive experiments on multiple real datasets demonstrate that our framework significantly improves the performance of the original model by utilizing shifting data.
翻訳日:2024-04-26 19:59:40 公開日:2024-04-25
# HDBN:ロバスト骨格に基づく行動認識のためのハイブリッドデュアルブランチネットワーク

HDBN: A Novel Hybrid Dual-branch Network for Robust Skeleton-based Action Recognition ( http://arxiv.org/abs/2404.15719v2 )

ライセンス: Link先を確認
Jinfu Liu, Baiqiao Yin, Jiaying Lin, Jiajun Wen, Yue Li, Mengyuan Liu, (参考訳) スケルトンをベースとした行動認識は、簡潔で頑健な骨格表現の利用により、かなりの注目を集めている。 それにもかかわらず、現在の方法論は、しばしば単独のバックボーンを利用して、ネットワークのバックボーンに固有の欠陥によって制限される骨格のモダリティをモデル化する。 そこで本稿では, グラフ構造データ処理におけるグラフ畳み込みネットワークの習熟度と, グローバル情報のためのトランスフォーマーの強力なモデリング能力の恩恵を受ける, 頑健なスケルトンに基づく行動認識のためのハイブリッドデュアルブランチネットワーク(HDBN)を提案する。 提案するHDBNは,MixGCNとMixFormerの2つの幹分枝に分けられる。 2つの枝はGCNとトランスフォーマーを使用してそれぞれ2Dと3Dの骨格モーダルをモデル化する。 提案したHDBNは,UAV-Humanデータセットの2つのベンチマークで47.95%と75.36%のアキュラティを達成し,既存の手法を上回り,Multi-Modal Video Reasoning and Analyzing Competition(MMVRAC)の上位ソリューションの1つとして登場した。 私たちのコードは、https://github.com/liujf69/ICMEW2024-Track10.comで公開されます。

Skeleton-based action recognition has gained considerable traction thanks to its utilization of succinct and robust skeletal representations. Nonetheless, current methodologies often lean towards utilizing a solitary backbone to model skeleton modality, which can be limited by inherent flaws in the network backbone. To address this and fully leverage the complementary characteristics of various network architectures, we propose a novel Hybrid Dual-Branch Network (HDBN) for robust skeleton-based action recognition, which benefits from the graph convolutional network's proficiency in handling graph-structured data and the powerful modeling capabilities of Transformers for global information. In detail, our proposed HDBN is divided into two trunk branches: MixGCN and MixFormer. The two branches utilize GCNs and Transformers to model both 2D and 3D skeletal modalities respectively. Our proposed HDBN emerged as one of the top solutions in the Multi-Modal Video Reasoning and Analyzing Competition (MMVRAC) of 2024 ICME Grand Challenge, achieving accuracies of 47.95% and 75.36% on two benchmarks of the UAV-Human dataset by outperforming most existing methods. Our code will be publicly available at: https://github.com/liujf69/ICMEW2024-Track10.
翻訳日:2024-04-26 19:49:56 公開日:2024-04-25
# ブロックチェーンのProof-of-Workプロトコルにおける有効計算によるクリプトプラグのリプレース

Replacing Cryptopuzzles with Useful Computation in Blockchain Proof-of-Work Protocols ( http://arxiv.org/abs/2404.15735v2 )

ライセンス: Link先を確認
Andrea Merlina, Thiago Garrett, Roman Vitenberg, (参考訳) Proof-of-Work(PoW)ブロックチェーンは、インターネットのようなオープンな環境において、堅牢で効果的なコンセンサスメカニズムとして登場し、多数の暗号通貨プラットフォームへの展開と相当な投資につながっている。 しかし、現在のPoW実装は、主に勝利したnonceの発見を検証することに焦点を当てている。 ブロックチェーンネットワークの相当な計算能力と、より持続可能なITインフラストラクチャのグローバルな追求を考えれば、暗号パズルを有用な計算タスクに置き換えるという考えは魅力的だ。 本研究は,既存の文献から提案された課題の代替クラスに対する前提条件を包括的に分析し,これらの要件を考慮し検討する。 我々は,従来のPoWを超えるコンセンサスメカニズムの進化に関する貴重な洞察を提供するとともに,現在の最先端技術における関連する技術と対処ギャップを蒸留する。

Proof-of-Work (PoW) blockchains have emerged as a robust and effective consensus mechanism in open environments like the Internet, leading to widespread deployment with numerous cryptocurrency platforms and substantial investments. However, the current PoW implementation primarily focuses on validating the discovery of a winning nonce. Exploring the notion of replacing cryptographic puzzles with useful computing tasks becomes compelling, given the substantial computational capacity of blockchain networks and the global pursuit of a more sustainable IT infrastructure. In this study, we conduct a comprehensive analysis of the prerequisites for alternative classes of tasks, examining proposed designs from existing literature in light of these requirements. We distill pertinent techniques and address gaps in the current state-of-the-art, providing valuable insights into the evolution of consensus mechanisms beyond traditional PoW.
翻訳日:2024-04-26 19:49:56 公開日:2024-04-25
# マルチモーダルなインコンテキスト学習を実現するには?

What Makes Multimodal In-Context Learning Work? ( http://arxiv.org/abs/2404.15736v2 )

ライセンス: Link先を確認
Folco Bertini Baldassini, Mustafa Shukor, Matthieu Cord, Laure Soulier, Benjamin Piwowarski, (参考訳) 大規模言語モデルは様々なタスクにおいて顕著なパフォーマンスを示しており、最小限の実演例でICL(In-Context Learning)を通じて新しいスキルを素早く習得する能力を示している。 本研究では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための包括的枠組みを提案する。 我々は、最高のオープンソースマルチモーダルモデル(IDEFICS、OpenFlamingoなど)と幅広いマルチモーダルタスクについて検討する。 1)M-ICLは主にテキスト駆動機構に依存しており,画像のモダリティにはほとんど影響しない。 2)先進的ICL戦略(RICESなど)で使用する場合,M-ICLは実例に対する多数決に基づく単純な戦略に勝るものではない。 さらに,M-ICLの偏りや限界が,デプロイメント前に考慮すべきものであることも確認した。 https://gitlab.com/folbaeni/multimodal-icl

Large Language Models have demonstrated remarkable performance across various tasks, exhibiting the capacity to swiftly acquire new skills, such as through In-Context Learning (ICL) with minimal demonstration examples. In this work, we present a comprehensive framework for investigating Multimodal ICL (M-ICL) in the context of Large Multimodal Models. We consider the best open-source multimodal models (e.g., IDEFICS, OpenFlamingo) and a wide range of multimodal tasks. Our study unveils several noteworthy findings: (1) M-ICL primarily relies on text-driven mechanisms, showing little to no influence from the image modality. (2) When used with advanced-ICL strategy (like RICES), M-ICL is not better than a simple strategy based on majority voting over context examples. Moreover, we identify several biases and limitations of M-ICL that warrant consideration prior to deployment. Code available at https://gitlab.com/folbaeni/multimodal-icl
翻訳日:2024-04-26 19:40:12 公開日:2024-04-25
# ロバストさとアウト・オブ・ディストリビューション:環境・センサ領域における共変量変化

Unexplored Faces of Robustness and Out-of-Distribution: Covariate Shifts in Environment and Sensor Domains ( http://arxiv.org/abs/2404.15882v2 )

ライセンス: Link先を確認
Eunsu Baek, Keondo Park, Jiyoon Kim, Hyung-Sin Kim, (参考訳) コンピュータビジョンアプリケーションは、物理的シーンから光を通してカメラが取得したデジタル画像を予測する。 しかし、従来のロバストネスベンチマークは、画像取得プロセスで発生する分布シフトから分岐して、デジタル化された画像の摂動に依存する。 このギャップを埋めるために、実写カメラで202kの画像を直接キャプチャし、環境やカメラセンサーの要素のバリエーションを含む新しい分布シフトデータセット、ImageNet-ESを導入する。 新たなデータセットを用いて、アウト・オブ・ディストリビューション(OOD)の検出とモデルロバスト性を評価する。 我々は,既存のOOD検出手法がImageNet-ESの共変量シフトに対応していないことを発見し,OODの定義と検出は実世界の分布シフトを受け入れるために再検討されるべきであることを示唆した。 また、既存のデジタル拡張に加えて、学習環境やセンサのバリエーションによって、ImageNet-Cと-ESの両方でモデルがより堅牢になることも観察した。 最後に, カメラセンサ制御による効果的なシフト緩和は, モデルサイズを増大させることなく, 性能を著しく向上させる可能性が示唆された。 これらの結果から、我々のベンチマークは、コンピュータビジョンのためのロバストネス、OOD、カメラセンサー制御に関する将来の研究に役立つかもしれない。 私たちのコードとデータセットはhttps://github.com/Edw2n/ImageNet-ESで公開されています。

Computer vision applications predict on digital images acquired by a camera from physical scenes through light. However, conventional robustness benchmarks rely on perturbations in digitized images, diverging from distribution shifts occurring in the image acquisition process. To bridge this gap, we introduce a new distribution shift dataset, ImageNet-ES, comprising variations in environmental and camera sensor factors by directly capturing 202k images with a real camera in a controllable testbed. With the new dataset, we evaluate out-of-distribution (OOD) detection and model robustness. We find that existing OOD detection methods do not cope with the covariate shifts in ImageNet-ES, implying that the definition and detection of OOD should be revisited to embrace real-world distribution shifts. We also observe that the model becomes more robust in both ImageNet-C and -ES by learning environment and sensor variations in addition to existing digital augmentations. Lastly, our results suggest that effective shift mitigation via camera sensor control can significantly improve performance without increasing model size. With these findings, our benchmark may aid future research on robustness, OOD, and camera sensor control for computer vision. Our code and dataset are available at https://github.com/Edw2n/ImageNet-ES.
翻訳日:2024-04-26 19:01:10 公開日:2024-04-25
# OMEGAS:ガウスセグメンテーションでガイドされた大規模シーンからのオブジェクトメッシュ抽出

OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation ( http://arxiv.org/abs/2404.15891v2 )

ライセンス: Link先を確認
Lizhi Wang, Feng Zhou, Jianqin Yin, (参考訳) 近年の3D再構成技術は,複雑な3Dシーンの高品質かつリアルタイムレンダリングの道を開いた。 これらの成果にもかかわらず、注目すべき課題は、大きなシーンから特定のオブジェクトを正確に再構築することは困難である。 現在のシーン再構築技術は、しばしばオブジェクト詳細テクスチャが失われ、ビューに隠されたり、見えないオブジェクト部分の再構築ができない。 この課題に対処するために、我々は、大きなシーン内の特定のオブジェクトの細かな3D再構成を探索し、OMEGAS: Object Mesh extract from Large Scenes Guided by GAussian Segmentationというフレームワークを提案する。 OMEGASは、いくつかの優れたオフザシェルフ手法に基づくマルチステップアプローチを採用している。 具体的には,まず,Segment Anything Model(SAM)を用いて3Dガウススティング(3DGS)のセグメンテーションを誘導し,対象物体の基本的な3DGSモデルを作成する。 そして,3DGSモデルの詳細をさらに洗練するために,大規模な拡散先行手法を活用し,特に本来のシーンビューから見えない,あるいは隠蔽されたオブジェクトの部分に対処することを目的としている。 その後、3DGSモデルをシーンビューに再レンダリングすることで、正確なオブジェクトセグメンテーションを実現し、背景を効果的に除去する。 最後に、3DGSモデルをさらに改善し、SuGaRモデルにより決定的な3Dオブジェクトメッシュを抽出するために、これらのターゲットのみの画像を使用する。 様々なシナリオにおいて, OMEGASが既存のシーン再構築手法を大幅に上回っていることを示す。 私たちのプロジェクトページは以下の通りです。

Recent advancements in 3D reconstruction technologies have paved the way for high-quality and real-time rendering of complex 3D scenes. Despite these achievements, a notable challenge persists: it is difficult to precisely reconstruct specific objects from large scenes. Current scene reconstruction techniques frequently result in the loss of object detail textures and are unable to reconstruct object portions that are occluded or unseen in views. To address this challenge, we delve into the meticulous 3D reconstruction of specific objects within large scenes and propose a framework termed OMEGAS: Object Mesh Extraction from Large Scenes Guided by GAussian Segmentation. OMEGAS employs a multi-step approach, grounded in several excellent off-the-shelf methodologies. Specifically, initially, we utilize the Segment Anything Model (SAM) to guide the segmentation of 3D Gaussian Splatting (3DGS), thereby creating a basic 3DGS model of the target object. Then, we leverage large-scale diffusion priors to further refine the details of the 3DGS model, especially aimed at addressing invisible or occluded object portions from the original scene views. Subsequently, by re-rendering the 3DGS model onto the scene views, we achieve accurate object segmentation and effectively remove the background. Finally, these target-only images are used to improve the 3DGS model further and extract the definitive 3D object mesh by the SuGaR model. In various scenarios, our experiments demonstrate that OMEGAS significantly surpasses existing scene reconstruction methods. Our project page is at: https://github.com/CrystalWlz/OMEGAS
翻訳日:2024-04-26 19:01:10 公開日:2024-04-25
# 条件付きスパース・トゥ・スパーサ・スキームに基づく分散個人化フェデレーションラーニング

Decentralized Personalized Federated Learning based on a Conditional Sparse-to-Sparser Scheme ( http://arxiv.org/abs/2404.15943v2 )

ライセンス: Link先を確認
Qianyu Long, Qiyuan Wang, Christos Anagnostopoulos, Daning Bi, (参考訳) 分散連邦学習(DFL)は、その堅牢性と集中的調整の回避によって人気を博している。 このパラダイムでは、クライアントは、ネットワーク化された隣人とモデルを交換することで、トレーニングを積極的に行う。 しかし、DFLはトレーニングやコミュニケーションの面でコストを増大させる。 既存の方法は、訓練効率とデータの異質性を見越して、コミュニケーションを最小化することに焦点を当てている。 このギャップに対処するために,新しい「textit{sparse-to-sparser}」トレーニングスキーム,DA-DPFLを提案する。 DA-DPFL はモデルパラメータのサブセットで初期化され、これは textit{dynamic aggregate} を通じてトレーニング中に徐々に減少し、臨界学習期間中に適切な情報を保持しながらかなりのエネルギー節約につながる。 実験の結果, DA-DPFLはDFLのベースラインの精度を大幅に上回り, エネルギーコストの最大5ドル削減を実現していることがわかった。 分散学習およびパーソナライズ学習におけるDA-DPFLの適用性を固めることにより,DA-DPFLの収束を理論的に分析する。 コードは、https://github.com/EricLoong/da-dpflで入手できる。

Decentralized Federated Learning (DFL) has become popular due to its robustness and avoidance of centralized coordination. In this paradigm, clients actively engage in training by exchanging models with their networked neighbors. However, DFL introduces increased costs in terms of training and communication. Existing methods focus on minimizing communication often overlooking training efficiency and data heterogeneity. To address this gap, we propose a novel \textit{sparse-to-sparser} training scheme: DA-DPFL. DA-DPFL initializes with a subset of model parameters, which progressively reduces during training via \textit{dynamic aggregation} and leads to substantial energy savings while retaining adequate information during critical learning periods. Our experiments showcase that DA-DPFL substantially outperforms DFL baselines in test accuracy, while achieving up to $5$ times reduction in energy costs. We provide a theoretical analysis of DA-DPFL's convergence by solidifying its applicability in decentralized and personalized learning. The code is available at:https://github.com/EricLoong/da-dpfl
翻訳日:2024-04-26 18:51:25 公開日:2024-04-25
# 識別可能性基準による解釈可能なクラスタリング

Interpretable Clustering with the Distinguishability Criterion ( http://arxiv.org/abs/2404.15967v2 )

ライセンス: Link先を確認
Ali Turfah, Xiaoquan Wen, (参考訳) クラスタ分析は、サンプル内の不均一なサブ集団を特定するために、多くの分野で使われている一般的な教師なし学習ツールである。 しかし、クラスタ分析結果を検証し、データセット内のクラスタ数を決定することは、未解決の問題である。 本研究では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,Distinguishability criterionと呼ばれるグローバルな基準を提案する。 分散性基準の計算的実装は、0-1の損失の下でランダム化された分類器のベイズリスクに対応している。 本稿では,分散性基準を階層クラスタリング,k-平均,有限混合モデルなどの一般的なクラスタリング手法と統合した損失関数に基づく計算フレームワークを提案する。 シミュレーション研究と実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。

Cluster analysis is a popular unsupervised learning tool used in many disciplines to identify heterogeneous sub-populations within a sample. However, validating cluster analysis results and determining the number of clusters in a data set remains an outstanding problem. In this work, we present a global criterion called the Distinguishability criterion to quantify the separability of identified clusters and validate inferred cluster configurations. Our computational implementation of the Distinguishability criterion corresponds to the Bayes risk of a randomized classifier under the 0-1 loss. We propose a combined loss function-based computational framework that integrates the Distinguishability criterion with many commonly used clustering procedures, such as hierarchical clustering, k-means, and finite mixture models. We present these new algorithms as well as the results from comprehensive data analysis based on simulation studies and real data applications.
翻訳日:2024-04-26 18:41:38 公開日:2024-04-25
# GaussianTalker: オーディオ駆動型3Dガウススプレイティングによるリアルタイム高忠実トーキングヘッド合成

GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting ( http://arxiv.org/abs/2404.16012v2 )

ライセンス: Link先を確認
Kyusun Cho, Joungbin Lee, Heeji Yoon, Yeobin Hong, Jaehoon Ko, Sangjun Ahn, Seungryong Kim, (参考訳) ポーズ制御可能な音声ヘッドをリアルタイムに生成するための新しいフレームワークであるGaussianTalkerを提案する。 3D Gaussian Splatting(3DGS)の高速レンダリング機能を活用し、音声で直接3DGSを制御するという課題に対処する。 GaussianTalkerは頭部の標準的な3DGS表現を構築し、オーディオと同期して変形する。 重要な洞察は、3Dガウス属性を共有の暗黙的特徴表現にエンコードすることであり、各ガウス属性を操作するためにオーディオ機能とマージされる。 この設計は空間認識機能を活用し、近隣の点間の相互作用を強制する。 特徴埋め込みは空間音響アテンションモジュールに送られ、各ガウスの属性に対するフレームワイドオフセットを予測する。 これは、多くのガウスとその複雑なパラメータを操作するための以前の連結や乗法アプローチよりも安定である。 実験結果から, ガウシアントーマーの顔の忠実度, 唇の同期精度, レンダリング速度が従来法より優れていることが示された。 具体的には、GaussianTalkerは120FPSまでのレンダリング速度を達成し、以前のベンチマークを上回っている。 私たちのコードはhttps://github.com/KU-CVLAB/GaussianTalker/で利用可能です。

We propose GaussianTalker, a novel framework for real-time generation of pose-controllable talking heads. It leverages the fast rendering capabilities of 3D Gaussian Splatting (3DGS) while addressing the challenges of directly controlling 3DGS with speech audio. GaussianTalker constructs a canonical 3DGS representation of the head and deforms it in sync with the audio. A key insight is to encode the 3D Gaussian attributes into a shared implicit feature representation, where it is merged with audio features to manipulate each Gaussian attribute. This design exploits the spatial-aware features and enforces interactions between neighboring points. The feature embeddings are then fed to a spatial-audio attention module, which predicts frame-wise offsets for the attributes of each Gaussian. It is more stable than previous concatenation or multiplication approaches for manipulating the numerous Gaussians and their intricate parameters. Experimental results showcase GaussianTalker's superiority in facial fidelity, lip synchronization accuracy, and rendering speed compared to previous methods. Specifically, GaussianTalker achieves a remarkable rendering speed up to 120 FPS, surpassing previous benchmarks. Our code is made available at https://github.com/KU-CVLAB/GaussianTalker/ .
翻訳日:2024-04-26 18:31:49 公開日:2024-04-25
# 機械翻訳システムの再学習を伴わない多面的データの翻訳

Translation of Multifaceted Data without Re-Training of Machine Translation Systems ( http://arxiv.org/abs/2404.16257v1 )

ライセンス: Link先を確認
Hyeonseok Moon, Seungyoon Lee, Seongtae Hong, Seungjun Lee, Chanjun Park, Heuiseok Lim, (参考訳) 主要な言語リソースを翻訳してマイナーな言語リソースを構築することは、広く使われているアプローチである。 特に、複数のコンポーネントで構成される複雑なデータポイントの翻訳では、各コンポーネントを別々に翻訳することが一般的である。 しかし、このプラクティスは、しばしば同じデータポイント内のコンポーネント間の相互関係を見落としている。 この制限に対処するため,トレーニングデータにMTを実装する際のデータ内関係を考慮した新しいMTパイプラインを提案する。 MTパイプラインでは、データポイント内のすべてのコンポーネントを連結して単一の翻訳シーケンスを形成し、その後、データコンポーネントに変換後、再構築する。 本稿では,データ内関係を高めるための触媒ステートメント (CS) と,各データコンポーネントへの翻訳配列の分解を支援する指標トークン (IT) を導入する。 提案手法は,学習データとしての有効性とともに,翻訳品質自体の大幅な向上を実現している。 XGLUEベンチマークでは,Webページランキング(WPR)タスクは2.690ポイント,質問生成(QG)タスクは0.845ポイント向上した。

Translating major language resources to build minor language resources becomes a widely-used approach. Particularly in translating complex data points composed of multiple components, it is common to translate each component separately. However, we argue that this practice often overlooks the interrelation between components within the same data point. To address this limitation, we propose a novel MT pipeline that considers the intra-data relation in implementing MT for training data. In our MT pipeline, all the components in a data point are concatenated to form a single translation sequence and subsequently reconstructed to the data components after translation. We introduce a Catalyst Statement (CS) to enhance the intra-data relation, and Indicator Token (IT) to assist the decomposition of a translated sequence into its respective data components. Through our approach, we have achieved a considerable improvement in translation quality itself, along with its effectiveness as training data. Compared with the conventional approach that translates each data component separately, our method yields better training data that enhances the performance of the trained model by 2.690 points for the web page ranking (WPR) task, and 0.845 for the question generation (QG) task in the XGLUE benchmark.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# OmniSearchSage:Pinterest検索用のマルチタスクマルチエンティティ埋め込み

OmniSearchSage: Multi-Task Multi-Entity Embeddings for Pinterest Search ( http://arxiv.org/abs/2404.16260v1 )

ライセンス: Link先を確認
Prabhat Agarwal, Minhazul Islam Sk, Nikil Pancha, Kurchi Subhra Hazra, Jiajing Xu, Chuck Rosenberg, (参考訳) 本稿では,Pinterest検索のための検索クエリ,ピン,製品を理解する汎用的でスケーラブルなシステムであるOmniSearchSageを紹介する。 ピンとプロダクトの埋め込みを組み合わせた統合クエリ埋め込みを共同で学習し、Pinterestの製品検索システムでは、$>8\%$の関連性、$>7\%$のエンゲージメント、$>5\%$の広告CTRが改善されました。 これらの成果の主な貢献者は、コンテンツ理解の改善、マルチタスク学習の改善、リアルタイムサービスである。 画像キャプションから派生した画像キャプション,履歴エンゲージメント,ユーザキュレートボードを用いて,エンティティ表現を充実させる。 我々のマルチタスク学習装置は、ピンとプロダクトの埋め込みと同じ空間に単一の検索クエリを埋め込み、既存のピンとプロダクトの埋め込みと互換性がある。 本研究では,各特徴量の価値をアブレーション研究により示すとともに,独立系モデルと比較して統一モデルの有効性を示す。 最後に、これらの埋め込みが、検索からランキングまで、Pinterestの検索スタック全体にどのようにデプロイされたか、低レイテンシで毎秒300k$のリクエストを提供するまで、公開しています。 この作業の実装はhttps://github.com/pinterest/atg-research/tree/main/omnisearchsage.comで公開しています。

In this paper, we present OmniSearchSage, a versatile and scalable system for understanding search queries, pins, and products for Pinterest search. We jointly learn a unified query embedding coupled with pin and product embeddings, leading to an improvement of $>8\%$ relevance, $>7\%$ engagement, and $>5\%$ ads CTR in Pinterest's production search system. The main contributors to these gains are improved content understanding, better multi-task learning, and real-time serving. We enrich our entity representations using diverse text derived from image captions from a generative LLM, historical engagement, and user-curated boards. Our multitask learning setup produces a single search query embedding in the same space as pin and product embeddings and compatible with pre-existing pin and product embeddings. We show the value of each feature through ablation studies, and show the effectiveness of a unified model compared to standalone counterparts. Finally, we share how these embeddings have been deployed across the Pinterest search stack, from retrieval to ranking, scaling to serve $300k$ requests per second at low latency. Our implementation of this work is available at https://github.com/pinterest/atg-research/tree/main/omnisearchsage.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 複数のドメインからの対話におけるイエスノー質問への回答

Interpreting Answers to Yes-No Questions in Dialogues from Multiple Domains ( http://arxiv.org/abs/2404.16262v1 )

ライセンス: Link先を確認
Zijie Wang, Farzana Rashid, Eduardo Blanco, (参考訳) 多くの場合、イエス、ノー、または同様の極性キーワードを明示せずにイエスノー質問に答える。 大規模な言語モデルであっても、間接的な回答の意味を理解することは難しい。 本稿では,複数のドメインからの対話を扱う問題について検討する。 我々は,映画脚本,テニスインタビュー,航空顧客サービスという3つの領域に新たなベンチマークを提示する。 本稿では,遠隔監督とブレンドトレーニングを基礎として,新たな対話領域に迅速に適応するアプローチを提案する。 以上の結果から,F1の改善は最大11~34%に達することが示唆された。

People often answer yes-no questions without explicitly saying yes, no, or similar polar keywords. Figuring out the meaning of indirect answers is challenging, even for large language models. In this paper, we investigate this problem working with dialogues from multiple domains. We present new benchmarks in three diverse domains: movie scripts, tennis interviews, and airline customer service. We present an approach grounded on distant supervision and blended training to quickly adapt to a new dialogue domain. Experimental results show that our approach is never detrimental and yields F1 improvements as high as 11-34%.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# リアルタイムセマンティックセグメンテーションのための多目的最適化ベンチマークテストスイート

A Multi-objective Optimization Benchmark Test Suite for Real-time Semantic Segmentation ( http://arxiv.org/abs/2404.16266v1 )

ライセンス: Link先を確認
Yifan Zhao, Zhenyu Liang, Zhichao Lu, Ran Cheng, (参考訳) 自動機械学習における課題の1つとして、ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)タスクは、ブラックボックスマルチオブジェクト最適化問題(MOP)として扱うことができる。 HW-NASの重要な応用はリアルタイムセマンティックセグメンテーションであり、自律運転シナリオにおいて重要な役割を果たす。 リアルタイムセマンティックセグメンテーションのためのHW-NASは、本質的にモデル精度、推論速度、ハードウェア固有の考慮など、複数の最適化目標のバランスをとる必要がある。 その重要性にもかかわらず、ベンチマークは、多目的最適化のような難しいタスクをフレーム化するためにまだ開発されていない。 このギャップを埋めるため、リアルタイムセマンティックセグメンテーションのためのHW-NASのタスクを標準のMOPに変換するための調整されたストリームラインを導入する。 ストリームライン上に構築したベンチマークテストスイートであるCitySeg/MOPは,Cityscapesデータセットから派生した15のMOPから構成される。 CitySeg/MOPテストスイートはEvoXBenchプラットフォームに統合され、様々なプログラミング言語(例えば、PythonやMATLAB)とシームレスにインターフェースを提供し、即時適合性の評価を行う。 様々な多目的進化アルゴリズムを用いてCitySeg/MOPテストスイートを総合的に評価し,その汎用性と実用性を示した。 ソースコードはhttps://github.com/EMI-Group/evoxbench.comで入手できる。

As one of the emerging challenges in Automated Machine Learning, the Hardware-aware Neural Architecture Search (HW-NAS) tasks can be treated as black-box multi-objective optimization problems (MOPs). An important application of HW-NAS is real-time semantic segmentation, which plays a pivotal role in autonomous driving scenarios. The HW-NAS for real-time semantic segmentation inherently needs to balance multiple optimization objectives, including model accuracy, inference speed, and hardware-specific considerations. Despite its importance, benchmarks have yet to be developed to frame such a challenging task as multi-objective optimization. To bridge the gap, we introduce a tailored streamline to transform the task of HW-NAS for real-time semantic segmentation into standard MOPs. Building upon the streamline, we present a benchmark test suite, CitySeg/MOP, comprising fifteen MOPs derived from the Cityscapes dataset. The CitySeg/MOP test suite is integrated into the EvoXBench platform to provide seamless interfaces with various programming languages (e.g., Python and MATLAB) for instant fitness evaluations. We comprehensively assessed the CitySeg/MOP test suite on various multi-objective evolutionary algorithms, showcasing its versatility and practicality. Source codes are available at https://github.com/EMI-Group/evoxbench.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# テクスチャ解析を用いた植物画像分類のためのラキュナリティポーリング層

Lacunarity Pooling Layers for Plant Image Classification using Texture Analysis ( http://arxiv.org/abs/2404.16268v1 )

ライセンス: Link先を確認
Akshatha Mohan, Joshua Peeples, (参考訳) ポーリング層(例えば、最大値、平均値)は、画素強度および/または特徴値の空間配置で符号化された重要な情報を見渡すことができる。 そこで本研究では,特徴マップの空間的不均一性を,局所窓内における変動性の評価により捉えることを目的とした,新しいラキュナリティプーリング層を提案する。 レイヤは複数のスケールで動作し、ネットワークは階層的な特徴を適応的に学習することができる。 ラキュナリティプーリング層は、任意の人工ニューラルネットワークアーキテクチャにシームレスに統合することができる。 実験により, 複雑な空間パターンを捕捉し, 特徴抽出能力の向上を図った。 提案手法は,特に農業画像解析タスクにおいて,様々な領域において有望である。 この研究は、空間的特徴の表現を豊かにする新しいプーリング層を導入することによって、人工知能ニューラルネットワークアーキテクチャの進化する展望に寄与する。 私たちのコードは公開されています。

Pooling layers (e.g., max and average) may overlook important information encoded in the spatial arrangement of pixel intensity and/or feature values. We propose a novel lacunarity pooling layer that aims to capture the spatial heterogeneity of the feature maps by evaluating the variability within local windows. The layer operates at multiple scales, allowing the network to adaptively learn hierarchical features. The lacunarity pooling layer can be seamlessly integrated into any artificial neural network architecture. Experimental results demonstrate the layer's effectiveness in capturing intricate spatial patterns, leading to improved feature extraction capabilities. The proposed approach holds promise in various domains, especially in agricultural image analysis tasks. This work contributes to the evolving landscape of artificial neural network architectures by introducing a novel pooling layer that enriches the representation of spatial features. Our code is publicly available.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 準安定1T'モリブデンジテルリドを用いた真ランダム数生成

True random number generation using metastable 1T' molybdenum ditelluride ( http://arxiv.org/abs/2404.16271v1 )

ライセンス: Link先を確認
Yang Liu, Pengyu Liu, Yingyi Wen, Zihan Liang, Songwei Liu, Lekai Song, Jingfang Pei, Xiaoyue Fan, Teng Ma, Gang Wang, Shuo Gao, Kong-Pang Pun, Xiaolong Chen, Guohua Hu, (参考訳) 真のランダム数は、セキュア暗号において重要な役割を果たす。 生成は安定で容易に抽出可能なエントロピー源に依存する。 ここでは, 溶液処理された構造準安定な1T' MoTe2から, 消費電力が最小限(0.05マイクロW以下)の広い温度(最大15K以下)で, 機能的, 確率的, 安定なコンダクタンスノイズの安定出力を証明した。 コンダクタンスノイズの特性を統計的に解析した結果, このノイズは1T' MoTe2における下層の強誘電体双極子の確率偏極の揮発性から生じることが示唆された。 さらに、我々のモンテカルロシミュレーションで証明されたように、強誘電体双極子偏極は確率偏極が持続し、時間とともに安定な信頼できるエントロピー源である。 コンダクタンスノイズを爆発させると、真の乱数の生成を実現し、パスワード生成やデータ暗号化など、一般的な暗号アプリケーションでの使用を実証する。 さらに、特に、ニューラルネットワークの暗号にとって重要な機密データに対するプライバシー保護アプローチを示す。 我々の研究は、メタスタブルな1T' MoTe2の理解に洞察をもたらし、さらに重要なことは、セキュアな暗号におけるその大きな可能性を支えるものだと信じています。

True random numbers play a critical role in secure cryptography. The generation relies on a stable and readily extractable entropy source. Here, from solution-processed structurally metastable 1T' MoTe2, we prove stable output of featureless, stochastic, and yet stable conductance noise at a broad temperature (down to 15 K) with minimal power consumption (down to 0.05 micro-W). Our characterizations and statistical analysis of the characteristics of the conductance noise suggest that the noise arises from the volatility of the stochastic polarization of the underlying ferroelectric dipoles in the 1T' MoTe2. Further, as proved in our experiments and indicated by our Monte Carlo simulation, the ferroelectric dipole polarization is a reliable entropy source with the stochastic polarization persistent and stable over time. Exploiting the conductance noise, we achieve the generation of true random numbers and demonstrate their use in common cryptographic applications, for example, password generation and data encryption. Besides, particularly, we show a privacy safeguarding approach to sensitive data that can be critical for the cryptography of neural networks. We believe our work will bring insights into the understanding of the metastable 1T' MoTe2 and, more importantly, underpin its great potential in secure cryptography.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 因果的インスパイアされた正規化はドメインの汎用表現を可能にする

Causally Inspired Regularization Enables Domain General Representations ( http://arxiv.org/abs/2404.16277v1 )

ライセンス: Link先を確認
Olawale Salaudeen, Sanmi Koyejo, (参考訳) 異なるドメイン/ディストリビューション間で共有されるデータ生成プロセスを表す因果グラフが与えられた場合、十分なグラフで実装された条件付き独立性は、ドメイン一般(非スパージャ)の特徴表現を識別することができる。 標準的な入出力予測設定では、文献で考慮されたグラフの集合を2つの異なるグループに分類する。 一 訓練領域にまたがる経験的リスクを最小化させるもの (二)そうでないもの 後者の場合 そこで,本研究では,素早い特徴の事前知識(あるいはプロキシ)を伴わないドメイン汎用特徴表現の同定に十分であることを示す。 提案手法は, 合成データと実世界のデータの両方に有効であり, 平均および最低領域転送精度において, 他の最先端手法よりも優れている。

Given a causal graph representing the data-generating process shared across different domains/distributions, enforcing sufficient graph-implied conditional independencies can identify domain-general (non-spurious) feature representations. For the standard input-output predictive setting, we categorize the set of graphs considered in the literature into two distinct groups: (i) those in which the empirical risk minimizer across training domains gives domain-general representations and (ii) those where it does not. For the latter case (ii), we propose a novel framework with regularizations, which we demonstrate are sufficient for identifying domain-general feature representations without a priori knowledge (or proxies) of the spurious features. Empirically, our proposed method is effective for both (semi) synthetic and real-world data, outperforming other state-of-the-art methods in average and worst-domain transfer accuracy.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 量子Imaginarity-Mixednessトレードオフ:最大Immaginary Mixed Statesを特徴付ける

Quantum Imaginarity-Mixedness Trade-off: Characterizing Maximally Imaginary Mixed States ( http://arxiv.org/abs/2404.16279v1 )

ライセンス: Link先を確認
Bin Chen, Shao-Ming Fei, (参考訳) 任意の$d$次元量子系における虚偽性と混合性の間のトレードオフ関係について検討する。 与えられた混合性について、最大虚数性を持つ量子状態は「最大虚数混合状態」(MIMS)と定義される。 虚数のノルムである$l_{1}$と正規化線形エントロピーを用いて、量子ビット系と量子ビット系のMIMSを決定的に同定する。 高次元量子系に対しては、MIMSの包括クラスを提示し、これはまた、虚数の1$ノルムと混合度の1$ノルムと、虚数の相対エントロピーとフォン・ノイマンエントロピーの間の相補関係をもたらす。 さらに,ビットフリップ流路,位相減衰流路,分極流路,振幅減衰流路の4つの特定のマルコフチャネルの下での単一量子状態のトレードオフ関係の進化について検討した。

We investigate the trade-off relations between imaginarity and mixedness in arbitrary $d$-dimensional quantum systems. For given mixedness, a quantum state with maximum imaginarity is defined to be a "maximally imaginary mixed state" (MIMS). By using the $l_{1}$ norm of imaginarity and the normalized linear entropy, we conclusively identify the MIMSs for both qubit and qutrit systems. For high-dimensional quantum systems, we present a comprehensive class of MIMSs, which also gives rise to complementarity relations between the $1$-norm of imaginarity and the $1$-norm of mixedness, as well as between the relative entropy of imaginarity and the von Neumann entropy. Furthermore, we examine the evolution of the trade-off relation for single-qubit states under four specific Markovian channels: bit flip channel, phase damping channel, depolarizing channel and amplitude damping channel.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 単一目的境界制約問題の解法の現状と課題

An Efficient Reconstructed Differential Evolution Variant by Some of the Current State-of-the-art Strategies for Solving Single Objective Bound Constrained Problems ( http://arxiv.org/abs/2404.16280v1 )

ライセンス: Link先を確認
Sichen Tao, Ruihan Zhao, Kaiyu Wang, Shangce Gao, (参考訳) 複雑な単目的有界問題はしばしば解決が難しい。 進化的計算法では、1997年に微分進化アルゴリズムが提案されて以来、その単純さと効率のために広く研究され、開発されてきた。 これらの開発には、様々な適応戦略、オペレータの改善、他の検索方法の導入が含まれる。 2014年以降、LSHADEに基づく研究も研究者によって広く研究されている。 しかし、最近提案された改善戦略は、前世代の最初の性能よりも優位性を示しているが、すべての新しい戦略を追加することは必ずしも最強のパフォーマンスをもたらすとは限らない。 そこで,近年の先進的な微分進化変種に基づいて,いくつかの効果的な展開を再結合し,最終的に、微分進化の性能をさらに向上させる効果的な組合せスキームを決定する。 本稿では,再構成微分進化 (Restructed differential evolution, RDE) と呼ばれる戦略再結合と再構成微分進化アルゴリズムを提案する。 2024年のIEEE Congress on Evolutionary Computation (CEC2024)のベンチマークスイートに基づいて、RDEや他の先進的な微分進化変種を試験した。 実験の結果,RDEは複雑な最適化問題の解法において優れた性能を示した。

Complex single-objective bounded problems are often difficult to solve. In evolutionary computation methods, since the proposal of differential evolution algorithm in 1997, it has been widely studied and developed due to its simplicity and efficiency. These developments include various adaptive strategies, operator improvements, and the introduction of other search methods. After 2014, research based on LSHADE has also been widely studied by researchers. However, although recently proposed improvement strategies have shown superiority over their previous generation's first performance, adding all new strategies may not necessarily bring the strongest performance. Therefore, we recombine some effective advances based on advanced differential evolution variants in recent years and finally determine an effective combination scheme to further promote the performance of differential evolution. In this paper, we propose a strategy recombination and reconstruction differential evolution algorithm called reconstructed differential evolution (RDE) to solve single-objective bounded optimization problems. Based on the benchmark suite of the 2024 IEEE Congress on Evolutionary Computation (CEC2024), we tested RDE and several other advanced differential evolution variants. The experimental results show that RDE has superior performance in solving complex optimization problems.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# 遠隔推論のためのタイムリーコミュニケーション

Timely Communications for Remote Inference ( http://arxiv.org/abs/2404.16281v1 )

ライセンス: Link先を確認
Md Kamran Chowdhury Shisher, Yin Sun, I-Hong Hou, (参考訳) 本稿では,センサノード(例えばカメラ)で観測された特徴(例えば,ビデオフレーム)に基づいて,事前学習されたニューラルネットワークが時間変化目標(例えば,車両や歩行者の位置)を推定する遠隔推論システムにおけるデータの鮮度の影響を分析する。 リモート推論システムの性能は、機能が不安定になると単調に低下すると予想されるかもしれない。 情報理論解析を用いて、特徴量と対象データ列がマルコフ連鎖と密接に近似できるならば、これは事実であることを示すが、データ列がマルコフ連鎖から遠く離れている場合、そうではない。 したがって、推測誤差は情報時代(AoI)の関数であり、その関数は非単調である可能性がある。 実時間での推論誤差を最小限に抑えるために,従来の研究で用いた「ジェネレート・アット・ウィル」モデルよりも一般的である特徴を送出するための新しい「選択・ゼロ・バッファ」モデルを提案する。 さらに、推論性能を向上させるために、低複雑さスケジューリングポリシーを設計する。 シングルソースのシングルチャネルシステムでは、最適なスケジューリングポリシーを提供する。 マルチソースマルチチャネルシステムでは、スケジューリング問題はマルチアクションレスマルチアームバンディット問題となる。 この設定のために,Whittleインデックスに基づくソース選択と二元性に基づく特徴選択をバッファから選択することで,新しいスケジューリングポリシーを設計する。 この新しいスケジューリングポリシーは漸近的に最適であることが証明されている。 これらのスケジューリング結果は、一般的なAoI関数(単調あるいは非単調)を最小化する。 データ駆動型評価は、提案したスケジューリングポリシーの重要な利点を示す。

In this paper, we analyze the impact of data freshness on remote inference systems, where a pre-trained neural network infers a time-varying target (e.g., the locations of vehicles and pedestrians) based on features (e.g., video frames) observed at a sensing node (e.g., a camera). One might expect that the performance of a remote inference system degrades monotonically as the feature becomes stale. Using an information-theoretic analysis, we show that this is true if the feature and target data sequence can be closely approximated as a Markov chain, whereas it is not true if the data sequence is far from Markovian. Hence, the inference error is a function of Age of Information (AoI), where the function could be non-monotonic. To minimize the inference error in real-time, we propose a new "selection-from-buffer" model for sending the features, which is more general than the "generate-at-will" model used in earlier studies. In addition, we design low-complexity scheduling policies to improve inference performance. For single-source, single-channel systems, we provide an optimal scheduling policy. In multi-source, multi-channel systems, the scheduling problem becomes a multi-action restless multi-armed bandit problem. For this setting, we design a new scheduling policy by integrating Whittle index-based source selection and duality-based feature selection-from-buffer algorithms. This new scheduling policy is proven to be asymptotically optimal. These scheduling results hold for minimizing general AoI functions (monotonic or non-monotonic). Data-driven evaluations demonstrate the significant advantages of our proposed scheduling policies.
翻訳日:2024-04-26 15:07:57 公開日:2024-04-25
# アンデス: LLMベースのテキスト・ストリーミング・サービスにおける品質・オブ・エクスペリエンスの定義と強化

Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services ( http://arxiv.org/abs/2404.16283v1 )

ライセンス: Link先を確認
Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury, (参考訳) 大規模言語モデル(LLM)の出現は、テキストベースのサービスを変革し、リアルタイム翻訳からAI駆動のチャットボットまで、さまざまな機能を提供する。 しかしながら,既存のサービスシステムは,トークン生成スループットなどのサーバ側集約メトリクスの最適化や,ストリームテキストによる個々のユーザエクスペリエンスの無視に重点を置いている。 その結果、高負荷および/またはバースト負荷下では、かなりの数のユーザが好ましくないサービス品質またはQoE(Quality-of-Experience)を受信できる。 本稿では,ユーザとのインタラクション全体を通じて,エンド・ツー・エンドのトークン配信プロセスを考慮して,テキストを段階的にインタラクティブに配信するテキストストリーミングサービスのQoEを,まず正式に定義する。 その後,LLM対応テキストストリーミングサービスのユーザエクスペリエンスを向上させるQoE対応サービスシステムであるAndesを提案する。 その中核であるAndesは、QoEを最適化するために、複数のリクエストで競合するGPUリソースを戦略的に割り当てている。 我々の評価は、vLLMのような最先端のLCMサービスシステムと比較して、平均QoEを高い要求率で最大3.2$\times$で改善し、あるいは高いQoEを維持しながら1.6$\times$高い要求率を達成することを示した。

The advent of large language models (LLMs) has transformed text-based services, enabling capabilities ranging from real-time translation to AI-driven chatbots. However, existing serving systems primarily focus on optimizing server-side aggregate metrics like token generation throughput, ignoring individual user experience with streamed text. As a result, under high and/or bursty load, a significant number of users can receive unfavorable service quality or poor Quality-of-Experience (QoE). In this paper, we first formally define QoE of text streaming services, where text is delivered incrementally and interactively to users, by considering the end-to-end token delivery process throughout the entire interaction with the user. Thereafter, we propose Andes, a QoE-aware serving system that enhances user experience for LLM-enabled text streaming services. At its core, Andes strategically allocates contended GPU resources among multiple requests over time to optimize their QoE. Our evaluations demonstrate that, compared to the state-of-the-art LLM serving systems like vLLM, Andes improves the average QoE by up to 3.2$\times$ under high request rate, or alternatively, it attains up to 1.6$\times$ higher request rate while preserving high QoE.
翻訳日:2024-04-26 14:58:13 公開日:2024-04-25
# 異なる個人的フェデレーション学習:サーバの信頼性、推定、統計的推測

Differentially Private Federated Learning: Servers Trustworthiness, Estimation, and Statistical Inference ( http://arxiv.org/abs/2404.16287v1 )

ライセンス: Link先を確認
Zhe Zhang, Ryumei Nakada, Linjun Zhang, (参考訳) 分散環境におけるプライバシを維持するためには,異なるプライベートなフェデレーション学習が不可欠だ。 本稿では,差分プライバシーの制約下での高次元推定と推測の課題について検討する。 まず、信頼できない中央サーバを含むシナリオについて検討し、高次元問題における正確な推定の難しさを明らかにした。 以上の結果から, 厳密なミニマックス速度は, 空間的仮定においてもデータの高次元性に依存することが示唆された。 第二に、信頼された中央サーバによるシナリオを考察し、線形回帰モデルに適した新しいフェデレーション推定アルゴリズムを導入する。 このアルゴリズムは、異なるマシンに分散したモデル間のわずかなバリエーションを効果的に処理する。 また,各パラメータに対する座標的信頼区間や同時推論のための戦略など,統計的推論のための手法を提案する。 大規模なシミュレーション実験は、我々の理論的な進歩を支援し、我々のアプローチの有効性と信頼性を裏付ける。

Differentially private federated learning is crucial for maintaining privacy in distributed environments. This paper investigates the challenges of high-dimensional estimation and inference under the constraints of differential privacy. First, we study scenarios involving an untrusted central server, demonstrating the inherent difficulties of accurate estimation in high-dimensional problems. Our findings indicate that the tight minimax rates depends on the high-dimensionality of the data even with sparsity assumptions. Second, we consider a scenario with a trusted central server and introduce a novel federated estimation algorithm tailored for linear regression models. This algorithm effectively handles the slight variations among models distributed across different machines. We also propose methods for statistical inference, including coordinate-wise confidence intervals for individual parameters and strategies for simultaneous inference. Extensive simulation experiments support our theoretical advances, underscoring the efficacy and reliability of our approaches.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# 回転凝縮体における非線形状態判別プロトコル

Protocol for nonlinear state discrimination in rotating condensate ( http://arxiv.org/abs/2404.16288v1 )

ライセンス: Link先を確認
Michael R. Geller, (参考訳) 非線形平均場力学は、線形一粒子量子力学では不可能な量子情報処理操作を可能にする。 このアプローチでは、ボゾン量子ビット(中性原子や偏光子など)のレジスタは凝縮によって対称積状態に初期化され、その後、量子ビット-量子相互作用の変化によって制御される。 本稿では,量子計算における重要なサブルーチンである量子状態判別の実験的実装を,トロイダルボース・アインシュタイン凝縮体を用いて提案する。 ここでの凝縮ボソンは原子であり、それぞれが角モータ 0 と 1 の重ね合わせで、量子ビットを符号化する。 このプロトコルのよい特徴は、個々の量子化された循環状態(重ね合わせではない)の読み出しのみが必要であることである。

Nonlinear mean field dynamics enables quantum information processing operations that are impossible in linear one-particle quantum mechanics. In this approach, a register of bosonic qubits (such as neutral atoms or polaritons) is initialized into a symmetric product state through condensation, then subsequently controlled by varying the qubit-qubit interaction. We propose an experimental implementation of quantum state discrimination, an important subroutine in quantum computation, with a toroidal Bose-Einstein condensate. The condensed bosons here are atoms, each in the same superposition of angular momenta 0 and 1, encoding a qubit. A nice feature of the protocol is that only readout of individual quantized circulation states (not superpositions) is required.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# 全てを規定する1つのノイズ:空間変化型雑音パターンの統一モデル学習

One Noise to Rule Them All: Learning a Unified Model of Spatially-Varying Noise Patterns ( http://arxiv.org/abs/2404.16292v1 )

ライセンス: Link先を確認
Arman Maesumi, Dylan Hu, Krishi Saripalli, Vladimir G. Kim, Matthew Fisher, Sören Pirk, Daniel Ritchie, (参考訳) 手続き的ノイズはコンピュータグラフィックスパイプラインの基本的な構成要素であり、「自然な」ランダムな変化を示すテクスチャを生成する柔軟な方法を提供する。 様々な種類のノイズが存在し、それぞれが別々のアルゴリズムによって生成される。 本稿では,複数種類のノイズを生成できる単一生成モデルを提案する。 また、そのようなデータにアクセスできなくても、空間的に変化するノイズブレンドを生成することができる。 これらの特徴は、データ拡張とネットワークコンディショニングの新たな組み合わせを用いて、デノナイズ拡散モデルを訓練することによって実現される。 手続き型ノイズ発生器と同様に、モデルの振舞いは解釈可能なパラメータとランダムな情報源を介して制御可能である。 当社のモデルは、視覚的に魅力的な様々なノイズテクスチャを生成するために使用しています。 また,提案手法を逆手続き材料設計の改善に適用し,本モデルを用いて手続き材料グラフの固定型ノイズノードに代えて,先行するノイズの種類を知ることなく高忠実度材料再構成を行う。

Procedural noise is a fundamental component of computer graphics pipelines, offering a flexible way to generate textures that exhibit "natural" random variation. Many different types of noise exist, each produced by a separate algorithm. In this paper, we present a single generative model which can learn to generate multiple types of noise as well as blend between them. In addition, it is capable of producing spatially-varying noise blends despite not having access to such data for training. These features are enabled by training a denoising diffusion model using a novel combination of data augmentation and network conditioning techniques. Like procedural noise generators, the model's behavior is controllable via interpretable parameters and a source of randomness. We use our model to produce a variety of visually compelling noise textures. We also present an application of our model to improving inverse procedural material design; using our model in place of fixed-type noise nodes in a procedural material graph results in higher-fidelity material reconstructions without needing to know the type of noise in advance.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# LLMによるExcelのオープンソース化と実世界の応用

LLM-Based Section Identifiers Excel on Open Source but Stumble in Real World Applications ( http://arxiv.org/abs/2404.16294v1 )

ライセンス: Link先を確認
Saranya Krishnamoorthy, Ayush Singh, Shabnam Tafreshi, (参考訳) エレクトロニック・ヘルス・レコーズ(EHR)は、医療従事者にとって恩恵でありながら、毎日悪化し、より長くなっている。 これらの長い EHR の周りに座ることが課税され、医師と患者の相互作用の面倒な部分になる。 要約や分割によって、この問題を緩和するためにいくつかのアプローチが提案されているが、過去には本当に役立つアプローチはいくつかしかなかった。 自動化手法の台頭により、機械学習(ML)は、EHRの関連するセクションを特定するタスクの解決において、有望であることが示されている。 しかし、ほとんどのMLメソッドは、医療で入手するのが困難なラベル付きデータに依存している。 一方、LLM(Large Language Model)は自然言語処理(NLP)において、ラベル付きデータを持たないゼロショット方式でも素晴らしい成果を上げている。 そこで本研究では,LLMを用いて関連するセクションヘッダを識別する手法を提案する。 GPT-4は、ゼロと少数ショットの両方の設定のタスクを効果的に解き、セグメントは最先端の手法よりも劇的に改善できることがわかった。 さらに、我々は、より厳しい実世界のデータセットに注釈を付け、GPT-4は、さらなる研究とより厳しいベンチマークのために、うまく機能するのに苦労していることに気付きました。

Electronic health records (EHR) even though a boon for healthcare practitioners, are growing convoluted and longer every day. Sifting around these lengthy EHRs is taxing and becomes a cumbersome part of physician-patient interaction. Several approaches have been proposed to help alleviate this prevalent issue either via summarization or sectioning, however, only a few approaches have truly been helpful in the past. With the rise of automated methods, machine learning (ML) has shown promise in solving the task of identifying relevant sections in EHR. However, most ML methods rely on labeled data which is difficult to get in healthcare. Large language models (LLMs) on the other hand, have performed impressive feats in natural language processing (NLP), that too in a zero-shot manner, i.e. without any labeled data. To that end, we propose using LLMs to identify relevant section headers. We find that GPT-4 can effectively solve the task on both zero and few-shot settings as well as segment dramatically better than state-of-the-art methods. Additionally, we also annotate a much harder real world dataset and find that GPT-4 struggles to perform well, alluding to further research and harder benchmarks.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# 自然画像統計特性に基づくスプリシング画像検出アルゴリズムに関する研究

Research on Splicing Image Detection Algorithms Based on Natural Image Statistical Characteristics ( http://arxiv.org/abs/2404.16296v1 )

ライセンス: Link先を確認
Ao Xiang, Jingyu Zhang, Qin Yang, Liyang Wang, Yu Cheng, (参考訳) デジタル画像処理技術の発展と普及により、画像スプライシングは画像操作の一般的な方法となり、多くのセキュリティや法的問題を提起している。 本稿では,自然画像の統計的特徴に基づく新しいスプライシング画像検出アルゴリズムを提案し,スプライシング画像検出の精度と効率を向上させることを目的とした。 従来の手法の限界を解析することにより,高度な統計解析手法と機械学習手法を統合した検出フレームワークを開発した。 このアルゴリズムは、複数の公開データセットを用いて検証され、スプライシングエッジの検出と、改ざんされた領域の位置の特定に高い精度と、優れたロバスト性を示す。 さらに,実世界のシナリオにおいて,アルゴリズムが直面する潜在的な応用と課題についても検討する。 本研究は、画像改ざん検出の分野で有効な技術手段を提供するだけでなく、将来的な研究のための新しいアイデアや方法も提供する。

With the development and widespread application of digital image processing technology, image splicing has become a common method of image manipulation, raising numerous security and legal issues. This paper introduces a new splicing image detection algorithm based on the statistical characteristics of natural images, aimed at improving the accuracy and efficiency of splicing image detection. By analyzing the limitations of traditional methods, we have developed a detection framework that integrates advanced statistical analysis techniques and machine learning methods. The algorithm has been validated using multiple public datasets, showing high accuracy in detecting spliced edges and locating tampered areas, as well as good robustness. Additionally, we explore the potential applications and challenges faced by the algorithm in real-world scenarios. This research not only provides an effective technological means for the field of image tampering detection but also offers new ideas and methods for future related research.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# ファジングとLLM:挑戦と機会

When Fuzzing Meets LLMs: Challenges and Opportunities ( http://arxiv.org/abs/2404.16297v1 )

ライセンス: Link先を確認
Yu Jiang, Jie Liang, Fuchen Ma, Yuanliang Chen, Chijin Zhou, Yuheng Shen, Zhiyong Wu, Jingzhou Fu, Mingzhe Wang, ShanShan Li, Quan Zhang, (参考訳) バグ検出の広く使われている技術であるFuzzingは、Large Language Models (LLMs)を通じて進歩している。 その可能性にもかかわらず、LLMはファジィングにおいて特別な課題に直面している。 本稿では,LLM支援ファジィリングにおける5つの課題について述べる。 この結果を支持するため、トップレベルのカンファレンスから最新の論文を再検討し、これらの課題が広く行われていることを確認した。 そこで本研究では,DBMSファジリングにおけるLCMの適用性向上と予備評価を行うための実用的な提案を提案する。 その結果,提案手法が課題に効果的に対処できることが示唆された。

Fuzzing, a widely-used technique for bug detection, has seen advancements through Large Language Models (LLMs). Despite their potential, LLMs face specific challenges in fuzzing. In this paper, we identified five major challenges of LLM-assisted fuzzing. To support our findings, we revisited the most recent papers from top-tier conferences, confirming that these challenges are widespread. As a remedy, we propose some actionable recommendations to help improve applying LLM in Fuzzing and conduct preliminary evaluations on DBMS fuzzing. The results demonstrate that our recommendations effectively address the identified challenges.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# 到着作用素の時間力学における共役の役割

The role of conjugacy in the dynamics of time of arrival operators ( http://arxiv.org/abs/2404.16298v1 )

ライセンス: Link先を確認
Dean Alvin L. Pablico, John Jaykel P. Magadan, Carl Anthony L. Arguelles, Eric A. Galapon, (参考訳) 到着時間 (TOA) 演算子の構築は、時間核方程式 (TKE) と呼ばれる特定の2階偏微分方程式の解を見つけることを必要とする。 TKEの拡張反復解が最近, [Eur] で得られた。 Phys J. Plus \textbf{138}, 153 (2023)] であるが、一般に任意の非線形ポテンシャルに対して有用である。 本研究では、特定の分離性条件を満たす特別な種類のポテンシャルに対して、TKEの正確な解析解を提供する。 本研究では, 粗粒化法と空間閉じ込め法により, 共役保存TOA演算子の固有関数の時間発展を解明する。 構築された演算子の固有関数は、その対応する固有値に等しいタイミングで、意図した到着点にユニタリ到着を示すことを示す。 さらに,量子化によって構築されたTOA演算子と,特定の相互作用ポテンシャルに対する量子化に依存しない演算子との間には,力学に明確な違いがあるかどうかを検討する。 CPTOA演算子は数値的精度でワイル量子化演算子よりも優れたユニタリダイナミクスを持つ。 これにより、到着作用素の観測力学における時間とエネルギーの正準可換関係の役割を決定することができる。

The construction of time of arrival (TOA) operators canonically conjugate to the system Hamiltonian entails finding the solution of a specific second-order partial differential equation called the time kernel equation (TKE). An expanded iterative solution of the TKE has been obtained recently in [Eur. Phys. J. Plus \textbf{138}, 153 (2023)] but is generally intractable to be useful for arbitrary nonlinear potentials. In this work, we provide an exact analytic solution of the TKE for a special class of potentials satisfying a specific separability condition. The solution enables us to investigate the time evolution of the eigenfunctions of the conjugacy-preserving TOA operators (CPTOA) by coarse graining methods and spatial confinement. We show that the eigenfunctions of the constructed operator exhibit unitary arrival at the intended arrival point at a time equal to their corresponding eigenvalue. Moreover, we examine whether there is a discernible difference in the dynamics between the TOA operators constructed by quantization and those independent of quantization for specific interaction potentials. We find that the CPTOA operator possesses better unitary dynamics over the Weyl-quantized one within numerical accuracy. This allows us determine the role of the canonical commutation relation between time and energy on the observed dynamics of time of arrival operators.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# コンパクト・サポート・セットのための生成モデルによる強化学習

Reinforcement Learning with Generative Models for Compact Support Sets ( http://arxiv.org/abs/2404.16300v1 )

ライセンス: Link先を確認
Nico Schiavone, Xingyu Li, (参考訳) 基礎モデルは、膨大な数のトレーニングサンプルから豊富な情報を含んでいる。 しかし、ほとんどの先行技術は、小さなサンプルサイズに対して正確で効率的な方法でこれらの情報を抽出することができない。 本研究では,基礎モデルの制御として強化学習を利用するフレームワークを提案する。これにより,ニューラルネットワークモデルの性能を実データ分類タスクで向上する,小型で集中的な合成支援セットの粒度生成が可能となる。 エージェントは、新しいプロンプト構造を持つ辞書を使用して、生成モデルへの入力としてプロンプトを作成し、最適化し、検証精度とエントロピーの変化を組み合わせた報酬関数に基づくフィードバックを受け取る。 このようにして、いくつかの探査段階に支援セットが形成される。 我々のフレームワークは優れた結果をもたらし、追加のラベル付けやデータコストを使わずにかなりのマージンで分類精度を向上した。

Foundation models contain a wealth of information from their vast number of training samples. However, most prior arts fail to extract this information in a precise and efficient way for small sample sizes. In this work, we propose a framework utilizing reinforcement learning as a control for foundation models, allowing for the granular generation of small, focused synthetic support sets to augment the performance of neural network models on real data classification tasks. We first allow a reinforcement learning agent access to a novel context based dictionary; the agent then uses this dictionary with a novel prompt structure to form and optimize prompts as inputs to generative models, receiving feedback based on a reward function combining the change in validation accuracy and entropy. A support set is formed this way over several exploration steps. Our framework produced excellent results, increasing classification accuracy by significant margins for no additional labelling or data cost.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# ドメイン適応セマンティックセマンティックセグメンテーションのためのスタイル適応

Style Adaptation for Domain-adaptive Semantic Segmentation ( http://arxiv.org/abs/2404.16301v1 )

ライセンス: Link先を確認
Ting Li, Jianshu Chao, Deyu An, (参考訳) Unsupervised Domain Adaptation (UDA) は、注釈付きソースドメインデータとラベルなしターゲットドメインデータを利用して、ターゲットドメインデータに一般化可能なモデルを訓練する手法である。 ドメインの不一致は、ターゲットドメインに適用した場合、ソースドメインデータに基づいてトレーニングされた一般的なネットワークモデルの性能を著しく低下させる。 パラメータ計算を必要とせず、自己学習に基づくUDA手法とシームレスに統合する。 潜在特徴空間における対象ドメインスタイルをソースドメインに転送することで、モデルは意思決定プロセス中に対象ドメインスタイルを優先順位付けするように訓練される。 対象ドメインからソースドメインデータにスタイル情報を転送することで,画像レベルと浅部特徴マップレベルでの問題に対処する。 その結果,対象領域に対して優れた性能を示すモデルが得られた。 提案手法は, 合成-実 UDA タスクの最先端性能を著しく向上させる。 例えば,提案手法は,GTA->Cityscapesデータセット上で76.93 mIoUの有意なUDA性能を達成し,従来よりも1.03ポイント向上したことを示す。

Unsupervised Domain Adaptation (UDA) refers to the method that utilizes annotated source domain data and unlabeled target domain data to train a model capable of generalizing to the target domain data. Domain discrepancy leads to a significant decrease in the performance of general network models trained on the source domain data when applied to the target domain. We introduce a straightforward approach to mitigate the domain discrepancy, which necessitates no additional parameter calculations and seamlessly integrates with self-training-based UDA methods. Through the transfer of the target domain style to the source domain in the latent feature space, the model is trained to prioritize the target domain style during the decision-making process. We tackle the problem at both the image-level and shallow feature map level by transferring the style information from the target domain to the source domain data. As a result, we obtain a model that exhibits superior performance on the target domain. Our method yields remarkable enhancements in the state-of-the-art performance for synthetic-to-real UDA tasks. For example, our proposed method attains a noteworthy UDA performance of 76.93 mIoU on the GTA->Cityscapes dataset, representing a notable improvement of +1.03 percentage points over the previous state-of-the-art results.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# CFMW:逆気象条件下でのマルチスペクトル物体検出のためのクロスモーダル核融合マンバ

CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions ( http://arxiv.org/abs/2404.16302v1 )

ライセンス: Link先を確認
Haoyuan Li, Qi Hu, You Yao, Kailun Yang, Peng Chen, (参考訳) 可視赤外スペクトルキューを統合するモダリティ画像は、オブジェクト検出のためのよりリッチな補完情報を提供することができる。 それにもかかわらず、既存の可視赤外物体検出法は厳しい気象条件下で著しく劣化する。 この失敗は、雨、干し草、雪などの環境の摂動に対する可視像の顕著な感受性に起因し、検出時にしばしば偽陰性や偽陽性を引き起こす。 この問題に対処するために,悪天候下での可視赤外物体検出という,新規で困難な課題を導入する。 本研究は,この課題を補うために,多種多様な厳しい気象シーンを持つSeverre Weather Visible-Infrared Dataset (SWVID) を構築した。 さらに,悪天候における検出精度を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを導入する。 提案された気象除去拡散モデル(WRDM)とCFMモジュールにより、CFMWは、横断モード融合において歩行者の特徴のより重要な情報をマイニングすることができ、高い効率で他の稀なシナリオに転送でき、計算能力の低いプラットフォームで十分な可用性を得ることができる。 我々の知る限りでは、DiffusionとMambaの両モジュールをクロスモダリティオブジェクト検出に統合し、このタイプのモデルの実用的応用を高い精度でより高度なアーキテクチャで拡張した最初の研究である。 十分に認識されたデータセットと自己生成されたデータセットの広範な実験は、我々のCFMWが最先端の検出性能を達成し、既存のベンチマークを上回っていることを決定的に証明している。 データセットとソースコードはhttps://github.com/lhy-zjut/CFMWで公開されている。

Cross-modality images that integrate visible-infrared spectra cues can provide richer complementary information for object detection. Despite this, existing visible-infrared object detection methods severely degrade in severe weather conditions. This failure stems from the pronounced sensitivity of visible images to environmental perturbations, such as rain, haze, and snow, which frequently cause false negatives and false positives in detection. To address this issue, we introduce a novel and challenging task, termed visible-infrared object detection under adverse weather conditions. To foster this task, we have constructed a new Severe Weather Visible-Infrared Dataset (SWVID) with diverse severe weather scenes. Furthermore, we introduce the Cross-modality Fusion Mamba with Weather-removal (CFMW) to augment detection accuracy in adverse weather conditions. Thanks to the proposed Weather Removal Diffusion Model (WRDM) and Cross-modality Fusion Mamba (CFM) modules, CFMW is able to mine more essential information of pedestrian features in cross-modality fusion, thus could transfer to other rarer scenarios with high efficiency and has adequate availability on those platforms with low computing power. To the best of our knowledge, this is the first study that targeted improvement and integrated both Diffusion and Mamba modules in cross-modality object detection, successfully expanding the practical application of this type of model with its higher accuracy and more advanced architecture. Extensive experiments on both well-recognized and self-created datasets conclusively demonstrate that our CFMW achieves state-of-the-art detection performance, surpassing existing benchmarks. The dataset and source code will be made publicly available at https://github.com/lhy-zjut/CFMW.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# BezierFormer: 2Dおよび3Dレーン検出のための統一アーキテクチャ

BezierFormer: A Unified Architecture for 2D and 3D Lane Detection ( http://arxiv.org/abs/2404.16304v1 )

ライセンス: Link先を確認
Zhiwei Dong, Xi Zhu, Xiya Cao, Ran Ding, Wei Li, Caifa Zhou, Yongliang Wang, Qiangbo Liu, (参考訳) レーン検出は近年大きな進歩を遂げているが、2次元レーン検出と3次元レーン検出という2つのサブタスクの統一的なアーキテクチャは存在しない。 このギャップを埋めるために、B\'{e}zier curve lane 表現に基づく統合された2次元および3次元レーン検出アーキテクチャであるB\'{e}zierFormerを導入する。 B\'{e}zierFormer は B\'{e}zier 制御点としてクエリを定式化し、新しい B\'{e}zier 曲線注意機構を組み込む。 このアテンション機構は、各曲線上の複数の基準点をサンプリングして融合することにより、細線曲線の包括的かつ正確な特徴抽出を可能にする。 さらに,B\'{e}zier制御点回帰に適合する新しいChamfer IoUに基づく損失を提案する。 B\'{e}zierFormerの広く使われている2Dおよび3Dレーン検出ベンチマークにおける最先端性能は、その有効性を確認し、さらなる探索の意義を示唆している。

Lane detection has made significant progress in recent years, but there is not a unified architecture for its two sub-tasks: 2D lane detection and 3D lane detection. To fill this gap, we introduce B\'{e}zierFormer, a unified 2D and 3D lane detection architecture based on B\'{e}zier curve lane representation. B\'{e}zierFormer formulate queries as B\'{e}zier control points and incorporate a novel B\'{e}zier curve attention mechanism. This attention mechanism enables comprehensive and accurate feature extraction for slender lane curves via sampling and fusing multiple reference points on each curve. In addition, we propose a novel Chamfer IoU-based loss which is more suitable for the B\'{e}zier control points regression. The state-of-the-art performance of B\'{e}zierFormer on widely-used 2D and 3D lane detection benchmarks verifies its effectiveness and suggests the worthiness of further exploration.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# TI2V-Zero:テキスト・ビデオ拡散モデルのためのゼロショット画像コンディショニング

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models ( http://arxiv.org/abs/2404.16306v1 )

ライセンス: Link先を確認
Haomiao Ni, Bernhard Egger, Suhas Lohit, Anoop Cherian, Ye Wang, Toshiaki Koike-Akino, Sharon X. Huang, Tim K. Marks, (参考訳) テキスト条件付き画像合成(TI2V)は、所定の画像(例:女性の写真)とテキスト記述(例:女性が水を飲む)から始まる現実的な映像を合成することを目的としている。 既存のTI2Vフレームワークでは、ビデオテキストデータセットやテキストや画像のコンディショニングのための特定のモデル設計のトレーニングに費用がかかることが多い。 本稿では, TI2V-Zeroを提案する。TI2V-Zeroは, 予め訓練したテキスト・ツー・ビデオ(T2V)拡散モデルに対して, 最適化, 微調整, 外部モジュールの導入なしに, TI2V生成を可能にするゼロショット・チューニングフリーな手法である。 提案手法は, 事前学習したT2V拡散基盤モデルを生成前のモデルとして活用する。 追加画像入力で映像生成を誘導するため, 逆復調過程を変調し, 凍結拡散モデルにより, 提供される画像からフレーム別に映像フレームを合成する「繰り返しスライド」戦略を提案する。 時間的連続性を確保するため,新たに合成したフレーム毎にガウス雑音を初期化するためのDDPMインバージョン戦略と,視覚的詳細を保存するための再サンプリング手法を用いる。 TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。 さらに、TI2V-Zeroは、より多くの画像が提供されると、ビデオの埋め込みや予測といった他のタスクにシームレスに拡張できることを示す。 オートレグレッシブデザインは、長いビデオ生成もサポートしている。

Text-conditioned image-to-video generation (TI2V) aims to synthesize a realistic video starting from a given image (e.g., a woman's photo) and a text description (e.g., "a woman is drinking water."). Existing TI2V frameworks often require costly training on video-text datasets and specific model designs for text and image conditioning. In this paper, we propose TI2V-Zero, a zero-shot, tuning-free method that empowers a pretrained text-to-video (T2V) diffusion model to be conditioned on a provided image, enabling TI2V generation without any optimization, fine-tuning, or introducing external modules. Our approach leverages a pretrained T2V diffusion foundation model as the generative prior. To guide video generation with the additional image input, we propose a "repeat-and-slide" strategy that modulates the reverse denoising process, allowing the frozen diffusion model to synthesize a video frame-by-frame starting from the provided image. To ensure temporal continuity, we employ a DDPM inversion strategy to initialize Gaussian noise for each newly synthesized frame and a resampling technique to help preserve visual details. We conduct comprehensive experiments on both domain-specific and open-domain datasets, where TI2V-Zero consistently outperforms a recent open-domain TI2V model. Furthermore, we show that TI2V-Zero can seamlessly extend to other tasks such as video infilling and prediction when provided with more images. Its autoregressive design also supports long video generation.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# 帰属的データ拡張によるモデルレジリエンス向上

Boosting Model Resilience via Implicit Adversarial Data Augmentation ( http://arxiv.org/abs/2404.16307v1 )

ライセンス: Link先を確認
Xiaoling Zhou, Wei Ye, Zhemg Lee, Rui Xie, Shikun Zhang, (参考訳) データ拡張は、トレーニングデータの強化と多様化において重要な役割を果たす。 それでも、さまざまな学習シナリオ、特に固有のデータバイアスのあるシナリオにおいて、モデルパフォーマンスを継続的に改善するのは難しい。 そこで本研究では,各試料の固有特性に合わせた学習困難度を適応的に調整し,対向的および対向的摂動分布を組み込むことにより,試料の深い特徴を増大させることを提案する。 そこで我々は,増補されたコピーの数が無限に増加するにつれて,サロゲート損失関数の最適化が近似されることを理論的に明らかにした。 この知見は,この新たな損失を伴って分類器を最適化するメタラーニングベースのフレームワークを開発し,明示的な拡張過程を回避しながら拡張の効果を導入することにつながる。 長い尾学習、一般化された長い尾学習、ノイズのあるラベル学習、サブポピュレーションシフト学習という4つの一般的なバイアス付き学習シナリオにまたがる広範な実験を行った。 実験結果から,本手法は常に最先端の性能を達成し,適用性の向上を図っている。

Data augmentation plays a pivotal role in enhancing and diversifying training data. Nonetheless, consistently improving model performance in varied learning scenarios, especially those with inherent data biases, remains challenging. To address this, we propose to augment the deep features of samples by incorporating their adversarial and anti-adversarial perturbation distributions, enabling adaptive adjustment in the learning difficulty tailored to each sample's specific characteristics. We then theoretically reveal that our augmentation process approximates the optimization of a surrogate loss function as the number of augmented copies increases indefinitely. This insight leads us to develop a meta-learning-based framework for optimizing classifiers with this novel loss, introducing the effects of augmentation while bypassing the explicit augmentation process. We conduct extensive experiments across four common biased learning scenarios: long-tail learning, generalized long-tail learning, noisy label learning, and subpopulation shift learning. The empirical results demonstrate that our method consistently achieves state-of-the-art performance, highlighting its broad adaptability.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# WorldValuesBench: 言語モデルのマルチカルチャー価値認識のための大規模ベンチマークデータセット

WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models ( http://arxiv.org/abs/2404.16308v1 )

ライセンス: Link先を確認
Wenlong Zhao, Debanjan Mondal, Niket Tandon, Danica Dillion, Kurt Gray, Yuling Gu, (参考訳) 多文化的人的価値の認識は、安全でパーソナライズされた応答を生成する言語モデル(LM)の能力にとって重要である。 しかし,計算機科学界では多文化的価値に関する大規模な実世界のデータにアクセスできないため,このLMに対する意識は十分に研究されていない。 本稿では,世界規模で多文化的な価値予測タスクのための大規模ベンチマークデータセットWorldValuesBenchを提案する。 我々のデータセットは、世界中の94,728人の参加者から数百の価値質問(例えば、社会的、経済的、倫理的)に対する回答を集めた、影響力のある社会科学プロジェクト、World Values Survey(WVS)に由来する。 我々は、WVSレスポンスからタイプ"(デコグラフィー属性、値質問) $\rightarrow$ answer"の2000万以上の例を構築しました。 我々は、データセットを用いてケーススタディを行い、そのタスクが強力なオープンソースモデルとクローズドソースモデルに挑戦していることを示す。 単に111.1\%$, $25.0\%$, 7,2.2\%$, 7,5.0\%$の質問に対して、Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, GPT-3.5 Turboは正規化された回答分布からそれぞれ$<0.2$Wasserstein 1-distanceを得られる。 WorldValuesBenchは、LMの多文化的価値意識の限界と機会を研究する新しい研究の道を開く。

The awareness of multi-cultural human values is critical to the ability of language models (LMs) to generate safe and personalized responses. However, this awareness of LMs has been insufficiently studied, since the computer science community lacks access to the large-scale real-world data about multi-cultural values. In this paper, we present WorldValuesBench, a globally diverse, large-scale benchmark dataset for the multi-cultural value prediction task, which requires a model to generate a rating response to a value question based on demographic contexts. Our dataset is derived from an influential social science project, World Values Survey (WVS), that has collected answers to hundreds of value questions (e.g., social, economic, ethical) from 94,728 participants worldwide. We have constructed more than 20 million examples of the type "(demographic attributes, value question) $\rightarrow$ answer" from the WVS responses. We perform a case study using our dataset and show that the task is challenging for strong open and closed-source models. On merely $11.1\%$, $25.0\%$, $72.2\%$, and $75.0\%$ of the questions, Alpaca-7B, Vicuna-7B-v1.5, Mixtral-8x7B-Instruct-v0.1, and GPT-3.5 Turbo can respectively achieve $<0.2$ Wasserstein 1-distance from the human normalized answer distributions. WorldValuesBench opens up new research avenues in studying limitations and opportunities in multi-cultural value awareness of LMs.
翻訳日:2024-04-26 14:58:12 公開日:2024-04-25
# FLAASH: Sparse High-Order Tensor Contractionのためのフレキシブルアクセラレータアーキテクチャ

FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction ( http://arxiv.org/abs/2404.16317v1 )

ライセンス: Link先を確認
Gabriel Kulp, Andrew Ensinger, Lizhong Chen, (参考訳) テンソルは機械学習(ML)において重要な役割を果たす。 機械学習の効率的な実行には、疎性を活用する必要があるが、一般化されたハードウェアサポートは困難である。 本稿では,スパルステンソル収縮のためのフレキシブルかつモジュラーなアクセラレーション設計であるFLAASHを紹介し,深層学習ワークロードの25倍以上の高速化を実現する。 我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジン(SDPE)に分散することにより、スパーステンソル収縮を行う。 メモリ構造とジョブ分布をカスタマイズし,概念実証として簡単なアプローチを示す。 データ構造をナビゲートする制御フローや高次表現,高疎結合処理といった課題に対処する。 提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。

Tensors play a vital role in machine learning (ML) and often exhibit properties best explored while maintaining high-order. Efficiently performing ML computations requires taking advantage of sparsity, but generalized hardware support is challenging. This paper introduces FLAASH, a flexible and modular accelerator design for sparse tensor contraction that achieves over 25x speedup for a deep learning workload. Our architecture performs sparse high-order tensor contraction by distributing sparse dot products, or portions thereof, to numerous Sparse Dot Product Engines (SDPEs). Memory structure and job distribution can be customized, and we demonstrate a simple approach as a proof of concept. We address the challenges associated with control flow to navigate data structures, high-order representation, and high-sparsity handling. The effectiveness of our approach is demonstrated through various evaluations, showcasing significant speedup as sparsity and order increase.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# DIG3D:1次元画像再構成のための変形可能な変圧器を用いたガウス平滑化

DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction ( http://arxiv.org/abs/2404.16323v1 )

ライセンス: Link先を確認
Jiamin Wu, Kenkun Liu, Han Gao, Xiaoke Jiang, Lei Zhang, (参考訳) 本稿では,1次元RGB画像からの3次元再構成の問題点を考察し,DIG3Dと呼ばれる新しい3次元オブジェクト再構成と新しいビュー合成手法を提案する。 提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。 特に、変形可能な変換器を導入し、3次元参照点と多層精細化適応による効率的かつ効果的な復号化を可能にする。 提案手法は,3次元ガウスの利点を生かして,一視点画像から3次元再構成を行うための効率的かつ正確な手法を提供する。 提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。 その結果,近年の手法を約2.25%向上させ,優れた結果を得る上での手法の有効性を実証した。

In this paper, we study the problem of 3D reconstruction from a single-view RGB image and propose a novel approach called DIG3D for 3D object reconstruction and novel view synthesis. Our method utilizes an encoder-decoder framework which generates 3D Gaussians in decoder with the guidance of depth-aware image features from encoder. In particular, we introduce the use of deformable transformer, allowing efficient and effective decoding through 3D reference point and multi-layer refinement adaptations. By harnessing the benefits of 3D Gaussians, our approach offers an efficient and accurate solution for 3D reconstruction from single-view images. We evaluate our method on the ShapeNet SRN dataset, getting PSNR of 24.21 and 24.98 in car and chair dataset, respectively. The result outperforming the recent method by around 2.25%, demonstrating the effectiveness of our method in achieving superior results.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 深層学習と反復グラフラプラシアンによるインピーダンスインバージョンの改善

Improved impedance inversion by deep learning and iterated graph Laplacian ( http://arxiv.org/abs/2404.16324v1 )

ライセンス: Link先を確認
Davide Bianchi, Florian Bossmann, Wenlong Wang, Mingming Liu, (参考訳) ディープラーニング技術は近年,多くのアプリケーションにおいて大きな可能性を秘めている。 達成された結果は、しばしば伝統的な技術よりも優れていた。 しかし、ニューラルネットワークの品質は、使用するトレーニングデータに大きく依存する。 ノイズ、不十分、偏りのあるトレーニングデータは、最適以下の結果をもたらす。 本稿では, 深層学習と反復グラフラプラシアンを組み合わせたハイブリッド手法を提案する。 ニューラルネットワークを用いて、基礎となる音響インピーダンスの最初の近似を取得し、この近似からグラフラプラシア行列を構築する。 その後、Tikhonov のような変分法を用いて、正規化器が構築されたグラフ Laplacian に基づいているインピーダンス反転問題を解く。 得られた解は、ニューラルネットワークが得た推定値よりもノイズに対してより正確で安定であることを示すことができる。 この過程は、直近の再構成から新しいグラフラプラシア行列を構成する度に、数回反復することができる。 この方法は、ほんの数イテレーションでより正確な再構築を返すと収束する。 2つの異なるデータセットと様々なノイズの下で,本手法の有効性を実証する。 これまでの研究で導入された2つの異なるニューラルネットワークを使用します。 実験により,本手法は騒音の存在下での再現性の向上を図っている。

Deep learning techniques have shown significant potential in many applications through recent years. The achieved results often outperform traditional techniques. However, the quality of a neural network highly depends on the used training data. Noisy, insufficient, or biased training data leads to suboptimal results. We present a hybrid method that combines deep learning with iterated graph Laplacian and show its application in acoustic impedance inversion which is a routine procedure in seismic explorations. A neural network is used to obtain a first approximation of the underlying acoustic impedance and construct a graph Laplacian matrix from this approximation. Afterwards, we use a Tikhonov-like variational method to solve the impedance inversion problem where the regularizer is based on the constructed graph Laplacian. The obtained solution can be shown to be more accurate and stable with respect to noise than the initial guess obtained by the neural network. This process can be iterated several times, each time constructing a new graph Laplacian matrix from the most recent reconstruction. The method converges after only a few iterations returning a much more accurate reconstruction. We demonstrate the potential of our method on two different datasets and under various levels of noise. We use two different neural networks that have been introduced in previous works. The experiments show that our approach improves the reconstruction quality in the presence of noise.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# ゼロショット基礎モデルを用いた超音波用セマンティックセグメンテーション精錬器

Semantic Segmentation Refiner for Ultrasound Applications with Zero-Shot Foundation Models ( http://arxiv.org/abs/2404.16325v1 )

ライセンス: Link先を確認
Hedda Cohen Indelman, Elay Dahan, Angeles M. Perez-Agosto, Carmit Shiran, Doron Shaked, Nati Daniel, (参考訳) 医用画像解析における深層学習の顕著な成功にもかかわらず、高品質なラベル付き画像が監督のために不足しているため、医用画像のセグメンテーションは依然として困難である。 さらに,自然画像と医用画像,特に超音波画像の間に有意な領域ギャップがあり,自然画像に基づいて訓練された微調整モデルを手作業に妨げている。 本研究では,低データ状態におけるセグメンテーションモデルの性能劣化に対処し,セグメンテーション基礎モデルを用いて抽象的な形状をセグメンテーションする方法を提案する。 入力として粗いセマンティックセグメンテーションマスクを用いた新しいプロンプトポイント生成アルゴリズムと、最適化対象としてゼロショットプロンプト可能な基礎モデルにより実現した。 超音波画像におけるセグメンテーション発見タスク(病理異常)について検討した。 本手法の利点は, 小型筋骨格超音波画像データセットを用いて, 各種低データレギュレーション実験を行い, トレーニングセットのサイズが小さくなるにつれて, より大きな性能向上をもたらす。

Despite the remarkable success of deep learning in medical imaging analysis, medical image segmentation remains challenging due to the scarcity of high-quality labeled images for supervision. Further, the significant domain gap between natural and medical images in general and ultrasound images in particular hinders fine-tuning models trained on natural images to the task at hand. In this work, we address the performance degradation of segmentation models in low-data regimes and propose a prompt-less segmentation method harnessing the ability of segmentation foundation models to segment abstract shapes. We do that via our novel prompt point generation algorithm which uses coarse semantic segmentation masks as input and a zero-shot prompt-able foundation model as an optimization target. We demonstrate our method on a segmentation findings task (pathologic anomalies) in ultrasound images. Our method's advantages are brought to light in varying degrees of low-data regime experiments on a small-scale musculoskeletal ultrasound images dataset, yielding a larger performance gain as the training set size decreases.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# NeuroKoopman Dynamic Causal Discovery

NeuroKoopman Dynamic Causal Discovery ( http://arxiv.org/abs/2404.16326v1 )

ライセンス: Link先を確認
Rahmat Adesunkanmi, Balaji Sesha Srikanth Pokuri, Ratnesh Kumar, (参考訳) システム力学がその変数(電力網、経済学、神経科学、オミクスネットワーク、環境生態系など)の基本的な相互依存性を持つ多くの現実世界のアプリケーションでは、ある時系列の過去の値が、グランガー因果関係として知られる他の分野の将来に影響を及ぼすかどうかを知ることに関心がある。 本稿では,ニューロクープマン動的因果探索 (NKDCD) と呼ばれる,ニューラルネットワークを基礎となる非線形力学とともにグラナー因果関係を確実に推定するための,クープマンベースのデータ駆動学習に活用する,クープマンに触発されたフレームワークを提案する。 NKDCDでは、データ学習ベースを用いて非線形ダイナミクスを高次元に引き上げるオートエンコーダアーキテクチャを採用している。 昇降関数、線形グランガー因果ラグ行列、射影関数(昇降空間から基底空間まで)はすべて多層パーセプトロンとして表現され、1行で同時に学習される。 NKDCDはまた、ラグ行列の重み付けにスパーシリティを誘導するペナルティを利用し、モデルがデータ内の必要な因果依存性だけを選択することを奨励する。 実際に適用可能なデータセットの広範なテストを通じて、NKDCDは既存の非線形グランガー因果発見手法よりも優れていることを示した。

In many real-world applications where the system dynamics has an underlying interdependency among its variables (such as power grid, economics, neuroscience, omics networks, environmental ecosystems, and others), one is often interested in knowing whether the past values of one time series influences the future of another, known as Granger causality, and the associated underlying dynamics. This paper introduces a Koopman-inspired framework that leverages neural networks for data-driven learning of the Koopman bases, termed NeuroKoopman Dynamic Causal Discovery (NKDCD), for reliably inferring the Granger causality along with the underlying nonlinear dynamics. NKDCD employs an autoencoder architecture that lifts the nonlinear dynamics to a higher dimension using data-learned bases, where the lifted time series can be reliably modeled linearly. The lifting function, the linear Granger causality lag matrices, and the projection function (from lifted space to base space) are all represented as multilayer perceptrons and are all learned simultaneously in one go. NKDCD also utilizes sparsity-inducing penalties on the weights of the lag matrices, encouraging the model to select only the needed causal dependencies within the data. Through extensive testing on practically applicable datasets, it is shown that the NKDCD outperforms the existing nonlinear Granger causality discovery approaches.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 配電用ロバストセーフスクリーニング

Distributionally Robust Safe Screening ( http://arxiv.org/abs/2404.16328v1 )

ライセンス: Link先を確認
Hiroyuki Hanada, Satoshi Akahane, Tatsuya Aoyama, Tomonari Tanaka, Yoshito Okura, Yu Inatsu, Noriaki Hashimoto, Taro Murayama, Lee Hanju, Shinya Kojima, Ichiro Takeuchi, (参考訳) 本研究では,DR共変量シフト設定における不必要なサンプルや特徴を特定するために,分散ロバストセーフスクリーニング(DRSS)を提案する。 本手法は,データ分散の変動に対するモデルロバスト性向上を目的としたDR学習と,モデルトレーニングに先立って無関係なサンプルや特徴を特定するために設計されたスパース最適化手法であるセーフスクリーニング(SS)を効果的に組み合わせたものである。 DRSS法の中核的な概念は、DR共変量シフト問題(DR covariate-shift problem)を、所定の範囲内で重みが不確実な重み付き経験的リスク最小化問題として再構成することである。 この重みの不確実性に対応するためにSS手法を拡張することで、DRSS法は、指定された範囲内での将来の分布において、不要なサンプルや特徴を確実に識別することができる。 DRSS法を理論的に保証し、合成および実世界のデータセットの数値実験によりその性能を検証する。

In this study, we propose a method Distributionally Robust Safe Screening (DRSS), for identifying unnecessary samples and features within a DR covariate shift setting. This method effectively combines DR learning, a paradigm aimed at enhancing model robustness against variations in data distribution, with safe screening (SS), a sparse optimization technique designed to identify irrelevant samples and features prior to model training. The core concept of the DRSS method involves reformulating the DR covariate-shift problem as a weighted empirical risk minimization problem, where the weights are subject to uncertainty within a predetermined range. By extending the SS technique to accommodate this weight uncertainty, the DRSS method is capable of reliably identifying unnecessary samples and features under any future distribution within a specified range. We provide a theoretical guarantee of the DRSS method and validate its performance through numerical experiments on both synthetic and real-world datasets.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# IMWA: 学級不均衡学習課題の便益を平均化する反復モデルウェイト

IMWA: Iterative Model Weight Averaging Benefits Class-Imbalanced Learning Tasks ( http://arxiv.org/abs/2404.16331v1 )

ライセンス: Link先を確認
Zitong Huang, Ze Chen, Bowen Dong, Chaoqi Liang, Erjin Zhou, Wangmeng Zuo, (参考訳) モデルウェイト平均化(モデルウェイト平均化、MWA)は、複数の訓練されたモデルの重みを平均化することによってモデルの性能を向上させる技術である。 この論文はまずそれを実証的に見出す 1)バニラMWAは、クラス不均衡学習の恩恵を受けることができ、 2) 訓練の初期段階におけるモデル平均化の実行は, 後期後期におけるモデル平均化よりも高い性能向上をもたらす。 この2つの観測から着想を得た本論文では,Iterative Model Weight Averaging (IMWA) と呼ばれるクラス不均衡学習タスクのための新しいMWA手法を提案する。 具体的には、IMWAはトレーニングステージ全体を複数のエピソードに分割する。 各エピソードにおいて、複数のモデルは同一の初期モデル重みから同時に訓練され、その後、特異モデルに平均化される。 そして、この平均モデルの重みは、続くエピソードの新たな初期化として機能し、反復学習パラダイムを確立する。 バニラMWAと比較して、IMWAは同じ計算コストで高い性能向上を実現している。 さらに, IMWA と EMA が相互補完可能であることを示すことにより, EMA 戦略を用いた手法の性能をさらに向上させることができる。 クラス不均衡画像分類,半教師付きクラス不均衡画像分類,半教師付きオブジェクト検出タスクなど,様々なクラス不均衡画像分類タスクに関する大規模な実験は,IMWAの有効性を示すものである。

Model Weight Averaging (MWA) is a technique that seeks to enhance model's performance by averaging the weights of multiple trained models. This paper first empirically finds that 1) the vanilla MWA can benefit the class-imbalanced learning, and 2) performing model averaging in the early epochs of training yields a greater performance improvement than doing that in later epochs. Inspired by these two observations, in this paper we propose a novel MWA technique for class-imbalanced learning tasks named Iterative Model Weight Averaging (IMWA). Specifically, IMWA divides the entire training stage into multiple episodes. Within each episode, multiple models are concurrently trained from the same initialized model weight, and subsequently averaged into a singular model. Then, the weight of this average model serves as a fresh initialization for the ensuing episode, thus establishing an iterative learning paradigm. Compared to vanilla MWA, IMWA achieves higher performance improvements with the same computational cost. Moreover, IMWA can further enhance the performance of those methods employing EMA strategy, demonstrating that IMWA and EMA can complement each other. Extensive experiments on various class-imbalanced learning tasks, i.e., class-imbalanced image classification, semi-supervised class-imbalanced image classification and semi-supervised object detection tasks showcase the effectiveness of our IMWA.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# AIプログラマは、効率的なコード生成に向けてプログラミング言語文法を再考する

AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation ( http://arxiv.org/abs/2404.16333v1 )

ライセンス: Link先を確認
Zhensu Sun, Xiaoning Du, Zhou Yang, Li Li, David Lo, (参考訳) 人間や機械以外にも、大規模言語モデル(LLM)の時代になると、人工知能(AI)モデルは、プログラミング言語の別の重要なオーディエンスとして現れています。 LLMは、コーディングコンペティションや、計算計算など、さまざまなタスクに対処する開発者などのプログラムにも長けている。 しかし、既存のプログラムの文法とレイアウトは人間のために設計されている。 特に、コードを読みやすくするために、豊富な文法トークンとフォーマットトークンが含まれている。 有益ではあるが、そのような人間中心の設計は、それぞれのトークンが消費されるか、生成されるか、計算資源を消費するLLMに不要な計算負担を課す。 推論効率の向上と計算コストの削減を目的として,AIモデルの動作機構によく適合する方法でコードを表現することを目的とした,AI指向文法の概念を提案する。 AI指向文法で書かれたコードはフォーマットを捨て、コードのセマンティクスを効果的に伝達するために最小限のトークンを使用する。 この概念の実現可能性を示すため、我々はSimple Python (SimPy) と呼ばれるPythonの最初のAI指向文法を探索し、実装した。 SimPyは、一連のヒューリスティックなルールを通じて、オリジナルのPython文法を改訂することで開発されている。 SimPyで書かれたプログラムは、AST構文木 (Abstract Syntax Tree, AST) 構造を標準Pythonと同一に維持し、修正されたASTパーサによる実行を可能にする。 さらに、既存のLLMがSimPyを十分に理解し、使用できるようにし、変更が人間開発者には受け入れられないようにする方法についても検討する。 オリジナルのPythonと比較して、SimPyはトークン使用量を13.5%削減し、CodeLlamaとGPT-4は10.4%削減した。

Besides humans and machines, Artificial Intelligence (AI) models have emerged to be another important audience of programming languages, as we come to the era of large language models (LLMs). LLMs can now excel at coding competitions and even program like developers to address various tasks, such as math calculation. Yet, the grammar and layout of existing programs are designed for humans. Particularly, abundant grammar tokens and formatting tokens are included to make the code more readable to humans. While beneficial, such a human-centric design imposes an unnecessary computational burden on LLMs where each token, either consumed or generated, consumes computational resources. To improve inference efficiency and reduce computational costs, we propose the concept of AI-oriented grammar, which aims to represent the code in a way that better suits the working mechanism of AI models. Code written with AI-oriented grammar discards formats and uses a minimum number of tokens to convey code semantics effectively. To demonstrate the feasibility of this concept, we explore and implement the first AI-oriented grammar for Python, named Simple Python (SimPy). SimPy is crafted by revising the original Python grammar through a series of heuristic rules. Programs written in SimPy maintain identical Abstract Syntax Tree (AST) structures to those in standard Python, allowing execution via a modified AST parser. In addition, we explore methods to enable existing LLMs to proficiently understand and use SimPy, and ensure the changes remain imperceptible for human developers. Compared with the original Python, SimPy not only reduces token usage by 13.5% and 10.4% for CodeLlama and GPT-4, but can also achieve equivalent, even improved, performance over the models trained on Python code.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# FedStyle: アートコミッショナーのためのスタイルベースのフェデレーションラーニングクラウドソーシングフレームワーク

FedStyle: Style-Based Federated Learning Crowdsourcing Framework for Art Commissions ( http://arxiv.org/abs/2404.16336v1 )

ライセンス: Link先を確認
Changjuan Ran, Yeting Guo, Fang Liu, Shenglan Cui, Yunfan Ye, (参考訳) ユニークな芸術様式は芸術家の職業的競争力にとって不可欠であるが、アート・コミッショナー・プラットフォーム(Art Commission Platforms)はスタイルベースの検索をほとんどサポートしていない。 一方、急速に成長する生成AI技術は、個人作品の公開プラットフォームへのリリースに対するアーティストの懸念を増している。 個人アートを露出させることなく,芸術的スタイルに基づく検索を実現するために,スタイルベースのフェデレート学習クラウドソーシングフレームワークであるFedStyleを提案する。 アーティストは、コラボレーションのためのアートワークではなく、ローカルスタイルのモデルをトレーニングし、モデルパラメータを共有することができる。 しかし、ほとんどの芸術家は独自の芸術様式を持っており、その間に厳格なモデルドリフトをもたらした。 FedStyleは、単にセマンティクスを欠いたモデルパラメータを集約するのではなく、アーティストに抽象的なスタイル表現を学び、サーバと整合させることによって、このような極端なデータ不均一性に対処する。 さらに,スタイル表現空間を細心の注意で構築し,類似したスタイルのアートワークを近づき,異なるアートワークを埋め込み空間に分割するコントラスト学習を導入する。 提案したデータセットに対する大規模な実験は、FedStyleの優位性を示している。

The unique artistic style is crucial to artists' occupational competitiveness, yet prevailing Art Commission Platforms rarely support style-based retrieval. Meanwhile, the fast-growing generative AI techniques aggravate artists' concerns about releasing personal artworks to public platforms. To achieve artistic style-based retrieval without exposing personal artworks, we propose FedStyle, a style-based federated learning crowdsourcing framework. It allows artists to train local style models and share model parameters rather than artworks for collaboration. However, most artists possess a unique artistic style, resulting in severe model drift among them. FedStyle addresses such extreme data heterogeneity by having artists learn their abstract style representations and align with the server, rather than merely aggregating model parameters lacking semantics. Besides, we introduce contrastive learning to meticulously construct the style representation space, pulling artworks with similar styles closer and keeping different ones apart in the embedding space. Extensive experiments on the proposed datasets demonstrate the superiority of FedStyle.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# ビジョンランゲージモデルのための訓練不要な教師なしプロンプト

Training-Free Unsupervised Prompt for Vision-Language Models ( http://arxiv.org/abs/2404.16339v1 )

ライセンス: Link先を確認
Sifan Long, Linbin Wang, Zhen Zhao, Zichang Tan, Yiming Wu, Shengsheng Wang, Jingdong Wang, (参考訳) プロンプト学習は、大規模な事前学習された視覚言語モデル(VLM)を下流タスクに適用するための最も効果的なパラダイムとなっている。 近年、UPLやPOUFのような教師なしのプロンプトチューニング手法では、擬似ラベルを直接スーパーバイザ情報として活用し、ラベルなしデータに付加的な適応モジュールを微調整している。 しかし、不正確な擬似ラベルは、チューニングプロセスを誤解しやすく、結果として表現能力が低下する。 そこで本研究では,学習自由でラベリングのない方法で,類似性に基づく予測確率との残差で,表現能力を最大に保持し,拡張する訓練自由無教師プロンプト(TFUP)を提案する。 具体的には、インスタンス信頼度とプロトタイプスコアの両方を統合して、トレーニング不要推論のために信頼性の高いフィーチャーキャッシュモデル(FCM)をカスタマイズするために使用される代表サンプルを選択します。 そして、特徴レベルと意味レベルの両方の類似性を考慮し、各テスト画像とキャッシュされたサンプル間の距離を対応するキャッシュラベルの重みとして計算し、類似度に基づく予測確率を生成するマルチレベル類似度尺度(MSM)を設計する。 このようにして、TFUPは、複数の分類データセットのトレーニングベースメソッドを超越した、驚くべきパフォーマンスを達成する。 TFUPに基づいて、適応性能をさらに向上させるトレーニングベースアプローチ(TFUP-T)を提案する。 標準のクロスエントロピー損失に加えて、TFUP-Tは、大域的な視点からモデルを制限するために、余剰分布エントロピー損失を付加する。 TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。 特にTFUP-Tは、最も困難なDomain-Netデータセットにおいて、POUFの分類精度を3.3%向上させる。

Prompt learning has become the most effective paradigm for adapting large pre-trained vision-language models (VLMs) to downstream tasks. Recently, unsupervised prompt tuning methods, such as UPL and POUF, directly leverage pseudo-labels as supervisory information to fine-tune additional adaptation modules on unlabeled data. However, inaccurate pseudo labels easily misguide the tuning process and result in poor representation capabilities. In light of this, we propose Training-Free Unsupervised Prompts (TFUP), which maximally preserves the inherent representation capabilities and enhances them with a residual connection to similarity-based prediction probabilities in a training-free and labeling-free manner. Specifically, we integrate both instance confidence and prototype scores to select representative samples, which are used to customize a reliable Feature Cache Model (FCM) for training-free inference. Then, we design a Multi-level Similarity Measure (MSM) that considers both feature-level and semantic-level similarities to calculate the distance between each test image and the cached sample as the weight of the corresponding cached label to generate similarity-based prediction probabilities. In this way, TFUP achieves surprising performance, even surpassing the training-base method on multiple classification datasets. Based on our TFUP, we propose a training-based approach (TFUP-T) to further boost the adaptation performance. In addition to the standard cross-entropy loss, TFUP-T adopts an additional marginal distribution entropy loss to constrain the model from a global perspective. Our TFUP-T achieves new state-of-the-art classification performance compared to unsupervised and few-shot adaptation approaches on multiple benchmarks. In particular, TFUP-T improves the classification accuracy of POUF by 3.3% on the most challenging Domain-Net dataset.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# PILA: 原イタリア語とラテン語の歴史的言語学的データセット

PILA: A Historical-Linguistic Dataset of Proto-Italic and Latin ( http://arxiv.org/abs/2404.16341v1 )

ライセンス: Link先を確認
Stephen Bothwell, Brian DuSell, David Chiang, Brian Krostenko, (参考訳) 計算史言語学は、言語の公式な記録がほとんど、あるいは全く証明されていない期間を含む、音の変化の過程を体系的に理解しようとする。 同時に、原語とその子孫の間の音韻学的・形態学的関係を深く探求する計算資源はほとんど存在しない。 これは特にイタリック語族に当てはまる。 イタリア語の音変化の研究において歴史的言語学者を支援するため,約3,000対の形状からなるイタリア語からラテン語へのデータセット(PILA)を導入する。 データセットの作成と編成方法について、詳しく説明しています。 そしてPILAの価値を2つの方法で示す。 まず,従来の計算歴史的言語学の課題の2つについて,PILAのベースライン結果を示す。 第2に、データセット互換性研究を通じて、他の歴史的言語学的データセットを拡張できるPILAの能力を実証する。

Computational historical linguistics seeks to systematically understand processes of sound change, including during periods at which little to no formal recording of language is attested. At the same time, few computational resources exist which deeply explore phonological and morphological connections between proto-languages and their descendants. This is particularly true for the family of Italic languages. To assist historical linguists in the study of Italic sound change, we introduce the Proto-Italic to Latin (PILA) dataset, which consists of roughly 3,000 pairs of forms from Proto-Italic and Latin. We provide a detailed description of how our dataset was created and organized. Then, we exhibit PILA's value in two ways. First, we present baseline results for PILA on a pair of traditional computational historical linguistics tasks. Second, we demonstrate PILA's capability for enhancing other historical-linguistic datasets through a dataset compatibility study.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 蛍光検出2光子吸収実験における限界:低-高利得レジームの探索

Limitations in Fluorescence-Detected Entangled Two-Photon-Absorption Experiments: Exploring the Low- to High-Gain Squeezing Regimes ( http://arxiv.org/abs/2404.16342v1 )

ライセンス: Link先を確認
Tiemo Landes, Brian J. Smith, Michael G. Raymer, (参考訳) 我々は,分子試料中の2光子吸収率の増大を時間-周波数-光子対を用いて観測した最近の実験(第1報,第1報,第183601号,第2022号)を密に再現し,拡張した。 この結果は、量子化分子分光と超低光束でのイメージングを可能にする努力の文脈において重要である。 低利得自然状態から高利得スクイージング状態へ変化できる光パラメトリックダウンコンバージョン光子ペア源を用いて、高利得状態において2光子誘起蛍光を観察したが、低利得状態では、どの蛍光も検出閾値以下であった。 分子蛍光実験を非線形光学的総周波発生実験で補足し、低-高-高-利得交叉を観測し、理論モデルと実験手法の検証を行った。 両実験で観測された速度(またはその欠如)は, 理論的予測と過去の実験と一致しており, 時間周波数光子絡み合いは, 分子内2光子分光法や現在の技術によるイメージングの実践的な方法ではないことを示唆している。

We closely replicated and extended a recent experiment ("Spatial properties of entangled two-photon absorption," Phys. Rev. Lett. 129, 183601, 2022) that reportedly observed enhancement of two-photon absorption rates in molecular samples by using time-frequency-entangled photon pairs, and we found that in the low-flux regime, where such enhancement is theoretically predicted in-principle, the two-photon fluorescence signal is below detection threshold using current state-of-the-art methods. The results are important in the context of efforts to enable quantum-enhanced molecular spectroscopy and imaging at ultra-low optical flux. Using an optical parametric down-conversion photon-pair source that can be varied from the low-gain spontaneous regime to the high-gain squeezing regime, we observed two-photon-induced fluorescence in the high-gain regime but in the low-gain regime any fluorescence was below detection threshold. We supplemented the molecular fluorescence experiments with a study of nonlinear-optical sum-frequency generation, for which we are able to observe the low-to-high-gain crossover, thereby verifying our theoretical models and experimental techniques. The observed rates (or lack thereof) in both experiments are consistent with theoretical predictions and with our previous experiments, and indicate that time-frequency photon entanglement does not provide a practical means to enhance in-solution molecular two-photon fluorescence spectroscopy or imaging with current techniques.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# グローバル推論による軽量網膜層セグメンテーション

Light-weight Retinal Layer Segmentation with Global Reasoning ( http://arxiv.org/abs/2404.16346v1 )

ライセンス: Link先を確認
Xiang He, Weiye Song, Yiming Wang, Fabio Poiesi, Ji Yi, Manishi Desai, Quanqing Xu, Kongzheng Yang, Yi Wan, (参考訳) 光コヒーレンス断層撮影(OCT)画像などの医用画像による網膜自動層分割は、眼疾患の診断に重要なツールである。 しかし,画像中の低コントラストと血流ノイズにより,正確なセグメンテーションを実現することは困難である。 さらに、このアルゴリズムは実用的臨床応用のために展開されるべき軽量である。 そのため,網膜層セグメンテーションのための軽量ネットワークの設計が望まれる。 本稿では,OCT画像に適用可能な網膜層セグメンテーションのためのLightReSegを提案する。 具体的には、エンコーダ部がマルチスケールの特徴抽出とトランスフォーマーブロックを用いて、全てのスケールで特徴マップのセマンティック情報をフル活用し、その特徴がよりグローバルな推論能力を持つようにし、デコーダ部は、各エンコーダスケールのセマンティック情報を保存するためのマルチスケール非対称アテンション(MAA)モジュールを設計するエンコーダ-デコーダ構造に従う。 実験の結果,得られたデータセットと他の2つの公開データセットのそれぞれに105.7Mのパラメータがあり,そのパラメータは3.3Mに過ぎなかった。

Automatic retinal layer segmentation with medical images, such as optical coherence tomography (OCT) images, serves as an important tool for diagnosing ophthalmic diseases. However, it is challenging to achieve accurate segmentation due to low contrast and blood flow noises presented in the images. In addition, the algorithm should be light-weight to be deployed for practical clinical applications. Therefore, it is desired to design a light-weight network with high performance for retinal layer segmentation. In this paper, we propose LightReSeg for retinal layer segmentation which can be applied to OCT images. Specifically, our approach follows an encoder-decoder structure, where the encoder part employs multi-scale feature extraction and a Transformer block for fully exploiting the semantic information of feature maps at all scales and making the features have better global reasoning capabilities, while the decoder part, we design a multi-scale asymmetric attention (MAA) module for preserving the semantic information at each encoder scale. The experiments show that our approach achieves a better segmentation performance compared to the current state-of-the-art method TransUnet with 105.7M parameters on both our collected dataset and two other public datasets, with only 3.3M parameters.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 汎用ゼロショット学習のためのデュアルエキスパート蒸留ネットワーク

Dual Expert Distillation Network for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2404.16348v1 )

ライセンス: Link先を確認
Zhijie Rao, Jingcai Guo, Xiaocheng Lu, Jingming Liang, Jie Zhang, Haozhao Wang, Kang Wei, Xiaofeng Cao, (参考訳) ゼロショット学習は、ニュアンス付き1対1の視覚属性相関をモデル化することで、常に顕著な進歩をもたらした。 既存の研究では、サンプル領域とサブ属性を整列・相関する一様マッピング関数を精錬し、二つの重要な問題を無視している。 1) 属性の固有の非対称性,及び 2)未利用チャンネル情報。 本稿では,2人の専門家がそれぞれ粗くきめ細かな視覚属性モデリングを専門とするDEDN(Dual Expert Distillation Network)という,シンプルで効果的なアプローチを導入することで,これらの課題に対処する。 具体的には、ある粗い専門家、すなわち cExp は、次元をまたいだ視覚-属性の類似度を調整するための完全な知覚スコープを持ち、さらに別の優れた専門家、すなわち fExp は複数の特別なサブネットワークで構成され、それぞれが独占的な属性セットに対応している。 2人の専門家が互いに協力して蒸留し、トレーニング中に相互合意に達する。 一方,DEDNには新たに設計されたバックボーンネットワークであるDual Attention Network(DAN)が組み込まれている。 さまざまなベンチマークデータセットの実験は、新しい最先端を示す。

Zero-shot learning has consistently yielded remarkable progress via modeling nuanced one-to-one visual-attribute correlation. Existing studies resort to refining a uniform mapping function to align and correlate the sample regions and subattributes, ignoring two crucial issues: 1) the inherent asymmetry of attributes; and 2) the unutilized channel information. This paper addresses these issues by introducing a simple yet effective approach, dubbed Dual Expert Distillation Network (DEDN), where two experts are dedicated to coarse- and fine-grained visual-attribute modeling, respectively. Concretely, one coarse expert, namely cExp, has a complete perceptual scope to coordinate visual-attribute similarity metrics across dimensions, and moreover, another fine expert, namely fExp, consists of multiple specialized subnetworks, each corresponds to an exclusive set of attributes. Two experts cooperatively distill from each other to reach a mutual agreement during training. Meanwhile, we further equip DEDN with a newly designed backbone network, i.e., Dual Attention Network (DAN), which incorporates both region and channel attention information to fully exploit and leverage visual semantic knowledge. Experiments on various benchmark datasets indicate a new state-of-the-art.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 自動車インターネットにおけるエキスパートの混在とマルチモーダル生成AIの統合:サーベイ

Integration of Mixture of Experts and Multimodal Generative AI in Internet of Vehicles: A Survey ( http://arxiv.org/abs/2404.16356v1 )

ライセンス: Link先を確認
Minrui Xu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Abbas Jamalipour, Yuguang Fang, Dong In Kim, Xuemin, Shen, (参考訳) ジェネレーティブAI(GAI)は、拡張現実データセットを合成し、センサーデータを完成させ、シーケンシャルな決定を行うことで、車両のインターネット(IoV)におけるインテリジェントモジュールの認知、推論、計画能力を高めることができる。 さらに、専門家(MoE)の混在により、コネクテッドカー間での性能劣化なしに、AIモデルの分散的で協調的な実行が可能になる。 本調査では,環境監視,交通管理,自動運転など,幅広いモビリティシナリオにおいて,人間の監督と適用性が最小限に抑えられたIoVの完全自律化を実現するため,MoEとGAIの統合について検討する。 特に、IoVにおけるGAI、MoE、およびそれらの相互作用応用の基礎について述べる。 さらに、分散認識とモニタリング、協調的な意思決定と計画、生成モデリングとシミュレーションを含む、IoVにおけるMoEとGAIの統合の可能性についても論じる。 最後に、統合を容易にするためのいくつかの研究の方向性を示す。

Generative AI (GAI) can enhance the cognitive, reasoning, and planning capabilities of intelligent modules in the Internet of Vehicles (IoV) by synthesizing augmented datasets, completing sensor data, and making sequential decisions. In addition, the mixture of experts (MoE) can enable the distributed and collaborative execution of AI models without performance degradation between connected vehicles. In this survey, we explore the integration of MoE and GAI to enable Artificial General Intelligence in IoV, which can enable the realization of full autonomy for IoV with minimal human supervision and applicability in a wide range of mobility scenarios, including environment monitoring, traffic management, and autonomous driving. In particular, we present the fundamentals of GAI, MoE, and their interplay applications in IoV. Furthermore, we discuss the potential integration of MoE and GAI in IoV, including distributed perception and monitoring, collaborative decision-making and planning, and generative modeling and simulation. Finally, we present several potential research directions for facilitating the integration.
翻訳日:2024-04-26 14:48:28 公開日:2024-04-25
# 骨格に基づく行動認識のための改良されたグラフポーリングネットワーク

An Improved Graph Pooling Network for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2404.16359v1 )

ライセンス: Link先を確認
Cong Wu, Xiao-Jun Wu, Tianyang Xu, Josef Kittler, (参考訳) ポーリングはコンピュータビジョンにおいて重要な操作であるが、骨格のユニークな構造は、スケルトングラフモデリングへの既存のプール戦略の適用を妨げる。 本稿では,IGPNと呼ばれる改良グラフポーリングネットワークを提案する。 我々の手法は、構造分割に基づく領域認識プール戦略を取り入れています。 原特徴の相関行列を用いて、新たに生成された特徴の異なる領域における情報の重み付けを適応的に調整し、より柔軟で効率的な処理を行う。 識別情報の可逆的損失を防止するため,ブロックレベル情報と入力レベル情報それぞれを提供するクロスフュージョンモジュールとインフォメーションサプリメントモジュールを提案する。 プラグアンドプレイ構造として,提案手法は既存のGCNモデルとシームレスに組み合わせることができる。 実験結果から,提案手法の有効性が示唆された。 例えば、NTU-RGB+D 60データセットのクロスオブジェクト評価では、GPNはFlopsを70%近く削減し、ベースラインと比較して精度が大幅に向上した。

Pooling is a crucial operation in computer vision, yet the unique structure of skeletons hinders the application of existing pooling strategies to skeleton graph modelling. In this paper, we propose an Improved Graph Pooling Network, referred to as IGPN. The main innovations include: Our method incorporates a region-awareness pooling strategy based on structural partitioning. The correlation matrix of the original feature is used to adaptively adjust the weight of information in different regions of the newly generated features, resulting in more flexible and effective processing. To prevent the irreversible loss of discriminative information, we propose a cross fusion module and an information supplement module to provide block-level and input-level information respectively. As a plug-and-play structure, the proposed operation can be seamlessly combined with existing GCN-based models. We conducted extensive evaluations on several challenging benchmarks, and the experimental results indicate the effectiveness of our proposed solutions. For example, in the cross-subject evaluation of the NTU-RGB+D 60 dataset, IGPN achieves a significant improvement in accuracy compared to the baseline while reducing Flops by nearly 70%; a heavier version has also been introduced to further boost accuracy.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 融合による行列積状態の準備:制約と拡張

Preparing matrix product states via fusion: constraints and extensions ( http://arxiv.org/abs/2404.16360v1 )

ライセンス: Link先を確認
David T. Stephen, Oliver Hart, (参考訳) ノイズの多い中規模量子(NISQ)デバイスでは、多体資源状態の効率的な調製が最重要課題である。 本稿では, 行列生成状態 (MPS) の定値化に焦点をあて, 測定値と古典的通信を利用して, より小さな状態をより大きいものに融合させることにより, 定数の深さで行列生成状態 (MPS) を決定論的に生成する。 我々は,MPS融合と呼ぶこの手法を用いて準備できるMPSに強い制約を課す。 すなわち,MPSが平坦な絡み合いスペクトルを持つ必要があることを確かめる。 最近導入されたスプリットインデックスMPS (SIMPS) 表現を用いて、非オンサイト対称性によって保護される物質の興味深い相に属する状態の族を導入し、長距離量子テレポーテーションの資源として機能するが、通常のMPS融合の範囲を超えている。 これらの状態は、SIMPS融合をダブするより広範な測定支援プロトコルを用いて、一定の深さで準備できることが建設的に示されている。 MPS融合が可能な場合であっても、SIMPS融合はリソースオーバーヘッドを大幅に削減する。 そこで本研究では,従来のMPS融合の境界線を同時に確立し,測定支援プロトコルを用いて状態が準備できるエンベロープを推し進める。

In the era of noisy, intermediate-scale quantum (NISQ) devices, the efficient preparation of many-body resource states is a task of paramount importance. In this paper we focus on the deterministic preparation of matrix-product states (MPS) in constant depth by utilizing measurements and classical communication to fuse smaller states into larger ones. We place strong constraints on the MPS that can be prepared using this method, which we refer to as MPS fusion. Namely, we establish that it is necessary for the MPS to have a flat entanglement spectrum. Using the recently introduced split-index MPS (SIMPS) representation, we then introduce a family of states that belong to interesting phases of matter protected by non-onsite symmetries and serve as resources for long-range quantum teleportation, but which lie beyond the scope of ordinary MPS fusion. It is shown constructively that these states can be prepared in constant depth using a broader class of measurement-assisted protocols, which we dub SIMPS fusion. Even in cases when MPS fusion is possible, using SIMPS fusion can give rise to significantly reduced resource overhead. Our results therefore simultaneously establish the boundaries of conventional MPS fusion and push the envelope of which states can be prepared using measurement-assisted protocols.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 解釈可能なデータ解析のための相対的衝撃成層による進化的因果発見

Evolutionary Causal Discovery with Relative Impact Stratification for Interpretable Data Analysis ( http://arxiv.org/abs/2404.16361v1 )

ライセンス: Link先を確認
Ou Deng, Shoji Nishimura, Atsushi Ogihara, Qun Jin, (参考訳) 本研究では、応答変数、予測変数および対応する演算子を研究データセットに適合させる因果発見のための進化因果発見(ECD)を提案する。 遺伝的プログラミングを変数関係解析に利用し、応答変数に対する予測変数の相対的影響を評価するための相対的インパクト階層化(RIS)アルゴリズムを導入し、表現の単純化と変数関係の解釈可能性の向上を図る。 ECDは、RISの結果を視覚化する表現木を提案し、従来の因果発見と比較して、未知の因果関係の区別された描写を提供する。 ECD法は、特に電子健康記録(EHR)データを用いた医療環境において、複雑なシステムにおける変動関係を解析するための解釈可能なアプローチを提供する、既存の因果発見法の進化と拡大を表す。 合成EHRデータセットと実世界のEHRデータセットの実験は、変数間のパターンやメカニズムを明らかにする上で、ECDの有効性を示し、異なるノイズレベルにわたって高い精度と安定性を維持している。 実世界のEHRデータセットでは、ECDは応答変数と他の予測変数との間の複雑な関係を明らかにし、構造方程式モデリングとシェープな加法的説明分析の結果と一致している。

This study proposes Evolutionary Causal Discovery (ECD) for causal discovery that tailors response variables, predictor variables, and corresponding operators to research datasets. Utilizing genetic programming for variable relationship parsing, the method proceeds with the Relative Impact Stratification (RIS) algorithm to assess the relative impact of predictor variables on the response variable, facilitating expression simplification and enhancing the interpretability of variable relationships. ECD proposes an expression tree to visualize the RIS results, offering a differentiated depiction of unknown causal relationships compared to conventional causal discovery. The ECD method represents an evolution and augmentation of existing causal discovery methods, providing an interpretable approach for analyzing variable relationships in complex systems, particularly in healthcare settings with Electronic Health Record (EHR) data. Experiments on both synthetic and real-world EHR datasets demonstrate the efficacy of ECD in uncovering patterns and mechanisms among variables, maintaining high accuracy and stability across different noise levels. On the real-world EHR dataset, ECD reveals the intricate relationships between the response variable and other predictive variables, aligning with the results of structural equation modeling and shapley additive explanations analyses.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# マルウェア検出のための静的特徴を用いた特徴グラフの構築

Feature graph construction with static features for malware detection ( http://arxiv.org/abs/2404.16362v1 )

ライセンス: Link先を確認
Binghui Zou, Chunjie Cao, Longjuan Wang, Yinan Cheng, Jingzhang Sun, (参考訳) マルウェアは情報の完全性と信頼性を著しく損なう可能性があり、進化の絶え間ない状態にある。 既存の特徴融合に基づく検出手法は、一般的に特徴間の相関を見落としている。 そして、単に機能の組み合わせによって、モデルのキャラクタリゼーション能力が低下し、検出精度が低下する。 さらに,これらの手法は,概念的ドリフトやモデルの著しい劣化の影響を受けやすい。 これらの課題に対処するために,機能グラフに基づくマルウェア検出手法であるMFGraphを導入し,機能間関係を学習し,コンセプトドリフトの影響を軽減しつつ,検出精度の向上を実現する。 MFGraphでは,バイナリPEファイルから抽出した静的特徴を用いた特徴グラフを構築し,その特徴グラフの表現を学習するために深部グラフ畳み込みネットワークを適用した。 最後に、3層パーセプトロンの出力から得られる表現ベクトルを用いて、良性ソフトウェアと悪質ソフトウェアを区別する。 本手法をEMBERデータセット上で評価した結果,マルウェア検出タスクにおいてAUCスコア0.98756を達成し,他のベースラインモデルよりも優れた結果を得た。 さらに、MFGraphのAUCスコアは1年でわずか5.884%減少し、コンセプトドリフトの影響を受けていないことが示されている。

Malware can greatly compromise the integrity and trustworthiness of information and is in a constant state of evolution. Existing feature fusion-based detection methods generally overlook the correlation between features. And mere concatenation of features will reduce the model's characterization ability, lead to low detection accuracy. Moreover, these methods are susceptible to concept drift and significant degradation of the model. To address those challenges, we introduce a feature graph-based malware detection method, MFGraph, to characterize applications by learning feature-to-feature relationships to achieve improved detection accuracy while mitigating the impact of concept drift. In MFGraph, we construct a feature graph using static features extracted from binary PE files, then apply a deep graph convolutional network to learn the representation of the feature graph. Finally, we employ the representation vectors obtained from the output of a three-layer perceptron to differentiate between benign and malicious software. We evaluated our method on the EMBER dataset, and the experimental results demonstrate that it achieves an AUC score of 0.98756 on the malware detection task, outperforming other baseline models. Furthermore, the AUC score of MFGraph decreases by only 5.884% in one year, indicating that it is the least affected by concept drift.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 米ビザンティン、Ethereum PoSで反逆罪を犯す

Byzantine Attacks Exploiting Penalties in Ethereum PoS ( http://arxiv.org/abs/2404.16363v1 )

ライセンス: Link先を確認
Ulysse Pavloff, Yackolley Amoussou-Genou, Sara Tucci-Piergiovanni, (参考訳) 2023年5月、Ethereumブロックチェーンは最初の不活性リークを経験した。 このメカニズムは、ネットワーク内で到達不能なバリデータに対する投票力を低減し、アクティブバリデータに再割り当てすることを目的としている。 本稿では,Ethereumブロックチェーンの安全性に対する不活性リークの影響について検討する。 理論的分析では、ビザンツの検証者が2つの対立するブランチの最終的な決定を早めるシナリオと、ビザンツの検証者が3分の1の臨界安全性閾値を超える投票力に達するシナリオを明らかにした。 さらに、確率論的バウンシング攻撃を再考し、不活性な漏洩がいかにして確率論的に安全を侵害し、ビザンツのバリデーターが3分の1の安全閾値を超える可能性があるかを説明する。 この結果から,非活性ノードのペナルティ化がブロックチェーン特性,特に行動のコーディネートが可能なビザンチンバリデータの存在にどのように影響するかが明らかになった。

In May 2023, the Ethereum blockchain experienced its first inactivity leak, a mechanism designed to reinstate chain finalization amid persistent network disruptions. This mechanism aims to reduce the voting power of validators who are unreachable within the network, reallocating this power to active validators. This paper investigates the implications of the inactivity leak on safety within the Ethereum blockchain. Our theoretical analysis reveals scenarios where actions by Byzantine validators expedite the finalization of two conflicting branches, and instances where Byzantine validators reach a voting power exceeding the critical safety threshold of one-third. Additionally, we revisit the probabilistic bouncing attack, illustrating how the inactivity leak can result in a probabilistic breach of safety, potentially allowing Byzantine validators to exceed the one-third safety threshold. Our findings uncover how penalizing inactive nodes can compromise blockchain properties, particularly in the presence of Byzantine validators capable of coordinating actions.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# ReZero: ジャストインタイムとスピーディーリアナライズによるMCTSベースのアルゴリズムの強化

ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze ( http://arxiv.org/abs/2404.16364v1 )

ライセンス: Link先を確認
Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Jing Yang, (参考訳) MuZeroなどのMCTSベースのアルゴリズムは、様々な意思決定領域で広く成功している。 これらのアルゴリズムは、ウォールタイムの時間消費を犠牲にして、サンプル効率を高めるために再分析プロセスを採用している。 そこで本研究では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。 具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減し,性能も保証する新しい手法を提案する。 さらに,各探索過程を高速化するために,軌跡内のその後の情報を再利用する手法を提案する。 また, バンディットモデルを用いた解析により, 設計の補助的理論的サブストラテレーションも実現した。 アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。 コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。

MCTS-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost MCTS-based algorithms. Specifically, we propose a new scheme that simplifies data collecting and reanalyzing, which significantly reduces the search cost while guarantees the performance as well. Furthermore, to accelerate each search process, we conceive a method to reuse the subsequent information in the trajectory. The corresponding analysis conducted on the bandit model also provides auxiliary theoretical substantiation for our design. Experiments conducted on Atari environments and board games demonstrates that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# VISLAベンチマーク: 意味的および語彙的変化に対する埋め込み感度の評価

VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations ( http://arxiv.org/abs/2404.16365v1 )

ライセンス: Link先を確認
Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad, (参考訳) 彼らの顕著な成功にもかかわらず、最先端の言語モデルは、重要なセマンティックな詳細を理解する上で困難に直面している。 本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLA(Variance and Invariance to Semantic and Lexical Alterations)ベンチマークを紹介する。 VISLAは、視覚言語モデル(VLM)と単言語モデル(ULM)の両方を評価するために、画像に関連付けられた3つの文からなる3方向の意味的(不変)タスクを提示する。 34個のVLMと20個のULMによる評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。 言語モデルによって符号化された空間意味論は、語彙情報に非常に敏感である。 特に、VLMのテキストエンコーダは、アンモダルテキストエンコーダよりも意味や語彙の変化に敏感である。 コントリビューションには、画像からテキストまでの検索タスクとテキストからテキストへの検索タスクの統合、微調整なしのオフ・ザ・シェルフ評価、語彙変化の有無によるLMの意味的差異の評価が含まれる。 結果は、多様なビジョンと一助言語モデルにまたがる強みと弱みを強調し、それらの能力のより深い理解に寄与する。 % VISLAは厳密な評価を可能にし、意味的および語彙的ニュアンスを扱う際の言語モデルの能力に光を当てる。 データとコードはhttps://github.com/Sri-Harsha/visla_benchmark.comで公開される。

Despite their remarkable successes, state-of-the-art language models face challenges in grasping certain important semantic details. This paper introduces the VISLA (Variance and Invariance to Semantic and Lexical Alterations) benchmark, designed to evaluate the semantic and lexical understanding of language models. VISLA presents a 3-way semantic (in)equivalence task with a triplet of sentences associated with an image, to evaluate both vision-language models (VLMs) and unimodal language models (ULMs). An evaluation involving 34 VLMs and 20 ULMs reveals surprising difficulties in distinguishing between lexical and semantic variations. Spatial semantics encoded by language models also appear to be highly sensitive to lexical information. Notably, text encoders of VLMs demonstrate greater sensitivity to semantic and lexical variations than unimodal text encoders. Our contributions include the unification of image-to-text and text-to-text retrieval tasks, an off-the-shelf evaluation without fine-tuning, and assessing LMs' semantic (in)variance in the presence of lexical alterations. The results highlight strengths and weaknesses across diverse vision and unimodal language models, contributing to a deeper understanding of their capabilities. % VISLA enables a rigorous evaluation, shedding light on language models' capabilities in handling semantic and lexical nuances. Data and code will be made available at https://github.com/Sri-Harsha/visla_benchmark.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 教師なしグラフ異常検出のためのガードグラフニューラルネットワーク

Guarding Graph Neural Networks for Unsupervised Graph Anomaly Detection ( http://arxiv.org/abs/2404.16366v1 )

ライセンス: Link先を確認
Yuanchen Bei, Sheng Zhou, Jinke Shi, Yao Ma, Haishuai Wang, Jiajun Bu, (参考訳) 教師なしグラフ異常検出は、ラベルを使わずにグラフの多数から逸脱する稀なパターンを特定することを目的としている。 近年,グラフニューラルネットワーク(GNN)を用いて,周辺地域からの情報を集約することで,効率的なノード表現を学習している。 これは、グラフのノードがその近傍と一貫した振る舞いを示す傾向があるという仮説に動機づけられている。 しかし、そのような一貫性はグラフ異常によって複数の方法で破壊される。 既存のほとんどの手法ではGNNを直接使用して表現を学習し、グラフ異常がGNNに負の影響を無視し、準最適ノード表現と異常検出性能をもたらす。 半教師付きラベルガイダンスの下でグラフ異常検出のためのいくつかのアプローチが再設計されているが、教師なしシナリオにおけるグラフ異常のGNNに対する悪影響への対処方法や、異常検出のための効果的な表現の学習方法はまだ検討されていない。 本稿では、このギャップを埋めるために、教師なしグラフ異常検出(G3AD)のためのグラフニューラルネットワークのガードのための簡易かつ効果的なフレームワークを提案する。 具体的には、G3ADは2つの補助ネットワークと相関制約を導入し、GNNを一貫性のない情報符号化から保護する。 さらに、G3ADは、GNNが異常を含む観測データのみを再構築することを防ぐために、適応的なキャッシュモジュールを導入している。 大規模な実験により、提案したG3ADは、合成データセットと実世界のデータセットの両方において17の最先端の手法より優れていることが示された。

Unsupervised graph anomaly detection aims at identifying rare patterns that deviate from the majority in a graph without the aid of labels, which is important for a variety of real-world applications. Recent advances have utilized Graph Neural Networks (GNNs) to learn effective node representations by aggregating information from neighborhoods. This is motivated by the hypothesis that nodes in the graph tend to exhibit consistent behaviors with their neighborhoods. However, such consistency can be disrupted by graph anomalies in multiple ways. Most existing methods directly employ GNNs to learn representations, disregarding the negative impact of graph anomalies on GNNs, resulting in sub-optimal node representations and anomaly detection performance. While a few recent approaches have redesigned GNNs for graph anomaly detection under semi-supervised label guidance, how to address the adverse effects of graph anomalies on GNNs in unsupervised scenarios and learn effective representations for anomaly detection are still under-explored. To bridge this gap, in this paper, we propose a simple yet effective framework for Guarding Graph Neural Networks for Unsupervised Graph Anomaly Detection (G3AD). Specifically, G3AD introduces two auxiliary networks along with correlation constraints to guard the GNNs from inconsistent information encoding. Furthermore, G3AD introduces an adaptive caching module to guard the GNNs from solely reconstructing the observed data that contains anomalies. Extensive experiments demonstrate that our proposed G3AD can outperform seventeen state-of-the-art methods on both synthetic and real-world datasets.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 植木なしの構文学習:トランスフォーマーが階層的に一般化する時期と理由を理解する

Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically ( http://arxiv.org/abs/2404.16367v1 )

ライセンス: Link先を確認
Kabir Ahuja, Vidhisha Balachandran, Madhur Panwar, Tianxing He, Noah A. Smith, Navin Goyal, Yulia Tsvetkov, (参考訳) 自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、構造バイアスを明示的に符号化することなく、目に見えない構文構造を持つ文に一般化することが示されている。 本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動が出現する可能性のあるトレーニングについて検討する。 我々は、複数の合成データセットに基づいて訓練されたトランスフォーマーモデルと異なる訓練目標を用いて広範囲に実験を行い、他の目的である、例えば、シーケンス・ツー・シーケンス・モデリング、プレフィックス言語モデリングは階層的な一般化に至らなかったが、言語モデリングの目的で訓練されたモデルは、階層的に一般化するために一貫して学習された。 次に、言語モデリングの目的である階層構造を符号化するトランスフォーマーがどのように訓練されたかを研究するために、プルーニング実験を行う。 刈り取られると、一般化挙動が異なるモデル(階層構造と線形順序に対応するサブネット)の中にサブネットの結合が存在することが分かる。 線形一般化を示す正規文法と比較して、変換器がデータセット上で階層的に一般化するか否かと、そのデータセットの最も単純な説明が階層文法によって提供されるかどうかの相関関係を確立する。

Transformers trained on natural language data have been shown to learn its hierarchical structure and generalize to sentences with unseen syntactic structures without explicitly encoding any structural bias. In this work, we investigate sources of inductive bias in transformer models and their training that could cause such generalization behavior to emerge. We extensively experiment with transformer models trained on multiple synthetic datasets and with different training objectives and show that while other objectives e.g. sequence-to-sequence modeling, prefix language modeling, often failed to lead to hierarchical generalization, models trained with the language modeling objective consistently learned to generalize hierarchically. We then conduct pruning experiments to study how transformers trained with the language modeling objective encode hierarchical structure. When pruned, we find joint existence of subnetworks within the model with different generalization behaviors (subnetworks corresponding to hierarchical structure and linear order). Finally, we take a Bayesian perspective to further uncover transformers' preference for hierarchical generalization: We establish a correlation between whether transformers generalize hierarchically on a dataset and whether the simplest explanation of that dataset is provided by a hierarchical grammar compared to regular grammars exhibiting linear generalization.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# LLMのジェイルブレイクは拒否を抑える

Don't Say No: Jailbreaking LLM by Suppressing Refusal ( http://arxiv.org/abs/2404.16369v1 )

ライセンス: Link先を確認
Yukai Zhou, Wenjie Wang, (参考訳) 大きな言語モデル(LLM)の安全性の確保は、人間の値に整合した応答を生成する上で不可欠である。 有害なクエリを認識して回避する能力があるにもかかわらず、LSMは「ジェイルブレイク」攻撃に対して脆弱であり、慎重にプロンプトを作れば有害なコンテンツを生み出すことができる。 ジェイルブレイク攻撃の1つのカテゴリは、LDMを誘導して肯定的な応答を生成することで、敵攻撃としてタスクを再編成することである。 しかし、このカテゴリの典型的な攻撃GCGは攻撃成功率に非常に制限がある。 本研究では,脱獄攻撃についてより深く研究するため,DSN(Don't Say No)攻撃を導入した。 加えて、ジェイルブレイク攻撃のもう一つの課題は、攻撃の有害性を直接的かつ正確に評価することが困難であるため、評価である。 Refusalキーワードマッチングのような既存の評価は、多くの偽陽性および偽陰性インスタンスを示すため、独自の制限がある。 この課題を克服するために,自然言語推論(NLI)と2つの外部LCM評価器を組み合わせたアンサンブル評価パイプラインを提案する。 大規模な実験では, DSNの有効性とアンサンブル評価の有効性がベースライン法と比較された。

Ensuring the safety alignment of Large Language Models (LLMs) is crucial to generating responses consistent with human values. Despite their ability to recognize and avoid harmful queries, LLMs are vulnerable to "jailbreaking" attacks, where carefully crafted prompts elicit them to produce toxic content. One category of jailbreak attacks is reformulating the task as adversarial attacks by eliciting the LLM to generate an affirmative response. However, the typical attack in this category GCG has very limited attack success rate. In this study, to better study the jailbreak attack, we introduce the DSN (Don't Say No) attack, which prompts LLMs to not only generate affirmative responses but also novelly enhance the objective to suppress refusals. In addition, another challenge lies in jailbreak attacks is the evaluation, as it is difficult to directly and accurately assess the harmfulness of the attack. The existing evaluation such as refusal keyword matching has its own limitation as it reveals numerous false positive and false negative instances. To overcome this challenge, we propose an ensemble evaluation pipeline incorporating Natural Language Inference (NLI) contradiction assessment and two external LLM evaluators. Extensive experiments demonstrate the potency of the DSN and the effectiveness of ensemble evaluation compared to baseline methods.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 医用画像セグメンテーションのためのマルチモーダル情報インタラクション

Multimodal Information Interaction for Medical Image Segmentation ( http://arxiv.org/abs/2404.16371v1 )

ライセンス: Link先を確認
Xinxin Fan, Lin Liu, Haoran Zhang, (参考訳) 診断・セグメンテーションにおけるマルチモーダルデータの利用は、現在研究において顕著な関心領域となっている。 しかし、主な課題の1つは、マルチモーダル機能を効果的に融合する方法である。 現在のアプローチのほとんどはマルチモーダル機能の統合に重点を置いているが、異なるモーダル機能間の相関や一貫性を無視しているため、潜在的に無関係な情報が含まれる。 この問題に対処するために,マルチモーダル情報クロストランス (MicFormer) を導入し,マルチストリームアーキテクチャを用いて各モーダルから特徴を同時に抽出する。 Cross Transformerを利用することで、あるモダリティから機能をクエリし、対応する応答を別のモダリティから取り出し、バイモーダル機能間の効果的なコミュニケーションを容易にする。 さらに,変形可能なトランスフォーマーアーキテクチャを組み込んで検索空間を拡大する。 我々はMM-WHSデータセットの実験を行い、CT-MRIマルチモーダル画像分割タスクにおいて、全音節分割DICEスコアを85.57、MIoUを75.51に改善した。 他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。 このことは、MicFormerがマルチモーダルタスクにおいて、異なるモーダル間で関連情報を統合する上で有効であることを示す。 これらの発見はマルチモーダル画像タスクに重要な意味を持ち、MicFormerは様々な領域にまたがる幅広い応用の可能性を秘めていると信じている。 私たちのメソッドへのアクセスはhttps://github.com/fxxJuses/MICFormerで利用可能です。

The use of multimodal data in assisted diagnosis and segmentation has emerged as a prominent area of interest in current research. However, one of the primary challenges is how to effectively fuse multimodal features. Most of the current approaches focus on the integration of multimodal features while ignoring the correlation and consistency between different modal features, leading to the inclusion of potentially irrelevant information. To address this issue, we introduce an innovative Multimodal Information Cross Transformer (MicFormer), which employs a dual-stream architecture to simultaneously extract features from each modality. Leveraging the Cross Transformer, it queries features from one modality and retrieves corresponding responses from another, facilitating effective communication between bimodal features. Additionally, we incorporate a deformable Transformer architecture to expand the search space. We conducted experiments on the MM-WHS dataset, and in the CT-MRI multimodal image segmentation task, we successfully improved the whole-heart segmentation DICE score to 85.57 and MIoU to 75.51. Compared to other multimodal segmentation techniques, our method outperforms by margins of 2.83 and 4.23, respectively. This demonstrates the efficacy of MicFormer in integrating relevant information between different modalities in multimodal tasks. These findings hold significant implications for multimodal image tasks, and we believe that MicFormer possesses extensive potential for broader applications across various domains. Access to our method is available at https://github.com/fxxJuses/MICFormer
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# List Items One: A New Data Source and Learning Paradigm for Multimodal LLMs

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs ( http://arxiv.org/abs/2404.16375v1 )

ライセンス: Link先を確認
An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang, (参考訳) Set-of-Mark (SoM) Promptingは、画像に挿入されたタグと視覚オブジェクトを関連付けることによって、GPT-4Vの視覚的接地能力を解き放つ。 アルファ数値でマークされたこれらのタグは、簡単な参照のためにテキストトークンを介してインデックス化することができる。 GPT-4Vの異常な性能にもかかわらず、他のマルチモーダル大言語モデル(MLLM)がこれらの視覚的タグを理解するのに苦労していることが観察された。 オープンソースモデルのSoMプロンプトの学習を促進するため,我々は新たな学習パラダイムである"list items one by one"を提案し,そのモデルに対して,タグのアルファ数値順序に従って画像上に置かれるすべての視覚的タグを列挙して記述するよう求めている。 キュレートしたデータセットを他のビジュアルインストラクションチューニングデータセットと統合することにより、既存のMLLMにSoMプロンプト機能を持たせることができる。 さらに,5つのMLLMベンチマークを用いて,精巧なSoMモデルの評価を行った。 比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。 おそらく驚くべきことに、これらの改善は、推論中に入力画像から視覚タグを省略しても継続する。 このことは、MLLMをトレーニングするための新しいパラダイムとして「リストアイテム1つ」の可能性を示唆しており、トレーニング段階ではビジュアルタグを使用することで、オブジェクト・テキストのアライメントを強化する。 最後に、SoMの動作メカニズムを理解するために、訓練されたモデルを探索して分析を行う。 私たちのコードとデータは、 \url{https://github.com/zzxslp/SoM-LLaVA}で利用可能です。

Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of GPT-4V, by enabling the model to associate visual objects with tags inserted on the image. These tags, marked with alphanumerics, can be indexed via text tokens for easy reference. Despite the extraordinary performance from GPT-4V, we observe that other Multimodal Large Language Models (MLLMs) struggle to understand these visual tags. To promote the learning of SoM prompting for open-source models, we propose a new learning paradigm: "list items one by one," which asks the model to enumerate and describe all visual tags placed on the image following the alphanumeric orders of tags. By integrating our curated dataset with other visual instruction tuning datasets, we are able to equip existing MLLMs with the SoM prompting ability. Furthermore, we evaluate our finetuned SoM models on five MLLM benchmarks. We find that this new dataset, even in a relatively small size (10k-30k images with tags), significantly enhances visual reasoning capabilities and reduces hallucinations for MLLMs. Perhaps surprisingly, these improvements persist even when the visual tags are omitted from input images during inference. This suggests the potential of "list items one by one" as a new paradigm for training MLLMs, which strengthens the object-text alignment through the use of visual tags in the training stage. Finally, we conduct analyses by probing trained models to understand the working mechanism of SoM. Our code and data are available at \url{https://github.com/zzxslp/SoM-LLaVA}.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 最適・バウンドの任意の角度のマルチエージェントパスフィニング

Optimal and Bounded Suboptimal Any-Angle Multi-agent Pathfinding ( http://arxiv.org/abs/2404.16379v1 )

ライセンス: Link先を確認
Konstantin Yakovlev, Anton Andreychuk, Roni Stern, (参考訳) マルチエージェントパスフィンディング(MAPF)は、エージェントの集合に対するコンフリクトフリーパスの集合を見つける問題である。 通常、エージェントの動きは、考えられる位置の事前定義されたグラフに制限され、それらの間の遷移を許容する。 我々は,各エージェントが接続する線分を横切る限り,可能な場所を移動できる場合のMAPF問題の解決方法について検討するが,障害との衝突は起こらない。 これは任意の角度のパスフィニングとして知られている。 提案手法は,最初の最適非角度マルチエージェントパスフィンディングアルゴリズムである。 我々のプランナーは、Continuous Conflict-based Search (CCBS)アルゴリズムと、Safe Interval Path Planning (TO-AA-SIPP)の最適な任意の角度の変形に基づいている。 しかし、これらの直接的な組み合わせは、どの角度の経路も非常に大きな分岐係数を持つ探索木を誘導するので、スケールが良くない。 これを緩和するために、古典的MAPFから任意の角度設定、すなわち Disjoint Splitting と Multi-Constraints への2つの手法を適用する。 これらの組み合わせによる実験結果は、CBSとTO-AA-SIPPのバニラ組み合わせよりも30%以上の問題を解くことができることを示している。 さらに,制御された方法でソリューションコストのトレーディングランタイムを実現するアルゴリズムの,有界-準最適変種を提案する。

Multi-agent pathfinding (MAPF) is the problem of finding a set of conflict-free paths for a set of agents. Typically, the agents' moves are limited to a pre-defined graph of possible locations and allowed transitions between them, e.g. a 4-neighborhood grid. We explore how to solve MAPF problems when each agent can move between any pair of possible locations as long as traversing the line segment connecting them does not lead to the collision with the obstacles. This is known as any-angle pathfinding. We present the first optimal any-angle multi-agent pathfinding algorithm. Our planner is based on the Continuous Conflict-based Search (CCBS) algorithm and an optimal any-angle variant of the Safe Interval Path Planning (TO-AA-SIPP). The straightforward combination of those, however, scales poorly since any-angle path finding induces search trees with a very large branching factor. To mitigate this, we adapt two techniques from classical MAPF to the any-angle setting, namely Disjoint Splitting and Multi-Constraints. Experimental results on different combinations of these techniques show they enable solving over 30% more problems than the vanilla combination of CCBS and TO-AA-SIPP. In addition, we present a bounded-suboptimal variant of our algorithm, that enables trading runtime for solution cost in a controlled manner.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# ディープラーニングにおける小カーネルの高速高次畳み込み

Efficient Higher-order Convolution for Small Kernels in Deep Learning ( http://arxiv.org/abs/2404.16380v1 )

ライセンス: Link先を確認
Zuocheng Wen, Lingzhong Guo, (参考訳) ディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network、DCNN)は、主にセグメンテーションや分類といったコンピュータビジョンタスクのための人工知能ニューラルネットワークのクラスである。 アクティベーション関数やプーリング戦略などの多くの非線形演算は、異なるタスクで異なる信号を処理する能力を高めるためにDCNNで使用される。 線形フィルタである概念畳み込みはDCNNの必須成分であるが、非線形畳み込みは高次ボルテラフィルタとして一般的に実装されている。 本研究では,DCNNトレーニングにおいて,低メモリ・計算コストで高階のVolterraフィルタを実現するための新しい手法を提案する。 提案手法は従来のVolterraフィルタと比較して計算上の優位性を示す。 さらに,提案手法に基づいて,CIFAR-100データセット上でHLA(Higher-order Local Attention Block)と呼ばれる新たなアテンションモジュールを提案し,評価を行った。 ソースコードは、https://github.com/WinterWen666/Efficient-High-Order-Volterra-Convolution.gitで入手できる。

Deep convolutional neural networks (DCNNs) are a class of artificial neural networks, primarily for computer vision tasks such as segmentation and classification. Many nonlinear operations, such as activation functions and pooling strategies, are used in DCNNs to enhance their ability to process different signals with different tasks. Conceptional convolution, a linear filter, is the essential component of DCNNs while nonlinear convolution is generally implemented as higher-order Volterra filters, However, for Volterra filtering, significant memory and computational costs pose a primary limitation for its widespread application in DCNN applications. In this study, we propose a novel method to perform higher-order Volterra filtering with lower memory and computation cost in forward and backward pass in DCNN training. The proposed method demonstrates computational advantages compared with conventional Volterra filter implementation. Furthermore, based on the proposed method, a new attention module called Higher-order Local Attention Block (HLA) is proposed and tested on CIFAR-100 dataset, which shows competitive improvement for classification task. Source code is available at: https://github.com/WinterWen666/Efficient-High-Order-Volterra-Convolution.git
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 焦点の効率性:微調整型医用ビジュアル言語事前学習モデルのための触媒としてのLayerNorm

Efficiency in Focus: LayerNorm as a Catalyst for Fine-tuning Medical Visual Language Pre-trained Models ( http://arxiv.org/abs/2404.16385v1 )

ライセンス: Link先を確認
Jiawei Chen, Dingkang Yang, Yue Jiang, Mingcheng Li, Jinjie Wei, Xiaolu Hou, Lihua Zhang, (参考訳) 医学的視覚言語モデル(Med-VLMs)の領域では、普遍的な効率的な微調整機構の探求が最重要である。 データ範囲の制限やドメイン固有の重要な要件など、医療分野におけるユニークな課題を考えると、Med-VLMに特化したパラメータ効率の良いファインチューニング(PEFT)手法の評価と適応が不可欠である。 Med-VLMの現在のPEFT法の多くは、まだ包括的に研究されていないが、主にモデルの構造や入力にいくつかのコンポーネントを追加することに焦点を当てている。 しかし、微調整の内在的モデル成分は、しばしばより一般性と一貫性が向上し、Med-VLMの最終的な性能への影響は広く見落とされ、未検討のままである。 本稿では,従来のPEFT法に代わる手法,特に微細調整されたLayerNorm層,FFN,Attention層がMed-VLMに与える影響について検討する。 包括的研究は小規模・大規模Med-VLMの両方にまたがっており,医療視覚質問応答や医用画像レポート生成などのタスクにまたがる様々な微調整パラダイムの下で,その性能を評価する。 その結果, 従来のPEFT手法の効率を超越するだけでなく, ダウンストリームタスクの領域にわたってモデルの精度と一般化能力を保ちながら, 下位タスクに対するMDD-VLMを微調整し, 層Norm層のみに微調整を施すことに固有のパラメータ細調整法が与える影響について, ユニークな知見が得られた。 この実験は、特に大規模Med-VLMの文脈において、LayerNormファインチューニングの優れた適応性とスケーラビリティを示す。

In the realm of Medical Visual Language Models (Med-VLMs), the quest for universal efficient fine-tuning mechanisms remains paramount, especially given researchers in interdisciplinary fields are often extremely short of training resources, yet largely unexplored. Given the unique challenges in the medical domain, such as limited data scope and significant domain-specific requirements, evaluating and adapting Parameter-Efficient Fine-Tuning (PEFT) methods specifically for Med-VLMs is essential. Most of the current PEFT methods on Med-VLMs have yet to be comprehensively investigated but mainly focus on adding some components to the model's structure or input. However, fine-tuning intrinsic model components often yields better generality and consistency, and its impact on the ultimate performance of Med-VLMs has been widely overlooked and remains understudied. In this paper, we endeavour to explore an alternative to traditional PEFT methods, especially the impact of fine-tuning LayerNorm layers, FFNs and Attention layers on the Med-VLMs. Our comprehensive studies span both small-scale and large-scale Med-VLMs, evaluating their performance under various fine-tuning paradigms across tasks such as Medical Visual Question Answering and Medical Imaging Report Generation. The findings reveal unique insights into the effects of intrinsic parameter fine-tuning methods on fine-tuning Med-VLMs to downstream tasks and expose fine-tuning solely the LayerNorm layers not only surpasses the efficiency of traditional PEFT methods but also retains the model's accuracy and generalization capabilities across a spectrum of medical downstream tasks. The experiments show LayerNorm fine-tuning's superior adaptability and scalability, particularly in the context of large-scale Med-VLMs.
翻訳日:2024-04-26 14:38:43 公開日:2024-04-25
# 効率的な単眼深度推定のためのクロスアーキテクチャ知識蒸留によるCNNの促進

Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation ( http://arxiv.org/abs/2404.16386v1 )

ライセンス: Link先を確認
Zhimeng Zheng, Tao Huang, Gongsheng Li, Zuyi Wang, (参考訳) 近年,変圧器モデルの統合により,単分子深度推定(MDE)の性能が著しく向上している。 しかし、変圧器モデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。 この制限は、リソース制限されたデバイスへのデプロイメントを妨げる。 本稿では,MDEのクロスアーキテクチャ知識蒸留手法であるDisDepthを提案し,最先端のトランスフォーマーモデルを監督し,効率的なCNNモデルを構築する。 具体的には、まず、畳み込みに基づくMDEの単純なフレームワークを構築し、画像内のローカル情報とグローバル情報の両方をキャプチャするために、新しいローカル・グローバル・畳み込みモジュールで拡張する。 変圧器教師の貴重な情報を効果的に蒸留し, 変圧器特徴と変圧器特徴とのギャップを埋めるために, ゴーストデコーダで教師を順応させる方法を提案する。 ゴーストデコーダは、生徒のデコーダのコピーであり、ゴーストデコーダで教師を適応させることで、元のパフォーマンスを維持しながら学生に優しい特徴を整列させる。 さらに,深度推定に有用な特徴を適応的に同定する注意深い蒸留損失を提案する。 この損失により、学生は注意深い領域に集中し、パフォーマンスを向上させることができる。 KITTIとNYU Depth V2データセットに関する大規模な実験は、DisDepthの有効性を実証している。 提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。

Recently, the performance of monocular depth estimation (MDE) has been significantly boosted with the integration of transformer models. However, the transformer models are usually computationally-expensive, and their effectiveness in light-weight models are limited compared to convolutions. This limitation hinders their deployment on resource-limited devices. In this paper, we propose a cross-architecture knowledge distillation method for MDE, dubbed DisDepth, to enhance efficient CNN models with the supervision of state-of-the-art transformer models. Concretely, we first build a simple framework of convolution-based MDE, which is then enhanced with a novel local-global convolution module to capture both local and global information in the image. To effectively distill valuable information from the transformer teacher and bridge the gap between convolution and transformer features, we introduce a method to acclimate the teacher with a ghost decoder. The ghost decoder is a copy of the student's decoder, and adapting the teacher with the ghost decoder aligns the features to be student-friendly while preserving their original performance. Furthermore, we propose an attentive knowledge distillation loss that adaptively identifies features valuable for depth estimation. This loss guides the student to focus more on attentive regions, improving its performance. Extensive experiments on KITTI and NYU Depth V2 datasets demonstrate the effectiveness of DisDepth. Our method achieves significant improvements on various efficient backbones, showcasing its potential for efficient monocular depth estimation.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# SwarmRL:スマートアクティブシステムの構築

SwarmRL: Building the Future of Smart Active Systems ( http://arxiv.org/abs/2404.16388v1 )

ライセンス: Link先を確認
Samuel Tovey, Christoph Lohrmann, Tobias Merkt, David Zimmer, Konstantin Nikolaou, Simon Koppenhöfer, Anna Bushmakina, Jonas Scheunemann, Christian Holm, (参考訳) この研究は、インテリジェントなアクティブ粒子を研究するために設計されたPythonパッケージであるSwarmRLを紹介する。 SwarmRLは、古典的な制御と深層強化学習アプローチを使用して、顕微鏡コロイドを制御するモデルを開発するための、使いやすいインターフェースを提供する。 これらのモデルは、共通のフレームワークの下でシミュレーションや実環境にデプロイすることができる。 ソフトウェアの構造とその重要な特徴を説明し、研究の加速にどのように使用できるかを示す。 SwarmRLでは,実験科学とシミュレーション科学のギャップを埋めつつ,マイクロロボット制御の研究を効率化することを目的としている。 SwarmRLはGitHubでhttps://github.com/SwarmRL/SwarmRLで公開されている。

This work introduces SwarmRL, a Python package designed to study intelligent active particles. SwarmRL provides an easy-to-use interface for developing models to control microscopic colloids using classical control and deep reinforcement learning approaches. These models may be deployed in simulations or real-world environments under a common framework. We explain the structure of the software and its key features and demonstrate how it can be used to accelerate research. With SwarmRL, we aim to streamline research into micro-robotic control while bridging the gap between experimental and simulation-driven sciences. SwarmRL is available open-source on GitHub at https://github.com/SwarmRL/SwarmRL.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 非エルミート・ハミルトニアンによって支配される量子系の速度限界と熱力学的不確実性関係

Speed limits and thermodynamic uncertainty relations for quantum systems governed by non-Hermitian Hamiltonian ( http://arxiv.org/abs/2404.16392v1 )

ライセンス: Link先を確認
Tomohiro Nishiyama, Yoshihiko Hasegawa, (参考訳) 非エルミート的ハミルトニアンは、開量子系と非平衡力学の記述において重要な役割を果たす。 本稿では,非エルミート・ハミルトニアンが支配する系に対するトレードオフ関係を導出し,元来孤立量子力学から導出される量子速度制限であるマルゴラス・レヴィチンとマンデルスタム・タムの境界に焦点をあてる。 我々はこれらの境界を非エルミート・ハミルトニアンの場合まで拡張し、標準偏差と観測可能な平均との比に関する追加境界を導出し、熱力学の不確実性関係と同じ形式を取る。 例えば、これらの境界を開量子力学の連続的な測度形式に応用し、非エルミート・ハミルトニアンによって誘導される不連続なジャンプと滑らかな進化によって力学が記述される。 我々の研究は、非エルミート・ハミルトニアンの観点から、開量子力学における量子速度限界と熱力学的不確実性の関係について統一的な視点を提供し、過去の研究の結果を拡張した。

Non-Hermitian Hamiltonians play a crucial role in the description of open quantum systems and nonequilibrium dynamics. In this paper, we derive trade-off relations for systems governed by non-Hermitian Hamiltonians, focusing on the Margolus-Levitin and Mandelstam-Tamm bounds, which are quantum speed limits originally derived in isolated quantum dynamics. We extend these bounds to the case of non-Hermitian Hamiltonians and derive additional bounds on the ratio of the standard deviation to the mean of an observable, which take the same form as the thermodynamic uncertainty relation. As an example, we apply these bounds to the continuous measurement formalism in open quantum dynamics, where the dynamics is described by discontinuous jumps and smooth evolution induced by the non-Hermitian Hamiltonian. Our work provides a unified perspective on the quantum speed limit and thermodynamic uncertainty relations in open quantum dynamics from the viewpoint of the non-Hermitian Hamiltonian, extending the results of previous studies.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# ソフトウェアテストにおけるテストケース優先順位付けのためのファジィ推論システム

Fuzzy Inference System for Test Case Prioritization in Software Testing ( http://arxiv.org/abs/2404.16395v1 )

ライセンス: Link先を確認
Aron Karatayev, Anna Ogorodova, Pakizar Shamoi, (参考訳) ソフトウェア開発の世界では、テストはソフトウェアの品質と要件の遵守を保証するために不可欠です。 しかし、特に大規模で複雑なソフトウェアシステムを扱う場合、時間とリソースを消費する可能性がある。 テストケース優先順位付け(TCP)は、早期実行において最も重要なテストケースを特定することによって、テスト効率を高めるための重要な戦略である。 本稿では、ファジィ言語変数とエキスパート由来のファジィルールを用いて、テストケース特性と優先順位付けのリンクを確立することによって、TCPを自動化するファジィ論理に基づく新しいアプローチを提案する。 提案手法では,2つのファジィ変数 – 障害発生率と実行時間 – と,前提条件であるテストケースと最近更新されたフラグ – を併用する。 本研究は,実世界のソフトウェアシステムに対する実験的な検証を通じて,テストケースを効果的にランク付けするシステム能力を示すものである。 その結果、TCPの最適化とソフトウェアテストのリソース強度の低減に、我々のアプローチの実践的適用性を確認した。

In the realm of software development, testing is crucial for ensuring software quality and adherence to requirements. However, it can be time-consuming and resource-intensive, especially when dealing with large and complex software systems. Test case prioritization (TCP) is a vital strategy to enhance testing efficiency by identifying the most critical test cases for early execution. This paper introduces a novel fuzzy logic-based approach to automate TCP, using fuzzy linguistic variables and expert-derived fuzzy rules to establish a link between test case characteristics and their prioritization. Our methodology utilizes two fuzzy variables - failure rate and execution time - alongside two crisp parameters: Prerequisite Test Case and Recently Updated Flag. Our findings demonstrate the proposed system capacity to rank test cases effectively through experimental validation on a real-world software system. The results affirm the practical applicability of our approach in optimizing the TCP and reducing the resource intensity of software testing.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 深層学習による乳癌腫瘍の予測と病理組織からの免疫型

Deep Learning-based Prediction of Breast Cancer Tumor and Immune Phenotypes from Histopathology ( http://arxiv.org/abs/2404.16397v1 )

ライセンス: Link先を確認
Tiago Gonçalves, Dagoberto Pulido-Arias, Julian Willett, Katharina V. Hoebel, Mason Cleveland, Syed Rakin Ahmed, Elizabeth Gerstner, Jayashree Kalpathy-Cramer, Jaime S. Cardoso, Christopher P. Bridge, Albert E. Kim, (参考訳) 腫瘍細胞と腫瘍微小環境(TME)との相互作用は、乳癌における放射線治療と多くの全身療法の治療法を規定する。 しかし、現在までに、各患者の腫瘍に対する腫瘍および免疫性表現型を再現的に測定する方法は広くない。 乳腺腫瘍のヘマトキシリンおよびエオシンスライドから得られた10の生物学的関連経路の活性を評価するために,MILアルゴリズムを適用した。 さまざまな特徴抽出アプローチと最先端のモデルアーキテクチャを採用しました。 2値分類では, ほぼすべての遺伝子発現経路に対してAUROCが0.70以上, 場合によっては0.80以上であった。 注意図は,我々の訓練されたモデルが,細胞サブポピュレーションの生物学的に関連する空間パターンをH&Eから認識していることを示唆している。 これらの取り組みは、TMEの側面を反映し、精度のオンコロジーを増強する約束を果たす計算的H&Eバイオマーカーの開発に向けた第一歩である。

The interactions between tumor cells and the tumor microenvironment (TME) dictate therapeutic efficacy of radiation and many systemic therapies in breast cancer. However, to date, there is not a widely available method to reproducibly measure tumor and immune phenotypes for each patient's tumor. Given this unmet clinical need, we applied multiple instance learning (MIL) algorithms to assess activity of ten biologically relevant pathways from the hematoxylin and eosin (H&E) slide of primary breast tumors. We employed different feature extraction approaches and state-of-the-art model architectures. Using binary classification, our models attained area under the receiver operating characteristic (AUROC) scores above 0.70 for nearly all gene expression pathways and on some cases, exceeded 0.80. Attention maps suggest that our trained models recognize biologically relevant spatial patterns of cell sub-populations from H&E. These efforts represent a first step towards developing computational H&E biomarkers that reflect facets of the TME and hold promise for augmenting precision oncology.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# CLIPに基づくインタラクティブ画像検索のための関連フィードバックの再検討

Revisiting Relevance Feedback for CLIP-based Interactive Image Retrieval ( http://arxiv.org/abs/2404.16398v1 )

ライセンス: Link先を確認
Ryoya Nara, Yu-Chieh Lin, Yuji Nozawa, Youyang Ng, Goh Itoh, Osamu Torii, Yusuke Matsui, (参考訳) 多くの画像検索研究では、メトリック学習を用いて画像エンコーダを訓練している。 しかし、メトリック学習はユーザの好みの違いに対処できず、画像エンコーダのトレーニングにデータを必要とする。 これらの制限を克服するため、インタラクティブ検索システムにおける古典的な手法である関連フィードバックを再検討し、関連フィードバックを用いた対話型CLIPベースの画像検索システムを提案する。 検索システムはまず検索を実行し、各ユーザの独自の好みをバイナリフィードバックで収集し、ユーザが好む画像を返す。 ユーザの好みが多様であっても,検索システムはフィードバックを通じてユーザの好みを学習し,好みに適応する。 さらに,本システムでは,CLIPのゼロショット転送性を活用し,トレーニングなしで高い精度を実現する。 検索システムは,各データセットに特化して画像エンコーダを訓練していないにもかかわらず,カテゴリベース画像検索において最先端のメトリック学習とよく競合することを示す。 さらに,1ラベルによる画像検索と条件付き画像検索の2つの実験環境を設定した。 いずれの場合も,検索システムはユーザの好みに効果的に対応し,フィードバックのない画像検索と比較して精度が向上する。 全体としては、画像検索を改善するためにCLIPと古典的関連フィードバック技術を統合することの潜在的な利点を強調している。

Many image retrieval studies use metric learning to train an image encoder. However, metric learning cannot handle differences in users' preferences, and requires data to train an image encoder. To overcome these limitations, we revisit relevance feedback, a classic technique for interactive retrieval systems, and propose an interactive CLIP-based image retrieval system with relevance feedback. Our retrieval system first executes the retrieval, collects each user's unique preferences through binary feedback, and returns images the user prefers. Even when users have various preferences, our retrieval system learns each user's preference through the feedback and adapts to the preference. Moreover, our retrieval system leverages CLIP's zero-shot transferability and achieves high accuracy without training. We empirically show that our retrieval system competes well with state-of-the-art metric learning in category-based image retrieval, despite not training image encoders specifically for each dataset. Furthermore, we set up two additional experimental settings where users have various preferences: one-label-based image retrieval and conditioned image retrieval. In both cases, our retrieval system effectively adapts to each user's preferences, resulting in improved accuracy compared to image retrieval without feedback. Overall, our work highlights the potential benefits of integrating CLIP with classic relevance feedback techniques to enhance image retrieval.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 行動スーパーバイザチューニングによるオフライン強化学習

Offline Reinforcement Learning with Behavioral Supervisor Tuning ( http://arxiv.org/abs/2404.16399v1 )

ライセンス: Link先を確認
Padmanaba Srinivasan, William Knottenbelt, (参考訳) オフライン強化学習(RL)アルゴリズムは、静的な相互作用のデータセットが提供されると、高性能で汎用的なポリシーを学習するために用いられる。 オフラインRLに対する最近の多くのアプローチは大きな成功を収めているが、ひとつ重要な注意点がある。彼らは報告されたパフォーマンスを達成するために、データ単位のハイパーパラメータチューニングをかなり要求している。 さらに、かなりのチューニング要求は、これらのアルゴリズムを実践的な領域で採用することを妨げる可能性がある。 本稿では,不確実性モデルのトレーニングを行うアルゴリズムである振舞いスーパーバイザチューニング(TD3-BST)を用いたTD3を提案する。 TD3-BSTは、以前の方法と比較してオフラインデータセットからより効果的なポリシーを学習でき、データセットごとのチューニングを必要とせずに、挑戦的なベンチマークで最高のパフォーマンスを達成する。

Offline reinforcement learning (RL) algorithms are applied to learn performant, well-generalizing policies when provided with a static dataset of interactions. Many recent approaches to offline RL have seen substantial success, but with one key caveat: they demand substantial per-dataset hyperparameter tuning to achieve reported performance, which requires policy rollouts in the environment to evaluate; this can rapidly become cumbersome. Furthermore, substantial tuning requirements can hamper the adoption of these algorithms in practical domains. In this paper, we present TD3 with Behavioral Supervisor Tuning (TD3-BST), an algorithm that trains an uncertainty model and uses it to guide the policy to select actions within the dataset support. TD3-BST can learn more effective policies from offline datasets compared to previous methods and achieves the best performance across challenging benchmarks without requiring per-dataset tuning.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 再帰の損失:知識グラフでリッチなイベントセマンティックをマイニングする

Lost in Recursion: Mining Rich Event Semantics in Knowledge Graphs ( http://arxiv.org/abs/2404.16405v1 )

ライセンス: Link先を確認
Florian Plötzky, Niklas Kiehne, Wolf-Tilo Balke, (参考訳) 私たちの世界は様々な複雑さの出来事によって形作られています。 これには、地元のファーマーマーケットのような小規模の地方イベントと、政治的・軍事的紛争のような大規模な複合イベントが含まれる。 後者は通常直接観察されるのではなく、新聞やソーシャルメディアのような仲介者のレンズを通して観察される。 言い換えれば、このような出来事が直接展開されるのを見るのではなく、それらを取り巻く物語に直面することになる。 このような物語は複雑な出来事の異なる側面を捉えており、語り手に関しても異なる場合もある。 したがって、それらは現実世界の出来事に関する豊富な意味論を提供する。 本稿では,複雑な出来事に関する物語を構築・活用する方法について述べる。 複数の詳細レベルを表すために再帰ノードに基づく物語の形式的表現を提供し、イベント中心の知識グラフに物語がどのように結びつくかについて議論する。 さらに、複雑な事象に対する異なる視点を考慮に入れ、テキストからそのような物語をマイニングするインクリメンタルなプロンプト技術に基づくアルゴリズムを提供する。 最後に,概念実証における有効性と今後の研究の方向性を示す。

Our world is shaped by events of various complexity. This includes both small-scale local events like local farmer markets and large complex events like political and military conflicts. The latter are typically not observed directly but through the lenses of intermediaries like newspapers or social media. In other words, we do not witness the unfolding of such events directly but are confronted with narratives surrounding them. Such narratives capture different aspects of a complex event and may also differ with respect to the narrator. Thus, they provide a rich semantics concerning real-world events. In this paper, we show how narratives concerning complex events can be constructed and utilized. We provide a formal representation of narratives based on recursive nodes to represent multiple levels of detail and discuss how narratives can be bound to event-centric knowledge graphs. Additionally, we provide an algorithm based on incremental prompting techniques that mines such narratives from texts to account for different perspectives on complex events. Finally, we show the effectiveness and future research directions in a proof of concept.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# U2++ MoE: RTFへの影響を最小限にした4.7xパラメータのスケーリング

U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF ( http://arxiv.org/abs/2404.16407v1 )

ライセンス: Link先を確認
Xingchen Song, Di Wu, Binbin Zhang, Dinghao Zhou, Zhendong Peng, Bo Dang, Fuping Pan, Chao Yang, (参考訳) スケールは自然言語処理の新たなフロンティアを開放したが、コストは高い。 これに対し,Mixture-of-Experts (MoE) は,学習と推論においてパラメータのサブセットのみを活性化させることによって,より大きく,より能力の高い言語モデルへのエネルギー効率の高い経路として提案され,特に自動音声認識(ASR)分野において,新しい基礎モデルへの移行が勢いを増している。 ASRモデルにMoEを組み込んだ最近の研究は、補足的な埋め込みネットワークによるルーティングフレーム、専門家の多言語能力の向上、専門家の負荷分散や特定の言語処理のための専用の補助的損失の活用といった複雑な設計がなされている。 その結果,全てのフィードフォワードネットワーク(FFN)層に対して,非常に単純なMoE層置換がASRタスクに適していることがわかった。 さらに具体的には,提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークした結果,ベースラインコンバータ(Dense-225M)をMoE(MoE-1B)に拡張し,Dense-225Mレベルのリアルタイムファクタ(RTF)を維持しつつ,Dense-1Bレベルのワードエラー率(WER)を達成できることが判明した。 さらに、双方向アテンションデコーダ(U2++)を備えたUnified 2-passフレームワークの適用により、単一のMoEモデルでストリーミングおよび非ストリーミングデコードモードを実現し、U2++ MoEと呼ぶ。 本研究は, 展開効率を犠牲にすることなく, 音声基礎モデルのスケーリングを促進できることを願っている。

Scale has opened new frontiers in natural language processing, but at a high cost. In response, by learning to only activate a subset of parameters in training and inference, Mixture-of-Experts (MoE) have been proposed as an energy efficient path to even larger and more capable language models and this shift towards a new generation of foundation models is gaining momentum, particularly within the field of Automatic Speech Recognition (ASR). Recent works that incorporating MoE into ASR models have complex designs such as routing frames via supplementary embedding network, improving multilingual ability for the experts, and utilizing dedicated auxiliary losses for either expert load balancing or specific language handling. We found that delicate designs are not necessary, while an embarrassingly simple substitution of MoE layers for all Feed-Forward Network (FFN) layers is competent for the ASR task. To be more specific, we benchmark our proposed model on a large scale inner-source dataset (160k hours), the results show that we can scale our baseline Conformer (Dense-225M) to its MoE counterparts (MoE-1B) and achieve Dense-1B level Word Error Rate (WER) while maintaining a Dense-225M level Real Time Factor (RTF). Furthermore, by applying Unified 2-pass framework with bidirectional attention decoders (U2++), we achieve the streaming and non-streaming decoding modes in a single MoE based model, which we call U2++ MoE. We hope that our study can facilitate the research on scaling speech foundation models without sacrificing deployment efficiency.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 不規則サンプリングされたSentinel-2時系列のクロスセンサ超解像

Cross-sensor super-resolution of irregularly sampled Sentinel-2 time series ( http://arxiv.org/abs/2404.16409v1 )

ライセンス: Link先を確認
Aimi Okabayashi, Nicolas Audebert, Simon Donike, Charlotte Pelletier, (参考訳) 衛星画像は一般的に、取得頻度と画像の空間分解能のトレードオフを示す。 超解像は、両方の世界を最大限に活用する方法としてしばしば進歩している。 本研究では、衛星画像時系列のマルチイメージ超解像、すなわち、異なる日に取得した同じ領域の複数の画像が、高解像度の観測を再現するのに役立つかを調査する。 特に、SRDiffやHighRes-netのような最先端のディープ・シングル・マルチイメージ・スーパーレゾリューション・アルゴリズムを拡張し、不規則にサンプリングされたSentinel-2時系列を扱う。 本稿では,フランスのブルターニュの超高解像度SPOT-6画像を用いた,Sentinel-2時系列の4倍超解像のための新しいデータセットであるBrizhSRを紹介する。 複数の画像を使用することで超解像性能が大幅に向上し、よく設計された時間的位置符号化により、シリーズの異なる時間で超解像を実現できることを示す。 さらに、再構成されたHR画像のスペクトル忠実度と知覚品質のトレードオフを観察し、地球観測データの超解像化に向けた今後の方向性を疑問視する。

Satellite imaging generally presents a trade-off between the frequency of acquisitions and the spatial resolution of the images. Super-resolution is often advanced as a way to get the best of both worlds. In this work, we investigate multi-image super-resolution of satellite image time series, i.e. how multiple images of the same area acquired at different dates can help reconstruct a higher resolution observation. In particular, we extend state-of-the-art deep single and multi-image super-resolution algorithms, such as SRDiff and HighRes-net, to deal with irregularly sampled Sentinel-2 time series. We introduce BreizhSR, a new dataset for 4x super-resolution of Sentinel-2 time series using very high-resolution SPOT-6 imagery of Brittany, a French region. We show that using multiple images significantly improves super-resolution performance, and that a well-designed temporal positional encoding allows us to perform super-resolution for different times of the series. In addition, we observe a trade-off between spectral fidelity and perceptual quality of the reconstructed HR images, questioning future directions for super-resolution of Earth Observation data.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# クエリ拡張を用いたラベルフリートピックフォーカス要約

Label-Free Topic-Focused Summarization Using Query Augmentation ( http://arxiv.org/abs/2404.16411v1 )

ライセンス: Link先を確認
Wenchuan Mu, Kwan Hui Lim, (参考訳) 今日のデータと情報豊富な世界では、重要な情報を抽出し、意思決定と効率を高めるために膨大なテキストを活用するために、要約技術が不可欠である。 特に、トピック中心の要約が重要であるのは、拡張されたテキストの特定の側面にコンテンツを調整できるためである。 しかし、これは通常、広範囲のラベル付きデータセットとかなりの計算能力を必要とする。 本研究では,AQS(Augmented-Query Summarization)という新しい手法を提案する。 このアプローチは、機械学習モデルを要約タスクに転送しやすくし、トピック固有のトレーニングの必要性を回避する。 実世界のテストを通じて,本手法は関連性のある正確な要約を生成する能力を示し,データリッチ環境におけるコスト効率の高いソリューションとしての可能性を示した。 このイノベーションは、トピック中心の要約技術分野における幅広いアプリケーションとアクセシビリティの道を開き、パーソナライズされたコンテンツ抽出のためのスケーラブルで効率的な方法を提供する。

In today's data and information-rich world, summarization techniques are essential in harnessing vast text to extract key information and enhance decision-making and efficiency. In particular, topic-focused summarization is important due to its ability to tailor content to specific aspects of an extended text. However, this usually requires extensive labelled datasets and considerable computational power. This study introduces a novel method, Augmented-Query Summarization (AQS), for topic-focused summarization without the need for extensive labelled datasets, leveraging query augmentation and hierarchical clustering. This approach facilitates the transferability of machine learning models to the task of summarization, circumventing the need for topic-specific training. Through real-world tests, our method demonstrates the ability to generate relevant and accurate summaries, showing its potential as a cost-effective solution in data-rich environments. This innovation paves the way for broader application and accessibility in the field of topic-focused summarization technology, offering a scalable, efficient method for personalized content extraction.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# イベント・Argument 構造抽出のための質問と回答

Asking and Answering Questions to Extract Event-Argument Structures ( http://arxiv.org/abs/2404.16413v1 )

ライセンス: Link先を確認
Md Nayem Uddin, Enfa Rose George, Eduardo Blanco, Steven Corman, (参考訳) 本稿では,文書レベルのイベント処理構造を抽出するための質問応答手法を提案する。 イベントが持つ可能性のある引数タイプ毎に、自動的に質問と回答を行います。 質問は手動で定義されたテンプレートと生成変換器を使って生成される。 テンプレートベースの質問は、事前に定義されたロール固有の単語とコンテキストドキュメントからのイベントトリガを使って生成される。 トランスフォーマーに基づく質問は、パスと期待された回答に基づいて質問を定式化するために訓練された大きな言語モデルを用いて生成される。 さらに,係り受け関係に特有な新たなデータ拡張戦略を開発する。 トレーニングインスタンスを増強するために、単純なスパンスワッピング技術、コア参照解決、および大規模言語モデルを使用します。 提案手法は,コーパス固有の変更を伴わずに移動学習が可能であり,RAMSデータセットと競合する結果が得られる。 これまでの作業よりも優れており、特にイベントトリガと異なる文で現れる引数を抽出することは有益である。 また、最良モデルによる最も一般的な誤りに光を当てる、詳細な定量的および定性的な分析結果も提示する。

This paper presents a question-answering approach to extract document-level event-argument structures. We automatically ask and answer questions for each argument type an event may have. Questions are generated using manually defined templates and generative transformers. Template-based questions are generated using predefined role-specific wh-words and event triggers from the context document. Transformer-based questions are generated using large language models trained to formulate questions based on a passage and the expected answer. Additionally, we develop novel data augmentation strategies specialized in inter-sentential event-argument relations. We use a simple span-swapping technique, coreference resolution, and large language models to augment the training instances. Our approach enables transfer learning without any corpora-specific modifications and yields competitive results with the RAMS dataset. It outperforms previous work, and it is especially beneficial to extract arguments that appear in different sentences than the event trigger. We also present detailed quantitative and qualitative analyses shedding light on the most common errors made by our best model.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# ルテチウム周波数基準の検証

Validating a lutetium frequency reference ( http://arxiv.org/abs/2404.16414v1 )

ライセンス: Link先を確認
Kyle J. Arnold, Scott Bustabad, Qin Qichen, Zhao Zhang, Qi Zhao, Murray D. Barrett, (参考訳) 我々は、単独のイオン化ルテチウムを用いた周波数参照の進展を概観し、近い将来に達成されるであろう不正確なレベルを$^1S_0\leftrightarrow{}^3D_1$と$^1S_0\leftrightarrow{}^3D_2$の遷移で推定する。 確立された実験結果から,$^1S_0\leftrightarrow{}^3D_1$トランジションでは,低い10^{-19}$レベルの不正確な値が容易に得られ,両遷移間の周波数比はほぼBBRシフトによって制限されることを示した。 1つの装置内で測定された周波数比は、遠隔地システムの性能を比較、確立するための明確に定義された指標である、と我々は主張する。 その場周波数比を測定するために、相対論的シフトは減少し、両方の遷移は同じ電磁環境を経験する。 したがって、この比率の不確実性予算は、個々の遷移の不確実性予算と実質的に同一である。 2つ以上のシステムの比率が一致しない場合、少なくとも1つのクロックアセスメントが正しくないことは確実である。 もしそれらが一致すれば、1つの遷移に関するその後の比較は相対論的効果によってのみ異なる。 運動効果は重イオンに対して容易に評価され、典型的には小さいため、微分重力赤方偏移のみが大きく寄与し、第2の遷移との比較によって確認することができる。

We review our progress in developing a frequency reference with singly ionized lutetium and give estimates of the levels of inaccuracy we expect to achieve in the near future with both the $^1S_0\leftrightarrow{}^3D_1$ and $^1S_0\leftrightarrow{}^3D_2$ transitions. Based on established experimental results, we show that inaccuracies at the low $10^{-19}$ level are readily achievable for the $^1S_0\leftrightarrow{}^3D_1$ transition, and the frequency ratio between the two transitions is limited almost entirely by the BBR shift. We argue that the frequency ratio measured within the one apparatus provides a well-defined metric to compare and establish the performance of remotely located systems. For the measurement of an in situ frequency ratio, relativistic shifts drop out and both transitions experience the same electromagnetic environment. Consequently, the uncertainty budget for the ratio is practically identical to the uncertainty budgets for the individual transitions. If the ratios for two or more systems disagree we can be certain at least one of the clock assessments is incorrect. If they agree, subsequent comparisons on one transition would only differ by relativistic effects. Since motional effects are easily assessed and typically small for a heavy ion, only the differential gravitational red-shift will significantly contribute and this can be confirmed by comparison on the second transition.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 半教師あり行動認識のための識別時空間表現の学習

Learning Discriminative Spatio-temporal Representations for Semi-supervised Action Recognition ( http://arxiv.org/abs/2404.16416v1 )

ライセンス: Link先を確認
Yu Wang, Sanping Zhou, Kun Xia, Le Wang, (参考訳) 半教師付き行動認識は,少数のラベル付きデータと大量のラベル付きデータによる時空間推論能力の向上を目的としている。 近年の進歩にもかかわらず、既存の強力な手法は、類似の時空間情報と異なる行動の区別の限界として具体化された、ラベル付きデータ不足の下で曖昧な予測を行う傾向にある。 本稿では,識別的空間モデリングと時間構造モデリングという2つの能力のモデルに,識別的時空間表現を学習するための2つの側面を付与することで,この問題に対処する。 具体的には,適応的コントラスト学習(Adaptive Contrastive Learning~ACL)戦略を提案する。 ラベル付きデータのクラスプロトタイプを用いて、すべてのラベル付きサンプルの信頼性を評価し、擬ラベル付きサンプルバンクから正負のサンプルを適応的に選択し、コントラスト学習を構築する。 さらに,マルチスケールテンポラルラーニング(MTL)戦略を導入する。 長期的なクリップからの情報的意味を強調し、ノイズの多い情報を抑えながら、それらを短期的なクリップに統合することができる。 その後、これらの2つの新しいテクニックは統合されたフレームワークに統合され、モデルが正確な予測を行うように促される。 UCF101, HMDB51, Kinetics400の大規模実験により, 従来の最先端手法に比べて, 提案手法の優位性を示した。

Semi-supervised action recognition aims to improve spatio-temporal reasoning ability with a few labeled data in conjunction with a large amount of unlabeled data. Albeit recent advancements, existing powerful methods are still prone to making ambiguous predictions under scarce labeled data, embodied as the limitation of distinguishing different actions with similar spatio-temporal information. In this paper, we approach this problem by empowering the model two aspects of capability, namely discriminative spatial modeling and temporal structure modeling for learning discriminative spatio-temporal representations. Specifically, we propose an Adaptive Contrastive Learning~(ACL) strategy. It assesses the confidence of all unlabeled samples by the class prototypes of the labeled data, and adaptively selects positive-negative samples from a pseudo-labeled sample bank to construct contrastive learning. Additionally, we introduce a Multi-scale Temporal Learning~(MTL) strategy. It could highlight informative semantics from long-term clips and integrate them into the short-term clip while suppressing noisy information. Afterwards, both of these two new techniques are integrated in a unified framework to encourage the model to make accurate predictions. Extensive experiments on UCF101, HMDB51 and Kinetics400 show the superiority of our method over prior state-of-the-art approaches.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 量子機械学習におけるロバスト性向上のための最適ノイズチャネルの構築

Constructing Optimal Noise Channels for Enhanced Robustness in Quantum Machine Learning ( http://arxiv.org/abs/2404.16417v1 )

ライセンス: Link先を確認
David Winderl, Nicola Franco, Jeanette Miriam Lorenz, (参考訳) 量子機械学習(QML)の急速な進歩により、敵の攻撃に対するセキュリティ対策を強化し、QMLモデルを保護するための重要な必要性が高まっている。 本研究では、本質的に$\epsilon$-DP:$(\alpha, \gamma)$-channelsであるノイズチャネル群を構築することにより、量子ノイズチャネルと差分プライバシー(DP)の接続を概説する。 提案手法により, 脱分極およびランダムな回転チャネルで観測された$\epsilon$-DP境界を再現し, フレームワークの広範な一般化を確認した。 さらに、最適にロバストなチャネルを構築するために半定的なプログラムを使用する。 小型な実験実験では、ノイズの偏極化よりも最適なノイズチャネルを用いることで、特に対向精度を高める効果が示された。 さらに、変数 $\alpha$ と $\gamma$ が証明可能なロバスト性にどのように影響するかを評価し、異なるエンコーディング手法が分類器のロバスト性にどのように影響するかを調べる。

With the rapid advancement of Quantum Machine Learning (QML), the critical need to enhance security measures against adversarial attacks and protect QML models becomes increasingly evident. In this work, we outline the connection between quantum noise channels and differential privacy (DP), by constructing a family of noise channels which are inherently $\epsilon$-DP: $(\alpha, \gamma)$-channels. Through this approach, we successfully replicate the $\epsilon$-DP bounds observed for depolarizing and random rotation channels, thereby affirming the broad generality of our framework. Additionally, we use a semi-definite program to construct an optimally robust channel. In a small-scale experimental evaluation, we demonstrate the benefits of using our optimal noise channel over depolarizing noise, particularly in enhancing adversarial accuracy. Moreover, we assess how the variables $\alpha$ and $\gamma$ affect the certifiable robustness and investigate how different encoding methods impact the classifier's robustness.
翻訳日:2024-04-26 14:28:55 公開日:2024-04-25
# 特定のタスクに対する指示調整におけるシンプルで効果的なタスク選択手法である指示事項

Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks ( http://arxiv.org/abs/2404.16418v1 )

ライセンス: Link先を確認
Changho Lee, Janghoon Han, Seonghyeon Ye, Stanley Jungkyu Choi, Honglak Lee, Kyunghoon Bae, (参考訳) インストラクションチューニングは、様々なタスクにおけるゼロショット一般化を向上するだけでなく、特定のタスクのパフォーマンスを向上させる効果も示している。 特定のタスクの命令チューニングにおける重要な側面は、意味のある監督を提供する関連するタスクの戦略的選択であり、それによって効率を向上し、無関係なタスクによるパフォーマンス劣化を防ぐ。 そこで本研究では,インストラクション情報であるtextit{alone}を活用することで,インストラクションチューニングにおける関連するタスクの識別が可能であることを明らかにした。 このアプローチは、タスク間のペア転送可能性の複雑な測定や、対象タスクのためのデータサンプルの作成を必要とする従来の方法と比較して、特に単純である。 さらに、メタデータセットのユニークな命令テンプレートスタイルを学習することにより、タスク選択精度の向上が観察され、全体的なパフォーマンスの向上に寄与する。 実験の結果、命令のみに基づいて選択されたタスクの小さなセットでのトレーニングは、P3、Big-Bench、NIV2、Big-Bench Hardといったベンチマークの大幅なパフォーマンス改善につながることが示された。 これらの改善は,従来のタスク選択手法よりも優れており,本手法の有効性を強調している。

Instruction tuning has shown its ability to not only enhance zero-shot generalization across various tasks but also its effectiveness in improving the performance of specific tasks. A crucial aspect in instruction tuning for a particular task is a strategic selection of related tasks that offer meaningful supervision, thereby enhancing efficiency and preventing performance degradation from irrelevant tasks. Our research reveals that leveraging instruction information \textit{alone} enables the identification of pertinent tasks for instruction tuning. This approach is notably simpler compared to traditional methods that necessitate complex measurements of pairwise transferability between tasks or the creation of data samples for the target task. Furthermore, by additionally learning the unique instructional template style of the meta-dataset, we observe an improvement in task selection accuracy, which contributes to enhanced overall performance. Experimental results demonstrate that training on a small set of tasks, chosen solely based on the instructions, leads to substantial performance improvements on benchmarks like P3, Big-Bench, NIV2, and Big-Bench Hard. Significantly, these improvements exceed those achieved by prior task selection methods, highlighting the efficacy of our approach.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# SynCellFactory: 細胞追跡のための生成データ拡張

SynCellFactory: Generative Data Augmentation for Cell Tracking ( http://arxiv.org/abs/2404.16421v1 )

ライセンス: Link先を確認
Moritz Sturm, Lorenzo Cerrone, Fred A. Hamprecht, (参考訳) 細胞追跡は、生体医学研究において依然として重要な課題である。 この目的のためのディープラーニングの潜在能力は、包括的かつ多様なトレーニングデータセットの可用性が制限されているため、しばしば取り除かれます。 本稿では,SynCellFactoryについて述べる。 SynCellFactoryの中心には、スタイルや動きのパターンにおいて、セルイメージをフォトリアリスティックな精度で合成するように微調整されたControlNetアーキテクチャがある。 この技術は、本物の顕微鏡タイムラプスの複雑さを反映した合成的で現実的な細胞ビデオを作成することができる。 実験により,SynCellFactoryはセル追跡のためのよく確立されたディープラーニングモデルの性能を向上することを示した。

Cell tracking remains a pivotal yet challenging task in biomedical research. The full potential of deep learning for this purpose is often untapped due to the limited availability of comprehensive and varied training data sets. In this paper, we present SynCellFactory, a generative cell video augmentation. At the heart of SynCellFactory lies the ControlNet architecture, which has been fine-tuned to synthesize cell imagery with photorealistic accuracy in style and motion patterns. This technique enables the creation of synthetic yet realistic cell videos that mirror the complexity of authentic microscopy time-lapses. Our experiments demonstrate that SynCellFactory boosts the performance of well-established deep learning models for cell tracking, particularly when original training data is sparse.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 事前学習した3次元点クラウドモデルのロバスト微調整

Robust Fine-tuning for Pre-trained 3D Point Cloud Models ( http://arxiv.org/abs/2404.16422v1 )

ライセンス: Link先を確認
Zhibo Zhang, Ximing Yang, Weizhong Zhang, Cheng Jin, (参考訳) 本稿では、下流の微調整モデルにおける特徴的ロバスト性を高めるために、事前訓練された3Dポイントクラウドモデルのために設計されたロバストな微調整手法を提案する。 我々は、現在の微調整手法の限界とロバストモデル学習の課題を強調した。 Weight-Space Ensembles for Fine-Tuning then Linear Probing (WiSE-FT-LP) と呼ばれる提案手法は,従来の事前学習モデルと微調整モデルを重み空間の統合により統合する。 このアプローチは、分布シフト中の下流の微調整モデルの性能を著しく向上させ、目標分布における高い性能を維持しつつ、特徴の堅牢性を向上させる。 この頑健な微調整法を、主流の3Dポイントクラウド事前訓練モデルに適用し、モデルパラメータの品質と下流タスク性能の劣化を評価する。 実験により,WiSE-FT-LPがモデル構造を変化させることなく,下流タスク性能とモデル特徴のロバスト性を効果的にバランスし,モデルロバスト性を高める効果が示された。

This paper presents a robust fine-tuning method designed for pre-trained 3D point cloud models, to enhance feature robustness in downstream fine-tuned models. We highlight the limitations of current fine-tuning methods and the challenges of learning robust models. The proposed method, named Weight-Space Ensembles for Fine-Tuning then Linear Probing (WiSE-FT-LP), integrates the original pre-training and fine-tuning models through weight space integration followed by Linear Probing. This approach significantly enhances the performance of downstream fine-tuned models under distribution shifts, improving feature robustness while maintaining high performance on the target distribution. We apply this robust fine-tuning method to mainstream 3D point cloud pre-trained models and evaluate the quality of model parameters and the degradation of downstream task performance. Experimental results demonstrate the effectiveness of WiSE-FT-LP in enhancing model robustness, effectively balancing downstream task performance and model feature robustness without altering the model structures.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# ニューラルアセンブラ:多視点画像から細粒度ロボット組立命令を生成する学習

Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images ( http://arxiv.org/abs/2404.16423v1 )

ライセンス: Link先を確認
Hongyu Yan, Yadong Mu, (参考訳) 画像誘導オブジェクトアセンブリは、コンピュータビジョンにおける急成長する研究トピックである。 本稿では, 構造的3Dモデルのマルチビュー画像(例えば, 3Dオブジェクトライブラリから描画されたブロックで構築したもの)を, ロボットアームで実行可能な組立命令の詳細なシーケンスに変換するという, 新たな課題を紹介する。 複製のためのターゲット3Dモデルのマルチビュー画像を用いて、このタスクのために設計されたモデルは、3Dモデルの構築に使用される個々のコンポーネントを認識し、各コンポーネントの幾何学的ポーズを推定し、物理規則に忠実な実行可能な組み立て順序を推論するなど、いくつかのサブタスクに対処する必要がある。 多視点画像と3Dオブジェクトの正確な2D-3D対応を確立することは技術的に困難である。 そこで我々はニューラルアセンブラ(Neural Assembler)と呼ばれるエンドツーエンドモデルを提案する。 このモデルは,各頂点が画像から認識された成分を表すオブジェクトグラフを学習し,エッジが3次元モデルのトポロジを規定し,組立計画の導出を可能にする。 我々は,このタスクのベンチマークを作成し,ニューラルアセンブラと代替ソリューションの総合的な実験評価を行う。 我々の実験は明らかにニューラルアセンブラの優位性を示している。

Image-guided object assembly represents a burgeoning research topic in computer vision. This paper introduces a novel task: translating multi-view images of a structural 3D model (for example, one constructed with building blocks drawn from a 3D-object library) into a detailed sequence of assembly instructions executable by a robotic arm. Fed with multi-view images of the target 3D model for replication, the model designed for this task must address several sub-tasks, including recognizing individual components used in constructing the 3D model, estimating the geometric pose of each component, and deducing a feasible assembly order adhering to physical rules. Establishing accurate 2D-3D correspondence between multi-view images and 3D objects is technically challenging. To tackle this, we propose an end-to-end model known as the Neural Assembler. This model learns an object graph where each vertex represents recognized components from the images, and the edges specify the topology of the 3D model, enabling the derivation of an assembly plan. We establish benchmarks for this task and conduct comprehensive empirical evaluations of Neural Assembler and alternative solutions. Our experiments clearly demonstrate the superiority of Neural Assembler.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 空中画像からの深度監視型ニューラルサーフェス再構成

Depth Supervised Neural Surface Reconstruction from Airborne Imagery ( http://arxiv.org/abs/2404.16429v1 )

ライセンス: Link先を確認
Vincent Hackstein, Paul Fauth-Mayer, Matthias Rothermel, Norbert Haala, (参考訳) 当初、新しいビュー合成のために開発されたが、最近、マルチビューステレオ (MVS) の代替としてNeural Radiance Fields (NeRF) が登場した。 特にテクスチャのない、透明で、反射する表面に対して有望な結果が得られたが、従来のMVSベースのアプローチではそのようなシナリオは難しいままである。 しかし、これらの調査のほとんどは近距離シナリオに焦点を当てており、空域シナリオの研究はいまだに欠落している。 この課題のために、NeRFは、ストリートキャニオンやファサード、ビルディングシャドーに見られるように、画像冗長性の低い領域や弱いデータ証拠で潜在的に困難に直面している。 さらに、そのようなネットワークのトレーニングには計算コストがかかる。 まず,ナディルのみ,斜め,高解像度の画像など,異なる特徴を示す空中画像ブロックに対するNeRFの適用性について検討する。 第2に、これらの調査において、予め提案されたバンドルブロック調整時に提供されるタイポイント測度からの奥行き事前の統合の利点を実証する。 我々の研究は,3次元シーンを符号付き距離関数(SDF)でモデル化する最先端のフレームワークであるVolSDFをベースとしている。 評価のために、NeRFベースの再構成は、空中画像のための公開ベンチマークデータセットの結果と比較される。

While originally developed for novel view synthesis, Neural Radiance Fields (NeRFs) have recently emerged as an alternative to multi-view stereo (MVS). Triggered by a manifold of research activities, promising results have been gained especially for texture-less, transparent, and reflecting surfaces, while such scenarios remain challenging for traditional MVS-based approaches. However, most of these investigations focus on close-range scenarios, with studies for airborne scenarios still missing. For this task, NeRFs face potential difficulties at areas of low image redundancy and weak data evidence, as often found in street canyons, facades or building shadows. Furthermore, training such networks is computationally expensive. Thus, the aim of our work is twofold: First, we investigate the applicability of NeRFs for aerial image blocks representing different characteristics like nadir-only, oblique and high-resolution imagery. Second, during these investigations we demonstrate the benefit of integrating depth priors from tie-point measures, which are provided during presupposed Bundle Block Adjustment. Our work is based on the state-of-the-art framework VolSDF, which models 3D scenes by signed distance functions (SDFs), since this is more applicable for surface reconstruction compared to the standard volumetric representation in vanilla NeRFs. For evaluation, the NeRF-based reconstructions are compared to results of a publicly available benchmark dataset for airborne images.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# Point-JEPA: Point Cloud上での自己教師付き学習のための予測アーキテクチャのインテグレーション

Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud ( http://arxiv.org/abs/2404.16432v1 )

ライセンス: Link先を確認
Ayumu Saito, Jiju Poovvancheri, (参考訳) クラウド領域における自己教師型学習の最近の進歩は、大きな可能性を秘めている。 しかし、これらの手法は、長い事前訓練時間、入力空間における再構成の必要性、追加のモダリティの必要性といった欠点に悩まされることが多い。 これらの問題に対処するために,ポイントクラウドデータ用に設計された統合組込み予測アーキテクチャであるPoint-JEPAを紹介する。 そこで本研究では,ターゲット選択やコンテキスト選択の際のインデックスに基づいて,トークンの近接を効率的に計算し,利用するために,ポイントクラウドトークンを順序付けするシーケンサを提案する。 シーケンサはまた、コンテキストとターゲット選択に近接するトークンの共有計算を可能にし、効率をさらに向上する。 提案手法は,入力空間の再構成や追加のモダリティを回避しつつ,最先端手法による競合的な結果を得る。

Recent advancements in self-supervised learning in the point cloud domain have demonstrated significant potential. However, these methods often suffer from drawbacks, including lengthy pre-training time, the necessity of reconstruction in the input space, or the necessity of additional modalities. In order to address these issues, we introduce Point-JEPA, a joint embedding predictive architecture designed specifically for point cloud data. To this end, we introduce a sequencer that orders point cloud tokens to efficiently compute and utilize tokens proximity based on their indices during target and context selection. The sequencer also allows shared computations of the tokens proximity between context and target selection, further improving the efficiency. Experimentally, our method achieves competitive results with state-of-the-art methods while avoiding the reconstruction in the input space or additional modality.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 海洋生物音響学における越流学習のための熱帯礁・鳥・無関係音の活用

Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics ( http://arxiv.org/abs/2404.16436v1 )

ライセンス: Link先を確認
Ben Williams, Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Eleni Triantafillou, Abram B. Fleishman, Matthew McKown, Jill E. Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, Kate E. Jones, Tom Denton, (参考訳) 機械学習は、環境評価のためのパッシブ音響モニタリング(PAM)に革命をもたらす可能性がある。 しかし、高いアノテーションと計算コストは、フィールドの有効性を制限する。 一般化可能な事前訓練ネットワークはこれらのコストを克服することができるが、高品質な事前訓練には膨大な注釈付きライブラリが必要である。 ここではサンゴ礁生物音響学を用いてデータ不足領域に対する最適事前学習戦略を同定する。 ReefSetは大きなアノテートされたサンゴ礁音のライブラリである。 数発の転送学習性能をテストすることにより,鳥の音声による事前学習は,ReefSetや無関係の音声による事前学習に比べ,顕著に優れた一般化性が得られることがわかった。 しかし,本研究の鍵となる知見は,鳥類,サンゴ礁,無関係なオーディオを利用したクロスドメイン混合が,サンゴ礁の汎用性を最大化することである。 事前訓練されたネットワークであるSurfPerchは、最小限のアノテーションと計算コストで海洋PAMデータを自動解析するための強力な基盤を提供する。

Machine learning has the potential to revolutionize passive acoustic monitoring (PAM) for ecological assessments. However, high annotation and compute costs limit the field's efficacy. Generalizable pretrained networks can overcome these costs, but high-quality pretraining requires vast annotated libraries, limiting its current applicability primarily to bird taxa. Here, we identify the optimum pretraining strategy for a data-deficient domain using coral reef bioacoustics. We assemble ReefSet, a large annotated library of reef sounds, though modest compared to bird libraries at 2% of the sample count. Through testing few-shot transfer learning performance, we observe that pretraining on bird audio provides notably superior generalizability compared to pretraining on ReefSet or unrelated audio alone. However, our key findings show that cross-domain mixing which leverages bird, reef and unrelated audio during pretraining maximizes reef generalizability. SurfPerch, our pretrained network, provides a strong foundation for automated analysis of marine PAM data with minimal annotation and compute costs.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# LLMの潜在空間による文脈分類の強化

Contextual Categorization Enhancement through LLMs Latent-Space ( http://arxiv.org/abs/2404.16442v1 )

ライセンス: Link先を確認
Zineddine Bettouche, Anas Safi, Andreas Fischer, (参考訳) ウィキペディアのような大きなテキストデータセットで分類のセマンティックな品質を管理することは、複雑さとコストの観点から大きな課題を提示している。 本稿では,ウィキペディアデータセットとその関連カテゴリのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。 次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。 グラフィカルなアプローチはConvex Hullによって実現されていますが、階層的アプローチには階層的ナビゲート可能な小型世界(HNSW)を使用します。 次元減少による情報損失の解として、次の数学的解を変調する: テキストカテゴリーの高次元符号化間のユークリッド距離によって駆動される指数減衰関数。 この関数は、コンテキストカテゴリを中心に構築されたフィルタを表し、あるReconsideration Probability (RP)でアイテムを検索する。 高RP項目を取得することは、データベース管理者がコンテクストフレームワーク内でレコメンデーションを提供し、外れ値を特定することで、データグループ化を改善するためのツールとして機能する。

Managing the semantic quality of the categorization in large textual datasets, such as Wikipedia, presents significant challenges in terms of complexity and cost. In this paper, we propose leveraging transformer models to distill semantic information from texts in the Wikipedia dataset and its associated categories into a latent space. We then explore different approaches based on these encodings to assess and enhance the semantic identity of the categories. Our graphical approach is powered by Convex Hull, while we utilize Hierarchical Navigable Small Worlds (HNSWs) for the hierarchical approach. As a solution to the information loss caused by the dimensionality reduction, we modulate the following mathematical solution: an exponential decay function driven by the Euclidean distances between the high-dimensional encodings of the textual categories. This function represents a filter built around a contextual category and retrieves items with a certain Reconsideration Probability (RP). Retrieving high-RP items serves as a tool for database administrators to improve data groupings by providing recommendations and identifying outliers within a contextual framework.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 力学系における部分微分方程式の発見の自動化

Automating the Discovery of Partial Differential Equations in Dynamical Systems ( http://arxiv.org/abs/2404.16444v1 )

ライセンス: Link先を確認
Weizhen Li, Rui Carvalho, (参考訳) データから偏微分方程式(PDE)を同定することは自然現象の制御機構を理解する上で重要であるが、それでも難しい課題である。 本稿では,ARGOSフレームワークであるARGOS-RALの拡張について述べる。 本手法は,部分微分の計算を自動化し,候補ライブラリを構築し,スパースモデルを推定する。 各種ノイズレベルおよびサンプルサイズの下での標準PDEの同定におけるARGOS-RALの性能を厳格に評価し,ノイズや不均一な分散データを扱う際の頑健さを実証した。 また、ランダムノイズのみからなるデータセット上でのアルゴリズムの性能テストを行い、データ品質を著しく損なうシナリオをシミュレートする。 以上の結果から,ARGOS-ALはデータから基礎となるPDEを効果的かつ確実に同定し,ほとんどの場合において逐次しきい値リッジ回帰法よりも優れていることがわかった。 本稿では, 統計的手法, 機械学習, 動的システム理論を組み合わせることで, 収集したデータから制御方程式を自動的に発見し, 科学的モデリングプロセスの合理化の可能性を強調する。

Identifying partial differential equations (PDEs) from data is crucial for understanding the governing mechanisms of natural phenomena, yet it remains a challenging task. We present an extension to the ARGOS framework, ARGOS-RAL, which leverages sparse regression with the recurrent adaptive lasso to identify PDEs from limited prior knowledge automatically. Our method automates calculating partial derivatives, constructing a candidate library, and estimating a sparse model. We rigorously evaluate the performance of ARGOS-RAL in identifying canonical PDEs under various noise levels and sample sizes, demonstrating its robustness in handling noisy and non-uniformly distributed data. We also test the algorithm's performance on datasets consisting solely of random noise to simulate scenarios with severely compromised data quality. Our results show that ARGOS-RAL effectively and reliably identifies the underlying PDEs from data, outperforming the sequential threshold ridge regression method in most cases. We highlight the potential of combining statistical methods, machine learning, and dynamical systems theory to automatically discover governing equations from collected data, streamlining the scientific modeling process.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 非エルミート波乱による波動関数の崩壊

Wavefunction collapse driven by non-Hermitian disturbance ( http://arxiv.org/abs/2404.16445v1 )

ライセンス: Link先を確認
Jorge Martinez Romeral, Luis E. F. Foa Torres, Stephan Roche, (参考訳) 測定問題の文脈では、非エルミート的ハミルトン項を用いて量子粒子と「アパラトゥス」との相互作用をモデル化することを提案する。 我々は、正規化された量子状態の時間的進化を、(スターン・ゲラルハの実験を通して)2つのスピン成分に分割し、非エルミート的ハタノ・ネルソン・ハミルトンによって駆動される波動関数の崩壊をシミュレートする。 さらに, 非エルミート摂動の強度およびその他のパラメータが, Schr\"{o}dinger型進化の下で得られる波動関数の時間-時間-崩壊にどう影響するかを解析した。 我々は最後に、装置の操作が標準的な量子力学予測に挑戦できる思考実験について論じる。

In the context of the measurement problem, we propose to model the interaction between a quantum particle and an "apparatus" through a non-Hermitian Hamiltonian term. We simulate the time evolution of a normalized quantum state split into two spin components (via a Stern-Gerlach experiment) and that undergoes a wave-function collapse driven by a non-Hermitian Hatano-Nelson Hamiltonian. We further analyze how the strength and other parameters of the non-Hermitian perturbation influence the time-to-collapse of the wave function obtained under a Schr\"{o}dinger-type evolution. We finally discuss a thought experiment where manipulation of the apparatus could challenge standard quantum mechanics predictions.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 離散対数分解と計算のための最近の量子アルゴリズムの無条件正当性

Unconditional correctness of recent quantum algorithms for factoring and computing discrete logarithms ( http://arxiv.org/abs/2404.16450v1 )

ライセンス: Link先を確認
Cédric Pilatte, (参考訳) 1994年、ショアは整数を分解し、多項式時間で離散対数を計算するために有名な量子アルゴリズムを導入した。 2023年、レジチェフはショアのアルゴリズムの多次元バージョンを提案し、より少ない量子ゲートを必要とした。 彼のアルゴリズムは、非常に小さな素数の短い積として記述できる$(\mathbb{Z}/N\mathbb{Z})^{\times}$の要素に関する数論的な予想に依存する。 ゼロ密度推定のような解析的数論のツールを用いて、この予想のバージョンを証明する。 その結果、改良された量子アルゴリズムとその後の変種に対する無条件の正当性の証明が得られる。

In 1994, Shor introduced his famous quantum algorithm to factor integers and compute discrete logarithms in polynomial time. In 2023, Regev proposed a multi-dimensional version of Shor's algorithm that requires far fewer quantum gates. His algorithm relies on a number-theoretic conjecture on the elements in $(\mathbb{Z}/N\mathbb{Z})^{\times}$ that can be written as short products of very small prime numbers. We prove a version of this conjecture using tools from analytic number theory such as zero-density estimates. As a result, we obtain an unconditional proof of correctness of this improved quantum algorithm and of subsequent variants.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 計算最適連続画像表現のための潜在変調関数

Latent Modulated Function for Computational Optimal Continuous Image Representation ( http://arxiv.org/abs/2404.16451v1 )

ライセンス: Link先を確認
Zongyao He, Zhi Jin, (参考訳) 近年のローカル・インプリシット・イメージ機能(LIIF)とインプリシット・ニューラル・リ表現(INR)に基づく研究は、MLPを用いて低解像度(LR)特徴をデコードすることで、任意スケール超解法(ASSR)において顕著な成功を収めている。 しかし、これらの連続画像表現は通常、高分解能(HR)高次元(HD)空間で復号化を実装しており、計算コストが2次的に増加し、ASSRの実用的な応用を著しく妨げている。 この問題に対処するため,我々は,HR-HD復号処理をLR-HD空間における共有潜在復号法とHR低次元(LD)空間における独立レンダリングに分離し,連続画像表現の最初の計算的最適パラダイムを実現する新しい遅延変調関数(LMF)を提案する。 具体的には、LMFは遅延空間内のHD MLPを使用して、各LR特徴ベクトルの潜時変調を生成する。 これにより、レンダリング空間における変調LD MLPは、任意の入力特徴ベクトルに迅速に適応し、任意の解像度でレンダリングを行うことができる。 さらに、変調強度と入力画像複雑性の正の相関を利用して、制御可能なマルチスケールレンダリング(CMSR)アルゴリズムを設計し、レンダリング精度に基づいてデコード効率を調整する柔軟性を提供する。 大規模な実験では、既存のINRベースのASSR法をLMFに変換することで、計算コストを最大99.9%削減し、推論を57回加速し、パラメータの最大76%を削減し、競争性能を維持している。 コードはhttps://github.com/HeZongyao/LMFで公開されている。

The recent work Local Implicit Image Function (LIIF) and subsequent Implicit Neural Representation (INR) based works have achieved remarkable success in Arbitrary-Scale Super-Resolution (ASSR) by using MLP to decode Low-Resolution (LR) features. However, these continuous image representations typically implement decoding in High-Resolution (HR) High-Dimensional (HD) space, leading to a quadratic increase in computational cost and seriously hindering the practical applications of ASSR. To tackle this problem, we propose a novel Latent Modulated Function (LMF), which decouples the HR-HD decoding process into shared latent decoding in LR-HD space and independent rendering in HR Low-Dimensional (LD) space, thereby realizing the first computational optimal paradigm of continuous image representation. Specifically, LMF utilizes an HD MLP in latent space to generate latent modulations of each LR feature vector. This enables a modulated LD MLP in render space to quickly adapt to any input feature vector and perform rendering at arbitrary resolution. Furthermore, we leverage the positive correlation between modulation intensity and input image complexity to design a Controllable Multi-Scale Rendering (CMSR) algorithm, offering the flexibility to adjust the decoding efficiency based on the rendering precision. Extensive experiments demonstrate that converting existing INR-based ASSR methods to LMF can reduce the computational cost by up to 99.9%, accelerate inference by up to 57 times, and save up to 76% of parameters, while maintaining competitive performance. The code is available at https://github.com/HeZongyao/LMF.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# PAD: 敵対的パッチ攻撃に対するパッチ非依存の防御

PAD: Patch-Agnostic Defense against Adversarial Patch Attacks ( http://arxiv.org/abs/2404.16452v1 )

ライセンス: Link先を確認
Lihua Jing, Rui Wang, Wenqi Ren, Xin Dong, Cong Zou, (参考訳) 敵のパッチ攻撃は現実の物体検出装置に重大な脅威をもたらす。 既存の防衛手法は、攻撃データや事前知識に依存しており、幅広い敵のパッチに効果的に対応するのに苦労している。 本稿では,敵対パッチの特徴,意味的独立性,空間的不均一性,外見,形状,大きさ,量,位置によらない2つの特徴を示す。 セマンティック・インデペンデンス(Semantic independent)は、対向的パッチが意味的コンテキスト内で自律的に動作していることを示し、空間的不均一性は、独立生成プロセスによって元のクリーン画像とは異なるパッチ領域の別の画像品質として表される。 これらの観測に基づいて,事前知識や追加訓練を必要としない新しい対向パッチの局所化と除去法であるPADを提案する。 PADは、事前訓練されたあらゆる物体検出器と互換性のある、様々な敵パッチに対するパッチ非依存の防御を提供する。 ローカライズされたノイズ,印刷可能,自然主義的なパッチなど,多様なパッチタイプを含む包括的デジタルおよび物理的実験は,最先端の作業よりも顕著に改善されている。 私たちのコードはhttps://github.com/Lihua-Jing/PAD.comで公開されています。

Adversarial patch attacks present a significant threat to real-world object detectors due to their practical feasibility. Existing defense methods, which rely on attack data or prior knowledge, struggle to effectively address a wide range of adversarial patches. In this paper, we show two inherent characteristics of adversarial patches, semantic independence and spatial heterogeneity, independent of their appearance, shape, size, quantity, and location. Semantic independence indicates that adversarial patches operate autonomously within their semantic context, while spatial heterogeneity manifests as distinct image quality of the patch area that differs from original clean image due to the independent generation process. Based on these observations, we propose PAD, a novel adversarial patch localization and removal method that does not require prior knowledge or additional training. PAD offers patch-agnostic defense against various adversarial patches, compatible with any pre-trained object detectors. Our comprehensive digital and physical experiments involving diverse patch types, such as localized noise, printable, and naturalistic patches, exhibit notable improvements over state-of-the-art works. Our code is available at https://github.com/Lihua-Jing/PAD.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 散逸による格子ゲージ理論の量子シミュレーションの安定化

Stabilizing quantum simulations of lattice gauge theories by dissipation ( http://arxiv.org/abs/2404.16454v1 )

ライセンス: Link先を確認
Tobias Schmale, Hendrik Weimer, (参考訳) 雑音量子ハードウェア上の格子ゲージ理論のシミュレーションは、本質的には、シミュレーションを実装する基礎となる物理系のコヒーレントで不整合な誤差によるゲージ対称性の違反に悩まされる。 これらのゲージ違反によりシミュレーションは非物理的になり、シミュレーションの結果は破棄される。 本研究では,局所的なゲージ違反の検出に依存したアクティブな補正手法について検討し,その後,物理ゲージセクターに散逸的にシステムを戻して修正する。 補正方式はゲージ対称性の保護を確実にするだけでなく、ゲージ不変セクター内においてもシミュレーション結果の有効性も向上することを示す。 最後に、シミュレーションシステムの多体基底状態の生成など、このスキームのさらなる応用について論じる。

Simulations of lattice gauge theories on noisy quantum hardware inherently suffer from violations of the gauge symmetry due to coherent and incoherent errors of the underlying physical system that implements the simulation. These gauge violations cause the simulations to become unphysical requiring the result of the simulation to be discarded. We investigate an active correction scheme that relies on detecting gauge violations locally and subsequently correcting them by dissipatively driving the system back into the physical gauge sector. We show that the correction scheme not only ensures the protection of the gauge symmetry, but it also leads to a longer validity of the simulation results even within the gauge-invariant sector. Finally, we discuss further applications of the scheme such as preparation of the many-body ground state of the simulated system.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 正準決定ダイアグラムによるモデュロ理論

Canonical Decision Diagrams Modulo Theories ( http://arxiv.org/abs/2404.16455v1 )

ライセンス: Link先を確認
Massimo Michelutti, Gabriele Masina, Giuseppe Spallitta, Roberto Sebastiani, (参考訳) 決定図(Decision diagrams, DD)は、多くの領域、特に形式的検証や知識コンパイルにおいて、効果的に命題式を表現する強力なツールである。 DDのいくつかの形式(例: OBDDs, SDDs)は標準的であり、(原子リスト上の与えられた条件の下では)公式の同値類を一意的に表す。 命題論理の限られた表現性を考えると、DDをSMTレベルに活用する試みが文献で紹介されている。 残念なことに、これらの技術は依然としていくつかの制限に悩まされている: ほとんどの手順は理論固有のものであり、いくつかの生成理論DD(T-DDs)は T-valid 式や T-consistent 式を単項的に表さない。 また、これらの手順は実装が簡単ではなく、実際に実装できるものはほとんどありません。 本稿では,全SMT ソルバと DD パッケージをブラックボックスとして実装することは極めて容易であり,すべての DD の形式や,AllSMT ソルバがサポートする理論,あるいはその組み合わせに対して有効であり,提案 DD が正則であれば理論-正準 T-DD を生成するという,SMT レベルに DD を活用するための新しい手法を提案する。 我々は,OBDDとSDDパッケージとMathSAT SMTソルバ上に,T-OBDDとT-SDDのプロトタイプツールを実装した。 いくつかの予備的な経験的評価は、アプローチの有効性を支持する。

Decision diagrams (DDs) are powerful tools to represent effectively propositional formulas, which are largely used in many domains, in particular in formal verification and in knowledge compilation. Some forms of DDs (e.g., OBDDs, SDDs) are canonical, that is, (under given conditions on the atom list) they univocally represent equivalence classes of formulas. Given the limited expressiveness of propositional logic, a few attempts to leverage DDs to SMT level have been presented in the literature. Unfortunately, these techniques still suffer from some limitations: most procedures are theory-specific; some produce theory DDs (T-DDs) which do not univocally represent T-valid formulas or T-inconsistent formulas; none of these techniques provably produces theory-canonical T-DDs, which (under given conditions on the T-atom list) univocally represent T-equivalence classes of formulas. Also, these procedures are not easy to implement, and very few implementations are actually available. In this paper, we present a novel very-general technique to leverage DDs to SMT level, which has several advantages: it is very easy to implement on top of an AllSMT solver and a DD package, which are used as blackboxes; it works for every form of DDs and every theory, or combination thereof, supported by the AllSMT solver; it produces theory-canonical T-DDs if the propositional DD is canonical. We have implemented a prototype tool for both T-OBDDs and T-SDDs on top of OBDD and SDD packages and the MathSAT SMT solver. Some preliminary empirical evaluation supports the effectiveness of the approach.
翻訳日:2024-04-26 14:19:10 公開日:2024-04-25
# 不完全モーダルを用いたマルチモーダル感性分析のための相関分離型知識蒸留法

Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities ( http://arxiv.org/abs/2404.16456v1 )

ライセンス: Link先を確認
Mingcheng Li, Dingkang Yang, Xiao Zhao, Shuaibing Wang, Yan Wang, Kun Yang, Mingyang Sun, Dongliang Kou, Ziyun Qian, Lihua Zhang, (参考訳) マルチモーダル感情分析(MSA)は、マルチモーダルデータを通して人間の感情を理解することを目的としている。 ほとんどのMSAの取り組みは、モダリティ完全性の仮定に基づいている。 しかし、現実の応用においては、いくつかの実用的な要因が不確実なモダリティの欠如を引き起こし、モデルの性能が劇的に低下する。 そこで本研究では,MSAタスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。 具体的には、クロスサンプル相関を含む包括的知識を伝達し、欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。 さらに, カテゴリ誘導型蒸留機構を導入し, カテゴリプロトタイプを用いてカテゴリ間相関を捕捉し, 特徴分布を整列させ, 良好な関節表現を生成する。 最終的には、応答不整合と相互情報の最大化により、学生ネットワークの感情決定境界を最適化する応答不整合蒸留戦略を設計する。 3つのデータセットに関する総合的な実験は、我々のフレームワークがいくつかのベースラインと比較して良好な改善を達成できることを示している。

Multimodal sentiment analysis (MSA) aims to understand human sentiment through multimodal data. Most MSA efforts are based on the assumption of modality completeness. However, in real-world applications, some practical factors cause uncertain modality missingness, which drastically degrades the model's performance. To this end, we propose a Correlation-decoupled Knowledge Distillation (CorrKD) framework for the MSA task under uncertain missing modalities. Specifically, we present a sample-level contrastive distillation mechanism that transfers comprehensive knowledge containing cross-sample correlations to reconstruct missing semantics. Moreover, a category-guided prototype distillation mechanism is introduced to capture cross-category correlations using category prototypes to align feature distributions and generate favorable joint representations. Eventually, we design a response-disentangled consistency distillation strategy to optimize the sentiment decision boundaries of the student network through response disentanglement and mutual information maximization. Comprehensive experiments on three datasets indicate that our framework can achieve favorable improvements compared with several baselines.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 分類におけるニューラルモデルロバストネスの精密観察に向けて

Towards Precise Observations of Neural Model Robustness in Classification ( http://arxiv.org/abs/2404.16457v1 )

ライセンス: Link先を確認
Wenchuan Mu, Kwan Hui Lim, (参考訳) ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変更を処理するニューラルモデルの性能を測定し、特に安全クリティカルなアプリケーションにおいて、潜在的な安全性の危険をもたらす可能性がある。 モデルロバスト性の事前デプロイ評価は不可欠であるが、既存の手法は高コストまたは不正確な結果に悩まされることが多い。 現実世界のシナリオの安全性を高めるためには、モデルの堅牢性を効果的に捉えるメトリクスが必要である。 この問題に対処するために、異なる定義に基づいて様々な評価手法の厳密さと使用状況を比較した。 そこで本研究では,確率的ロバスト性に対する仮説テストを利用した簡易かつ実用的な尺度を提案し,それをTorchAttacksライブラリに統合した。 各種ロバスト性評価手法の比較分析を通じて, 本手法は安全クリティカルなアプリケーションにおけるモデルロバスト性に関する深い理解に寄与する。

In deep learning applications, robustness measures the ability of neural models that handle slight changes in input data, which could lead to potential safety hazards, especially in safety-critical applications. Pre-deployment assessment of model robustness is essential, but existing methods often suffer from either high costs or imprecise results. To enhance safety in real-world scenarios, metrics that effectively capture the model's robustness are needed. To address this issue, we compare the rigour and usage conditions of various assessment methods based on different definitions. Then, we propose a straightforward and practical metric utilizing hypothesis testing for probabilistic robustness and have integrated it into the TorchAttacks library. Through a comparative analysis of diverse robustness assessment methods, our approach contributes to a deeper understanding of model robustness in safety-critical applications.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 若年者向けオンラインフォーラムにおけるメンタルヘルス要因の特定を専門とする大規模言語モデル

Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums ( http://arxiv.org/abs/2404.16461v1 )

ライセンス: Link先を確認
Isablle Lorge, Dam W. Joyce, Andrey Kormilitzin, (参考訳) 子どもや青年のメンタルヘルスはここ数年着実に悪化している[1]。 近年のLarge Language Models (LLMs) の出現は、モニタリングと介入の費用と時間効率のスケーリングを大いに期待するが、学校いじめや摂食障害といった特に一般的な問題にもかかわらず、これまでの研究では、この領域のパフォーマンスや、回答の集合が定まっていないオープン情報抽出についての研究は行われていない。 TRAUMA, PreCARITY, CONDITION, SYMPTOMS, SUICIDALITY and Treatment, 専門家ラベルと2つのトップパフォーマンスLDM(GPT3.5, GPT4)のアノテーションを比較した。 さらに,2つの合成データセットを作成し,LLMが生成するデータにアノテートする際の性能を評価する。 GPT4は人間間のアノテータの合意と合成データの性能が大幅に向上するが、このモデルでは否定や事実性の問題や、合成データの高パフォーマンスが本質的に有利というよりも実際のデータの複雑さによって引き起こされることがある。

Mental health in children and adolescents has been steadily deteriorating over the past few years [ 1 ]. The recent advent of Large Language Models (LLMs) offers much hope for cost and time efficient scaling of monitoring and intervention, yet despite specifically prevalent issues such as school bullying and eating disorders, previous studies on have not investigated performance in this domain or for open information extraction where the set of answers is not predetermined. We create a new dataset of Reddit posts from adolescents aged 12-19 annotated by expert psychiatrists for the following categories: TRAUMA, PRECARITY, CONDITION, SYMPTOMS, SUICIDALITY and TREATMENT and compare expert labels to annotations from two top performing LLMs (GPT3.5 and GPT4). In addition, we create two synthetic datasets to assess whether LLMs perform better when annotating data as they generate it. We find GPT4 to be on par with human inter-annotator agreement and performance on synthetic data to be substantially higher, however we find the model still occasionally errs on issues of negation and factuality and higher performance on synthetic data is driven by greater complexity of real data rather than inherent advantage.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 量子インターネットのための量子支援信頼性

Quantum-assisted trustworthiness for the Quantum Internet ( http://arxiv.org/abs/2404.16463v1 )

ライセンス: Link先を確認
Agustin Zaballos, Adria Mallorqui, Joan Navarro, (参考訳) デバイス冗長性は、システム全体のフォールトトレランスを向上し、結果として信頼性を高める分散システムで最もよく知られているメカニズムの1つです。 既存のアルゴリズムでは、ノード間でかなりの数のメッセージを交換して、どの通信リンクやノードが故障しているかを特定し、合意することを目的としている。 このアプローチは、メッセージの洪水により、限られた帯域幅および/またはエネルギー消費にさらされる無線通信ネットワークの性能を大幅に低下させる。 近年、量子アシスト機構は、この種の通信ネットワークの性能向上のための魅力的な代替手段として考えられており、理想的な条件下で達成されたものに近いレベルの性能が得られることが示されている。 本研究の目的は、量子インターネット上での超付加性と重畳された量子軌道を用いて、より高いシステム信頼性を得ることである。 より具体的には、南極の永久凍土テレメトリサービスをサポートする無線通信網と5つの運用モード(うち3つは古典的手法、うち2つは量子アシスト機構)がシミュレーションされている。 得られた結果は、新しい量子アシスト機構がシステム性能を最大28%向上させることができることを示している。

Device redundancy is one of the most well-known mechanisms in distributed systems to increase the overall system fault tolerance and, consequently, trustworthiness. Existing algorithms in this regard aim to exchange a significant number of messages among nodes to identify and agree which communication links or nodes are faulty. This approach greatly degrades the performance of those wireless communication networks exposed to limited available bandwidth and/or energy consumption due to messages flooding. Lately, quantum-assisted mechanisms have been envisaged as an appealing alternative to improve the performance in this kind of communication networks and have been shown to obtain levels of performance close to the ones achieved in ideal conditions. The purpose of this paper is to further explore this approach by using super-additivity and superposed quantum trajectories in quantum Internet to obtain a higher system trustworthiness. More specifically, the wireless communication network that supports the permafrost telemetry service for the Antarctica together with five operational modes (three of them using classical techniques and two of them using quantum-assisted mechanisms) have been simulated. Obtained results show that the new quantum-assisted mechanisms can increase the system performance by up to a 28%.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 政策制約を課すための強化学習の2つの視点

A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints ( http://arxiv.org/abs/2404.16468v1 )

ライセンス: Link先を確認
Bram De Cooman, Johan Suykens, (参考訳) モデルなし強化学習法は、訓練されたポリシーに行動制約を課す固有のメカニズムを欠いている。 特定の拡張は存在するが、付加的な報酬信号を持つ値制約や訪問密度制約のような特定の種類の制約に制限される。 本研究は,従来の手法と古典的最適化と制御理論のギャップを埋めるために,価値ベースおよびアクタ批判的強化学習のための汎用的原始双対フレームワークを用いて試みる。 得られた双対の定式化は、そのような双対の制約(あるいは正規化項)とプライマリにおける報酬の修正との本質的な関係が暴露されるため、学習されたポリシーにさらなる制約を課すのに特に有用であることが判明した。 さらに、この枠組みを用いることで、ポリシーのアクション密度や、連続状態とアクション間の遷移に伴うコストに制約を課すことができる、いくつかの新しいタイプの制約を導入することができる。 調整済み原始双対最適化問題から、トレーニング可能な報酬修正を用いたトレーニングを通して自動的に処理されるポリシー制約の様々な組み合わせをサポートする実用的なアルゴリズムが導出される。 得られた$\texttt{DualCRL}$メソッドは、より詳細に検討され、2つの解釈可能な環境における異なる(組み合わせ)制約の下で評価される。 その結果,提案手法の有効性が強調され,最終的にはポリシー制約の可能な汎用ツールボックスを設計者に提供した。

Model-free reinforcement learning methods lack an inherent mechanism to impose behavioural constraints on the trained policies. While certain extensions exist, they remain limited to specific types of constraints, such as value constraints with additional reward signals or visitation density constraints. In this work we try to unify these existing techniques and bridge the gap with classical optimization and control theory, using a generic primal-dual framework for value-based and actor-critic reinforcement learning methods. The obtained dual formulations turn out to be especially useful for imposing additional constraints on the learned policy, as an intrinsic relationship between such dual constraints (or regularization terms) and reward modifications in the primal is reveiled. Furthermore, using this framework, we are able to introduce some novel types of constraints, allowing to impose bounds on the policy's action density or on costs associated with transitions between consecutive states and actions. From the adjusted primal-dual optimization problems, a practical algorithm is derived that supports various combinations of policy constraints that are automatically handled throughout training using trainable reward modifications. The resulting $\texttt{DualCRL}$ method is examined in more detail and evaluated under different (combinations of) constraints on two interpretable environments. The results highlight the efficacy of the method, which ultimately provides the designer of such systems with a versatile toolbox of possible policy constraints.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# トンネル結合1次元ボース気体を用いた有限時間量子オットーエンジン

A finite-time quantum Otto engine with tunnel coupled one-dimensional Bose gases ( http://arxiv.org/abs/2404.16470v1 )

ライセンス: Link先を確認
V. V. Nautiyal, R. S. Watson, K. V. Kheruntsyan, (参考訳) 準凝縮系における弱い相互作用を持つ1次元ボース気体中の粒子間相互作用によって駆動される有限時間量子オットーエンジンサイクルの理論的研究を行う。 c$-fieldアプローチを用いることで、オットーサイクル全体、すなわち2つのワークストロークと2つの平衡ストロークをシミュレートする。 より具体的には、相互作用によって引き起こされるワークストロークは、ワーキング流体をユニタリ進化中の孤立量子多体系として扱うことによってモデル化される。 一方、平衡ストロークは、作動流体を、熱いか冷たい貯水池として作用する別の準凝縮体に結合した開放量子系として扱うことでモデル化される。 均一な1次元ボースガスとは異なり、調和的に捕捉された準凝縮体は、純粋に \emph{heat} エンジンとして動作できない。 平衡ストローク中の力学の微視的処理により, このオットー化学エンジンの特性的運転時間スケールを評価することができ, 典型的な熱化時間スケールに関する「emph{ad hoc}」の仮定は不要である。 提案するOttoケミカルエンジンの性能を解析し,特に相互作用誘起のワークストロークが急激なクエンチによって実装された場合,効率と出力のトレードオフとして好適であることが確認された。 さらに、急激なクエンチ状態において、エンジンは最大出力を同時に達成しつつ、ほぼ断熱的(最大効率に近い)限界に近い効率で作動することを示した。

We undertake a theoretical study of a finite-time quantum Otto engine cycle driven by inter-particle interactions in a weakly interacting one-dimensional Bose gas in the quasicondensate regime. Utilizing a $c$-field approach, we simulate the entire Otto cycle, i.e. the two work strokes and the two equilibration strokes. More specifically, the interaction-induced work strokes are modelled by treating the working fluid as an isolated quantum many-body system undergoing unitary evolution. The equilibration strokes, on the other hand, are modelled by treating the working fluid as an open quantum system tunnel-coupled to another quasicondensate which acts as either the hot or cold reservoir, albeit of finite size. We find that, unlike a uniform 1D Bose gas, a harmonically trapped quasicondensate cannot operate purely as a \emph{heat} engine; instead, the engine operation is enabled by additional \emph{chemical} work performed on the working fluid, facilitated by the inflow of particles from the hot reservoir. The microscopic treatment of dynamics during equilibration strokes enables us to evaluate the characteristic operational time scales of this Otto chemical engine, crucial for characterizing its power output, without any \emph{ad hoc} assumptions about typical thermalization timescales. We analyse the performance and quantify the figures of merit of the proposed Otto chemical engine, finding that it offers a favourable trade-off between efficiency and power output, particularly when the interaction-induced work strokes are implemented via a sudden quench. We further demonstrate that in the sudden quench regime, the engine operates with an efficiency close to the near-adiabatic (near maximum efficiency) limit, while concurrently achieving maximum power output.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# COBRA -- 形状回帰分析に基づく単一画像からのオブジェクトポーズ推定の方法に依存しない品質評価

COBRA -- COnfidence score Based on shape Regression Analysis for method-independent quality assessment of object pose estimation from single images ( http://arxiv.org/abs/2404.16471v1 )

ライセンス: Link先を確認
Panagiotis Sapoutzoglou, Georgios Giapitzakis Tzintanos, George Terzakis, Maria Pateraki, (参考訳) 本稿では,単一画像意味解析に依存するポーズ推定手法の一般的なアルゴリズムを提案する。 このアルゴリズムは、複数のガウス過程を組み合わせた軽量な配置形状表現を用いる。 それぞれのガウス過程(GP)は、オブジェクトの座標系内の複数の基準点からその表面への距離正規分布を生成し、予測されたポーズを評価するための幾何学的評価フレームワークを提供する。 我々の信頼度尺度は、形状テンプレートへの画素バックプロジェクションの平均混合確率からなる。 本報告実験では,物体のGPベース表現の精度と実際の幾何モデルとの比較を行い,セグメンテーションとポーズ推定を併用した固有測度と対照的に,アウトレーヤの影響を捉えることができることを示す。

We present a generic algorithm for scoring pose estimation methods that rely on single image semantic analysis. The algorithm employs a lightweight putative shape representation using a combination of multiple Gaussian Processes. Each Gaussian Process (GP) yields distance normal distributions from multiple reference points in the object's coordinate system to its surface, thus providing a geometric evaluation framework for scoring predicted poses. Our confidence measure comprises the average mixture probability of pixel back-projections onto the shape template. In the reported experiments, we compare the accuracy of our GP based representation of objects versus the actual geometric models and demonstrate the ability of our method to capture the influence of outliers as opposed to the corresponding intrinsic measures that ship with the segmentation and pose estimation methods.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# DiffSeg:拡散差に基づく皮膚病変のセグメンテーションモデル

DiffSeg: A Segmentation Model for Skin Lesions Based on Diffusion Difference ( http://arxiv.org/abs/2404.16474v1 )

ライセンス: Link先を確認
Zhihao Shuai, Yinan Chen, Shunqiang Mao, Yihan Zho, Xiaohong Zhang, (参考訳) 生成モデルを用いた医用画像分割法(MIS)は臨床診断に不可欠である。 しかし, セグメンテーションの結果の精度は, 医用画像の監視が不十分で, 複雑な性質によって制限されることが多い。 既存のモデルは単一の結果しか提供せず、不確実性の測定はできない。 本稿では,拡散モデルに基づく皮膚病変のセグメンテーションモデルDiffSegを紹介する。 これらのノイズ特徴の違いを識別することにより、モデルが疾患領域を識別する。 さらに、そのマルチアウトプット能力は、医師のアノテーションの振る舞いを模倣し、セグメンテーション結果の一貫性とあいまいさの可視化を容易にする。 さらに、一般エネルギー距離(GED)を用いて、医師の解釈可能性や意思決定を支援する出力不確実性を定量化する。 最後に、Dense Conditional Random Field (DenseCRF)アルゴリズムを通じて出力を統合し、画素間相関を考慮しセグメンテーション境界を洗練し、精度を改善し、セグメンテーション結果を最適化する。 我々は,ISIC 2018 ChallengeデータセットにおけるDiffSegの有効性を示す。

Weakly supervised medical image segmentation (MIS) using generative models is crucial for clinical diagnosis. However, the accuracy of the segmentation results is often limited by insufficient supervision and the complex nature of medical imaging. Existing models also only provide a single outcome, which does not allow for the measurement of uncertainty. In this paper, we introduce DiffSeg, a segmentation model for skin lesions based on diffusion difference which exploits diffusion model principles to ex-tract noise-based features from images with diverse semantic information. By discerning difference between these noise features, the model identifies diseased areas. Moreover, its multi-output capability mimics doctors' annotation behavior, facilitating the visualization of segmentation result consistency and ambiguity. Additionally, it quantifies output uncertainty using Generalized Energy Distance (GED), aiding interpretability and decision-making for physicians. Finally, the model integrates outputs through the Dense Conditional Random Field (DenseCRF) algorithm to refine the segmentation boundaries by considering inter-pixel correlations, which improves the accuracy and optimizes the segmentation results. We demonstrate the effectiveness of DiffSeg on the ISIC 2018 Challenge dataset, outperforming state-of-the-art U-Net-based methods.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# マルチパス干渉計における対効果, バックアクション, 情報ゲイン

Counterfactuality, back-action, and information gain in multi-path interferometers ( http://arxiv.org/abs/2404.16477v1 )

ライセンス: Link先を確認
Jonte R. Hance, Tomonori Matsushita, Holger F. Hofmann, (参考訳) 干渉計の経路の1つにおける吸収体の存在は、その干渉計の出力統計を根本的な方法で変化させる。 干渉計の出力で検出された個々の量子粒子は吸収されていないため、吸収器によるこれらの粒子の分布に対する非自明な効果は、逆効果である。 ここでは、出力統計から得られた吸収体の存在または欠如に関する情報を評価し、古典的および量子的反事実的効果を区別することによって、反事実的効果を定量化する。 古典的反ファクトプロトコルよりも量子反ファクトプロトコルの利点を定量化する反ファクトゲインを同定し、この反ファクトゲインを、吸収体によってブロックされた振幅に関連する半古典的項と、ブロックされたパスと出力ポートに結合確率を割り当てるカークウッド・ディラック準確率の2つの項に分けることができることを示す。 経路と出力ポートの間の負のカークウッド・ディラック項は、吸収体をその経路に挿入すると、その出力ポートに到達する粒子の確率が増大し、反事実ゲインが著しく増大することを示している。 量子対物効果の大きさは、吸収粒子の単純な除去によって説明できないが、一方の経路における吸収体の存在によって引き起こされるよく定義されたバックアクション効果から導かれる。

The presence of an absorber in one of the paths of an interferometer changes the output statistics of that interferometer in a fundamental manner. Since the individual quantum particles detected at any of the outputs of the interferometer have not been absorbed, any non-trivial effect of the absorber on the distribution of these particles over these paths is a counterfactual effect. Here, we quantify counterfactual effects by evaluating the information about the presence or absence of the absorber obtained from the output statistics, distinguishing between classical and quantum counterfactual effects. We identify the counterfactual gain which quantifies the advantage of quantum counterfactual protocols over classical counterfactual protocols, and show that this counterfactual gain can be separated into two terms: a semi-classical term related to the amplitude blocked by the absorber, and a Kirkwood-Dirac quasiprobability assigning a joint probability to the blocked path and the output port. A negative Kirkwood-Dirac term between a path and an output port indicates that inserting the absorber into that path will have a focussing effect, increasing the probability of particles arriving at that output port, resulting in a significant enhancement of the counterfactual gain. We show that the magnitude of quantum counterfactual effects cannot be explained by a simple removal of the absorbed particles, but originates instead from a well-defined back-action effect caused by the presence of the absorber in one path, on particles in other paths.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 大規模言語モデルの一貫性と推論能力の評価

Evaluating Consistency and Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2404.16478v1 )

ライセンス: Link先を確認
Yash Saxena, Sarthak Chopra, Arunendra Mani Tripathi, (参考訳) 大規模言語モデル(LLM)は、学術、研究、ビジネス、金融など様々な分野において、テキスト生成、要約、翻訳などのタスクに広く使われている。 広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。 この振る舞いは、一貫性と推論能力が重要なコントリビュータである、いくつかの要因に起因する可能性がある。 LLMは、しばしば説明を生成し、一貫性のある推論を行う能力が欠如しており、不正確な反応をもたらす。 さらに、アウトプットに矛盾がある。 本稿では,パブリックおよびプロプライエタリ LLM の整合性と推論能力を評価・比較することを目的とする。 実験では、Boolqデータセットを基礎的真理として利用し、質問、回答、およびそれに対応する説明を含む。 データセットからのクエリをLSMへのプロンプトとして提示し、生成した応答を基底真理回答に対して評価する。 さらに、モデルの推論能力を評価するために説明が生成される。 一貫性は、モデルに同じクエリを繰り返し提示し、応答の変動を観測することによって評価される。 推論能力を測定するために、生成した説明はBERT、BLEU、F-1スコアなどのメトリクスを用いて、基礎的な真理の説明と比較する。 この結果から、プロプライエタリなモデルは一般に、一貫性と推論能力の両方の観点から、パブリックモデルよりも優れています。 しかしながら、基本的な一般知識の質問を提示しても、どのモデルも一貫性と推論の両方で90%のスコアを獲得できなかった。 本研究は,LLMにおける一貫性と推論能力の直接的な相関性を強調し,現在の言語モデルに存在する固有の推論課題を強調する。

Large Language Models (LLMs) are extensively used today across various sectors, including academia, research, business, and finance, for tasks such as text generation, summarization, and translation. Despite their widespread adoption, these models often produce incorrect and misleading information, exhibiting a tendency to hallucinate. This behavior can be attributed to several factors, with consistency and reasoning capabilities being significant contributors. LLMs frequently lack the ability to generate explanations and engage in coherent reasoning, leading to inaccurate responses. Moreover, they exhibit inconsistencies in their outputs. This paper aims to evaluate and compare the consistency and reasoning capabilities of both public and proprietary LLMs. The experiments utilize the Boolq dataset as the ground truth, comprising questions, answers, and corresponding explanations. Queries from the dataset are presented as prompts to the LLMs, and the generated responses are evaluated against the ground truth answers. Additionally, explanations are generated to assess the models' reasoning abilities. Consistency is evaluated by repeatedly presenting the same query to the models and observing for variations in their responses. For measuring reasoning capabilities, the generated explanations are compared to the ground truth explanations using metrics such as BERT, BLEU, and F-1 scores. The findings reveal that proprietary models generally outperform public models in terms of both consistency and reasoning capabilities. However, even when presented with basic general knowledge questions, none of the models achieved a score of 90\% in both consistency and reasoning. This study underscores the direct correlation between consistency and reasoning abilities in LLMs and highlights the inherent reasoning challenges present in current language models.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# CoCoG:人間の概念表現に基づく制御可能な視覚刺激生成

CoCoG: Controllable Visual Stimuli Generation based on Human Concept Representations ( http://arxiv.org/abs/2404.16482v1 )

ライセンス: Link先を確認
Chen Wei, Jiachen Zou, Dietmar Heinke, Quanying Liu, (参考訳) 認知科学における中心的な課題は、人間の視覚的対象、すなわち高次元視覚的刺激から人間の低次元概念表現空間を明らかにする方法を理解することである。 概念制御による視覚刺激の生成が鍵となる。 しかし、この問題を解決するための生成モデルは現在存在しない。 本稿では,Concept based Controllable Generation (CoCoG) フレームワークについて述べる。 CoCoGは、解釈可能な概念を抽出し、視覚的類似性判定タスクにおける人間の意思決定を予測するシンプルなAIエージェントと、その概念を与えられた視覚刺激を生成する条件生成モデルからなる。 人間の行動予測精度と制御可能な生成能力の2つの側面からCoCoGの性能を定量化する。 CoCoGによる実験は、 1)CoCoGに埋め込まれた信頼性の高い概念は,THINGS類似性データセットにおいて,64.07\%の精度で人間の行動を予測することができる。 2)CoCoGは,概念の制御を通じて多様なオブジェクトを生成することができる。 3)CoCoGは人間の類似性判断行動をキーコンセプトを介在させることで操作することができる。 CoCoGは、人間の認知における因果関係の理解を促進するために、概念を制御する視覚オブジェクトを提供する。 CoCoGのコードは \url{https://github.com/ncclab-sustech/CoCoG} で公開されている。

A central question for cognitive science is to understand how humans process visual objects, i.e, to uncover human low-dimensional concept representation space from high-dimensional visual stimuli. Generating visual stimuli with controlling concepts is the key. However, there are currently no generative models in AI to solve this problem. Here, we present the Concept based Controllable Generation (CoCoG) framework. CoCoG consists of two components, a simple yet efficient AI agent for extracting interpretable concept and predicting human decision-making in visual similarity judgment tasks, and a conditional generation model for generating visual stimuli given the concepts. We quantify the performance of CoCoG from two aspects, the human behavior prediction accuracy and the controllable generation ability. The experiments with CoCoG indicate that 1) the reliable concept embeddings in CoCoG allows to predict human behavior with 64.07\% accuracy in the THINGS-similarity dataset; 2) CoCoG can generate diverse objects through the control of concepts; 3) CoCoG can manipulate human similarity judgment behavior by intervening key concepts. CoCoG offers visual objects with controlling concepts to advance our understanding of causality in human cognition. The code of CoCoG is available at \url{https://github.com/ncclab-sustech/CoCoG}.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# AVIF圧縮画像のリアルタイム4K超解像 AIS 2024 チャレンジサーベイ

Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge Survey ( http://arxiv.org/abs/2404.16484v1 )

ライセンス: Link先を確認
Marcos V. Conde, Zhijun Lei, Wen Li, Cosmin Stejerean, Ioannis Katsavounidis, Radu Timofte, Kihwan Yoon, Ganzorig Gankhuyag, Jiangtao Lv, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang, Zhiyuan Li, Hao Wei, Chenyang Ge, Dongyang Zhang, Tianle Liu, Huaian Chen, Yi Jin, Menghan Zhou, Yiqiang Yan, Si Gao, Biao Wu, Shaoli Liu, Chengjian Zheng, Diankai Zhang, Ning Wang, Xintao Qiu, Yuanbo Zhou, Kongxian Wu, Xinwei Dai, Hui Tang, Wei Deng, Qingquan Gao, Tong Tong, Jae-Hyeon Lee, Ui-Jin Choi, Min Yan, Xin Liu, Qian Wang, Xiaoqian Ye, Zhan Du, Tiansen Zhang, Long Peng, Jiaming Guo, Xin Di, Bohao Liao, Zhibo Du, Peize Xia, Renjing Pei, Yang Wang, Yang Cao, Zhengjun Zha, Bingnan Han, Hongyuan Yu, Zhuoyuan Wu, Cheng Wan, Yuqing Liu, Haodong Yu, Jizhe Li, Zhijuan Huang, Yuan Huang, Yajun Zou, Xianyu Guan, Qi Jia, Heng Zhang, Xuanwu Yin, Kunlong Zuo, Hyeon-Cheol Moon, Tae-hyun Jeong, Yoonmo Yang, Jae-Gon Kim, Jinwoo Jeong, Sunjei Kim, (参考訳) 本稿では,AIS 2024 Real-Time Image Super-Resolution (RTSR) Challengeの一環として,商用GPU上でリアルタイムに540pから4K解像度(4倍)の圧縮画像をアップスケールすることを目的とした新しいベンチマークを提案する。 そのために、デジタルアートからゲーム、写真まで、さまざまな4K画像を含む多様なテストセットを使用します。 画像はJPEGの代わりに現代のAVIFコーデックで圧縮される。 提案手法はLanczos補間によるPSNRの忠実度を向上し,10ms以下の画像処理を行う。 160人の参加者のうち、25のチームがコードとモデルを提出した。 これらのソリューションは、エッジデバイス上でのメモリ効率とランタイムに適した新しい設計を提供する。 本稿では,圧縮高解像度画像のリアルタイムSRの最適解について述べる。

This paper introduces a novel benchmark as part of the AIS 2024 Real-Time Image Super-Resolution (RTSR) Challenge, which aims to upscale compressed images from 540p to 4K resolution (4x factor) in real-time on commercial GPUs. For this, we use a diverse test set containing a variety of 4K images ranging from digital art to gaming and photography. The images are compressed using the modern AVIF codec, instead of JPEG. All the proposed methods improve PSNR fidelity over Lanczos interpolation, and process images under 10ms. Out of the 160 participants, 25 teams submitted their code and models. The solutions present novel designs tailored for memory-efficiency and runtime on edge devices. This survey describes the best solutions for real-time SR of compressed high-resolution images.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 屋外教師なし3次元物体検出のためのコモンセンスプロトタイプ

Commonsense Prototype for Outdoor Unsupervised 3D Object Detection ( http://arxiv.org/abs/2404.16493v1 )

ライセンス: Link先を確認
Hai Wu, Shijia Zhao, Xun Huang, Chenglu Wen, Xin Li, Cheng Wang, (参考訳) 教師なし3次元オブジェクト検出の一般的なアプローチは、クラスタベースの擬似ラベル生成と反復的自己学習プロセスに従う。 しかし、この課題はLiDARスキャンのばらつきによって発生し、誤った大きさと位置の擬似ラベルが発生し、サブパー検出性能が低下する。 そこで本研究では,非教師付き3次元物体検出のためのCommonsense Prototype-based Detector(CDD)を提案する。 CPDは、コモンセンス直観に基づいて、高品質なバウンディングボックスと高密度点を特徴とするコモンセンスプロトタイプ(CProto)を最初に構築する。 その後、CPDはCProtoの前のサイズを利用して低品質の擬似ラベルを洗練する。 さらに、CPDは、CProtoからの幾何学的知識により、スパーススキャン対象の検出精度を高める。 CPDは、Waymo Open Dataset(WOD)、PandaSet、KITTIのデータセット上で、最先端の教師なし3D検出器を大きなマージンで上回る。 さらに、CPDをWODでトレーニングし、KITTIでテストすることで、CPDは90.85%と81.01%の3D平均精度を、それぞれ緩やかな車種と中程度の車種で達成できる。 これらの成果は完全教師付き検出器に近づき,本手法の意義を浮き彫りにした。 コードはhttps://github.com/hailanyi/CPD.comで入手できる。

The prevalent approaches of unsupervised 3D object detection follow cluster-based pseudo-label generation and iterative self-training processes. However, the challenge arises due to the sparsity of LiDAR scans, which leads to pseudo-labels with erroneous size and position, resulting in subpar detection performance. To tackle this problem, this paper introduces a Commonsense Prototype-based Detector, termed CPD, for unsupervised 3D object detection. CPD first constructs Commonsense Prototype (CProto) characterized by high-quality bounding box and dense points, based on commonsense intuition. Subsequently, CPD refines the low-quality pseudo-labels by leveraging the size prior from CProto. Furthermore, CPD enhances the detection accuracy of sparsely scanned objects by the geometric knowledge from CProto. CPD outperforms state-of-the-art unsupervised 3D detectors on Waymo Open Dataset (WOD), PandaSet, and KITTI datasets by a large margin. Besides, by training CPD on WOD and testing on KITTI, CPD attains 90.85% and 81.01% 3D Average Precision on easy and moderate car classes, respectively. These achievements position CPD in close proximity to fully supervised detectors, highlighting the significance of our method. The code will be available at https://github.com/hailanyi/CPD.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# T-Explainer: 勾配に基づくモデルに依存しない説明可能性フレームワーク

T-Explainer: A Model-Agnostic Explainability Framework Based on Gradients ( http://arxiv.org/abs/2404.16495v1 )

ライセンス: Link先を確認
Evandro S. Ortigossa, Fábio F. Dias, Brian Barr, Claudio T. Silva, Luis Gustavo Nonato, (参考訳) 近年、機械学習アプリケーションの開発は、大量のデータセットに隠された複雑なパターンを発見し、一般化する学習駆動システムの驚くべき能力に動機付けられている。 現代の学習モデルは、強力だが、しばしば、不透明なブラックボックスを発生させるレベルの複雑さを示し、その結果、透明性の顕著な欠如により、意思決定プロセスの解読を妨げている。 Opacityは、機械学習の解釈可能性と実践的応用に挑戦する。 説明可能な人工知能(XAI)は、ブラックボックスの複雑さを解明し、解明可能な説明を提供する。 様々なXAIアプローチの中で、特徴属性/重要度XAIは、予測プロセスにおける入力特徴の重要性を明記する能力において際立っている。 しかし、既存の帰属法の多くは不安定性のような制限があり、発散した説明が類似または同一の例から生じることがある。 本稿では,T-Explainerについて紹介する。T-Explainerは局所的精度や整合性などの望ましい特性を付与したTaylor展開に基づく新しい局所的帰属説明器である。 我々はT-Explainerの有効性を、よく知られた属性法によるベンチマーク実験によって実証する。 さらに、T-Explainerは、属性の説明を評価し視覚化するための定量的メトリクスを含む総合的なXAIフレームワークとして開発されている。

The development of machine learning applications has increased significantly in recent years, motivated by the remarkable ability of learning-powered systems to discover and generalize intricate patterns hidden in massive datasets. Modern learning models, while powerful, often exhibit a level of complexity that renders them opaque black boxes, resulting in a notable lack of transparency that hinders our ability to decipher their decision-making processes. Opacity challenges the interpretability and practical application of machine learning, especially in critical domains where understanding the underlying reasons is essential for informed decision-making. Explainable Artificial Intelligence (XAI) rises to meet that challenge, unraveling the complexity of black boxes by providing elucidating explanations. Among the various XAI approaches, feature attribution/importance XAI stands out for its capacity to delineate the significance of input features in the prediction process. However, most existing attribution methods have limitations, such as instability, when divergent explanations may result from similar or even the same instance. In this work, we introduce T-Explainer, a novel local additive attribution explainer based on Taylor expansion endowed with desirable properties, such as local accuracy and consistency, while stable over multiple runs. We demonstrate T-Explainer's effectiveness through benchmark experiments with well-known attribution methods. In addition, T-Explainer is developed as a comprehensive XAI framework comprising quantitative metrics to assess and visualize attribution explanations.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 風力発電環境モニタリングのための確率的多層受容器

Probabilistic Multi-Layer Perceptrons for Wind Farm Condition Monitoring ( http://arxiv.org/abs/2404.16496v1 )

ライセンス: Link先を確認
Filippo Fiocchi, Domna Ladopoulou, Petros Dellaportas, (参考訳) 微調整による伝達学習を伴う確率的多層パーセプトロンを用いた通常の挙動モデリングに基づく風力発電用条件監視システムを提案する。 本モデルは, 監視制御およびデータ取得(SCADA)システムから得られる特徴に基づいて, 通常の挙動下での風力タービンの出力パワーを予測する。 その利点は (i)少なくとも数年のSCADAデータでトレーニングすることができる。 (II)風車の全風力タービンのSCADAデータを特徴として組み込むことができる。 三 出力電力が異方性分散を伴う正規密度に従うと仮定すること。 四 農場内の他のすべての風力タービンのデータから力を借りて1つの風力タービンの出力を予測することができる。 コンディション監視の確率的ガイドラインは、CUSUMコントロールチャートを通じて提供される。 モデルの性能を実際のSCADAデータ例で説明し、他の確率論的予測モデルよりも優れていることを示す。

We provide a condition monitoring system for wind farms, based on normal behaviour modelling using a probabilistic multi-layer perceptron with transfer learning via fine-tuning. The model predicts the output power of the wind turbine under normal behaviour based on features retrieved from supervisory control and data acquisition (SCADA) systems. Its advantages are that (i) it can be trained with SCADA data of at least a few years, (ii) it can incorporate all SCADA data of all wind turbines in a wind farm as features, (iii) it assumes that the output power follows a normal density with heteroscedastic variance and (iv) it can predict the output of one wind turbine by borrowing strength from the data of all other wind turbines in a farm. Probabilistic guidelines for condition monitoring are given via a CUSUM control chart. We illustrate the performance of our model in a real SCADA data example which provides evidence that it outperforms other probabilistic prediction models.
翻訳日:2024-04-26 14:09:25 公開日:2024-04-25
# 類似ブラックホールにおけるベル不等式の振動

Violation of Bell inequalities in an analogue black hole ( http://arxiv.org/abs/2404.16497v1 )

ライセンス: Link先を確認
Giorgio Ciliberto, Stephanie Emig, Nicolas Pavloff, Mathieu Isoard, (参考訳) 準1次元ボース・アインシュタイン凝縮体の流れにおいて実現された類似ブラックホールにおいて、絡み合いの信号と非局所性の信号は、ゼロ温度と有限温度で定量的に評価される。 このアナログ系に固有のローレンツ不変量の破れは、3モードの量子相関を観測する可能性を開くとともに、対応する二部構造および三部構造ベルの不等式について検討する。 系の長波長モードは、グリーンベルガー・ホルン・ザイリンガー状態の連続的変動バージョンが部分的トレーシングに抵抗する重畳を実現するという意味で、最大絡み合っていることが示されている。

Signals of entanglement and nonlocality are quantitatively evaluated at zero and finite temperature in an analogue black hole realized in the flow of a quasi one-dimensional Bose-Einstein condensate. The violation of Lorentz invariance inherent to this analog system opens the prospect to observe 3-mode quantum correlations and we study the corresponding violation of bipartite and tripartite Bell inequalities. It is shown that the long wavelength modes of the system are maximally entangled, in the sense that they realize a superposition of continuous variable versions of Greenberger-Horne-Zeilinger states whose entanglement resists partial tracing.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 360SFUDA++:信頼性の高いカテゴリプロトタイプ学習によるパノラマセグメンテーションのためのソースフリー UDA の実現

360SFUDA++: Towards Source-free UDA for Panoramic Segmentation by Learning Reliable Category Prototypes ( http://arxiv.org/abs/2404.16501v1 )

ライセンス: Link先を確認
Xu Zheng, Pengyuan Zhou, Athanasios V. Vasilakos, Lin Wang, (参考訳) 本稿では,ピンホールからパノラマのセマンティックセマンティックセマンティックセグメンテーションに対して,ピンホール画像事前学習モデル (ソース) と未ラベルパノラマ画像 (ターゲット) のみを前提とした,難解なソースフリーな教師なしドメイン適応 (SFUDA) を提案する。 この問題に取り組むのは3つの重要な課題のために簡単ではない。 1)ドメイン間のフィールド・オブ・ビュー(FoV)のセマンティックミスマッチ。 2 UDA問題に固有の様式の相違 3) パノラマ画像の歪みは避けられない。 このような問題に対処するために,未ラベルのパノラマ画像のみを用いてソースピンホールモデルから知識を効果的に抽出し,信頼性の高い知識を対象パノラマ領域に転送する360SFUDA++を提案する。 具体的には、歪みが少ないため、まずTangent Projection(TP)を使用し、一方、固定されたFoVプロジェクション(FFP)でパッチに等方形プロジェクション(ERP)をスリットしてピンホール画像を模倣する。 どちらのプロジェクションも、ソースモデルから知識を抽出するのに効果的である。 しかし、ドメイン間の知識の直接転送が困難になるため、予測レベルとプロトタイプレベルの両方で知識の転送を行うために、Reliable Panoramic Prototype Adaptation Module (RP2AM)を提案する。 RP$^2$AMは自信のある知識を選択し、信頼できる知識適応のためのパノラマプロトタイプを統合する。 さらに,クロスプロジェクションデュアルアテンションモジュール (CDAM) を導入し,領域間の特徴レベルにおけるプロジェクション間の空間特性とチャネル特性の整合性を向上する。 知識抽出と転送プロセスは同期的に更新され、最高のパフォーマンスに達する。 屋外シナリオや屋内シナリオを含む、合成および実世界のベンチマークに関する大規模な実験は、私たちの360SFUDA++が従来のSFUDAメソッドよりもはるかに優れたパフォーマンスを実現していることを示している。

In this paper, we address the challenging source-free unsupervised domain adaptation (SFUDA) for pinhole-to-panoramic semantic segmentation, given only a pinhole image pre-trained model (i.e., source) and unlabeled panoramic images (i.e., target). Tackling this problem is non-trivial due to three critical challenges: 1) semantic mismatches from the distinct Field-of-View (FoV) between domains, 2) style discrepancies inherent in the UDA problem, and 3) inevitable distortion of the panoramic images. To tackle these problems, we propose 360SFUDA++ that effectively extracts knowledge from the source pinhole model with only unlabeled panoramic images and transfers the reliable knowledge to the target panoramic domain. Specifically, we first utilize Tangent Projection (TP) as it has less distortion and meanwhile slits the equirectangular projection (ERP) to patches with fixed FoV projection (FFP) to mimic the pinhole images. Both projections are shown effective in extracting knowledge from the source model. However, as the distinct projections make it less possible to directly transfer knowledge between domains, we then propose Reliable Panoramic Prototype Adaptation Module (RP2AM) to transfer knowledge at both prediction and prototype levels. RP$^2$AM selects the confident knowledge and integrates panoramic prototypes for reliable knowledge adaptation. Moreover, we introduce Cross-projection Dual Attention Module (CDAM), which better aligns the spatial and channel characteristics across projections at the feature level between domains. Both knowledge extraction and transfer processes are synchronously updated to reach the best performance. Extensive experiments on the synthetic and real-world benchmarks, including outdoor and indoor scenarios, demonstrate that our 360SFUDA++ achieves significantly better performance than prior SFUDA methods.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 二重振り子擬似乱数発生器のハードウェア実装

Hardware Implementation of Double Pendulum Pseudo Random Number Generator ( http://arxiv.org/abs/2404.16504v1 )

ライセンス: Link先を確認
Jarrod Lim, Tom Manuel Opalla Piccio, Chua Min Jie Michelle, Maoyang Xiang, T. Hui Teo, (参考訳) 本研究の目的は、CMOD A7 35tであるFPGAボードを用いて、暗号化に使用できる擬似乱数を求めることである。 我々は,センサが捉えた環境データに固有のランダム性を活用することで,これを実現することを目指している。 このデータは、CMOD A7 35t FPGAボードに実装されたアルゴリズムを初期化するシードとして使用される。 このプロジェクトは、FPGAでセンサーと対話し、生成した数値が強いランダム性を示すために適切なアルゴリズムを開発することに重点を置いている。

The objective of this project is to utilize an FPGA board which is the CMOD A7 35t to obtain a pseudo random number which can be used for encryption. We aim to achieve this by leveraging the inherent randomness present in environmental data captured by sensors. This data will be used as a seed to initialize an algorithm implemented on the CMOD A7 35t FPGA board. The project will focus on interfacing the sensors with the FPGA and developing suitable algorithms to ensure the generated numbers exhibit strong randomness properties.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 正規化ポアソン非負行列分解の効率的なアルゴリズム

Efficient algorithms for regularized Poisson Non-negative Matrix Factorization ( http://arxiv.org/abs/2404.16505v1 )

ライセンス: Link先を確認
Nathanaël Perraudin, Adrien Teutrie, Cécile Hébert, Guillaume Obozinski, (参考訳) 正規化ポアソン非負行列因子分解(NMF)問題の問題を考察し、線形制約とともにリプシッツや比較的滑らかな関数などの様々な正規化項を包含する。 この問題は、多くの機械学習アプリケーション、特に物理線形アンミックス問題の領域において、大きな関連性を持っている。 ポアソン NMF 問題の主な損失項は KL の発散であり、これは非リプシッツであり、従来の勾配勾配に基づくアプローチは非効率的である。 本稿では,ブロック逐次上層最小化(BSUM)の利用について検討し,その課題を克服する。 リプシッツおよび比較的滑らかな関数に対する近似的汎化関数を構築し、その問題に線形制約を導入する方法を示す。 この結果、正規化されたPoisson NMFのための2つの新しいアルゴリズムが開発された。 提案手法の有効性を示す数値シミュレーションを行う。

We consider the problem of regularized Poisson Non-negative Matrix Factorization (NMF) problem, encompassing various regularization terms such as Lipschitz and relatively smooth functions, alongside linear constraints. This problem holds significant relevance in numerous Machine Learning applications, particularly within the domain of physical linear unmixing problems. A notable challenge arises from the main loss term in the Poisson NMF problem being a KL divergence, which is non-Lipschitz, rendering traditional gradient descent-based approaches inefficient. In this contribution, we explore the utilization of Block Successive Upper Minimization (BSUM) to overcome this challenge. We build approriate majorizing function for Lipschitz and relatively smooth functions, and show how to introduce linear constraints into the problem. This results in the development of two novel algorithms for regularized Poisson NMF. We conduct numerical simulations to showcase the effectiveness of our approach.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 言語間移動を支援する日本語文書レベル関係抽出データセットの構築

Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer ( http://arxiv.org/abs/2404.16506v1 )

ライセンス: Link先を確認
Youmi Ma, An Wang, Naoaki Okazaki, (参考訳) 文書レベルの関係抽出(DocRE)は、文書からすべての意味関係を抽出するタスクである。 DocREについての研究は行われているが、英語以外の言語ではDocREに限定的に注意が向けられている。 本研究は、既存の英語資源を効果的に活用して、非英語におけるDocRE研究を推進し、日本語を代表例とする。 最初の試みとして、英語のデータセットを日本語に転送することでデータセットを構築する。 しかし、そのようなデータセットでトレーニングされたモデルは、低いリコールに悩まされる。 本研究は,英語と母語話者が翻訳した文書の誤り事例を調査し,異なる表層構造と意味論の欠如について考察する。 そこで,翻訳されたデータセットが日本語文書の人間のアノテーションを補助できるかどうかを探索するために切り替える。 本提案では,アノテータが変換データセット上でトレーニングされたモデルから関係予測を編集する。 定量的分析により, モデルが提案するリレーションレコメンデーションは, 従来の手法に比べて約50%の編集ステップを削減できることが示唆された。 実験では,既存のDocREモデルのデータセット上での性能を定量的に評価し,日本語と言語横断DocREの課題を表現した。

Document-level Relation Extraction (DocRE) is the task of extracting all semantic relationships from a document. While studies have been conducted on English DocRE, limited attention has been given to DocRE in non-English languages. This work delves into effectively utilizing existing English resources to promote DocRE studies in non-English languages, with Japanese as the representative case. As an initial attempt, we construct a dataset by transferring an English dataset to Japanese. However, models trained on such a dataset suffer from low recalls. We investigate the error cases and attribute the failure to different surface structures and semantics of documents translated from English and those written by native speakers. We thus switch to explore if the transferred dataset can assist human annotation on Japanese documents. In our proposal, annotators edit relation predictions from a model trained on the transferred dataset. Quantitative analysis shows that relation recommendations suggested by the model help reduce approximately 50% of the human edit steps compared with the previous approach. Experiments quantify the performance of existing DocRE models on our collected dataset, portraying the challenges of Japanese and cross-lingual DocRE.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 検索と取得に基づく視覚知覚におけるマルチDoFsモバイルシステムのセマンティック・アウェア次世代ビュー

Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception ( http://arxiv.org/abs/2404.16507v1 )

ライセンス: Link先を確認
Xiaotong Yu, Chang-Wen Chen, (参考訳) モバイルシステムを用いた効率的な視覚認識は,特に関心対象の迅速かつ包括的認識が不可欠である探索・救助作業のような未知の環境において重要である。 このような現実世界のアプリケーションでは、関心のあるオブジェクトは複雑な環境に置かれることが多く、視界の最大化のみに基づく「Next Best」ビューの選択が最適である。 知覚の高レベルな解釈を提供するセマンティックスは、様々な知覚タスクに対する次の視点の選択に大きく貢献すべきである。 本研究では、視覚的なゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。 さらに,マルチ・オブ・フリーダム(Multi-DoFs)移動システムによって支援された複数の利害対象に対する2段階の探索・取得操作を支援するために,終了基準付き適応戦略を設計する。 提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。 シミュレーション実験により提案手法の利点を実証し,ROI-to-full復元体積比と0.88234平均視点指向性について最大27.13%の改善を実現した。 さらに、計画された運動軌跡は、目標に対してより知覚的なカバレッジを示す。

Efficient visual perception using mobile systems is crucial, particularly in unknown environments such as search and rescue operations, where swift and comprehensive perception of objects of interest is essential. In such real-world applications, objects of interest are often situated in complex environments, making the selection of the 'Next Best' view based solely on maximizing visibility gain suboptimal. Semantics, providing a higher-level interpretation of perception, should significantly contribute to the selection of the next viewpoint for various perception tasks. In this study, we formulate a novel information gain that integrates both visibility gain and semantic gain in a unified form to select the semantic-aware Next-Best-View. Additionally, we design an adaptive strategy with termination criterion to support a two-stage search-and-acquisition manoeuvre on multiple objects of interest aided by a multi-degree-of-freedoms (Multi-DoFs) mobile system. Several semantically relevant reconstruction metrics, including perspective directivity and region of interest (ROI)-to-full reconstruction volume ratio, are introduced to evaluate the performance of the proposed approach. Simulation experiments demonstrate the advantages of the proposed approach over existing methods, achieving improvements of up to 27.13% for the ROI-to-full reconstruction volume ratio and a 0.88234 average perspective directivity. Furthermore, the planned motion trajectory exhibits better perceiving coverage toward the target.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 5Gネットワークにおけるデータ伝送のダイナミクスの探索:概念解析

Exploring the Dynamics of Data Transmission in 5G Networks: A Conceptual Analysis ( http://arxiv.org/abs/2404.16508v1 )

ライセンス: Link先を確認
Nikita Smirnov, Sven Tomforde, (参考訳) この概念解析は,5Gネットワークにおけるデータ伝送のダイナミクスを考察する。 遠隔操作のフェリーに搭載されたカメラやLiDARから陸地制御センターにデータを送信するさまざまな側面に対処する。 ビデオやLiDARのデータ処理のすべての段階は、取得からエンコーディングから最終的な復号化、WebRTCプロトコルによる送信と受信のあらゆる側面、そしてエンドユーザの体験の質に影響を与える可能性のあるハンドオーバや混雑といったネットワーク上の問題を含む。 データ伝送の重要な側面を評価するために,一連の実験を行った。 Gymir5G" - OMNeT++ベースの5Gシミュレーションと"GstWebRTCApp" - GStreamerベースのWebRTCプロトコルによるメディアストリームの適応制御アプリケーションです。 本研究の目的は,信頼性の高いリアルタイム通信における帯域幅とレイテンシ要件を定式化し,その近似値を推定することである。 この目標は、ドイツのキール湾でのドッキング操作に関するシミュレーションに基づく実験によって達成された。 データ処理パイプライン全体の最後のレイテンシも、実際のテスト中に見積もられた。 さらに、シミュレーションに基づく一連の実験では、WebRTCの重要な機能の影響が示され、WebRTCプロトコルの有効性が示されたが、ビデオコーデックの比較では、ハードウェアアクセラレーションされたH.264コーデックが最高であることが示された。 最後に,従来の渋滞回避手法と深層強化学習手法を応用した適応通信の課題について考察した。 サンドボックスシナリオの比較では、データレート、レイテンシ、パケットロスの点で、AIベースのソリューションがWebRTCベースラインGCCアルゴリズムを上回っていることが示されている。

This conceptual analysis examines the dynamics of data transmission in 5G networks. It addresses various aspects of sending data from cameras and LiDARs installed on a remote-controlled ferry to a land-based control center. The range of topics includes all stages of video and LiDAR data processing from acquisition and encoding to final decoding, all aspects of their transmission and reception via the WebRTC protocol, and all possible types of network problems such as handovers or congestion that could affect the quality of experience for end-users. A series of experiments were conducted to evaluate the key aspects of the data transmission. These include simulation-based reproducible runs and real-world experiments conducted using open-source solutions we developed: "Gymir5G" - an OMNeT++-based 5G simulation and "GstWebRTCApp" - a GStreamer-based application for adaptive control of media streams over the WebRTC protocol. One of the goals of this study is to formulate the bandwidth and latency requirements for reliable real-time communication and to estimate their approximate values. This goal was achieved through simulation-based experiments involving docking maneuvers in the Bay of Kiel, Germany. The final latency for the entire data processing pipeline was also estimated during the real tests. In addition, a series of simulation-based experiments showed the impact of key WebRTC features and demonstrated the effectiveness of the WebRTC protocol, while the conducted video codec comparison showed that the hardware-accelerated H.264 codec is the best. Finally, the research addresses the topic of adaptive communication, where the traditional congestion avoidance and deep reinforcement learning approaches were analyzed. The comparison in a sandbox scenario shows that the AI-based solution outperforms the WebRTC baseline GCC algorithm in terms of data rates, latency, and packet loss.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# Interactive3D:インタラクティブな3D生成で欲しいものを作る

Interactive3D: Create What You Want by Interactive 3D Generation ( http://arxiv.org/abs/2404.16510v1 )

ライセンス: Link先を確認
Shaocong Dong, Lihe Ding, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu, (参考訳) 3Dオブジェクト生成は大幅に進歩し、高品質な結果を得た。 しかし、正確なユーザコントロールを達成するには足りず、多くの場合、ユーザの期待に合わない結果をもたらし、適用性を制限する。 ユーザビジョンの3Dオブジェクト生成は、インタラクション能力の制限により、現在の生成モデルを使用してその概念を実現する上で大きな課題に直面します。 既存の手法は主に2つのアプローチを提供する。 一 制限された可制御性のある文言を解釈すること。 (II)2次元画像から3次元オブジェクトを再構成する。 どちらも2D参照の制限にカスタマイズを制限し、3Dリフトプロセス中に望ましくないアーティファクトを導入する可能性があり、直接的かつ汎用的な3D修正のスコープを制限する。 本稿では,対話型3D生成のための革新的なフレームワークであるInteractive3Dを紹介する。 Interactive3Dは2つのカスケード段階で構築され、異なる3D表現を利用する。 第1段階では、直接ユーザインタラクションにガウススプラッティングを採用し、任意の中間ステップにおける生成方向の変更とガイダンスを可能にする。 一 部品の追加及び取り除くこと。 (二)変形性及び剛性ドラギング (三)幾何変換、及び (4)セマンティック編集。 その後、ガウスプレートはInstantNGPに変換される。 小説を紹介する (v)インタラクティブハッシュリファインメントモジュールは、詳細を追加し、第2段階の幾何学を抽出する。 実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。 プロジェクトのWebページは \url{https://interactive-3d.github.io/} で公開されている。

3D object generation has undergone significant advancements, yielding high-quality results. However, fall short of achieving precise user control, often yielding results that do not align with user expectations, thus limiting their applicability. User-envisioning 3D object generation faces significant challenges in realizing its concepts using current generative models due to limited interaction capabilities. Existing methods mainly offer two approaches: (i) interpreting textual instructions with constrained controllability, or (ii) reconstructing 3D objects from 2D images. Both of them limit customization to the confines of the 2D reference and potentially introduce undesirable artifacts during the 3D lifting process, restricting the scope for direct and versatile 3D modifications. In this work, we introduce Interactive3D, an innovative framework for interactive 3D generation that grants users precise control over the generative process through extensive 3D interaction capabilities. Interactive3D is constructed in two cascading stages, utilizing distinct 3D representations. The first stage employs Gaussian Splatting for direct user interaction, allowing modifications and guidance of the generative direction at any intermediate step through (i) Adding and Removing components, (ii) Deformable and Rigid Dragging, (iii) Geometric Transformations, and (iv) Semantic Editing. Subsequently, the Gaussian splats are transformed into InstantNGP. We introduce a novel (v) Interactive Hash Refinement module to further add details and extract the geometry in the second stage. Our experiments demonstrate that Interactive3D markedly improves the controllability and quality of 3D generation. Our project webpage is available at \url{https://interactive-3d.github.io/}.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 外部駆動場の存在下での分散原子空洞相互作用における非古典性

Nonclassicality in a dispersive atom-cavity field interaction in presence of an external driving field ( http://arxiv.org/abs/2404.16515v1 )

ライセンス: Link先を確認
Naveen Kumar, Arpita Chatterjee, (参考訳) 本研究では,3レベル原子と量子化キャビティ場と外部古典駆動場との相互作用によって生じる状態の非古典的性質について検討する。 本研究では、周波数で縮退する磁場を原子から高度に分解する。 原子は分散的に量子化された場と相互作用する。 実験的なセットアップは、キャビティを通過し、キャビティフィールドモードと分散的に相互作用する3レベル原子を含む。 同時に、原子は空洞場と共鳴する外部古典場と相互作用する。 3レベル原子は、素状態の1つ$\ket{e}$、$\ket{f}$、または$\ket{g}$、またはこれら2つの状態の重ね合わせで空洞に入ることができる。 本稿では、$\ket{e}$と$\ket{f}$の重ね合わせを考える。 本研究では,原子と相互作用したキャビティ場の統計特性に着目した。 状態ベクトル $|\psi(t)\rangle$ は原子場全体を記述するが、系の原子成分を独立に無視する空洞場の性質を解析する。 これに対し、原子部分は、空洞場状態のみを取得するために$|\psi(t)\rangle$から抽出され、$\ket{\psi_{ f}(t)}$で表される。 我々は,光子数分布,マンデルの$Q_M$パラメータ,スクイーズ特性$S_x$と$S_p$,ウィグナー分布,$Q_f$関数,第2次相関関数$g^2(0)$など,様々な非古典的尺度を評価する。

We investigate nonclassical properties of a state generated by the interaction of a three-level atom with a quantized cavity field and an external classical driving field. In this study, the fields being degenerate in frequency, are highly detuned from the atom. The atom interacts with the quantized field in a dispersive manner. The experimental set-up involves a three-level atom passing through a cavity and interacting dispersively with the cavity field mode. Simultaneously, the atom interacts with an external classical field that is in resonance with the cavity field. The three-level atom can enter the cavity in one of the bare states $\ket{e}$, $\ket{f}$ or $\ket{g}$ or in a superposition of two of these states. In this paper, we consider superposition of $\ket{e}$ and $\ket{f}$. In our analysis, we focus on the statistical properties of the cavity field after interacting with the atom. The state vector $|\psi(t)\rangle$ describes the entire atom-field system but we analyze the properties of the cavity field independently neglecting the atomic component of the system. For this the atom part is traced out from $|\psi(t)\rangle$ to acquire the cavity field state only, denoted by $\ket{\psi_{ f}(t)}$. We evaluate different nonclassical measures including photon number distribution, Mandel's $Q_M$ parameter, squeezing properties $S_x$ and $S_p$, Wigner distribution, $Q_f$ function, second-order correlation function $g^2(0)$ etc. for the obtained cavity field state.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 逆多元性に関する不偏推定方程式とその条件

Unbiased Estimating Equation on Inverse Divergence and Its Conditions ( http://arxiv.org/abs/2404.16519v1 )

ライセンス: Link先を確認
Masahiro Kobayashi, Kazuho Watanabe, (参考訳) 本稿では、逆発散(英語版)と呼ばれる相互関数によって定義されるブレグマン発散(英語版)に焦点を当てる。 単調に増大する関数 $f$ と逆発散によって定義される損失関数に対して、推定方程式が偏りのない統計モデルと関数 $f$ の条件を明確にする。 具体的には,2種類の統計モデル,逆ガウス型と一般化ガウス型分布の混合を特徴付け,各モデルに対して関数$f$の条件が異なることを示す。 また、逆発散の次元上の線型和としてブレグマン発散を定義し、結果を多次元の場合にまで拡張する。

This paper focuses on the Bregman divergence defined by the reciprocal function, called the inverse divergence. For the loss function defined by the monotonically increasing function $f$ and inverse divergence, the conditions for the statistical model and function $f$ under which the estimating equation is unbiased are clarified. Specifically, we characterize two types of statistical models, an inverse Gaussian type and a mixture of generalized inverse Gaussian type distributions, to show that the conditions for the function $f$ are different for each model. We also define Bregman divergence as a linear sum over the dimensions of the inverse divergence and extend the results to the multi-dimensional case.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 心アミロイドーシスと肥大型心筋症を鑑別する深層学習駆動パイプライン

A Deep Learning-Driven Pipeline for Differentiating Hypertrophic Cardiomyopathy from Cardiac Amyloidosis Using 2D Multi-View Echocardiography ( http://arxiv.org/abs/2404.16522v1 )

ライセンス: Link先を確認
Bo Peng, Xiaofeng Li, Xinyu Li, Zhenghan Wang, Hui Deng, Xiaoxian Luo, Lixue Yin, Hongmei Zhang, (参考訳) 肥大型心筋症 (HCM) と心アミロイドーシス (CA) はいずれも心不全に進展する。 同様の心エコー図的特徴を呈し、しばしば診断上の課題に繋がる。 本稿では,HCMとCAの鑑別に2次元心エコー図を用いた新しい多視点深層学習手法を提案する。 心エコー図では,心室中隔,左心室中隔長軸,僧帽弁,乳頭筋,肛門の5つの心エコー図に分類する。 次に、各ビューの特徴を別々に抽出し、疾患分類のための5つの特徴を組み合わせる。 HCMと診断された患者は計212人,CAと診断された患者は30人,正常心機能(Normal)は200人であった。 このアプローチは精度、0.905のリコール、0.904のマイクロF1スコアを達成し、マルチビュー解析を用いてHCMとCAを正確に同定する効果を示した。

Hypertrophic cardiomyopathy (HCM) and cardiac amyloidosis (CA) are both heart conditions that can progress to heart failure if untreated. They exhibit similar echocardiographic characteristics, often leading to diagnostic challenges. This paper introduces a novel multi-view deep learning approach that utilizes 2D echocardiography for differentiating between HCM and CA. The method begins by classifying 2D echocardiography data into five distinct echocardiographic views: apical 4-chamber, parasternal long axis of left ventricle, parasternal short axis at levels of the mitral valve, papillary muscle, and apex. It then extracts features of each view separately and combines five features for disease classification. A total of 212 patients diagnosed with HCM, and 30 patients diagnosed with CA, along with 200 individuals with normal cardiac function(Normal), were enrolled in this study from 2018 to 2022. This approach achieved a precision, recall of 0.905, and micro-F1 score of 0.904, demonstrating its effectiveness in accurately identifying HCM and CA using a multi-view analysis.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 実験室における透明液体容器の視覚に基づくロボット操作

Vision-based robot manipulation of transparent liquid containers in a laboratory setting ( http://arxiv.org/abs/2404.16529v1 )

ライセンス: Link先を確認
Daniel Schober, Ronja Güldenring, James Love, Lazaros Nalpantidis, (参考訳) 少量の溶液と活性成分を含む実験室のプロセスは、高い初期コスト、半構造化環境、プロトコルの可変性といった自動化上の課題のために手動で行われることが多い。 本研究では, このギャップに対処するフレキシブルで費用対効果の高い手法として, 液量推定のための視覚ベースシステムと, 小型開口容器に特化して設計されたシミュレーション駆動型注水方式を導入する。 両コンポーネントを個別に評価し,UR5ロボットアームを用いた実世界の細胞培養の自動化を応用した。 私たちの作業は完全に再現可能で、コード共有は \url{https://github.com/DaniSchober/LabLiquidVision} で行われ、新しく導入されたデータセット LabLiquidVolume はhttps://data.dtu.dk/articles/dataset/LabLiquidVision/25103102 で利用可能です。

Laboratory processes involving small volumes of solutions and active ingredients are often performed manually due to challenges in automation, such as high initial costs, semi-structured environments and protocol variability. In this work, we develop a flexible and cost-effective approach to address this gap by introducing a vision-based system for liquid volume estimation and a simulation-driven pouring method particularly designed for containers with small openings. We evaluate both components individually, followed by an applied real-world integration of cell culture automation using a UR5 robotic arm. Our work is fully reproducible: we share our code at at \url{https://github.com/DaniSchober/LabLiquidVision} and the newly introduced dataset LabLiquidVolume is available at https://data.dtu.dk/articles/dataset/LabLiquidVision/25103102.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# リンク型Web検索の政治経済について

On the Political Economy of Link-based Web Search ( http://arxiv.org/abs/2404.16530v1 )

ライセンス: Link先を確認
Deepak P, James Steinhoff, Stanley Simoes, (参考訳) ウェブ検索エンジンは間違いなく、現代の社会でもっともポピュラーなデータ駆動システムを形成している。 彼らは、Webのゲートキーパーとして機能し、Web上でのほとんどのユーザー旅行を初めとして、かなりのパワーを握った。 1990年代後半から、検索エンジンはリンクベースのウェブ検索のパラダイムに支配されている。 本稿では,リンクに基づくWeb検索のパラダイムの政治経済を批判的に分析し,批判的政治経済からの洞察と方法論に基づく。 リンクベースのウェブ検索が、ウェブの長期的構造変化を通じて資本を優先する現象にどのように繋がったか、そしてそれが、未払いのデジタル労働と生態的に持続不可能な実践をアクセント化させたかなど、いくつかの洞察を導き出した。 リンクベースのWeb検索の劣化品質に関する現代の観察は、このパラダイムと内部の矛盾に遡り、そのような社会技術的現象がリンクベースのWeb検索モデルの実用性にどう影響するかを示す。 私たちの貢献は主に、リンクベースのWebサーチの政治経済の理解を深め、職場の現象をなくし、代替モデルの探索を暗黙的に触媒することにあります。

Web search engines arguably form the most popular data-driven systems in contemporary society. They wield a considerable power by functioning as gatekeepers of the Web, with most user journeys on the Web beginning with them. Starting from the late 1990s, search engines have been dominated by the paradigm of link-based web search. In this paper, we critically analyze the political economy of the paradigm of link-based web search, drawing upon insights and methodologies from critical political economy. We draw several insights on how link-based web search has led to phenomena that favor capital through long-term structural changes on the Web, and how it has led to accentuating unpaid digital labor and ecologically unsustainable practices, among several others. We show how contemporary observations on the degrading quality of link-based web search can be traced back to the internal contradictions with the paradigm, and how such socio-technical phenomena may lead to a disutility of the link-based web search model. Our contribution is primarily on enhancing the understanding of the political economy of link-based web search, and laying bare the phenomena at work, and implicitly catalyze the search for alternative models.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# コントラスト学習によるグラフのグローバルな概念記述

Global Concept Explanations for Graphs by Contrastive Learning ( http://arxiv.org/abs/2404.16532v1 )

ライセンス: Link先を確認
Jonas Teufel, Pascal Friederich, (参考訳) 信頼の向上とモデルフェアネスの検証に加えて、xAIプラクティスは、事前の人間の直観がほとんど、あるいは全く存在しないアプリケーションドメインにおける貴重な科学的洞察を回復する可能性がある。 そこで本稿では,グラフニューラルネットワークの予測からグローバルな概念記述を抽出し,構造-プロパティ関係に基づくタスクの理解を深める手法を提案する。 自己説明的ミーガンモデルにおける概念的説明は、潜在空間をサブグラフ化したものである。 それぞれの概念に対して、代表となるプロトタイプグラフを最適化し、オプションでGPT-4を使用して、各構造が予測に一定の影響を及ぼす理由の仮説を提供する。 合成および実世界のグラフ特性予測タスクに関する計算実験を行う。 合成タスクに対して,本手法は生成した構造規則を正しく再現する。 実世界の分子特性の回帰と分類タスクでは,本手法が親指の規則を確立した。 より具体的には,分子変異原性予測の結果から,既存の説明可能性法よりも微細な構造詳細分解能が示唆された。 以上の結果から,複雑なグラフ特性予測タスクの基盤となる構造-プロパティ関係を抽出できることが示唆された。

Beyond improving trust and validating model fairness, xAI practices also have the potential to recover valuable scientific insights in application domains where little to no prior human intuition exists. To that end, we propose a method to extract global concept explanations from the predictions of graph neural networks to develop a deeper understanding of the tasks underlying structure-property relationships. We identify concept explanations as dense clusters in the self-explaining Megan models subgraph latent space. For each concept, we optimize a representative prototype graph and optionally use GPT-4 to provide hypotheses about why each structure has a certain effect on the prediction. We conduct computational experiments on synthetic and real-world graph property prediction tasks. For the synthetic tasks we find that our method correctly reproduces the structural rules by which they were created. For real-world molecular property regression and classification tasks, we find that our method rediscovers established rules of thumb. More specifically, our results for molecular mutagenicity prediction indicate more fine-grained resolution of structural details than existing explainability methods, consistent with previous results from chemistry literature. Overall, our results show promising capability to extract the underlying structure-property relationships for complex graph property prediction tasks.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# SIDEs: xAIにおける認知的説明から理想化を分離する

SIDEs: Separating Idealization from Deceptive Explanations in xAI ( http://arxiv.org/abs/2404.16534v1 )

ライセンス: Link先を確認
Emily Sullivan, (参考訳) ブラックボックスモデルを使用する信頼を確立する上で、説明可能なAI(xAI)メソッドが重要である。 しかし、最近の批判は、それらが反対する現在のxAIメソッドに対して、必ずしも偽であり、操作可能であることへの批判が強まり、ブラックボックスモデルの展開を損なうようになった。 Rudin (2019) は、XAI の説明が「間違ってはならない」ため、高精細なケースでブラックボックスモデルを完全に使うのをやめるべきであると述べている。 しかし、真理への厳格な忠実さは歴史的に科学の偏見ではない。 科学理論やモデルに意図的な歪みをもたらす理想化は、自然科学において一般的であり、科学的ツールとして成功していると見なされている。 したがって、それが問題となるのは偽造準偽造ではない。 本稿では,xAI研究の理想化評価への関与の必要性について概説する。 自然科学・科学哲学における理想化の活用を基礎として、xAI手法が理想化を成功させるか、または、偽りの説明(SIDE)を行うかを評価するための新しい枠組みを導入する。 SIDEは、xAI手法の限界とそれらが導入する歪みが、成功している理想化の一部なのか、それとも実際に偽りの歪みなのかを評価する。 私は、既存の研究が理想化評価において果たす役割と、イノベーションがどこに必要かについて議論する。 定性的な分析を通して、主要な特徴重要度法と反実的説明が理想化失敗の対象となることを発見し、理想化失敗を改善するための改善策を提案する。

Explainable AI (xAI) methods are important for establishing trust in using black-box models. However, recent criticism has mounted against current xAI methods that they disagree, are necessarily false, and can be manipulated, which has started to undermine the deployment of black-box models. Rudin (2019) goes so far as to say that we should stop using black-box models altogether in high-stakes cases because xAI explanations "must be wrong". However, strict fidelity to the truth is historically not a desideratum in science. Idealizations -- the intentional distortions introduced to scientific theories and models -- are commonplace in the natural sciences and are seen as a successful scientific tool. Thus, it is not falsehood qua falsehood that is the issue. In this paper, I outline the need for xAI research to engage in idealization evaluation. Drawing on the use of idealizations in the natural sciences and philosophy of science, I introduce a novel framework for evaluating whether xAI methods engage in successful idealizations or deceptive explanations (SIDEs). SIDEs evaluates whether the limitations of xAI methods, and the distortions that they introduce, can be part of a successful idealization or are indeed deceptive distortions as critics suggest. I discuss the role that existing research can play in idealization evaluation and where innovation is necessary. Through a qualitative analysis we find that leading feature importance methods and counterfactual explanations are subject to idealization failure and suggest remedies for ameliorating idealization failure.
翻訳日:2024-04-26 13:59:41 公開日:2024-04-25
# 弱教師付き不整合ネットワークを用いた3次元顔のモデリング

3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior ( http://arxiv.org/abs/2404.16536v1 )

ライセンス: Link先を確認
Guohao Li, Hongyu Yang, Di Huang, Yunhong Wang, (参考訳) 切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。 しかし、従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。 これは、モデルの一般化を改善するために複数の3D顔データセットを統合する場合に特に問題となる。 本稿では, 過度に拘束的なラベル付けを必要とせず, 制御可能な3次元顔モデルのトレーニングを容易にするために, WSDF と表記される弱弱弱化処理フレームワークを提案する。 変分オートエンコーダ (VAE) のパラダイムに則って, 専用ID一貫性を持つ2分岐エンコーダを用いて, 同一性と表現制御因子のアンタングル化を実現する。 その後、テンソルベースの結合機構を通じてこれらの因子を忠実に再結合する。 特に、中立銀行の導入により、アイデンティティラベルのみを使用して、被写体固有の情報の正確な取得が可能となり、監督が不十分なため、変性を回避できる。 さらに、このフレームワークは、表現係数のラベルフリーな2次損失関数を組み込んで、変形空間を規制し、外部情報を排除し、拡張された絡み合いをもたらす。 WSDFの優れた性能を裏付ける大規模な実験が実施されている。 私たちのコードはhttps://github.com/liguohao96/WSDF.comで公開されています。

Generative 3D face models featuring disentangled controlling factors hold immense potential for diverse applications in computer vision and computer graphics. However, previous 3D face modeling methods face a challenge as they demand specific labels to effectively disentangle these factors. This becomes particularly problematic when integrating multiple 3D face datasets to improve the generalization of the model. Addressing this issue, this paper introduces a Weakly-Supervised Disentanglement Framework, denoted as WSDF, to facilitate the training of controllable 3D face models without an overly stringent labeling requirement. Adhering to the paradigm of Variational Autoencoders (VAEs), the proposed model achieves disentanglement of identity and expression controlling factors through a two-branch encoder equipped with dedicated identity-consistency prior. It then faithfully re-entangles these factors via a tensor-based combination mechanism. Notably, the introduction of the Neutral Bank allows precise acquisition of subject-specific information using only identity labels, thereby averting degeneration due to insufficient supervision. Additionally, the framework incorporates a label-free second-order loss function for the expression factor to regulate deformation space and eliminate extraneous information, resulting in enhanced disentanglement. Extensive experiments have been conducted to substantiate the superior performance of WSDF. Our code is available at https://github.com/liguohao96/WSDF.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# OpenDlign:depth-aligned Imagesによるオープンワールド3D学習の強化

OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images ( http://arxiv.org/abs/2404.16538v1 )

ライセンス: Link先を確認
Ye Mao, Junpeng Jing, Krystian Mikolajczyk, (参考訳) ビジョンと言語モデル(VLM)の最近の進歩は、オープンワールドの3D表現を改善し、目に見えないカテゴリで3Dゼロショット機能を促進する。 既存のオープンワールドメソッドは、3Dエンコーダを事前トレーニングして、3Dデータ(例えば、深度マップや点雲)からCADレンダリングされた画像と対応するテキストをアライメントする。 しかし、CAD画像における色やテクスチャの変化は、アライメントの堅牢性を損なう可能性がある。 さらに、3DエンコーダとVLMの事前学習データセットのボリューム差は、最適2Dから3Dの知識伝達につながる。 これらの課題を克服するために,オープンワールドの3D表現を学習するための新しいフレームワークであるOpenDlignを提案する。 CADレンダリング画像とは異なり、生成した画像は、深度マップとの幾何学的・意味的整合性を保ちながら、リッチでリアルな色とテクスチャの多様性を提供する。 OpenDlignはまた、深度マップの投影を最適化し、深度固有のテキストプロンプトを統合し、3D学習効率の良い微調整のための2D VLM知識適応を改善している。 実験の結果、OpenDlignはゼロショットと少数ショットの3Dタスクで既存のベンチマークを著しく上回り、ModelNet40では8.0%、OmniObject3Dでは16.4%、調整されたパラメータはわずか600万である。 さらに、既存の3D学習パイプラインに生成された深度に整合したイメージを統合することにより、パフォーマンスが一貫して向上する。

Recent advances in Vision and Language Models (VLMs) have improved open-world 3D representation, facilitating 3D zero-shot capability in unseen categories. Existing open-world methods pre-train an extra 3D encoder to align features from 3D data (e.g., depth maps or point clouds) with CAD-rendered images and corresponding texts. However, the limited color and texture variations in CAD images can compromise the alignment robustness. Furthermore, the volume discrepancy between pre-training datasets of the 3D encoder and VLM leads to sub-optimal 2D to 3D knowledge transfer. To overcome these issues, we propose OpenDlign, a novel framework for learning open-world 3D representations, that leverages depth-aligned images generated from point cloud-projected depth maps. Unlike CAD-rendered images, our generated images provide rich, realistic color and texture diversity while preserving geometric and semantic consistency with the depth maps. OpenDlign also optimizes depth map projection and integrates depth-specific text prompts, improving 2D VLM knowledge adaptation for 3D learning efficient fine-tuning. Experimental results show that OpenDlign significantly outperforms existing benchmarks in zero-shot and few-shot 3D tasks, exceeding prior scores by 8.0% on ModelNet40 and 16.4% on OmniObject3D with just 6 million tuned parameters. Moreover, integrating generated depth-aligned images into existing 3D learning pipelines consistently improves their performance.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 変分量子プロセストモグラフィーにおける最適深さと新しいアプローチ

Optimal depth and a novel approach to variational quantum process tomography ( http://arxiv.org/abs/2404.16541v1 )

ライセンス: Link先を確認
Vladlen Galetsky, Pol Julià Farré, Soham Ghosh, Christian Deppe, Roberto Ferrara, (参考訳) 本稿では,変分量子回路(VQC)のプロセストモグラフィーを,PT_VQCとU-VQSVDの2つの新しい方式を提案する。 最先端と比較して、PT_VQCはプロセストモグラフィーに必要なキュービット数を実行し、必要な状態の初期化を$4^{n}$から$2^{n}$に減らし、ターゲットとするユニタリチャネルを高忠実に再構築する。 なお、PT_VQCは、量子ディープニューラルネットワーク(QDNN)やテンソルネットワーク方式と比較して、反復ステップ毎の収束が速いことに注意する必要がある。 U-VQSVDアルゴリズムは変分特異値分解を用いて、一般チャネルを表す未知のユニタリから固有ベクトルとその関連する固有値を抽出する。 本報告では,U-VQSVDの性能を評価するために,QPUF (Quantum Physical Unclonable Function) を攻撃した。 U-VQSVDは、量子ビット次元に応じて2から5の係数で(ランダムに生成された入力状態を用いて)非インフォームな偽造攻撃より優れる。 提案手法は, 表示されたVQCの複雑さを, 最適深さとして表現するものに基づいて計算する手法である。

In this work, we present two new methods for Variational Quantum Circuit (VQC) Process Tomography onto $n$ qubits systems: PT_VQC and U-VQSVD. Compared to the state of the art, PT_VQC halves in each run the required amount of qubits for process tomography and decreases the required state initializations from $4^{n}$ to just $2^{n}$, all while ensuring high-fidelity reconstruction of the targeted unitary channel $U$. It is worth noting that, for a fixed reconstruction accuracy, PT_VQC achieves faster convergence per iteration step compared to Quantum Deep Neural Network (QDNN) and tensor network schemes. The novel U-VQSVD algorithm utilizes variational singular value decomposition to extract eigenvectors (up to a global phase) and their associated eigenvalues from an unknown unitary representing a general channel. We assess the performance of U-VQSVD by executing an attack on a non-unitary channel Quantum Physical Unclonable Function (QPUF). U-VQSVD outperforms an uninformed impersonation attack (using randomly generated input states) by a factor of 2 to 5, depending on the qubit dimension. For the two presented methods, we propose a new approach to calculate the complexity of the displayed VQC, based on what we denote as optimal depth.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# スウェーデンにおける音声認識のための音響モデルの開発

Developing Acoustic Models for Automatic Speech Recognition in Swedish ( http://arxiv.org/abs/2404.16547v1 )

ライセンス: Link先を確認
Giampiero Salvi, (参考訳) 本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。 この研究の目的はスウェーデン語話者のための音響モデルを構築することである。 これは隠れマルコフモデルを使用し、パラメータをトレーニングするためにSpeechDatデータベースを使用する。 音素レベルでの音響モデリングが実施され、単純化されたタスク(デジタルおよび自然数認識)がモデル評価のために検討されているにもかかわらず、一般の音声認識応用が可能となった。 文脈依存モデルと2種類の文脈依存モデルを含む、さまざまな種類の電話モデルがテストされている。 さらに、システムパラメータの一部をチューニングするために、Bigram言語モデルで多くの実験が行われた。 また,性別,年齢,方言の異なる話者サブセットに対するシステム性能についても検討した。 結果は、これまでの類似した研究と比較され、顕著な改善が見られた。

This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 自律型車両認識システムにおけるカメラとレーダーセンサデータ融合のためのクロスドメイン空間マッチング

Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System ( http://arxiv.org/abs/2404.16548v1 )

ライセンス: Link先を確認
Daniel Dworak, Mateusz Komorkiewicz, Paweł Skruch, Jerzy Baranowski, (参考訳) 本稿では,自律走行車認識システムにおける3次元物体検出のためのカメラとレーダーセンサの融合問題に対する新しいアプローチを提案する。 我々のアプローチは、ディープラーニングの最近の進歩に基づいており、両方のセンサーの強度を活用して物体検出性能を向上させる。 より正確には、最先端のディープラーニングアーキテクチャを用いてカメラ画像から2次元特徴を抽出し、その特徴を3次元空間に変換するために、新しいクロスドメイン空間マッチング(CDSM)変換手法を適用する。 そして、それらを補完的な融合戦略を用いて抽出したレーダーデータで融合し、最終的な3次元オブジェクト表現を生成する。 提案手法の有効性を示すため,NuScenesデータセット上で評価を行った。 我々は, 単一センサ性能と現状融合法との比較を行った。 提案手法は単一センサ・ソリューションよりも優れた性能を実現し,他のトップレベルの融合手法と直接競合できることを示す。

In this paper, we propose a novel approach to address the problem of camera and radar sensor fusion for 3D object detection in autonomous vehicle perception systems. Our approach builds on recent advances in deep learning and leverages the strengths of both sensors to improve object detection performance. Precisely, we extract 2D features from camera images using a state-of-the-art deep learning architecture and then apply a novel Cross-Domain Spatial Matching (CDSM) transformation method to convert these features into 3D space. We then fuse them with extracted radar data using a complementary fusion strategy to produce a final 3D object representation. To demonstrate the effectiveness of our approach, we evaluate it on the NuScenes dataset. We compare our approach to both single-sensor performance and current state-of-the-art fusion methods. Our results show that the proposed approach achieves superior performance over single-sensor solutions and could directly compete with other top-level fusion methods.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 長期記憶と畳み込みニューラルネットワークのリアルタイム橋梁せん断予測への適用

Application of Long-Short Term Memory and Convolutional Neural Networks for Real-Time Bridge Scour Forecast ( http://arxiv.org/abs/2404.16549v1 )

ライセンス: Link先を確認
Tahrima Hashem, Negin Yousefpour, (参考訳) 橋の桟橋周辺は、世界中のインフラにとって重要な課題だ。 解析モデルが欠如し、歪過程の複雑さのため、現在の経験的手法では正確な予測が困難である。 本稿では,河床標高,流高,流速などの履歴センサ観測データに基づいて,橋脚周囲のせん断深度変動を予測するために,深層学習アルゴリズムの力を利用する。 2006年から2021年までのアラスカ州とオレゴン州の橋梁から収集したデータを用いて, 長期記憶(LSTM)モデルと畳み込みニューラルネットワーク(CNN)モデルを用いて, リアルタイムなせん断予測を行った。 LSTMモデルでは, 平均絶対誤差 (MAE) は週毎のベッドレベルの変動を予測するために0.1mから0.5mの範囲で達成され, 妥当な性能を示した。 CNNのFCN(Fully Convolutional Network)は、他のCNN構成よりも優れており、計算コストを大幅に削減したLSTMに匹敵する性能を示した。 我々は,超パラメータチューニングとモデル最適化のための様々な革新的なランダム探索ヒューリスティックを探索し,グリッド探索法と比較して計算コストを削減した。 センサの異なる組み合わせが、来るべき事象を予測するために、歴史的時系列のせん断の重要さを示した。 本研究は, 河川, 干潟, 海岸橋など, 各種の潮流を有する橋において, リアルタイムの潮流予測と早期警戒のための深層学習(DL)の可能性について, より深く理解するものである。

Scour around bridge piers is a critical challenge for infrastructures around the world. In the absence of analytical models and due to the complexity of the scour process, it is difficult for current empirical methods to achieve accurate predictions. In this paper, we exploit the power of deep learning algorithms to forecast the scour depth variations around bridge piers based on historical sensor monitoring data, including riverbed elevation, flow elevation, and flow velocity. We investigated the performance of Long Short-Term Memory (LSTM) and Convolutional Neural Network (CNN) models for real-time scour forecasting using data collected from bridges in Alaska and Oregon from 2006 to 2021. The LSTM models achieved mean absolute error (MAE) ranging from 0.1m to 0.5m for predicting bed level variations a week in advance, showing a reasonable performance. The Fully Convolutional Network (FCN) variant of CNN outperformed other CNN configurations, showing a comparable performance to LSTMs with significantly lower computational costs. We explored various innovative random-search heuristics for hyperparameter tuning and model optimisation which resulted in reduced computational cost compared to grid-search method. The impact of different combinations of sensor features on scour prediction showed the significance of the historical time series of scour for predicting upcoming events. Overall, this study provides a greater understanding of the potential of Deep Learning (DL) for real-time scour forecasting and early warning in bridges with diverse scour and flow characteristics including riverine and tidal/coastal bridges.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 20世紀の量子情報理論におけるアレクサンドル・ホレヴォの研究

Alexander S. Holevo's Researches in Quantum Information Theory in 20th Century ( http://arxiv.org/abs/2404.16550v1 )

ライセンス: Link先を確認
Masahito Hayashi, (参考訳) 本稿では20世紀におけるホレヴォの量子情報理論への貢献を概観する。 当時、彼は古典量子チャネル符号化、クラメロ・ラオアプローチによる量子推定、群共変アプローチによる量子推定という3つのトピックを主に研究した。 本稿ではこれら3つのトピックについて述べる。

This paper reviews Holevo's contributions to quantum information theory during the 20 century. At that time, he mainly studied three topics, classical-quantum channel coding, quantum estimation with Cramero-Rao approach, and quantum estimation with the group covariant approach. This paper addresses these three topics.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# ニューラルネットワークによる驚くほど強い性能予測

Surprisingly Strong Performance Prediction with Neural Graph Features ( http://arxiv.org/abs/2404.16551v1 )

ライセンス: Link先を確認
Gabriela Kadlecová, Jovita Lukasik, Martin Pilát, Petra Vidnerová, Mahmoud Safari, Roman Neruda, Frank Hutter, (参考訳) パフォーマンス予測は、NAS(Neural Architecture Search)プロセスの重要な部分であり、リソース消費のネットワークトレーニングを回避してNASアルゴリズムの高速化を可能にしている。 多くの性能予測器は、地上の真理性能とよく相関するが、訓練されたネットワークの形でトレーニングデータを必要とする。 近年,ネットワーク性能をトレーニングなしで評価する効率的な手法として,ゼロコストプロキシが提案されている。 しかし、それらはまだよく理解されておらず、ネットワーク特性に偏りを示しており、その性能は限られている。 ゼロコストプロキシの欠点に着想を得て,アーキテクチャグラフの特性を簡易に計算可能なニューラルグラフ特徴 (GRAF) を提案する。 GRAFは高速かつ解釈可能なパフォーマンス予測を提供すると同時に、ゼロコストプロキシやその他の一般的なエンコーディングよりも優れている。 他のゼロコストプロキシと組み合わせて、GRAFはコストのごく一部で既存のパフォーマンス予測器を上回っている。

Performance prediction has been a key part of the neural architecture search (NAS) process, allowing to speed up NAS algorithms by avoiding resource-consuming network training. Although many performance predictors correlate well with ground truth performance, they require training data in the form of trained networks. Recently, zero-cost proxies have been proposed as an efficient method to estimate network performance without any training. However, they are still poorly understood, exhibit biases with network properties, and their performance is limited. Inspired by the drawbacks of zero-cost proxies, we propose neural graph features (GRAF), simple to compute properties of architectural graphs. GRAF offers fast and interpretable performance prediction while outperforming zero-cost proxies and other common encodings. In combination with other zero-cost proxies, GRAF outperforms most existing performance predictors at a fraction of the cost.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 点線絶対値の効率的な解法

Efficient Solution of Point-Line Absolute Pose ( http://arxiv.org/abs/2404.16552v1 )

ライセンス: Link先を確認
Petr Hruby, Timothy Duff, Marc Pollefeys, (参考訳) 点や線である可能性のある特徴間の3D--2D対応に基づくポーズ推定の特定の問題を再検討する。 具体的には、以前に研究された2つの最小限の問題を、$p \in \{ 1, 2 \}$ポイント対応と$l=3-p$ラインライン対応から推定する。 我々の知る限り、これらの問題のすべての既知の実用的な解は、$p=2$のときの次数$\ge 4$(ユニバリケート)多項式、または$p=1のときの次数$\ge 8$多項式の根の計算を必要とした。 得られた解法は数値的に安定かつ高速であることが実験的に示され、従来の最先端技術と比較すると、ほぼ一桁のスピードアップが得られる。 コードは \url{https://github.com/petrhruby97/efficient\_absolute} で公開されている。

We revisit certain problems of pose estimation based on 3D--2D correspondences between features which may be points or lines. Specifically, we address the two previously-studied minimal problems of estimating camera extrinsics from $p \in \{ 1, 2 \}$ point--point correspondences and $l=3-p$ line--line correspondences. To the best of our knowledge, all of the previously-known practical solutions to these problems required computing the roots of degree $\ge 4$ (univariate) polynomials when $p=2$, or degree $\ge 8$ polynomials when $p=1.$ We describe and implement two elementary solutions which reduce the degrees of the needed polynomials from $4$ to $2$ and from $8$ to $4$, respectively. We show experimentally that the resulting solvers are numerically stable and fast: when compared to the previous state-of-the art, we may obtain nearly an order of magnitude speedup. The code is available at \url{https://github.com/petrhruby97/efficient\_absolute}
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# Re-RecSys: Real-Estate ドメインのプロパティを推奨する End-to-End システム

RE-RecSys: An End-to-End system for recommending properties in Real-Estate domain ( http://arxiv.org/abs/2404.16553v1 )

ライセンス: Link先を確認
Venkatesh C, Harshit Oberoi, Anil Goyal, Nikhil Sikka, (参考訳) 本稿では,リアルタイムなレコメンデーションシステムRE-RecSysを提案する。 利用可能な履歴データに基づいて,すべてのユーザを4つのカテゴリに分類する。 i) コールドスタート使用者 二 短期使用者 三 長期使用者 iv)短期使用者。 コールドスタートユーザに対しては,局所性やユーザの嗜好に基づくルールベースの新しいエンジンを提案する。 短期ユーザに対しては,最近のユーザインタラクションに基づいてプロパティを推奨するコンテンツフィルタリングモデルを提案する。 長期・短期のユーザに対しては,現実のシナリオで容易に生産できるコンテンツと協調フィルタリングに基づく新しい組み合わせを提案する。 さらに、変換率に基づいて、コンテンツや協調モデルのトレーニングを行うプラットフォーム上で、ユーザによる異なる印象に対する新たな重み付け方式を設計した。 最後に、提案したパイプラインであるRE-RecSysの実際のプロパティとインドの主要な不動産プラットフォームから収集したクリックストリームデータセットの効率を示す。 提案したパイプラインは実世界のシナリオでデプロイ可能であり,平均レイテンシは<40 msで1000 rpmである。

We propose an end-to-end real-estate recommendation system, RE-RecSys, which has been productionized in real-world industry setting. We categorize any user into 4 categories based on available historical data: i) cold-start users; ii) short-term users; iii) long-term users; and iv) short-long term users. For cold-start users, we propose a novel rule-based engine that is based on the popularity of locality and user preferences. For short-term users, we propose to use content-filtering model which recommends properties based on recent interactions of users. For long-term and short-long term users, we propose a novel combination of content and collaborative filtering based approach which can be easily productionized in the real-world scenario. Moreover, based on the conversion rate, we have designed a novel weighing scheme for different impressions done by users on the platform for the training of content and collaborative models. Finally, we show the efficiency of the proposed pipeline, RE-RecSys, on a real-world property and clickstream dataset collected from leading real-estate platform in India. We show that the proposed pipeline is deployable in real-world scenario with an average latency of <40 ms serving 1000 rpm.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 拡散モデルを用いたFew-Shot画像合成のための条件分布モデル

Conditional Distribution Modelling for Few-Shot Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2404.16556v1 )

ライセンス: Link先を確認
Parul Gupta, Munawar Hayat, Abhinav Dhall, Thanh-Toan Do, (参考訳) 少ないショット画像合成は、いくつかの例画像のみを使用して、斬新なカテゴリの多彩で現実的な画像を生成する。 この方向の最近の試みは印象的な成果を上げているが、既存のアプローチは、生成した画像の多様性を制限する新しい画像を生成するために、テスト時に利用可能ないくつかの新しいサンプルにのみ依存している。 この制限を克服するために,ディフュージョンモデルを利用した数ショット画像生成のための条件分散モデリング(CDM)を提案する。 拡散過程の条件付けに使用される潜伏空間の分布をモデル化することにより、CDMはトレーニングデータの学習統計を利用して、目に見えないクラス分布をよりよく近似し、少数のショットサンプルによって生じるバイアスを除去する。 同時に、近似された未知のクラス分布をさらに改善し、生成したサンプルが未知のクラスに忠実であることを保証する、新しい反転に基づく最適化戦略を考案する。 4つのベンチマークデータセットによる実験結果から,提案したCDMの有効性が示された。

Few-shot image synthesis entails generating diverse and realistic images of novel categories using only a few example images. While multiple recent efforts in this direction have achieved impressive results, the existing approaches are dependent only upon the few novel samples available at test time in order to generate new images, which restricts the diversity of the generated images. To overcome this limitation, we propose Conditional Distribution Modelling (CDM) -- a framework which effectively utilizes Diffusion models for few-shot image generation. By modelling the distribution of the latent space used to condition a Diffusion process, CDM leverages the learnt statistics of the training data to get a better approximation of the unseen class distribution, thereby removing the bias arising due to limited number of few shot samples. Simultaneously, we devise a novel inversion based optimization strategy that further improves the approximated unseen class distribution, and ensures the fidelity of the generated samples to the unseen class. The experimental results on four benchmark datasets demonstrate the effectiveness of our proposed CDM for few-shot generation.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# バーボースサンプルを用いた多モード大言語モデルのエネルギーレイテンシ制御

Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples ( http://arxiv.org/abs/2404.16557v1 )

ライセンス: Link先を確認
Kuofeng Gao, Jindong Gu, Yang Bai, Shu-Tao Xia, Philip Torr, Wei Liu, Zhifeng Li, (参考訳) MLLM(Multi-modal large language model)の例外的な性能にもかかわらず、その展開には相当な計算資源が必要である。 悪意のあるユーザが高エネルギー消費と遅延時間(遅延コスト)を誘導すると、計算リソースが枯渇し、サービスの可用性が損なわれる。 本稿では,MLLMの脆弱性,特に画像ベースおよびビデオベースの脆弱性について検討し,知覚不能な摂動を発生させることにより,推論中の高エネルギー遅延コストを誘導することを目的とする。 生成シーケンスの長さを最大化することで高エネルギーレイテンシのコストを操作できることが分かり、冗長な画像やビデオを含む冗長なサンプルを提案する動機となった。 具体的には、EOSトークンの遅延損失と、生成したトークンに対する不確実性を高める不確実性損失の2つの非特異的損失を提案する。 さらに、多様性の向上は、複雑さを増大させることによってより長い応答を促進することが重要であり、これは以下のモダリティ特異的損失を引き起こす。 冗長な画像では、多様な隠蔽状態を促進するためにトークンの多様性損失が提案されている。 冗長なビデオでは、フレーム間の特徴の多様性を高めるために、フレームの特徴の多様性の損失が提案されている。 これらの損失のバランスをとるために,時間的重み調整アルゴリズムを提案する。 実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。

Despite the exceptional performance of multi-modal large language models (MLLMs), their deployment requires substantial computational resources. Once malicious users induce high energy consumption and latency time (energy-latency cost), it will exhaust computational resources and harm availability of service. In this paper, we investigate this vulnerability for MLLMs, particularly image-based and video-based ones, and aim to induce high energy-latency cost during inference by crafting an imperceptible perturbation. We find that high energy-latency cost can be manipulated by maximizing the length of generated sequences, which motivates us to propose verbose samples, including verbose images and videos. Concretely, two modality non-specific losses are proposed, including a loss to delay end-of-sequence (EOS) token and an uncertainty loss to increase the uncertainty over each generated token. In addition, improving diversity is important to encourage longer responses by increasing the complexity, which inspires the following modality specific loss. For verbose images, a token diversity loss is proposed to promote diverse hidden states. For verbose videos, a frame feature diversity loss is proposed to increase the feature diversity among frames. To balance these losses, we propose a temporal weight adjustment algorithm. Experiments demonstrate that our verbose samples can largely extend the length of generated sequences.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# DeepKalPose:一時一貫した単眼車両姿勢推定のための改良型ディープラーニングカルマンフィルタ

DeepKalPose: An Enhanced Deep-Learning Kalman Filter for Temporally Consistent Monocular Vehicle Pose Estimation ( http://arxiv.org/abs/2404.16558v1 )

ライセンス: Link先を確認
Leandro Di Bella, Yangxintong Lyu, Adrian Munteanu, (参考訳) 本稿では,DeepKalPoseについて述べる。これは深層学習に基づくKalmanフィルタを用いて,ビデオに適用される単眼車両のポーズ推定における時間的一貫性を高めるための新しいアプローチである。 複雑な動作パターンを表現するための学習可能な動作モデルと組み合わせて, 前方および後方の時系列処理を利用した双方向カルマンフィルタ戦略を統合することにより, 特に閉塞車両や遠距離車両において, 各種条件におけるポーズ精度とロバスト性を大幅に向上する。 KITTIデータセットに対する実験的検証では、DeepKalPoseが既存のメソッドよりも正確さと時間的一貫性に優れていることが確認されている。

This paper presents DeepKalPose, a novel approach for enhancing temporal consistency in monocular vehicle pose estimation applied on video through a deep-learning-based Kalman Filter. By integrating a Bi-directional Kalman filter strategy utilizing forward and backward time-series processing, combined with a learnable motion model to represent complex motion patterns, our method significantly improves pose accuracy and robustness across various conditions, particularly for occluded or distant vehicles. Experimental validation on the KITTI dataset confirms that DeepKalPose outperforms existing methods in both pose accuracy and temporal consistency.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 一般化線形モデルのための自動モデル選択

Automated Model Selection for Generalized Linear Models ( http://arxiv.org/abs/2404.16560v1 )

ライセンス: Link先を確認
Benjamin Schwendinger, Florian Schwendinger, Laura Vana-Gür, (参考訳) 本稿では,特徴部分集合選択と包括的一般化線形モデルを組み合わせてモデル選択プロセスを完全に自動化するために,混合整数円錐最適化をどのように利用できるかを示す。 具体的には,Akaike と Bayesian の情報基準を直接最適化すると同時に,特徴選択タスクにおいて多項性を扱うように設計された制約を課す。 具体的には、符号コヒーレンス制約とリッジ回帰やOSCARモデルのような古典的な統計モデルからのアイデアを結合したペアワイズ相関制約を提案する。

In this paper, we show how mixed-integer conic optimization can be used to combine feature subset selection with holistic generalized linear models to fully automate the model selection process. Concretely, we directly optimize for the Akaike and Bayesian information criteria while imposing constraints designed to deal with multicollinearity in the feature selection task. Specifically, we propose a novel pairwise correlation constraint that combines the sign coherence constraint with ideas from classical statistical models like Ridge regression and the OSCAR model.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 深層学習に基づく幾何図形分類アルゴリズムに関する研究

Research on geometric figure classification algorithm based on Deep Learning ( http://arxiv.org/abs/2404.16561v1 )

ライセンス: Link先を確認
Ruiyang Wang, Haonan Wang, Junfeng Sun, Mingjia Zhao, Meng Liu, (参考訳) 近年,コンピュータ情報技術の急速な発展に伴い,人工知能の開発が加速している。 従来の幾何認識技術は比較的後方向きであり、認識率も低い。 膨大な情報データベースに直面した従来のアルゴリズムモデルでは、認識精度の低下と性能の低下が必然的に問題となっている。 ディープラーニング理論は、徐々に機械学習の非常に重要な部分になっている。 畳み込みニューラルネットワーク(CNN)の実装により、グラフィック生成アルゴリズムの難しさが軽減される。 本稿では,lenet-5アーキテクチャの重み付けと特徴抽出と分類の利点を生かして,提案した幾何パターン認識アルゴリズムモデルをトレーニングデータセットで高速化する。 アルゴリズムモデルの共有特徴パラメータを構築することにより、認識プロセスにおいてクロスエントロピー損失関数を用いてモデルの一般化を改善し、テストデータセットの平均認識精度を向上させる。

In recent years, with the rapid development of computer information technology, the development of artificial intelligence has been accelerating. The traditional geometry recognition technology is relatively backward and the recognition rate is low. In the face of massive information database, the traditional algorithm model inevitably has the problems of low recognition accuracy and poor performance. Deep learning theory has gradually become a very important part of machine learning. The implementation of convolutional neural network (CNN) reduces the difficulty of graphics generation algorithm. In this paper, using the advantages of lenet-5 architecture sharing weights and feature extraction and classification, the proposed geometric pattern recognition algorithm model is faster in the training data set. By constructing the shared feature parameters of the algorithm model, the cross-entropy loss function is used in the recognition process to improve the generalization of the model and improve the average recognition accuracy of the test data set.
翻訳日:2024-04-26 13:49:56 公開日:2024-04-25
# 時系列特徴理解に基づく大規模言語モデルの評価:包括的分類法とベンチマーク

Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark ( http://arxiv.org/abs/2404.16563v1 )

ライセンス: Link先を確認
Elizabeth Fons, Rachneet Kaur, Soham Palande, Zhen Zeng, Svitlana Vyetrenko, Tucker Balch, (参考訳) 大規模言語モデル(LLM)は、医療、金融、気候、エネルギーなど、多くの領域で重要なタスクである自動時系列分析とレポートの可能性をもっている。 本稿では,一変量形と多変量形の両方を包含した時系列理解におけるLLMの能力を厳格に評価するためのフレームワークを提案する。 本稿では時系列データに固有の様々な特徴を記述した重要なフレームワークである時系列特徴の包括的分類法を紹介する。 この分類を応用して、私たちは様々な特徴を具現化し、様々な時系列データセットを体系的に設計し、合成しました。 このデータセットは、コンパイル時系列におけるLCMの熟練度を評価するための確かな基盤として機能する。 我々の実験は、時系列理解における最先端のLLMの強みと限界に光を当て、どのモデルを効果的に理解し、どのモデルをフェールするかを明らかにした。 さらに,データのフォーマッティング,時系列内での問合せ点の位置,全時系列の長さなどの要因に対するLCMの感度を明らかにする。

Large Language Models (LLMs) offer the potential for automatic time series analysis and reporting, which is a critical task across many domains, spanning healthcare, finance, climate, energy, and many more. In this paper, we propose a framework for rigorously evaluating the capabilities of LLMs on time series understanding, encompassing both univariate and multivariate forms. We introduce a comprehensive taxonomy of time series features, a critical framework that delineates various characteristics inherent in time series data. Leveraging this taxonomy, we have systematically designed and synthesized a diverse dataset of time series, embodying the different outlined features. This dataset acts as a solid foundation for assessing the proficiency of LLMs in comprehending time series. Our experiments shed light on the strengths and limitations of state-of-the-art LLMs in time series understanding, revealing which features these models readily comprehend effectively and where they falter. In addition, we uncover the sensitivity of LLMs to factors including the formatting of the data, the position of points queried within a series and the overall time series length.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 繰り返しカーネル再構成と雑音推定による深層学習に基づくブラインド画像の高分解能化

Deep learning-based blind image super-resolution with iterative kernel reconstruction and noise estimation ( http://arxiv.org/abs/2404.16564v1 )

ライセンス: Link先を確認
Hasan F. Ates, Suleyman Yildirim, Bahadir K. Gunturk, (参考訳) ブラインド・シングル・イメージ・スーパーレゾリューション(SISR)は、逆問題の性質が悪いため、画像処理において難しい課題である。 実生活画像に存在する複雑な劣化は、モデルが合成された画像対でしばしば訓練される、na\\ive Deep Learningアプローチを用いてこの問題を解決するのを難しくする。 これまでの取り組みの多くは、ぼやけたカーネルの限られたスペースや、ノイズのない入力画像の仮定など、いくつかの制約の下で逆問題を解決することに集中してきた。 しかし、未知の、高度に複雑な劣化のある画像に対して、よく一般化されたディープラーニングベースのソリューションを提供するには、文献にギャップがある。 本稿では,視覚障害者のためのIKR-Net(Iterative Kernel Reconstruction Network)を提案する。 提案手法では,専用深部モデルを用いて,カーネルとノイズ推定,高分解能画像再構成を行う。 繰り返し改善は、ノイズの多い入力であっても、再構成画像と推定されたぼやけたカーネルの両方に大きな改善をもたらす。 IKR-Netは、入力された低解像度画像のあらゆる種類のぼかしとノイズレベルを処理できる一般化されたソリューションを提供する。 IKR-Netは、特に動きのぼやけたノイズの多い画像に対して、ブラインドSISRの最先端の結果を達成する。

Blind single image super-resolution (SISR) is a challenging task in image processing due to the ill-posed nature of the inverse problem. Complex degradations present in real life images make it difficult to solve this problem using na\"ive deep learning approaches, where models are often trained on synthetically generated image pairs. Most of the effort so far has been focused on solving the inverse problem under some constraints, such as for a limited space of blur kernels and/or assuming noise-free input images. Yet, there is a gap in the literature to provide a well-generalized deep learning-based solution that performs well on images with unknown and highly complex degradations. In this paper, we propose IKR-Net (Iterative Kernel Reconstruction Network) for blind SISR. In the proposed approach, kernel and noise estimation and high-resolution image reconstruction are carried out iteratively using dedicated deep models. The iterative refinement provides significant improvement in both the reconstructed image and the estimated blur kernel even for noisy inputs. IKR-Net provides a generalized solution that can handle any type of blur and level of noise in the input low-resolution image. IKR-Net achieves state-of-the-art results in blind SISR, especially for noisy images with motion blur.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# PyRadar: PyPIパッケージのソースコードリポジトリ情報の自動検索と検証を目指して

PyRadar: Towards Automatically Retrieving and Validating Source Code Repository Information for PyPI Packages ( http://arxiv.org/abs/2404.16565v1 )

ライセンス: Link先を確認
Kai Gao, Weiwei Xu, Wenhao Yang, Minghui Zhou, (参考訳) パッケージのソースコードリポジトリは、パッケージの開発履歴を記録し、パッケージの使用とリスク監視に必要な情報を提供する。 しかしながら、パッケージのリリースは、パッケージの開発プラットフォームと配布プラットフォームを分離するため、ソースコードリポジトリを見逃すことが多い。 既存のツールは、そのメタデータからリリースのリポジトリ情報を取得する。 我々の分析によると、既存のツールはPyPIリリースの70.5%しかレポジトリ情報を取得できない。 本稿では,PyPIリリースのリポジトリ情報を検索し,検証するためにメタデータとソース配布を利用する新しいフレームワークであるPyRadarを提案する。 まず,4,227,425 PyPIリリース上の既存の4つのツールを比較し,14,375の正確なパッケージリポジトリリンクと2,064の誤ったリンクでファントムファイル(リリースのディストリビューションには表示されていないファイル)を分析した。 この結果に基づいて,メタデータベースのRetriever,ソースコードリポジトリバリデータ,ソースコードベースのRetrieverという3つのコンポーネントでPyRadarを設計する。 特に、メタデータベースのRetrieverは、既存のツールのベストプラクティスを組み合わせて、メタデータからPyPIリリースの72.1%のリポジトリ情報を取得することに成功した。 Source Code Repository Validatorは、一般的な機械学習アルゴリズムを6つの工芸的特徴に適用し、最大0.995のAUCを達成する。 Source CodeベースのRetrieverは、リリースのソースディストリビューションにあるすべてのPythonファイルをSHA-1ハッシュでWorld of Codeにクエリし、精度0.970でデータセット内のパッケージの90.2%のリポジトリ情報を検索する。 実践者も研究者もPyRadarを使って、PyPIパッケージをよりよく利用することができる。

A package's source code repository records the development history of the package, providing indispensable information for the use and risk monitoring of the package. However, a package release often misses its source code repository due to the separation of the package's development platform from its distribution platform. Existing tools retrieve the release's repository information from its metadata, which suffers from two limitations: the metadata may not contain or contain wrong information. Our analysis shows that existing tools can only retrieve repository information for up to 70.5% of PyPI releases. To address the limitations, this paper proposes PyRadar, a novel framework that utilizes the metadata and source distribution to retrieve and validate the repository information for PyPI releases. We start with an empirical study to compare four existing tools on 4,227,425 PyPI releases and analyze phantom files (files appearing in the release's distribution but not in the release's repository) in 14,375 correct package-repository links and 2,064 incorrect links. Based on the findings, we design PyRadar with three components, i.e., Metadata-based Retriever, Source Code Repository Validator, and Source Code-based Retriever. In particular, the Metadata-based Retriever combines best practices of existing tools and successfully retrieves repository information from the metadata for 72.1% of PyPI releases. The Source Code Repository Validator applies common machine learning algorithms on six crafted features and achieves an AUC of up to 0.995. The Source Code-based Retriever queries World of Code with the SHA-1 hashes of all Python files in the release's source distribution and retrieves repository information for 90.2% of packages in our dataset with an accuracy of 0.970. Both practitioners and researchers can employ the PyRadar to better use PyPI packages.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# MonoPCC: 内視鏡画像の単眼深度推定のための光量不変サイクル制約

MonoPCC: Photometric-invariant Cycle Constraint for Monocular Depth Estimation of Endoscopic Images ( http://arxiv.org/abs/2404.16571v1 )

ライセンス: Link先を確認
Zhiwei Wang, Ying Zhou, Shiquan He, Ting Li, Yitong Zhang, Xinxia Feng, Mei Liu, Qiang Li, (参考訳) 光度制約は自己教師付き単眼深度推定には不可欠である。 ソースイメージを推定された深さ/目的を使ってターゲットビューにワープし、ワープされた画像とターゲットイメージの差を最小限にする。 しかし、内視鏡内蔵光は大きな明るさ変動を引き起こすため、光度制約は信頼できない。 以前の取り組みは、画像の明るさを調整するための余分なモデルに頼ることで、これを緩和するだけであった。 本稿では,光度制約を周期形式に変換することにより,輝度の不整合を根本的に解消するMonoPCCを提案する。 ソースイメージをワープする代わりに、MonoPCCは、ターゲットからソースへ、そしてターゲットへという2つの反対の前方方向のワープパスからなるクローズドループを構築する。 これにより、ターゲット画像は最終的に自身からワープされた画像サイクルを受け取り、自然に輝度に制約が不変となる。 さらに、MonoPCCは、ソース画像の位相周波数を中間歪画像に移植し、構造損失を回避するとともに、指数的移動平均(EMA)戦略を用いてトレーニングを安定化し、前方歪の頻繁な変化を避ける。 3つのデータセットの包括的かつ広範な実験結果から,提案したMonoPCCは輝度不整合に大きな堅牢性を示し,絶対相対誤差を少なくとも7.27%削減することで,他の最先端技術を上回ることを示した。

Photometric constraint is indispensable for self-supervised monocular depth estimation. It involves warping a source image onto a target view using estimated depth&pose, and then minimizing the difference between the warped and target images. However, the endoscopic built-in light causes significant brightness fluctuations, and thus makes the photometric constraint unreliable. Previous efforts only mitigate this relying on extra models to calibrate image brightness. In this paper, we propose MonoPCC to address the brightness inconsistency radically by reshaping the photometric constraint into a cycle form. Instead of only warping the source image, MonoPCC constructs a closed loop consisting of two opposite forward-backward warping paths: from target to source and then back to target. Thus, the target image finally receives an image cycle-warped from itself, which naturally makes the constraint invariant to brightness changes. Moreover, MonoPCC transplants the source image's phase-frequency into the intermediate warped image to avoid structure lost, and also stabilizes the training via an exponential moving average (EMA) strategy to avoid frequent changes in the forward warping. The comprehensive and extensive experimental results on three datasets demonstrate that our proposed MonoPCC shows a great robustness to the brightness inconsistency, and exceeds other state-of-the-arts by reducing the absolute relative error by at least 7.27%.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# セマンティックセグメンテーションのためのウィンドウアテンション変動によるマルチスケール表現

Multi-Scale Representations by Varying Window Attention for Semantic Segmentation ( http://arxiv.org/abs/2404.16573v1 )

ライセンス: Link先を確認
Haotian Yan, Ming Wu, Chuang Zhang, (参考訳) マルチスケール学習はセマンティックセグメンテーションの中心である。 正準多スケール表現の有効受容場(ERF)を可視化し,学習における2つのリスクを指摘する。 これらの問題に対処するために、新しいマルチスケール学習者、可変ウィンドウアテンション(VWA)を提示する。 VWAはローカルウィンドウアテンション(LWA)を活用し、クエリウィンドウとコンテキストウインドウにLWAを巻き込み、クエリのスケールが複数のスケールで表現を学習できるようにする。 しかし、大規模ウィンドウ(拡大比R)へのコンテキスト変更は、メモリフットプリントと計算コスト(LWAの2倍)を大幅に向上させることができる。 性能を損なうことなく、余剰コストをゼロにするための単純だが専門的な再スケーリング戦略を提案する。 このため、VWAはLWAと同じコストでローカルウィンドウの受信制限を克服する。 さらに, VWA と様々な MLP を用いて, セマンティックセグメンテーションのためのマルチスケールデコーダ (MSD) である VWFormer を導入し, セマンティックセグメンテーションのマルチスケール表現を改善する。 VWFormerは、FPNやMLPデコーダのような最も計算にやさしいMSDと競合するが、他のMSDよりも性能が優れている。 例えば、UPerNetの計算のほぼ半分を使用して、VWFormerはADE20Kで1.0%-2.5% mIoUを上回っている。 10GのFLOPでは、VWFormerを搭載したMask2Formerは1.0%-1.3%向上した。

Multi-scale learning is central to semantic segmentation. We visualize the effective receptive field (ERF) of canonical multi-scale representations and point out two risks in learning them: scale inadequacy and field inactivation. A novel multi-scale learner, varying window attention (VWA), is presented to address these issues. VWA leverages the local window attention (LWA) and disentangles LWA into the query window and context window, allowing the context's scale to vary for the query to learn representations at multiple scales. However, varying the context to large-scale windows (enlarging ratio R) can significantly increase the memory footprint and computation cost (R^2 times larger than LWA). We propose a simple but professional re-scaling strategy to zero the extra induced cost without compromising performance. Consequently, VWA uses the same cost as LWA to overcome the receptive limitation of the local window. Furthermore, depending on VWA and employing various MLPs, we introduce a multi-scale decoder (MSD), VWFormer, to improve multi-scale representations for semantic segmentation. VWFormer achieves efficiency competitive with the most compute-friendly MSDs, like FPN and MLP decoder, but performs much better than any MSDs. For instance, using nearly half of UPerNet's computation, VWFormer outperforms it by 1.0%-2.5% mIoU on ADE20K. With little extra overhead, ~10G FLOPs, Mask2Former armed with VWFormer improves by 1.0%-1.3%.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 言語モデルにおける内部栄養の探索 : ALBERTを事例として

Exploring Internal Numeracy in Language Models: A Case Study on ALBERT ( http://arxiv.org/abs/2404.16574v1 )

ライセンス: Link先を確認
Ulme Wennberg, Gustav Eje Henter, (参考訳) トランスフォーマーに基づく言語モデルには,基本的な量的推論を行う能力があることがわかった。 本稿では,これらのモデルが内部的に数値データをどう表現するかを研究する手法を提案し,提案手法を用いて言語モデルのALBERTファミリを解析する。 具体的には、これらのモデルが数や順序に対応するトークンを表すために使用する学習された埋め込みを抽出し、これらの埋め込みを主成分分析(PCA)に対象とする。 PCAの結果は、異なる大きさのALBERTモデルを訓練し、個別に初期化することにより、様々な数値概念の近似順序を表すために、最大変動の軸を一貫して学習することを示した。 数とテキストの対応は別個のクラスタで表現されるが、2次元空間では同じ方向に増加する。 本研究は,テキストをモデル化するために純粋に訓練された言語モデルを用いて基礎的な数学的概念を導出し,量的推論と交差するNLPアプリケーションへの道を開くことを示唆する。

It has been found that Transformer-based language models have the ability to perform basic quantitative reasoning. In this paper, we propose a method for studying how these models internally represent numerical data, and use our proposal to analyze the ALBERT family of language models. Specifically, we extract the learned embeddings these models use to represent tokens that correspond to numbers and ordinals, and subject these embeddings to Principal Component Analysis (PCA). PCA results reveal that ALBERT models of different sizes, trained and initialized separately, consistently learn to use the axes of greatest variation to represent the approximate ordering of various numerical concepts. Numerals and their textual counterparts are represented in separate clusters, but increase along the same direction in 2D space. Our findings illustrate that language models, trained purely to model text, can intuit basic mathematical concepts, opening avenues for NLP applications that intersect with quantitative reasoning.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 一般的な視覚的特徴を利用した冬条件の道路表面摩擦推定

Road Surface Friction Estimation for Winter Conditions Utilising General Visual Features ( http://arxiv.org/abs/2404.16578v1 )

ライセンス: Link先を確認
Risto Ojala, Eerik Alamikkotervo, (参考訳) 凍結した冬条件下では、道路上の雪、氷、水の混合によって道路表面の摩擦が大きく変化する。 道路と車両のタイヤ間の摩擦は車両の動力学を定義する重要なパラメータであり、道路表面摩擦情報は、自動車両の安全管理や、滑りやすい道路条件のドライバーの警告など、いくつかのインテリジェントな輸送用途において、取得に不可欠である。 本稿では,道路側カメラによる路面摩擦のコンピュータビジョンによる評価について検討する。 画像から路面状態を評価するための畳み込みニューラルネットワークの適用について,これまで広く研究されてきた。 本稿では、事前学習された視覚変換器モデルと畳み込みブロックからなるハイブリッドディープラーニングアーキテクチャWCamNetを提案する。 このアーキテクチャの動機は、変換器モデルによって提供される一般的な視覚的特徴と、畳み込みブロックの微細な特徴抽出特性を組み合わせることである。 このアプローチをベンチマークするために、フィンランドの道路インフラネットワークからロードサイドカメラと光路面摩擦センサーの広範なデータセットが集められた。 得られた結果から,提案したWCamNetは,道路側カメラ画像から路面摩擦を予測する作業において,従来の手法よりも優れていたことが示唆された。

In below freezing winter conditions, road surface friction can greatly vary based on the mixture of snow, ice, and water on the road. Friction between the road and vehicle tyres is a critical parameter defining vehicle dynamics, and therefore road surface friction information is essential to acquire for several intelligent transportation applications, such as safe control of automated vehicles or alerting drivers of slippery road conditions. This paper explores computer vision-based evaluation of road surface friction from roadside cameras. Previous studies have extensively investigated the application of convolutional neural networks for the task of evaluating the road surface condition from images. Here, we propose a hybrid deep learning architecture, WCamNet, consisting of a pretrained visual transformer model and convolutional blocks. The motivation of the architecture is to combine general visual features provided by the transformer model, as well as finetuned feature extraction properties of the convolutional blocks. To benchmark the approach, an extensive dataset was gathered from national Finnish road infrastructure network of roadside cameras and optical road surface friction sensors. Acquired results highlight that the proposed WCamNet outperforms previous approaches in the task of predicting the road surface friction from the roadside camera images.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# マルチエージェント軌道予測のための神経相互作用エネルギー

Neural Interaction Energy for Multi-Agent Trajectory Prediction ( http://arxiv.org/abs/2404.16579v1 )

ライセンス: Link先を確認
Kaixin Shen, Ruijie Quan, Linchao Zhu, Jun Xiao, Yi Yang, (参考訳) 時間的安定性を維持することは、マルチエージェント軌道予測において重要である。 この安定性を維持するのに十分でない正規化は、しばしば運動状態の変動をもたらし、矛盾した予測と誤りの増幅をもたらす。 本研究では,ニューラル・インタラクション・エナジー(MATE)を用いたマルチエージェント軌道予測というフレームワークを提案する。 この枠組みは、相互作用のダイナミクスを捉え、エージェントの将来の軌跡に影響を及ぼす神経相互作用エネルギーを用いて、エージェントの対話運動を評価する。 時間的安定性を高めるために,エージェント間相互作用制約とエージェント内動作制約という2つの制約を導入する。 これらの制約は、システムレベルとエージェントレベルの時間的安定性を確保するために協力し、マルチエージェントシステムに固有の予測変動を効果的に緩和する。 4つの多様なデータセットに対する従来の手法との比較評価では,モデルの予測精度と一般化能力に優れていた。

Maintaining temporal stability is crucial in multi-agent trajectory prediction. Insufficient regularization to uphold this stability often results in fluctuations in kinematic states, leading to inconsistent predictions and the amplification of errors. In this study, we introduce a framework called Multi-Agent Trajectory prediction via neural interaction Energy (MATE). This framework assesses the interactive motion of agents by employing neural interaction energy, which captures the dynamics of interactions and illustrates their influence on the future trajectories of agents. To bolster temporal stability, we introduce two constraints: inter-agent interaction constraint and intra-agent motion constraint. These constraints work together to ensure temporal stability at both the system and agent levels, effectively mitigating prediction fluctuations inherent in multi-agent systems. Comparative evaluations against previous methods on four diverse datasets highlight the superior prediction accuracy and generalization capabilities of our model.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# AudioScenic:オーディオ駆動ビデオシーン編集

AudioScenic: Audio-Driven Video Scene Editing ( http://arxiv.org/abs/2404.16581v1 )

ライセンス: Link先を確認
Kaixin Shen, Ruijie Quan, Linchao Zhu, Jun Xiao, Yi Yang, (参考訳) 音声信号によると、前景の内容が変化しないまま、視覚的背景を操作できるように、オーディオ駆動の視覚的シーン編集が試みられている。 画像編集を主眼とする現在の取り組みとは異なり、音声による映像シーンの編集は広範に行われていない。 本稿では,映像編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。 AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。 バックグラウンド編集に焦点を当てたSceneMaskerモジュールは,編集過程における前景コンテンツの整合性を維持する。 AudioScenicはオーディオの固有の特性、すなわち音の大きさと周波数を利用して編集プロセスをガイドし、時間的ダイナミクスの制御と時間的一貫性の向上を目的としている。 まず、音の大きさの変化に応じてシーンの時間的ダイナミクスを調整し、視覚力学を向上するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。 第2に、音声周波数Fuserモジュールは、映像シーンのダイナミックスにオーディオの周波数を合わせることで、時間的一貫性を確保するように設計されており、編集されたビデオの全体的な時間的コヒーレンスを改善する。 こうした統合された機能により、AudioScenicは視覚的多様性を高めるだけでなく、ビデオ全体の時間的一貫性も維持できる。 時間的整合性をより包括的に検証するために,時間的スコア(temporal score)という新しい指標を提案する。 DAVISとAudiosetデータセットの競合手法に対するAudioScenicの大幅な進歩を示す。

Audio-driven visual scene editing endeavors to manipulate the visual background while leaving the foreground content unchanged, according to the given audio signals. Unlike current efforts focusing primarily on image editing, audio-driven video scene editing has not been extensively addressed. In this paper, we introduce AudioScenic, an audio-driven framework designed for video scene editing. AudioScenic integrates audio semantics into the visual scene through a temporal-aware audio semantic injection process. As our focus is on background editing, we further introduce a SceneMasker module, which maintains the integrity of the foreground content during the editing process. AudioScenic exploits the inherent properties of audio, namely, audio magnitude and frequency, to guide the editing process, aiming to control the temporal dynamics and enhance the temporal consistency. First, we present an audio Magnitude Modulator module that adjusts the temporal dynamics of the scene in response to changes in audio magnitude, enhancing the visual dynamics. Second, the audio Frequency Fuser module is designed to ensure temporal consistency by aligning the frequency of the audio with the dynamics of the video scenes, thus improving the overall temporal coherence of the edited videos. These integrated features enable AudioScenic to not only enhance visual diversity but also maintain temporal consistency throughout the video. We present a new metric named temporal score for more comprehensive validation of temporal consistency. We demonstrate substantial advancements of AudioScenic over competing methods on DAVIS and Audioset datasets.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 量子線型応答の還元密度行列定式化

Reduced density matrix formulation of quantum linear response ( http://arxiv.org/abs/2404.16586v1 )

ライセンス: Link先を確認
Theo Juncker von Buchwald, Karl Michael Ziems, Erik Rosendahl Kjellgren, Stephan P. A. Sauer, Jacob Kongsted, Sonia Coriani, (参考訳) 線形応答(LR)理論によるスペクトル特性の予測は、分子系の光誘起過程を理解するための量子化学において重要なツールである。 量子コンピューティングの進歩に伴い、我々は最近、量子線形応答 (qLR) と呼ばれる軌道回転を伴う実測空間近似を用いて、近距離量子ハードウェアにこの手法を適用した。 このハイブリッドアプローチの古典的なコスト削減のために、我々はqLRの還元密度行列(RDM)駆動アプローチを導出し、実装する。 これにより、可能な限り大きな基底セットを持つ中程度のサイズの分子のスペクトル特性の計算が可能になる。 我々は, cc-pVTZベースセットを用いたベンゼンおよびR$-メチルオキシランのqLR結果について報告し, cc-pVTZベースにおけるH$2$Oの価値および酸素K-エッジ吸収スペクトルに及ぼすショットノイズの影響について検討した。

The prediction of spectral properties via linear response (LR) theory is an important tool in quantum chemistry for understanding photo-induced processes in molecular systems. With the advances of quantum computing, we recently adapted this method for near-term quantum hardware using a truncated active space approximation with orbital rotation, named quantum linear response (qLR). In an effort to reduce the classic cost of this hybrid approach, we here derive and implement a reduced density matrix (RDM) driven approach of qLR. This allows for the calculation of spectral properties of moderately sized molecules with much larger basis sets than so far possible. We report qLR results for benzene and $R$-methyloxirane with a cc-pVTZ basis set and study the effect of shot noise on the valence and oxygen K-edge absorption spectra of H$_2$O in the cc-pVTZ basis.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 大規模言語モデルによる埋め込みのプライバシーリスクの理解

Understanding Privacy Risks of Embeddings Induced by Large Language Models ( http://arxiv.org/abs/2404.16587v1 )

ライセンス: Link先を確認
Zhihao Zhu, Ninglu Shao, Defu Lian, Chenwang Wu, Zheng Liu, Yi Yang, Enhong Chen, (参考訳) 大型言語モデル(LLM)は、人工知能の初期の兆候を示すが幻覚に苦しむ。 これらの幻覚を緩和するための有望な解決策の1つは、外的知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。 しかし、そのような解決策はプライバシーを損なう危険性があり、最近の研究では、事前訓練された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。 LLMの従来の訓練済みモデルに対する大きな利点は、これらの懸念を悪化させる可能性がある。 そこで本研究では,LSMを用いた場合,元の知識を再構築し,それらの埋め込みからエンティティ属性を予測することの有効性について検討する。 実験結果から, LLMは, テキストが配布内であるか, 配布外であるかに関わらず, 事前学習モデルより2つの評価タスクの精度を有意に向上させることが示された。 このことは、LLMがユーザのプライバシを危険にさらす可能性を高め、その普及によるマイナスの結果を浮き彫りにする。 このリスクを軽減するための予備的戦略についても議論する。

Large language models (LLMs) show early signs of artificial general intelligence but struggle with hallucinations. One promising solution to mitigate these hallucinations is to store external knowledge as embeddings, aiding LLMs in retrieval-augmented generation. However, such a solution risks compromising privacy, as recent studies experimentally showed that the original text can be partially reconstructed from text embeddings by pre-trained language models. The significant advantage of LLMs over traditional pre-trained models may exacerbate these concerns. To this end, we investigate the effectiveness of reconstructing original knowledge and predicting entity attributes from these embeddings when LLMs are employed. Empirical findings indicate that LLMs significantly improve the accuracy of two evaluated tasks over those from pre-trained models, regardless of whether the texts are in-distribution or out-of-distribution. This underscores a heightened potential for LLMs to jeopardize user privacy, highlighting the negative consequences of their widespread use. We further discuss preliminary strategies to mitigate this risk.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 一般化 Lefschetz thimble 法における階層的成長問題の解としてのプレコンディショナードフロー

Preconditioned flow as a solution to the hierarchical growth problem in the generalized Lefschetz thimble method ( http://arxiv.org/abs/2404.16589v1 )

ライセンス: Link先を確認
Jun Nishimura, Katsuta Sakai, Atis Yosprakob, (参考訳) 一般化Lefschetz thimble法は、フロー方程式を用いて積分輪郭を変形させることによりモンテカルロ法における符号問題を解くための有望な手法である。 ここでは、変形した輪郭上の領域に指数関数的に原輪郭上の領域を拡大する流れ方程式の性質から生じる一般的な問題を指摘する。 各固有モードの成長速度は作用のヘシアンの特異値によって支配されるので、特異値スペクトルの巨大な階層は、通常大きな系に現れるが、数値シミュレーションにおいて様々な技術的な問題を引き起こす。 この階層的な成長問題は、フローをプレコンディショニングすることで、すべての固有モードで成長速度が同一になるように解決する。 一例として, 前条件付き流れは, 元の流れを用いることで実現不可能なシステムサイズを持つ無調波発振器のリアルタイム量子進化を解明することができることを示す。

The generalized Lefschetz thimble method is a promising approach that attempts to solve the sign problem in Monte Carlo methods by deforming the integration contour using the flow equation. Here we point out a general problem that occurs due to the property of the flow equation, which extends a region on the original contour exponentially to a region on the deformed contour. Since the growth rate for each eigenmode is governed by the singular values of the Hessian of the action, a huge hierarchy in the singular value spectrum, which typically appears for large systems, leads to various technical problems in numerical simulations. We solve this hierarchical growth problem by preconditioning the flow so that the growth rate becomes identical for every eigenmode. As an example, we show that the preconditioned flow enables us to investigate the real-time quantum evolution of an anharmonic oscillator with the system size that can hardly be achieved by using the original flow.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# 量子ウォークによる高調波オシレータモードへの量子ビット符号化への線形光学的アプローチ

Linear-optical approach to encoding qubits into harmonic-oscillator modes via quantum walks ( http://arxiv.org/abs/2404.16594v1 )

ライセンス: Link先を確認
Jun-Yi Wu, Shin-Tza Wu, (参考訳) 本研究では,キャット状態とポストセレクションを用いた格子状態量子ビット(量子ビット)をボソニックモードに符号化する線形光学的手法を提案する。 量子ウォーク符号化スキームの線形光学的実現法として [Lin {\em et al }, Quantum Info。 プロセス {\bf 19}, 272 (2020)] を量子コインとして使用し, 位相空間における真空状態の量子ウォークを通して, 近似的なゴッテマン・キタエフ・プレスキル(GKP)量子ビットの符号化を可能にする。 符号化に必要な条件位相空間変位は,適切なパラメータ条件下でのアシラリーキャット状態入力を補助するマッハ・ツェンダー干渉計(MZI)により実現可能であることを示す。 MZIに基づく変位演算の忠実度を解析することにより、提案した線形光学スキームが高忠実度で格子状態量子ビットを生成するパラメータ空間の領域を同定する。 パラメータ設定が適切であれば,提案手法は,光およびマイクロ波領域におけるボソニックモードのための格子状態量子ビットの作成において,現在の光および超伝導回路プラットフォームに利用可能である。

We propose a linear-optical scheme that allows encoding grid-state quantum bits (qubits) into a bosonic mode using cat state and post-selection as sources of non-Gaussianity in the encoding. As a linear-optical realization of the quantum-walk encoding scheme in [Lin {\em et al.}, Quantum Info. Processing {\bf 19}, 272 (2020)], we employ the cat state as a quantum coin that enables encoding approximate Gottesman-Kitaev-Preskill (GKP) qubits through quantum walk of a squeezed vacuum state in phase space. We show that the conditional phase-space displacement necessary for the encoding can be realized through a Mach-Zehnder interferometer (MZI) assisted with ancillary cat-state input under appropriate parameter regimes. By analyzing the fidelity of the MZI-based displacement operation, we identify the region of parameter space over which the proposed linear-optical scheme can generate grid-state qubits with high fidelity. With adequate parameter setting, our proposal should be accessible to current optical and superconducting-circuit platforms in preparing grid-state qubits for bosonic modes in the, respectively, optical and microwave domains.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# SFMViT:SlowFast、カオスの世界でViTと出会う

SFMViT: SlowFast Meet ViT in Chaotic World ( http://arxiv.org/abs/2404.16609v1 )

ライセンス: Link先を確認
Jiaying Lin, Jiajun Wen, Mengyuan Liu, Jinfu Liu, Baiqiao Yin, Yue Li, (参考訳) カオスシーンにおける時空間的行動ローカライゼーションの課題は,高度な映像理解に向けた課題である。 高品質な映像特徴抽出と、検出器予測アンカーの精度の向上により、モデル性能を効果的に向上させることができる。 そこで本研究では,アンカープルーニング戦略を備えた高性能なデュアルストリーム時空間特徴抽出ネットワークSFMViTを提案する。 SFMViTのバックボーンは、ViTの優れたグローバル特徴抽出機能とSlowFastの時空間シーケンスモデリング機能を完全に活用した時空間動作ローカライゼーションの事前知識を備えたViTとSlowFastで構成されている。 次に,画像の各フレームに検出されたアンカーをプーンし,有効アンカーをフィルタする信頼性最大ヒープを導入する。 これらの設計により、SFMViTはカオスワールドデータセットにおいて26.62%のmAPを達成でき、既存のモデルよりはるかに上回っている。 コードはhttps://github.com/jfightyr/SlowFast-Meet-ViT.comで入手できる。

The task of spatiotemporal action localization in chaotic scenes is a challenging task toward advanced video understanding. Paving the way with high-quality video feature extraction and enhancing the precision of detector-predicted anchors can effectively improve model performance. To this end, we propose a high-performance dual-stream spatiotemporal feature extraction network SFMViT with an anchor pruning strategy. The backbone of our SFMViT is composed of ViT and SlowFast with prior knowledge of spatiotemporal action localization, which fully utilizes ViT's excellent global feature extraction capabilities and SlowFast's spatiotemporal sequence modeling capabilities. Secondly, we introduce the confidence maximum heap to prune the anchors detected in each frame of the picture to filter out the effective anchors. These designs enable our SFMViT to achieve a mAP of 26.62% in the Chaotic World dataset, far exceeding existing models. Code is available at https://github.com/jfightyr/SlowFast-Meet-ViT.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# Marginal and Conditional Coverage を用いたコンフォーマル化順序分類

Conformalized Ordinal Classification with Marginal and Conditional Coverage ( http://arxiv.org/abs/2404.16610v1 )

ライセンス: Link先を確認
Subhrasish Chakraborty, Chhavi Tyagi, Haiyan Qiao, Wenge Guo, (参考訳) コンフォーマル予測(Conformal prediction)は、有限サンプルにおいて有効な限界範囲または条件範囲を達成する任意の機械学習アルゴリズムと組み合わせた、予測セットを構築するための一般的な分布自由なアプローチである。 正規分類は、対象変数がクラスラベル間で自然な順序付けを持つ実アプリケーションで一般的である。 本稿では,FWER制御を用いた共形予測と複数検定のアイデアを活用することで,そのような順序付き分類問題に対する分布自由予測セットの構築について論じる。 境界値と条件値(クラス固有の)$p$-値に基づいて連続予測セットと非連続予測セットを構築するために,より新しい共形予測手法を開発した。 理論的には,提案手法がそれぞれ,限界条件とクラス固有の条件範囲の満足度を達成できることを実証する。 シミュレーション研究と実データ解析により,提案手法は既存の共形法と比較して有望な性能を示す。

Conformal prediction is a general distribution-free approach for constructing prediction sets combined with any machine learning algorithm that achieve valid marginal or conditional coverage in finite samples. Ordinal classification is common in real applications where the target variable has natural ordering among the class labels. In this paper, we discuss constructing distribution-free prediction sets for such ordinal classification problems by leveraging the ideas of conformal prediction and multiple testing with FWER control. Newer conformal prediction methods are developed for constructing contiguous and non-contiguous prediction sets based on marginal and conditional (class-specific) conformal $p$-values, respectively. Theoretically, we prove that the proposed methods respectively achieve satisfactory levels of marginal and class-specific conditional coverages. Through simulation study and real data analysis, these proposed methods show promising performance compared to the existing conformal method.
翻訳日:2024-04-26 13:40:12 公開日:2024-04-25
# MuseumMaker: 破滅的な忘れ物のない継続的スタイルのカスタマイズ

MuseumMaker: Continual Style Customization without Catastrophic Forgetting ( http://arxiv.org/abs/2404.16612v1 )

ライセンス: Link先を確認
Chenxi Liu, Gan Sun, Wenqi Liang, Jiahua Dong, Can Qin, Yang Cong, (参考訳) 適切なテキストプロンプトを持つ事前訓練された大型テキスト・ツー・イメージ(T2I)モデルは、カスタマイズされた画像生成分野への関心が高まっている。 しかし、悲惨な忘れ物問題により、学習スタイル間の満足度を維持しつつ、新しいユーザ提供スタイルを継続的に合成することが困難になる。 本稿では,無期限にカスタマイズされたスタイルの集合を追従して画像の合成を可能にする手法であるMuseumMakerを提案し,これらの創造的な芸術作品を博物館として徐々に蓄積する。 新たなカスタマイズスタイルに直面すると、データセット全体のスタイルを画像生成に転送するスタイル蒸留損失モジュールを開発する。 画像の内容による学習バイアスを最小限に抑え、少数の画像によって引き起こされる壊滅的な過適合問題に対処することができる。 過去の学習スタイル間の破滅的な忘れを解消するため,モデル更新の方向を最適化する共有LoRAモジュールの二重正規化を考案した。 一方、この新しいスタイルに対応するユニークなトークン埋め込みはタスクワイドトークン学習モジュールによって学習され、LoRAパラメータ量の制限により過去のスタイルからの履歴知識を保存できる。 新しいユーザ提供スタイルが登場するにつれて、MuseumMakerは学習スタイルの詳細を維持しながら、新しいスタイルのニュアンスをキャプチャすることができます。 多様なスタイルのデータセットによる実験結果から,提案手法の有効性を検証し,その堅牢性と汎用性を示す。

Pre-trained large text-to-image (T2I) models with an appropriate text prompt has attracted growing interests in customized images generation field. However, catastrophic forgetting issue make it hard to continually synthesize new user-provided styles while retaining the satisfying results amongst learned styles. In this paper, we propose MuseumMaker, a method that enables the synthesis of images by following a set of customized styles in a never-end manner, and gradually accumulate these creative artistic works as a Museum. When facing with a new customization style, we develop a style distillation loss module to transfer the style of the whole dataset into generation of images. It can minimize the learning biases caused by content of images, and address the catastrophic overfitting issue induced by few-shot images. To deal with catastrophic forgetting amongst past learned styles, we devise a dual regularization for shared-LoRA module to optimize the direction of model update, which could regularize the diffusion model from both weight and feature aspects, respectively. Meanwhile, a unique token embedding corresponding to this new style is learned by a task-wise token learning module, which could preserve historical knowledge from past styles with the limitation of LoRA parameter quantity. As any new user-provided style come, our MuseumMaker can capture the nuances of the new styles while maintaining the details of learned styles. Experimental results on diverse style datasets validate the effectiveness of our proposed MuseumMaker method, showcasing its robustness and versatility across various scenarios.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# Robust Capped lp-Norm Support Vector Ordinal Regression

Robust Capped lp-Norm Support Vector Ordinal Regression ( http://arxiv.org/abs/2404.16616v1 )

ライセンス: Link先を確認
Haorui Xiang, Zhichang Wu, Guoxu Li, Rong Wang, Feiping Nie, Xuelong Li, (参考訳) 正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。 順序は通常の多クラス問題と区別する。 卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。 しかし、ほとんどの教師付き学習アルゴリズムと同様に、SVORの設計は、トレーニングデータが実世界のデータでは満たせない、リアルで信頼性の高いものであるという仮定に基づいている。 多くの実践的応用において、アウトレイラはトレーニングセットにしばしば存在し、性能が最適でないような学習プロセスを誤解させる可能性がある。 本稿では, 理論上, 軽量かつ重い外れ値に対して頑健な$\ell_{p}$-norm損失関数を提案する。 キャップ付き$\ell_{p}$-norm損失は、トレーニングプロセス中にモデルがアウトレイラを検出し、排除するのに役立ちます。 本稿では,この概念を裏付ける新しいモデルであるCapped $\ell_{p}$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。 CSVORは、トレーニングプロセス中にアウトリーチを検出し、除去するために重み行列を使用し、アウトリーチに対するロバスト性を改善する。 さらに,理論結果による収束を図示するRe-Weightedアルゴリズムを提案し,対応する問題を効果的に最小化する。 実験結果より, モデルが最先端(SOTA)法, 特に外れ値の有無で優れていたことが示唆された。

Ordinal regression is a specialized supervised problem where the labels show an inherent order. The order distinguishes it from normal multi-class problem. Support Vector Ordinal Regression, as an outstanding ordinal regression model, is widely used in many ordinal regression tasks. However, like most supervised learning algorithms, the design of SVOR is based on the assumption that the training data are real and reliable, which is difficult to satisfy in real-world data. In many practical applications, outliers are frequently present in the training set, potentially leading to misguide the learning process, such that the performance is non-optimal. In this paper, we propose a novel capped $\ell_{p}$-norm loss function that is theoretically robust to both light and heavy outliers. The capped $\ell_{p}$-norm loss can help the model detect and eliminate outliers during training process. Adhering to this concept, we introduce a new model, Capped $\ell_{p}$-Norm Support Vector Ordinal Regression(CSVOR), that is robust to outliers. CSVOR uses a weight matrix to detect and eliminate outliers during the training process to improve the robustness to outliers. Moreover, a Re-Weighted algorithm algorithm which is illustrated convergence by our theoretical results is proposed to effectively minimize the corresponding problem. Extensive experimental results demonstrate that our model outperforms state-of-the-art(SOTA) methods, particularly in the presence of outliers.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# Denoising: 古典的なメソッドから深いCNNへ

Denoising: from classical methods to deep CNNs ( http://arxiv.org/abs/2404.16617v1 )

ライセンス: Link先を確認
Jean-Eric Campagne, (参考訳) 本稿では,画像認知の進化を教育学的に探求することを目的とする。 我々は、Fourier分析やウェーブレットベースといった古典的な手法を概観し、2010年代にニューラルネットワーク(特にU-Net)が出現するまで、彼らが直面した課題を強調した。 これらのネットワークの顕著な性能は、Kadkhodaie et al (2024)のような研究で実証されている。 一定の規則性、顔画像、寝室のシーンなど、様々なイメージタイプに適応性を示し、最適な結果を実現し、幾何学的適応調和ベースに偏りがある。 スコア拡散の導入は、画像生成において重要な役割を担っている。 この文脈では、確率密度スコアの推測を容易にするため、認知は必須となる。 本稿では,確率密度の真の学習の前提条件について論じ,数学的研究から普遍構造の含意にまで及ぶ洞察を提供する。

This paper aims to explore the evolution of image denoising in a pedagological way. We briefly review classical methods such as Fourier analysis and wavelet bases, highlighting the challenges they faced until the emergence of neural networks, notably the U-Net, in the 2010s. The remarkable performance of these networks has been demonstrated in studies such as Kadkhodaie et al. (2024). They exhibit adaptability to various image types, including those with fixed regularity, facial images, and bedroom scenes, achieving optimal results and biased towards geometry-adaptive harmonic basis. The introduction of score diffusion has played a crucial role in image generation. In this context, denoising becomes essential as it facilitates the estimation of probability density scores. We discuss the prerequisites for genuine learning of probability densities, offering insights that extend from mathematical research to the implications of universal structures.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# Hippocrates: 医療における大規模言語モデル改善のためのオープンソースフレームワーク

Hippocrates: An Open-Source Framework for Advancing Large Language Models in Healthcare ( http://arxiv.org/abs/2404.16621v1 )

ライセンス: Link先を確認
Emre Can Acikgoz, Osman Batur İnce, Rayene Bench, Arda Anıl Boz, İlker Kesen, Aykut Erdem, Erkut Erdem, (参考訳) 大規模言語モデル(LLM)の医療への統合は、医療診断、研究、患者医療の変革を約束する。 しかし、医学LLMの進歩は、複雑な訓練要件、厳格な評価要求、学術的な探索を制限する独自のモデルの支配といった障害に直面している。 LLMリソースへの透過的で包括的なアクセスは、分野を前進させ、再現性を高め、医療AIのイノベーションを促進するために不可欠である。 医療分野向けに開発されたオープンソースのLLMフレームワークであるHippocratesを紹介する。 これまでの取り組みとは対照的に、トレーニングデータセット、コードベース、チェックポイント、評価プロトコルへの無制限アクセスを提供する。 このオープンなアプローチは、共同研究を刺激し、コミュニティが透明なエコシステム内で医療用LLMを構築し、洗練し、厳格に評価できるように設計されています。 また、医用ドメインに適した7BモデルのファミリーであるHippoを紹介し、MistralとLLaMA2から連続的な事前トレーニング、指導チューニング、人間とAIのフィードバックからの強化学習を通じて微調整を行う。 我々のモデルは、70Bパラメータのモデルを超え、大きなマージンで既存のオープン医療用LLMモデルより優れています。 Hippocratesを通じて私たちは、医療知識と患者のケアを進歩させるだけでなく、医療におけるAI研究のメリットを民主化し、世界中で利用できるようにすることを目標にしています。

The integration of Large Language Models (LLMs) into healthcare promises to transform medical diagnostics, research, and patient care. Yet, the progression of medical LLMs faces obstacles such as complex training requirements, rigorous evaluation demands, and the dominance of proprietary models that restrict academic exploration. Transparent, comprehensive access to LLM resources is essential for advancing the field, fostering reproducibility, and encouraging innovation in healthcare AI. We present Hippocrates, an open-source LLM framework specifically developed for the medical domain. In stark contrast to previous efforts, it offers unrestricted access to its training datasets, codebase, checkpoints, and evaluation protocols. This open approach is designed to stimulate collaborative research, allowing the community to build upon, refine, and rigorously evaluate medical LLMs within a transparent ecosystem. Also, we introduce Hippo, a family of 7B models tailored for the medical domain, fine-tuned from Mistral and LLaMA2 through continual pre-training, instruction tuning, and reinforcement learning from human and AI feedback. Our models outperform existing open medical LLMs models by a large-margin, even surpassing models with 70B parameters. Through Hippocrates, we aspire to unlock the full potential of LLMs not just to advance medical knowledge and patient care but also to democratize the benefits of AI research in healthcare, making them available across the globe.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# DAVE - ローショットカウントのための検出検証パラダイム

DAVE -- A Detect-and-Verify Paradigm for Low-Shot Counting ( http://arxiv.org/abs/2404.16622v1 )

ライセンス: Link先を確認
Jer Pelhan, Alan Lukežič, Vitjan Zavrtanik, Matej Kristan, (参考訳) ローショットカウンタは、画像にアノテートされた例はほとんどまたは全くないため、選択されたカテゴリに対応するオブジェクトの数を推定する。 現在の最先端技術では、対象位置密度マップ上の総和として推定されるが、個々の対象位置とサイズは提供されないため、多くのアプリケーションにとって不可欠である。 これは検出ベースのカウンタによって対処されるが、トータルカウント精度には劣る。 さらに、どちらのアプローチも、多くの偽陽性のため、他のオブジェクトクラスが存在する場合のカウントを過大評価する傾向がある。 本稿では,検出と検証のパラダイムに基づく低ショットカウンタであるDAVEを提案する。 これによりリコールと精度が向上し、正確なカウントが達成される。 DAVEは、最大密度ベースのカウンタを合計で約20%上回り、最新の検出ベースのカウンタを約20%上回り、ゼロショットでの最先端とテキストプロンプトベースのカウンタを新たに設定する。

Low-shot counters estimate the number of objects corresponding to a selected category, based on only few or no exemplars annotated in the image. The current state-of-the-art estimates the total counts as the sum over the object location density map, but does not provide individual object locations and sizes, which are crucial for many applications. This is addressed by detection-based counters, which, however fall behind in the total count accuracy. Furthermore, both approaches tend to overestimate the counts in the presence of other object classes due to many false positives. We propose DAVE, a low-shot counter based on a detect-and-verify paradigm, that avoids the aforementioned issues by first generating a high-recall detection set and then verifying the detections to identify and remove the outliers. This jointly increases the recall and precision, leading to accurate counts. DAVE outperforms the top density-based counters by ~20% in the total count MAE, it outperforms the most recent detection-based counter by ~20% in detection quality and sets a new state-of-the-art in zero-shot as well as text-prompt-based counting.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# 教師なし言語間移動のための語彙的・構文的知識の導入

Incorporating Lexical and Syntactic Knowledge for Unsupervised Cross-Lingual Transfer ( http://arxiv.org/abs/2404.16627v1 )

ライセンス: Link先を確認
Jianyu Zheng, Fengfei Fan, Jianquan Li, (参考訳) 教師なしの言語間移動は、明示的な監督なしに言語間で知識を伝達することを含む。 言語間知識,特に語彙的知識と構文的知識に焦点をあてて,このようなタスクのパフォーマンス向上のための多くの研究がなされているが,現在のアプローチは構文的情報や語彙的情報のみを取り入れているため限られている。 それぞれの情報には独特な利点があり、以前の試みと組み合わせてはいないので、我々はこのアプローチの可能性を探究する。 本稿では,語彙知識と構文知識を組み合わせた"Lexicon-Syntax Enhanced Multilingual BERT"という新しいフレームワークを提案する。 具体的には,Multilingual BERT (mBERT) をベースモデルとし,学習能力を高めるために2つの手法を用いる。 コードスイッチング技術は、モデル語彙アライメント情報を暗黙的に教えるために使用され、構文に基づくグラフアテンションネットワークは、モデルが構文構造を符号化するのに役立つように設計されている。 両タイプの知識を統合するため,構文モジュールとmBERTベースモデルの両方にコード切替シーケンスを同時に入力する。 このフレームワークは、テキスト分類、名前付きエンティティ認識(ner)、意味解析タスクの1.0~3.7ポイントのゲインで、ゼロショットの言語間転送のベースラインを一貫して上回ります。 キーワード:言語間移動、語彙、構文、コードスイッチング、グラフアテンションネットワーク

Unsupervised cross-lingual transfer involves transferring knowledge between languages without explicit supervision. Although numerous studies have been conducted to improve performance in such tasks by focusing on cross-lingual knowledge, particularly lexical and syntactic knowledge, current approaches are limited as they only incorporate syntactic or lexical information. Since each type of information offers unique advantages and no previous attempts have combined both, we attempt to explore the potential of this approach. In this paper, we present a novel framework called "Lexicon-Syntax Enhanced Multilingual BERT" that combines both lexical and syntactic knowledge. Specifically, we use Multilingual BERT (mBERT) as the base model and employ two techniques to enhance its learning capabilities. The code-switching technique is used to implicitly teach the model lexical alignment information, while a syntactic-based graph attention network is designed to help the model encode syntactic structure. To integrate both types of knowledge, we input code-switched sequences into both the syntactic module and the mBERT base model simultaneously. Our extensive experimental results demonstrate this framework can consistently outperform all baselines of zero-shot cross-lingual transfer, with the gains of 1.0~3.7 points on text classification, named entity recognition (ner), and semantic parsing tasks. Keywords:cross-lingual transfer, lexicon, syntax, code-switching, graph attention network
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# ジェネレーティブAIアプリケーションに関心を持つソフトウェア開発者のための法的な側面

Legal Aspects for Software Developers Interested in Generative AI Applications ( http://arxiv.org/abs/2404.16630v1 )

ライセンス: Link先を確認
Steffen Herbold, Brian Valerius, Anamaria Mojica-Hanke, Isabella Lex, Joel Mittel, (参考訳) 生成人工知能(GenAI)の最近の成功は、高品質なコード、自然言語、画像を生成する新しい技術につながっている。 次のステップはGenAI技術を製品に統合することです。 このような製品開発には、常に責任のリスクが伴います。 この記事では、データ保護と著作権という2つのリスクの現状について光を当てたいと思います。 GenAIにとって、どちらの側面も重要です。 この技術は、モデルトレーニングと生成された出力の両方のデータを扱う。 GenAIを使った製品開発に関わるすべてのソフトウェア開発者が、責任の主張を暴露する重大なミスを避けるために、意識すべきであるという現在の知識に関する重要な側面を要約します。

Recent successes in Generative Artificial Intelligence (GenAI) have led to new technologies capable of generating high-quality code, natural language, and images. The next step is to integrate GenAI technology into products, a task typically conducted by software developers. Such product development always comes with a certain risk of liability. Within this article, we want to shed light on the current state of two such risks: data protection and copyright. Both aspects are crucial for GenAI. This technology deals with data for both model training and generated output. We summarize key aspects regarding our current knowledge that every software developer involved in product development using GenAI should be aware of to avoid critical mistakes that may expose them to liability claims.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# 脅威モデリング能力の教育・評価フレームワークとしてのシステム思考の導入

Introducing Systems Thinking as a Framework for Teaching and Assessing Threat Modeling Competency ( http://arxiv.org/abs/2404.16632v1 )

ライセンス: Link先を確認
Siddhant S. Joshi, Preeti Mukherjee, Kirsten A. Davis, James C. Davis, (参考訳) コンピューティングシステムは多様なサイバーセキュリティの脅威に直面している。 これらのサイバーセキュリティの脅威を軽減するために、ソフトウェアエンジニアは脅威モデリングのスキルに精通する必要がある。 産業や学界では脅威モデリングを教えるためのフレームワークが数多く存在するが,これらのフレームワークの分析から,(1)学生にシステムのサイバーセキュリティを論理的に論じるよりも,コンポーネントレベルの分析に重点を置いている傾向があり,(2)学生の脅威モデリング能力を評価するのに難色はないことが示唆された。 これらの問題に対処するために,システム思考とSTRIDEなどの業界標準の脅威モデリングフレームワークを併用して,脅威モデリング能力の教育と評価を行う手法を提案する。 これまでの研究では、システム思考のような全体論的アプローチは、サイバーセキュリティの脅威を理解し緩和するのに役立ちます。 そこで本研究では,STRIDE 脅威モデリング性能の評価と,STRIDE 実行時のシステム思考性能評価の2つの新しいルーリックを開発し,実験を行った。 本研究は,2021年秋,2023年春,2023年秋にプルデュー大学の上級ソフトウェア工学コースに入学した学生の脅威モデルアーティファクトを評価するために,上記の2つのルーブリックを試験した。 システム思考とSTRIDE教育の両方を持つ学生は、システムレベルの脅威だけでなく、コンポーネントレベルの脅威も軽減しようと試みた。 STRIDEの指導しか受けていない学生は、コンポーネントレベルの脅威の特定と緩和、システムレベルの脅威の割引に焦点をあてる傾向にあった。 我々は,(1)システム思考に基づく脅威モデリングを評価するための新しいルーリックを記述すること,(2)学生の脅威モデリングアプローチにおけるトレンドと盲点を特定すること,(3)脅威モデリング教育と評価にシステム思考を統合することのメリットを想定することによる工学教育に寄与する。

Computing systems face diverse and substantial cybersecurity threats. To mitigate these cybersecurity threats, software engineers need to be competent in the skill of threat modeling. In industry and academia, there are many frameworks for teaching threat modeling, but our analysis of these frameworks suggests that (1) these approaches tend to be focused on component-level analysis rather than educating students to reason holistically about a system's cybersecurity, and (2) there is no rubric for assessing a student's threat modeling competency. To address these concerns, we propose using systems thinking in conjunction with popular and industry-standard threat modeling frameworks like STRIDE for teaching and assessing threat modeling competency. Prior studies suggest a holistic approach, like systems thinking, can help understand and mitigate cybersecurity threats. Thus, we developed and piloted two novel rubrics - one for assessing STRIDE threat modeling performance and the other for assessing systems thinking performance while conducting STRIDE. To conduct this study, we piloted the two rubrics mentioned above to assess threat model artifacts of students enrolled in an upper-level software engineering course at Purdue University in Fall 2021, Spring 2023, and Fall 2023. Students who had both systems thinking and STRIDE instruction identified and attempted to mitigate component-level as well as systems-level threats. Students with only STRIDE instruction tended to focus on identifying and mitigating component-level threats and discounted system-level threats. We contribute to engineering education by: (1) describing a new rubric for assessing threat modeling based on systems thinking; (2) identifying trends and blindspots in students' threat modeling approach; and (3) envisioning the benefits of integrating systems thinking in threat modeling teaching and assessment.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# インスタンスセグメンテーションのためのセルフバランスR-CNN

Self-Balanced R-CNN for Instance Segmentation ( http://arxiv.org/abs/2404.16633v1 )

ライセンス: Link先を確認
Leonardo Rossi, Akbar Karimi, Andrea Prati, (参考訳) インスタンスセグメンテーションタスクにおける現在の最先端の2段階モデルは、いくつかのタイプの不均衡に悩まされている。 本稿では、第2段階のトレーニングにおいて、利益の正の入力領域(RoIs)のユニオン(IoU)分布の不均衡について述べる。 我々のセルフバランスR-CNN(SBR-CNN)は、Hybrid Task Cascade(HTC)モデルの進化版であり、バウンディングボックスとマスクリファインメントの全く新しいループメカニズムを提供する。 改良されたジェネリックRoI抽出(GRoIE)では、バックボーン層からの低レベルと高レベルの機能間の一様でない統合から生じる特徴ピラミッドネットワーク(FPN)レベルでの機能レベルの不均衡にも対処する。 さらに、アーキテクチャの再設計は、FCCとの完全な畳み込みアプローチに向かっており、パラメータの数を減らし、解決すべきタスクと使用するレイヤ間の接続に関するより深い手がかりを得る。 さらに、我々のSBR-CNNモデルは、他の最先端モデルと組み合わせて適用した場合、同等またはそれ以上の改善を示す。 実際、軽量なResNet-50をバックボーンとして、COCO Minival 2017データセットで評価し、オブジェクト検出とインスタンスセグメンテーションで45.3%、41.5%APに達し、12のエポックと余分なトリックを伴わない。 コードはhttps://github.com/IMPLabUniPr/mmdetection/tree/sbr_cnnで入手できる。

Current state-of-the-art two-stage models on instance segmentation task suffer from several types of imbalances. In this paper, we address the Intersection over the Union (IoU) distribution imbalance of positive input Regions of Interest (RoIs) during the training of the second stage. Our Self-Balanced R-CNN (SBR-CNN), an evolved version of the Hybrid Task Cascade (HTC) model, brings brand new loop mechanisms of bounding box and mask refinements. With an improved Generic RoI Extraction (GRoIE), we also address the feature-level imbalance at the Feature Pyramid Network (FPN) level, originated by a non-uniform integration between low- and high-level features from the backbone layers. In addition, the redesign of the architecture heads toward a fully convolutional approach with FCC further reduces the number of parameters and obtains more clues to the connection between the task to solve and the layers used. Moreover, our SBR-CNN model shows the same or even better improvements if adopted in conjunction with other state-of-the-art models. In fact, with a lightweight ResNet-50 as backbone, evaluated on COCO minival 2017 dataset, our model reaches 45.3% and 41.5% AP for object detection and instance segmentation, with 12 epochs and without extra tricks. The code is available at https://github.com/IMPLabUniPr/mmdetection/tree/sbr_cnn
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# TinyChart: Visual Token MergingとProgram-of-Thoughts Learningによる効率的なチャート理解

TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning ( http://arxiv.org/abs/2404.16635v1 )

ライセンス: Link先を確認
Liang Zhang, Anwen Hu, Haiyang Xu, Ming Yan, Yichen Xu, Qin Jin, Ji Zhang, Fei Huang, (参考訳) チャートは複雑なデータ関係の提示と説明に重要である。 近年,マルチモーダル大規模言語モデル (MLLM) は様々なチャート理解タスクにおいて顕著な機能を示している。 しかし、パラメータや計算要求の観点からは、これらのモデルの十分なサイズは、リソース制約のある環境での使用を制限する。 本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)数値計算のためのPythonプログラムを生成するためにモデルを訓練するProgram-of-Thoughts (PoT)学習戦略による数値計算学習の負担を軽減すること,2)視覚変換器が高解像度画像に対して生成する長大な視覚特徴系列をVision Token Mergingモジュールで徐々にマージすること,の2つの課題を克服した。 3B TinyChartは、ChartQA、Chart-to-Text、Chart-to-Table、OpenCQA、ChartXなど、さまざまなチャート理解ベンチマークでSOTAのパフォーマンスを実現しています。 ChartLlamaやChartAstなどの最大13Bパラメータと、ChartQA上での汎用MLLM GPT-4Vよりも優れている。 また、より小さなモデルスケールとより効率的な視覚符号化のため、推論中に高いスループットで優れた効率を示す。 私たちのコードとモデルはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChartで利用可能です。

Charts are important for presenting and explaining complex data relationships. Recently, multimodal large language models (MLLMs) have shown remarkable capabilities in various chart understanding tasks. However, the sheer size of these models in terms of parameters and computational requirements limits their use in resource-constrained environments. In this paper, we present TinyChart, an efficient MLLM for chart understanding with only 3B parameters. TinyChart overcomes two key challenges in efficient chart understanding: (1) reduce the burden of learning numerical computations through a Program-of-Thoughts (PoT) learning strategy, which trains the model to generate Python programs for numerical calculations, and (2) reduce lengthy vision feature sequences produced by the vision transformer for high-resolution images through a Vision Token Merging module, which gradually merges most similar vision tokens. Extensive experiments demonstrate that our 3B TinyChart achieves SOTA performance on a variety of chart understanding benchmarks including ChartQA, Chart-to-Text, Chart-to-Table, OpenCQA, and ChartX. It outperforms several chart understanding MLLM with up to 13B parameters such as ChartLlama and ChartAst, and close-sourced general-purpose MLLM GPT-4V on ChartQA. It also demonstrates its superior efficiency with higher throughput during inference due to a smaller model scale and more efficient vision encoding. Our code and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# 画像エンコーダのゼロショット蒸留 : 合成データの有効利用法

Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data ( http://arxiv.org/abs/2404.16637v1 )

ライセンス: Link先を確認
Niclas Popp, Jan Hendrik Metzen, Matthias Hein, (参考訳) CLIPのようなマルチモーダル基盤モデルは、印象的なゼロショット機能を示した。 しかし,資源制約環境における適用性は,多数のパラメータと高い推論時間により制限されている。 既存のアプローチではCLIPアーキテクチャ全体をスケールダウンしていますが、画像エンコーダの小さな変種をトレーニングすることに重点を置いています。 合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。 しかし、対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。 本研究では, 合成データと実データ間の一般化が不十分な原因として, 突発的特徴の活用について検討する。 しかし、画像特徴量に基づくL2蒸留損失を用いることで、これらの問題を緩和し、4つのドメイン固有のデータセットにおいて、最大92%のパラメータを特徴としながら、DataCompXLで訓練されたViT-B/32教師モデルと同等であるゼロショット性能を達成する学生を訓練する。

Multi-modal foundation models such as CLIP have showcased impressive zero-shot capabilities. However, their applicability in resource-constrained environments is limited due to their large number of parameters and high inference time. While existing approaches have scaled down the entire CLIP architecture, we focus on training smaller variants of the image encoder, which suffices for efficient zero-shot classification. The use of synthetic data has shown promise in distilling representations from larger teachers, resulting in strong few-shot and linear probe performance. However, we find that this approach surprisingly fails in true zero-shot settings when using contrastive losses. We identify the exploitation of spurious features as being responsible for poor generalization between synthetic and real data. However, by using the image feature-based L2 distillation loss, we mitigate these problems and train students that achieve zero-shot performance which on four domain-specific datasets is on-par with a ViT-B/32 teacher model trained on DataCompXL, while featuring up to 92% fewer parameters.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# プライバシー保護統計データ生成:Sepsis検出への応用

Privacy-Preserving Statistical Data Generation: Application to Sepsis Detection ( http://arxiv.org/abs/2404.16638v1 )

ライセンス: Link先を確認
Eric Macias-Fassio, Aythami Morales, Cristina Pruenza, Julian Fierrez, (参考訳) バイオメディカル分野は、患者情報の感度を考えると、人工知能(AI)とデータ保護法の規制の増大によって最も影響を受ける分野の一つである。 しかし、合成データ生成手法の台頭は、データ駆動技術にとって有望な機会となる。 本研究では,分類問題に適用可能な合成データ生成のための統計的アプローチを提案する。 Kernel density Estimator と K-Nearest Neighbors sample (KDE-KNN) が生み出す合成データの実用性とプライバシーへの影響を実世界の文脈で評価する。 敗血症の発見は、急激な進行と生命を脅かす可能性のある結果のため、臨床実践において重要な課題である。 さらに、KDE-KNNの利点を現在の合成データ生成手法と比較して強調する。 さらに,本研究では,合成データをモデルトレーニング手順に組み込むことによる効果について検討した。 本研究は, バイオメディカル分野における規制制約緩和における合成データ生成技術の有効性に関する貴重な知見を提供する。

The biomedical field is among the sectors most impacted by the increasing regulation of Artificial Intelligence (AI) and data protection legislation, given the sensitivity of patient information. However, the rise of synthetic data generation methods offers a promising opportunity for data-driven technologies. In this study, we propose a statistical approach for synthetic data generation applicable in classification problems. We assess the utility and privacy implications of synthetic data generated by Kernel Density Estimator and K-Nearest Neighbors sampling (KDE-KNN) within a real-world context, specifically focusing on its application in sepsis detection. The detection of sepsis is a critical challenge in clinical practice due to its rapid progression and potentially life-threatening consequences. Moreover, we emphasize the benefits of KDE-KNN compared to current synthetic data generation methodologies. Additionally, our study examines the effects of incorporating synthetic data into model training procedures. This investigation provides valuable insights into the effectiveness of synthetic data generation techniques in mitigating regulatory constraints within the biomedical field.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# 日々のソフトウェアシステムにおける説明:説明可能性の必要性の分類を目指して

Explanations in Everyday Software Systems: Towards a Taxonomy for Explainability Needs ( http://arxiv.org/abs/2404.16644v1 )

ライセンス: Link先を確認
Jakob Droste, Hannah Deters, Martin Obaidi, Kurt Schneider, (参考訳) 現代のソフトウェアシステムはますます複雑で不透明になっている。 ソフトウェア内での説明の統合は、この不透明さに対処する可能性を示し、システムをエンドユーザにとってより理解しやすいものにする。 その結果、複雑なシステムの非機能要件として説明可能性が大きく向上した。 初期のソフトウェア設計プロセスに説明可能性を含めるのに、どんなタイプのシステムが必要なのかを理解する。 説明可能性要件を特定するには、様々な種類のソフトウェアに適用する説明可能性分類が必要である。 本稿では,84名の参加者を対象としたオンライン調査の結果を報告する。 我々は参加者に、最近使用した3つのソフトウェアシステムに関する質問と混乱を述べてもらい、明示的かつ暗黙的な説明可能性の必要性を彼らの声明から引き合いに出した。 これらの要求は3人の研究者によってコーディングされた。 質問紙調査の結果から,315個の説明可能性の必要性を抽出し,分類した。 説明可能性のニーズとコーディング手順の大きなプールから引き抜いて、本研究の主な貢献を2つ提示する。 1)日々のソフトウェアシステムにおける説明可能性に関する分類 2) ソフトウェアシステムの種類によって説明の必要性がどう違うかの概要。

Modern software systems are becoming increasingly complex and opaque. The integration of explanations within software has shown the potential to address this opacity and can make the system more understandable to end-users. As a result, explainability has gained much traction as a non-functional requirement of complex systems. Understanding what type of system requires what types of explanations is necessary to facilitate the inclusion of explainability in early software design processes. In order to specify explainability requirements, an explainability taxonomy that applies to a variety of different software types is needed. In this paper, we present the results of an online survey with 84 participants. We asked the participants to state their questions and confusions concerning their three most recently used software systems and elicited both explicit and implicit explainability needs from their statements. These needs were coded by three researchers. In total, we identified and classified 315 explainability needs from the survey answers. Drawing from a large pool of explainability needs and our coding procedure, we present two major contributions of this work: 1) a taxonomy for explainability needs in everyday software systems and 2) an overview of how the need for explanations differs between different types of software systems.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# テレFLM技術報告

Tele-FLM Technical Report ( http://arxiv.org/abs/2404.16645v1 )

ライセンス: Link先を確認
Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang, (参考訳) 大規模言語モデル(LLM)は、言語理解と生成において重要な機能を示し、幅広いアプリケーションを容易にしている。 しかし、500億以上のパラメータを最小の試行錯誤コストと計算資源で効率的にスケールする、詳細なオープンソース手法が顕著である。 本稿では,52Bのオープンソース多言語大言語モデルであるTele-FLM(FLM-2)を紹介する。 Tele-FLMは、テキストコーパス上でBPBによって測定される、優れた多言語言語モデリング能力を示す。 加えて、英語と中国語のファンデーションモデルの評価では、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。 モデルウェイトに加えて、コアデザイン、エンジニアリングプラクティス、トレーニングの詳細を共有します。

Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# RESNET50畳み込みニューラルネットワークの散乱媒質中の光学パラメータ抽出への応用

Application of RESNET50 Convolution Neural Network for the Extraction of Optical Parameters in Scattering Media ( http://arxiv.org/abs/2404.16647v1 )

ライセンス: Link先を確認
Bowen Deng, Yihan Zhang, Andrew Parkes, Alex Bentley, Amanda Wright, Michael Pound, Michael Somekh, (参考訳) 組織などの散乱媒体の光学特性の推定は、診断やより深い画像化技術の開発において重要である。 光が透過すると、試料散乱現象が起こり、光子の伝播方向がランダムに変化し、画質が劣化する。 しかし散乱光の分布は、散乱係数の低減や吸収係数などの光学特性の測度を与える。 残念ながら、散乱パターンを反転させて光学特性を回復するのは簡単ではない。 機械学習は、後方散乱または透過光からこれらの特性を回復する手段として、複数の著者によって提案されている。 本稿ではモンテカルロシミュレーションに基づくシミュレーションデータを用いて汎用畳み込みニューラルネットワークRESNET 50を訓練する。 私たちのアプローチでは、以前の作業と比較すると、はるかに小さなデータセットでトレーニングすることで、同等か、あるいはより優れた再構築の精度が得られます。 さらに,複数の平面における強度分布や出口角,空間分布などの複数のパラメータをトレーニングすることにより,試料表面で捕捉した強度分布などの単一入力に対するトレーニングに比べ,性能が向上する。 提案手法はパラメータ再構成に優れるが, 得られた特性, 特に吸収係数の精度を制限する因子を同定する。 これらの制限を考慮して、我々は、より優れたパフォーマンスのために、現在のアプローチをどのように拡張するかを提案します。

Estimation of the optical properties of scattering media such as tissue is important in diagnostics as well as in the development of techniques to image deeper. As light penetrates the sample scattering events occur that alter the propagation direction of the photons in a random manner leading degradation of image quality. The distribution of the scattered light does, however, give a measure of the optical properties such as the reduced scattering coefficient and the absorption coefficient. Unfortunately, inverting scattering patterns to recover the optical properties is not simple, especially in the regime where the light is partially randomized. Machine learning has been proposed by several authors as a means of recovering these properties from either the back scattered or the transmitted light. In the present paper, we train a general purpose convolutional neural network RESNET 50 with simulated data based on Monte Carlo simulations. We show that compared with previous work our approach gives comparable or better reconstruction accuracy with training on a much smaller dataset. Moreover, by training on multiple parameters such as the intensity distribution at multiple planes or the exit angle and spatial distribution one achieves improved performance compared to training on a single input such as the intensity distribution captured at the sample surface. While our approach gives good parameter reconstruction, we identify factors that limit the accuracy of the recovered properties, particularly the absorption coefficient. In the light of these limitations, we suggest how the present approach may be enhanced for even better performance.
翻訳日:2024-04-26 13:30:22 公開日:2024-04-25
# ハードウェアセキュリティのための進化的大規模言語モデル:比較調査

Evolutionary Large Language Models for Hardware Security: A Comparative Survey ( http://arxiv.org/abs/2404.16651v1 )

ライセンス: Link先を確認
Mohammad Akyash, Hadi Mardani Kamali, (参考訳) ハードウェア(HW)のセキュリティ脆弱性の検出と設計フェーズの緩和は、2つの理由により必須である。 i) チップ製造前であって,製造後の修正は費用がかかること,又は実用的でないこと。 (II)現代のHWの規模と複雑さは、CIAのトリアードを困惑させる未知の脆弱性に対する懸念を提起する。 大規模言語モデル(LLM)は、HW設計とテストプロセスの両方に革命をもたらすが、半導体コンテキスト内では、LLMを使用して、HW設計に固有のセキュリティ関連脆弱性を自動的に修正することができる。 本研究では、レジスタ転送レベル(RTL)設計におけるLLM統合のシードについて検討し、セキュリティ関連の脆弱性を自律的に解決する能力に焦点を当てた。 この分析には、方法論の比較、スケーラビリティの評価、解釈可能性、将来の研究方向性の特定が含まれる。 HWセキュリティタスクのための特殊なLLMアーキテクチャの開発、ドメイン固有の知識によるモデルパフォーマンスの向上、HW脆弱性に関連する信頼性の高い自動セキュリティ計測とリスク軽減など、調査の潜在的な分野である。

Automating hardware (HW) security vulnerability detection and mitigation during the design phase is imperative for two reasons: (i) It must be before chip fabrication, as post-fabrication fixes can be costly or even impractical; (ii) The size and complexity of modern HW raise concerns about unknown vulnerabilities compromising CIA triad. While Large Language Models (LLMs) can revolutionize both HW design and testing processes, within the semiconductor context, LLMs can be harnessed to automatically rectify security-relevant vulnerabilities inherent in HW designs. This study explores the seeds of LLM integration in register transfer level (RTL) designs, focusing on their capacity for autonomously resolving security-related vulnerabilities. The analysis involves comparing methodologies, assessing scalability, interpretability, and identifying future research directions. Potential areas for exploration include developing specialized LLM architectures for HW security tasks and enhancing model performance with domain-specific knowledge, leading to reliable automated security measurement and risk mitigation associated with HW vulnerabilities.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# アンビグアド・ラングイスティカの言語モデル(Análise de ambiguidade linguística em modelos de linguagem de grande escala)

Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs) ( http://arxiv.org/abs/2404.16653v1 )

ライセンス: Link先を確認
Lavínia de Carvalho Moraes, Irene Cristina Silvério, Rafael Alexandre Sousa Marques, Bianca de Castro Anaia, Dandara Freitas de Paula, Maria Carolina Schincariol de Faria, Iury Cleveston, Alana de Santana Correia, Raquel Meister Ko Freitag, (参考訳) 言語的曖昧さは、トランスフォーマーやBERTのようなアーキテクチャの進歩にもかかわらず、自然言語処理(NLP)システムにとって重要な課題であり続けている。 この研究は、ChatGPTやGemini(2023年、人工知能はBard.と呼ばれた)のような最近の指導モデルの成功に触発され、ブラジルポルトガル語で一般的な3つのタイプの意味、構文、語彙のあいまいさに着目して、これらのモデル内の言語的あいまいさを分析し、議論することを目的としている。 我々は、分類、説明、曖昧化のために、曖昧で曖昧な120の文からなるコーパスを作成する。 あいまいな文を生成するためのモデル能力についても,各種類のあいまいさに対して文の集合を勧誘することによって検討した。 その結果、質的な分析、認識された言語基準に基づく描画、得られた応答の精度に基づく定量的評価が得られた。 ChatGPTやGeminiのような最も洗練されたモデルでさえ、その応答に誤りと欠陥を示しており、説明が矛盾することが多いことが証明された。 さらに、精度は49.58パーセントに達し、教師あり学習のための記述的学習の必要性が示唆された。

Linguistic ambiguity continues to represent a significant challenge for natural language processing (NLP) systems, notwithstanding the advancements in architectures such as Transformers and BERT. Inspired by the recent success of instructional models like ChatGPT and Gemini (In 2023, the artificial intelligence was called Bard.), this study aims to analyze and discuss linguistic ambiguity within these models, focusing on three types prevalent in Brazilian Portuguese: semantic, syntactic, and lexical ambiguity. We create a corpus comprising 120 sentences, both ambiguous and unambiguous, for classification, explanation, and disambiguation. The models capability to generate ambiguous sentences was also explored by soliciting sets of sentences for each type of ambiguity. The results underwent qualitative analysis, drawing on recognized linguistic references, and quantitative assessment based on the accuracy of the responses obtained. It was evidenced that even the most sophisticated models, such as ChatGPT and Gemini, exhibit errors and deficiencies in their responses, with explanations often providing inconsistent. Furthermore, the accuracy peaked at 49.58 percent, indicating the need for descriptive studies for supervised learning.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 2状態移動:ペアとプラス状態移動の一般化

Two-state transfer: a generalization of pair and plus state transfer ( http://arxiv.org/abs/2404.16654v1 )

ライセンス: Link先を確認
Sooyeong Kim, Hermie Monterde, Bahman Ahmadi, Ada Chan, Stephen Kirkland, Sarah Plosker, (参考訳) 量子状態伝達の研究において、量子スピンネットワーク内で高い忠実度で量子状態を伝達できることに関心がある。 ほとんどの文献では、関心のある状態は標準基底ベクトルと関連づけられていると考えられているが、近年ではより一般的な状態が検討されている。 ここでは、連結重み付きグラフにおけるペア状態とプラス状態の定義を含む2つの頂点状態の一般線型結合を考える。 グラフの 2 状態 $X$ は $\mathbf{e}_u+s\mathbf{e}_v$ という形の量子状態であり、$u$ と $v$ は$X$ の2つの頂点であり、$s$ は非零実数である。 もし$s=-1$ または $s=1$ の場合、そのような状態はそれぞれペア状態またはプラス状態と呼ばれる。 本稿では,ハミルトニアンをグラフの隣接性,ラプラシアン行列,あるいは符号なしラプラシアン行列とみなす2状態間の量子状態移動について検討する。 ハミルトニアンのスペクトル特性を解析することにより、強コスペクトルの頂点から構築された強コスペクトル二状態を特徴づける。 これにより、完全グラフ、サイクル、ハイパーキューブの2状態間の完全状態移動(PST)を特徴付けることができる。 また、ペアでもプラス状態でもない2状態の間の強いコスペクトル性とPSTを持つグラフの無限族も生成する。 特異値と特異ベクトルを用いて、$X$の直線グラフにおける頂点 PST は、対応するエッジによって形成されるプラス状態の間の PST を意味することを示す。 さらに、前述の逆が成立する条件を提供する。 応用として、木、一環グラフ、およびカルテシアン積の直線グラフにおける頂点間の強いコスペクトル性とPSTを特徴づける。

In the study of quantum state transfer, one is interested in being able to transmit a quantum state with high fidelity within a quantum spin network. In most of the literature, the state of interest is taken to be associated with a standard basis vector; however, more general states have recently been considered. Here, we consider a general linear combination of two vertex states, which encompasses the definitions of pair states and plus states in connected weighted graphs. A two-state in a graph $X$ is a quantum state of the form $\mathbf{e}_u+s\mathbf{e}_v$, where $u$ and $v$ are two vertices in $X$ and $s$ is a non-zero real number. If $s=-1$ or $s=1$, then such a state is called a pair state or a plus state, respectively. In this paper, we investigate quantum state transfer between two-states, where the Hamiltonian is taken to be the adjacency, Laplacian or signless Laplacian matrix of the graph. By analyzing the spectral properties of the Hamiltonian, we characterize strongly cospectral two-states built from strongly cospectral vertices. This allows us to characterize perfect state transfer (PST) between two-states in complete graphs, cycles and hypercubes. We also produce infinite families of graphs that admit strong cospectrality and PST between two-states that are neither pair nor plus states. Using singular values and singular vectors, we show that vertex PST in the line graph of $X$ implies PST between the plus states formed by corresponding edges in $X$. Furthermore, we provide conditions such that the converse of the previous statement holds. As an application, we characterize strong cospectrality and PST between vertices in line graphs of trees, unicyclic graphs and Cartesian products.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 教師なし配電シフト検出のための自己組織化クラスタリングシステム

A Self-Organizing Clustering System for Unsupervised Distribution Shift Detection ( http://arxiv.org/abs/2404.16656v1 )

ライセンス: Link先を確認
Sebastián Basterrech, Line Clemmensen, Gerardo Rubino, (参考訳) 非定常データのモデリングは、継続学習の分野で難しい問題であり、データ分散シフトは、機械学習モデルの性能に悪影響を及ぼす可能性がある。 古典的な学習ツールは入力共変数の摂動に弱いことが多く、外れ値や雑音に敏感であり、いくつかのツールは厳密な代数的仮定に基づいている。 生産原材料の変化、季節性、異なるユーザーベース、さらには敵対的攻撃などにより、流通シフトが頻繁に発生している。 したがって、より効率的な分布シフト検出技術が必要である。 本研究では,分布変化のモニタリングと検出を行う継続的学習フレームワークを提案する。 バイオインスパイアされた自己組織的クラスタリングと潜在空間の統計的側面によって生じる潜在空間の問題を探索する。 特に,2つのトポロジ保存マップ(自己組織化マップ)とスケール不変マップ(スケール不変マップ)の投影について検討する。 本手法は教師なしコンテキストと教師なしコンテキストの両方に適用できる。 本稿では,ガウス信号との比較としてデータ分布の変化の評価を行い,提案手法を高速かつ堅牢にする。 我々は、他の教師なし技術、特に主成分分析(PCA)やカーネルPCAと比較する。 比較対象は,MNISTをベースとした画像の配列,化学センサ測定,オゾン濃度に関する環境変数などである。 実証的研究は,提案手法の可能性を明らかにするものである。

Modeling non-stationary data is a challenging problem in the field of continual learning, and data distribution shifts may result in negative consequences on the performance of a machine learning model. Classic learning tools are often vulnerable to perturbations of the input covariates, and are sensitive to outliers and noise, and some tools are based on rigid algebraic assumptions. Distribution shifts are frequently occurring due to changes in raw materials for production, seasonality, a different user base, or even adversarial attacks. Therefore, there is a need for more effective distribution shift detection techniques. In this work, we propose a continual learning framework for monitoring and detecting distribution changes. We explore the problem in a latent space generated by a bio-inspired self-organizing clustering and statistical aspects of the latent space. In particular, we investigate the projections made by two topology-preserving maps: the Self-Organizing Map and the Scale Invariant Map. Our method can be applied in both a supervised and an unsupervised context. We construct the assessment of changes in the data distribution as a comparison of Gaussian signals, making the proposed method fast and robust. We compare it to other unsupervised techniques, specifically Principal Component Analysis (PCA) and Kernel-PCA. Our comparison involves conducting experiments using sequences of images (based on MNIST and injected shifts with adversarial samples), chemical sensor measurements, and the environmental variable related to ozone levels. The empirical study reveals the potential of the proposed approach.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# EHRSQL 2024のProbGate: 確率論的閾値フィルタリングとエラー処理によるSQLクエリ生成精度の向上

ProbGate at EHRSQL 2024: Enhancing SQL Query Generation Accuracy through Probabilistic Threshold Filtering and Error Handling ( http://arxiv.org/abs/2404.16659v1 )

ライセンス: Link先を確認
Sangryul Kim, Donghee Han, Sehyun Kim, (参考訳) 近年,深層学習に基づく言語モデルにより,テキストからSQLへのタスクが大幅に向上し,医療領域内の患者記録の検索に有望な応用が期待できる。 このようなアプリケーションで注目すべき課題は、解決不可能なクエリを識別することである。 微調整モデルを用いて、医療記録問合せをSQLクエリに変換する可能性を示す。 さらに,未解決結果の同定とフィルタリングを行うエントロピーに基づく手法を提案する。 実際のデータベース上でクエリを実行することで、文法的およびスキーマ的エラーを軽減しつつ、ログ確率に基づく分布を通して低信頼SQLをフィルタリングすることで、結果の品質をさらに向上する。 提案手法は,モデルのパラメータがアクセスできない場合でも広く利用でき,実際に有効に活用可能であることを実験的に検証した。

Recently, deep learning-based language models have significantly enhanced text-to-SQL tasks, with promising applications in retrieving patient records within the medical domain. One notable challenge in such applications is discerning unanswerable queries. Through fine-tuning model, we demonstrate the feasibility of converting medical record inquiries into SQL queries. Additionally, we introduce an entropy-based method to identify and filter out unanswerable results. We further enhance result quality by filtering low-confidence SQL through log probability-based distribution, while grammatical and schema errors are mitigated by executing queries on the actual database. We experimentally verified that our method can filter unanswerable questions, which can be widely utilized even when the parameters of the model are not accessible, and that it can be effectively utilized in practice.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 多様な構成におけるモバイルデバイス制御エージェントのベンチマーク

Benchmarking Mobile Device Control Agents across Diverse Configurations ( http://arxiv.org/abs/2404.16660v1 )

ライセンス: Link先を確認
Juyong Lee, Taywon Min, Minyong An, Changyeon Kim, Kimin Lee, (参考訳) モバイルデバイス用の自律エージェントの開発は、効率とアクセシビリティの向上によって、ユーザインタラクションを著しく向上させることができる。 しかし、モバイル機器制御エージェントへの関心が高まっているにもかかわらず、一般的に採用されているベンチマークがないため、この分野の科学的進歩を定量化することは困難である。 本研究では,モバイル機器制御エージェントの評価に特化して設計された新しいベンチマークであるB-MoCAを紹介する。 現実的なベンチマークを作成するために,Android OSをベースとしたB-MoCAを開発し,60の日常タスクを定義した。 重要なのは、ユーザインタフェースレイアウトや言語設定など、モバイルデバイスのさまざまな側面を変更するランダム化機能を導入して、一般化性能を評価することである。 我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントや,人間の専門家によるデモンストレーションを用いたゼロから訓練されたエージェントなど,多様なエージェントをベンチマークする。 これらのエージェントは、簡単なタスクを実行する能力を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、その効果を高めるための将来の研究の大きな機会を浮き彫りにしている。 ソースコードはhttps://b-moca.github.io.comで公開されています。

Developing autonomous agents for mobile devices can significantly enhance user interactions by offering increased efficiency and accessibility. However, despite the growing interest in mobile device control agents, the absence of a commonly adopted benchmark makes it challenging to quantify scientific progress in this area. In this work, we introduce B-MoCA: a novel benchmark designed specifically for evaluating mobile device control agents. To create a realistic benchmark, we develop B-MoCA based on the Android operating system and define 60 common daily tasks. Importantly, we incorporate a randomization feature that changes various aspects of mobile devices, including user interface layouts and language settings, to assess generalization performance. We benchmark diverse agents, including agents employing large language models (LLMs) or multi-modal LLMs as well as agents trained from scratch using human expert demonstrations. While these agents demonstrate proficiency in executing straightforward tasks, their poor performance on complex tasks highlights significant opportunities for future research to enhance their effectiveness. Our source code is publicly available at https://b-moca.github.io.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 生成AIのためのフェアネスの形式的仕様、評価、実施

Formal Specification, Assessment, and Enforcement of Fairness for Generative AIs ( http://arxiv.org/abs/2404.16663v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Changshun Wu, Harald Ruess, Xingyu Zhao, Saddek Bensalem, (参考訳) 生成的AIは、テキストから画像まで、人間の出力に似たコンテンツを、ますます生み出すにつれて、社会的バイアスや不平等の強化や悪化のリスクが高まっている。 ここでは、生成AIの公正性の概念を、公正性を監視し、強制するための基盤として公式に特徴づける。 無限語の概念を用いた公平性の2つのレベルを定義する。 1つ目は、生成されたシーケンスで示される公平さであり、これは出力でのみ評価されるが、使用するプロンプト/モデルには依存しない。 2つ目は、生成AIモデルの本質的公正性であり、入力プロンプトが中立であるときに公正性を示す必要がある。 また,複数カテゴリと遅延フェアネス法を併用して検討する場合,相対的交差フェアネスについて検討した。 実装された仕様監視と実施ツールは、複数の生成AIモデルに対してテストした場合に興味深い結果を示す。

The risk of reinforcing or exacerbating societal biases and inequalities is growing as generative AI increasingly produces content that resembles human output, from text to images and beyond. Here we formally characterize the notion of fairness for generative AI as a basis for monitoring and enforcing fairness. We define two levels of fairness utilizing the concept of infinite words. The first is the fairness demonstrated on the generated sequences, which is only evaluated on the outputs while agnostic to the prompts/models used. The second is the inherent fairness of the generative AI model, which requires that fairness be manifested when input prompts are neutral, that is, they do not explicitly instruct the generative AI to produce a particular type of output. We also study relative intersectional fairness to counteract the combinatorial explosion of fairness when considering multiple categories together with lazy fairness enforcement. Our implemented specification monitoring and enforcement tool shows interesting results when tested against several generative AI models.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# Lu.i-教育とアウトリーチのための低コスト電子ニューロン

Lu.i -- A low-cost electronic neuron for education and outreach ( http://arxiv.org/abs/2404.16664v1 )

ライセンス: Link先を確認
Yannik Stradmann, Julian Göltz, Mihai A. Petrovici, Johannes Schemmel, Sebastian Billaudelle, (参考訳) 社会の至るところで科学の存在が高まっており、研究者が自分たちの仕事を効果的に伝え、同様に教師が教室で現代的な発見を議論することへの期待が高まっている。 コミュニティは、ほとんどの自然科学の基本的な概念のために確立された教育支援のセットを利用することができるが、同様の実証実験や神経科学の実証者が必要である。 そこで我々はLu.iを紹介した。これはエンゲージメントフォームファクターにおける漏洩積分・発火ニューロンモデルのパラメトリザブル電子実装である。 これらの手のひらサイズのニューロンは、個々の細胞や小さなスパイクニューラルネットワークのダイナミクスを可視化し、経験することができる。 実またはシミュレートされた感覚入力で刺激されると、Lu.iは学生の手で脳にインスパイアされた情報処理を示す。 そのため、ワークショップ、教室、科学コミュニケーションなどで積極的に使用されている。 教授とアウトリーチのための汎用的なツールとして、Lu.iは次世代の科学者と一般大衆の間で神経科学研究とニューロモルフィック工学の理解を育んでいる。

With an increasing presence of science throughout all parts of society, there is a rising expectation for researchers to effectively communicate their work and, equally, for teachers to discuss contemporary findings in their classrooms. While the community can resort to an established set of teaching aids for the fundamental concepts of most natural sciences, there is a need for similarly illustrative experiments and demonstrators in neuroscience. We therefore introduce Lu.i: a parametrizable electronic implementation of the leaky-integrate-and-fire neuron model in an engaging form factor. These palm-sized neurons can be used to visualize and experience the dynamics of individual cells and small spiking neural networks. When stimulated with real or simulated sensory input, Lu.i demonstrates brain-inspired information processing in the hands of a student. As such, it is actively used at workshops, in classrooms, and for science communication. As a versatile tool for teaching and outreach, Lu.i nurtures the comprehension of neuroscience research and neuromorphic engineering among future generations of scientists and in the general public.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# PhyRecon: 物理的に可塑性のニューラルシーン再構築

PhyRecon: Physically Plausible Neural Scene Reconstruction ( http://arxiv.org/abs/2404.16666v1 )

ライセンス: Link先を確認
Junfeng Ni, Yixin Chen, Bohan Jing, Nan Jiang, Bin Wang, Bo Dai, Yixin Zhu, Song-Chun Zhu, Siyuan Huang, (参考訳) ニューラルな暗黙の表現は多視点の3D再構成で人気を得ているが、これまでの作業は物理的に妥当な結果を得るのに苦労しているため、エンボディドAIやロボティクスといった物理要求の領域での応用は制限されている。 妥当性の欠如は、既存のパイプラインにおける物理モデリングの欠如と、複雑な幾何学的構造を回復できないことが原因である。 本稿では、微分可能なレンダリングと微分可能な物理シミュレーションを併用し、暗黙的な表面表現を学習する最初のアプローチであるPhyReconを紹介する。 本フレームワークは,ニューラル暗黙表現とシームレスに統合された,新しい微分可能なパーティクルベース物理シミュレータを提案する。 その中核は、SDFに基づく暗黙の表現と、提案したアルゴリズムであるSurface Points Marching Cubes (SP-MC)による明示的な表面点との効率的な変換であり、レンダリングと物理的損失の両方で微分可能な学習を可能にする。 さらに,不整合および不整合な単色幾何学的先行を識別・補償するために,レンダリングと物理的不確実性の両方をモデル化する。 この物理的不確実性により、物理誘導された画素サンプリングにより、細い構造の学習が促進される。 これらの手法をマージすることにより, 外観, 幾何学, 物理を併用した効率的な関節モデルの構築が促進される。 大規模な実験により、PhyReconは再建の質という点で最先端の手法を著しく上回っていることが示された。 我々の再構成結果は、Isaac Gym氏によって検証され、すべてのデータセットで少なくとも40%改善され、将来の物理学ベースのアプリケーションのための幅広い道を開く。

While neural implicit representations have gained popularity in multi-view 3D reconstruction, previous work struggles to yield physically plausible results, thereby limiting their applications in physics-demanding domains like embodied AI and robotics. The lack of plausibility originates from both the absence of physics modeling in the existing pipeline and their inability to recover intricate geometrical structures. In this paper, we introduce PhyRecon, which stands as the first approach to harness both differentiable rendering and differentiable physics simulation to learn implicit surface representations. Our framework proposes a novel differentiable particle-based physical simulator seamlessly integrated with the neural implicit representation. At its core is an efficient transformation between SDF-based implicit representation and explicit surface points by our proposed algorithm, Surface Points Marching Cubes (SP-MC), enabling differentiable learning with both rendering and physical losses. Moreover, we model both rendering and physical uncertainty to identify and compensate for the inconsistent and inaccurate monocular geometric priors. The physical uncertainty additionally enables a physics-guided pixel sampling to enhance the learning of slender structures. By amalgamating these techniques, our model facilitates efficient joint modeling with appearance, geometry, and physics. Extensive experiments demonstrate that PhyRecon significantly outperforms all state-of-the-art methods in terms of reconstruction quality. Our reconstruction results also yield superior physical stability, verified by Isaac Gym, with at least a 40% improvement across all datasets, opening broader avenues for future physics-based applications.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# EmoVIT: ビジュアルインストラクションチューニングによる感情洞察の革新

EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning ( http://arxiv.org/abs/2404.16670v1 )

ライセンス: Link先を確認
Hongxia Xie, Chu-Jun Peng, Yu-Wen Tseng, Hung-Jen Chen, Chan-Feng Hsu, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) Visual Instruction Tuningは、タスク固有の命令を使用して事前訓練された言語モデルの微調整を含む、新しい学習パラダイムである。 このパラダイムは、様々な自然言語処理タスクにおいて有望なゼロショット結果を示すが、まだ視覚的感情理解において探索されていない。 本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。 まず、視覚的感情認識に不可欠な重要な視覚的手がかりを同定する。 次に、この領域における注釈付き命令データの不足を効果的に解決し、感情視覚的命令データを生成するための新しいGPT支援パイプラインを提案する。 InstructBLIPによって確立された基礎に基づいて、我々の提案するEmoVITアーキテクチャは、感情固有の命令データを組み込んで、大規模言語モデルの強力な能力を活用して性能を向上させる。 広範にわたる実験を通じて,感情分類,情緒的推論の適応性,ユーモアの理解能力を示す。 比較分析は、LLMの時代における感情視覚インストラクションチューニングの堅牢なベンチマークを提供し、この領域における価値ある洞察と将来の探索への道を開く。 私たちのコードは \url{https://github.com/aimmemotion/EmoVIT} で利用可能です。

Visual Instruction Tuning represents a novel learning paradigm involving the fine-tuning of pre-trained language models using task-specific instructions. This paradigm shows promising zero-shot results in various natural language processing tasks but is still unexplored in vision emotion understanding. In this work, we focus on enhancing the model's proficiency in understanding and adhering to instructions related to emotional contexts. Initially, we identify key visual clues critical to visual emotion recognition. Subsequently, we introduce a novel GPT-assisted pipeline for generating emotion visual instruction data, effectively addressing the scarcity of annotated instruction data in this domain. Expanding on the groundwork established by InstructBLIP, our proposed EmoVIT architecture incorporates emotion-specific instruction data, leveraging the powerful capabilities of Large Language Models to enhance performance. Through extensive experiments, our model showcases its proficiency in emotion classification, adeptness in affective reasoning, and competence in comprehending humor. The comparative analysis provides a robust benchmark for Emotion Visual Instruction Tuning in the era of LLMs, providing valuable insights and opening avenues for future exploration in this domain. Our code is available at \url{https://github.com/aimmemotion/EmoVIT}.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 非一様磁場による磁気共鳴周波数変化と境界緩和

Magnetic Resonance Frequency Shift Caused by Nonuniform Field and Boundary Relaxation ( http://arxiv.org/abs/2404.16671v1 )

ライセンス: Link先を確認
Xiangdong Zhang, Jinbo Hu, Da-Wu Xiao, Nan Zhao, (参考訳) 磁場の不均一性は通常、磁気共鳴(MR)実験に有害である。 非均一磁場は共鳴線幅の増大や感度の低下やスペクトル分解能の低下につながると広く認識されている。 しかし、一様でない磁場は共鳴周波数のシフトを引き起こすこともあり、これははるかに注意を払わない。 本研究では、任意の非一様磁場下での周波数シフトと境界緩和を、トーリー方程式に摂動理論を適用して検討する。 いくつかのコンパクトな周波数シフト公式が報告されている。 周波数シフトは、主に$B_z$分布によって決定され、境界緩和に重要な依存性を持つ。 さらに、境界緩和と高次摂動補正の違いにより、この周波数シフトはスピン種に依存しており、NMRジャイロスコープやコマグネトメーターのような多くのMRベース精度測定における体系的な誤差を意味する。 この知見は、最近のNMRジャイロスコープにおける説明できない同位体シフトと、コマグネトメーターを利用する新しい物理探査実験を理解するための潜在的なツールを提供する。 最後に,境界緩和に対する周波数シフトの依存性に基づく壁面相互作用研究のための新しいツールを提案する。

Magnetic field inhomogeneity is usually detrimental to magnetic resonance (MR) experiments. It is widely recognized that a nonuniform magnetic field can lead to an increase in the resonance line width, as well as a reduction in sensitivity and spectral resolution. However, nonuniform magnetic field can also cause shift in resonance frequency, which received far less attention. In this work, we investigate the frequency shift under arbitrary nonuniform magnetic field and boundary relaxation by applying perturbation theory to the Torrey equation. Several compact frequency shift formulas are reported. We find that the frequency shift is mainly determined by $B_z$ distribution (rather than the transverse field components in previous study) and has important dependence on boundary relaxation. Furthermore, due to the difference of boundary relaxation and high order perturbation correction, this frequency shift is spin-species dependent, which implies a systematic error in many MR based precision measurements such as NMR gyroscope and comagnetometers. This insight provides a potential tool for understanding the unexplained isotope shifts in recent NMR gyroscope and new physics searching experiments that utilize comagnetometers. Finally, we propose a new tool for wall interaction research based on the frequency shift's dependency on boundary relaxation.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 多層相関クラスタリング

Multilayer Correlation Clustering ( http://arxiv.org/abs/2404.16676v1 )

ライセンス: Link先を確認
Atsushi Miyauchi, Florian Adriaens, Francesco Bonchi, Nikolaj Tatti, (参考訳) 本稿では,相関クラスタリング(Bansal et al , FOCS '02)の新たな一般化である多層相関クラスタリングを確立する。 このモデルでは、共通集合である$V$に対して相関クラスタリング(層と呼ばれる)の一連の入力が与えられる。 目的は、相違ベクトルの$\ell_p$-norm(p\geq 1$)を最小化する$V$のクラスタリングを見つけることである。 この一般化のために、まず$O(L\log n)$-approximationアルゴリズムを設計する。 次に,問題,すなわち確率制約問題に関する重要な事例について検討する。 この場合、まず$(\alpha+2)$-approximationアルゴリズムが与えられます。 例えば、一般に$\alpha=2.5$(Ailon et al , JACM '08)と$\alpha=1.73+\epsilon$(Cohen-Addad et al , FOCS '23)を取ることができる。 さらに、一般確率制約の場合、上記の近似比を$\alpha+2=4.5$に改善する4ドルの近似アルゴリズムを設計する。 実世界のデータセットを用いた計算実験により,提案アルゴリズムの有効性が示された。

In this paper, we establish Multilayer Correlation Clustering, a novel generalization of Correlation Clustering (Bansal et al., FOCS '02) to the multilayer setting. In this model, we are given a series of inputs of Correlation Clustering (called layers) over the common set $V$. The goal is then to find a clustering of $V$ that minimizes the $\ell_p$-norm ($p\geq 1$) of the disagreements vector, which is defined as the vector (with dimension equal to the number of layers), each element of which represents the disagreements of the clustering on the corresponding layer. For this generalization, we first design an $O(L\log n)$-approximation algorithm, where $L$ is the number of layers, based on the well-known region growing technique. We then study an important special case of our problem, namely the problem with the probability constraint. For this case, we first give an $(\alpha+2)$-approximation algorithm, where $\alpha$ is any possible approximation ratio for the single-layer counterpart. For instance, we can take $\alpha=2.5$ in general (Ailon et al., JACM '08) and $\alpha=1.73+\epsilon$ for the unweighted case (Cohen-Addad et al., FOCS '23). Furthermore, we design a $4$-approximation algorithm, which improves the above approximation ratio of $\alpha+2=4.5$ for the general probability-constraint case. Computational experiments using real-world datasets demonstrate the effectiveness of our proposed algorithms.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 拡散前におけるマルチモーダルセマンティック・アウェア自動着色

Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior ( http://arxiv.org/abs/2404.16678v1 )

ライセンス: Link先を確認
Han Wang, Xinning Chai, Yiwen Wang, Yuhong Zhang, Rong Xie, Li Song, (参考訳) グレースケールの画像のカラー化は、魅力的なビジュアル体験を提供する。 既存の自動着色法は、誤ったセマンティックカラーと不飽和色のために満足な結果が得られないことが多い。 本研究では,これらの課題を克服するための自動着色パイプラインを提案する。 色を可塑性意味論で合成する前に拡散の異常な生成能力を利用する。 拡散前に導入されたアーティファクトを克服するため,輝度条件ガイダンスを適用した。 さらに,モデルが画像の内容を理解し,飽和色を提供するのを助けるために,マルチモーダルなハイレベルセマンティクスを前もって採用する。 さらに、輝度認識デコーダは詳細を復元し、全体的な視覚的品質を向上させるように設計されている。 提案したパイプラインは、可塑性セマンティクスを維持しながら飽和色を合成する。 実験の結果,提案手法は多様性と忠実さの両方を考慮し,知覚的リアリズムの観点から従来の手法を超越し,人間の嗜好を最も多く得ていることが示唆された。

Colorizing grayscale images offers an engaging visual experience. Existing automatic colorization methods often fail to generate satisfactory results due to incorrect semantic colors and unsaturated colors. In this work, we propose an automatic colorization pipeline to overcome these challenges. We leverage the extraordinary generative ability of the diffusion prior to synthesize color with plausible semantics. To overcome the artifacts introduced by the diffusion prior, we apply the luminance conditional guidance. Moreover, we adopt multimodal high-level semantic priors to help the model understand the image content and deliver saturated colors. Besides, a luminance-aware decoder is designed to restore details and enhance overall visual quality. The proposed pipeline synthesizes saturated colors while maintaining plausible semantics. Experiments indicate that our proposed method considers both diversity and fidelity, surpassing previous methods in terms of perceptual realism and gain most human preference.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# 高忠実度NIR-RGBスペクトル変換のためのマルチスケールHSV色特徴埋め込み

Multi-scale HSV Color Feature Embedding for High-fidelity NIR-to-RGB Spectrum Translation ( http://arxiv.org/abs/2404.16685v1 )

ライセンス: Link先を確認
Huiyu Zhai, Mo Chen, Xingxing Yang, Gusheng Kang, (参考訳) NIR-to-RGBスペクトル領域変換は、NIR入力とRGB出力に固有のスペクトルマッピングの曖昧さのため、恐ろしい作業である。 このように既存の手法では、テクスチャディテールの忠実さの維持と多彩な色変化の達成との緊張を和らげることができない。 本稿では,NIRテクスチャの保守,粗い幾何再構成,RGB色予測を含む3つのサブタスクにマッピング処理を分解するマルチスケールHSV色特徴埋め込みネットワーク(MCFNet)を提案する。 そこで我々は,各サブタスクに対して,テクスチャ保存ブロック(TPB),HSVカラー特徴埋め込みモジュール(HSV-CFEM),幾何再構成モジュール(GRM)の3つのキーモジュールを提案する。 これらのモジュールは、一連のエスカレーション解像度を通じてスペクトル変換を手法的に処理し、スケールコヒーレントな方法で色とテクスチャの忠実度を徐々に高めている。 提案したMCFNetは、NIR画像のカラー化タスクよりもかなりの性能向上を示した。 コードはhttps://github.com/AlexYangxx/MCFNet.comで公開されている。

The NIR-to-RGB spectral domain translation is a formidable task due to the inherent spectral mapping ambiguities within NIR inputs and RGB outputs. Thus, existing methods fail to reconcile the tension between maintaining texture detail fidelity and achieving diverse color variations. In this paper, we propose a Multi-scale HSV Color Feature Embedding Network (MCFNet) that decomposes the mapping process into three sub-tasks, including NIR texture maintenance, coarse geometry reconstruction, and RGB color prediction. Thus, we propose three key modules for each corresponding sub-task: the Texture Preserving Block (TPB), the HSV Color Feature Embedding Module (HSV-CFEM), and the Geometry Reconstruction Module (GRM). These modules contribute to our MCFNet methodically tackling spectral translation through a series of escalating resolutions, progressively enriching images with color and texture fidelity in a scale-coherent fashion. The proposed MCFNet demonstrates substantial performance gains over the NIR image colorization task. Code is released at: https://github.com/AlexYangxx/MCFNet.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# NTIRE 2024 AI生成コンテンツチャレンジの品質評価(NTIRE 2024)

NTIRE 2024 Quality Assessment of AI-Generated Content Challenge ( http://arxiv.org/abs/2404.16687v1 )

ライセンス: Link先を確認
Xiaohong Liu, Xiongkuo Min, Guangtao Zhai, Chunyi Li, Tengchuan Kou, Wei Sun, Haoning Wu, Yixuan Gao, Yuqin Cao, Zicheng Zhang, Xiele Wu, Radu Timofte, (参考訳) 本稿では, CVPR 2024におけるNTIRE 2024の品質評価について報告する。 この課題は、AIGC(AIGC)のための画像品質評価(IQA)とビデオ品質評価(VQA)という、画像およびビデオ処理の分野での大きな課題に取り組むことである。 課題は、イメージトラックとビデオトラックに分けられる。 画像トラックはAIIQA-20Kを使用しており、15の一般的な生成モデルによって生成される2万のAI生成画像(AIGI)を含んでいる。 イメージトラックには合計318人の登録参加者がいる。 開発段階では合計1,646件の提出を受け、テスト段階では221件の提出を受ける。 最後に16チームがモデルとファクトシートを提出した。 T2VQA-DBは、9つの人気テキスト・トゥ・ビデオ(T2V)モデルによって生成される1万のAI生成ビデオ(AIGV)を含む。 計196人の参加者がビデオトラックに登録されている。 開発段階では合計991件の提出を受け、試験段階では185件の提出を受ける。 最後に、12の参加チームがモデルとファクトシートを提出した。 いくつかの手法はベースライン法よりも優れた結果を得たが、両トラックの勝利法はAIGCの予測性能に優れていた。

This paper reports on the NTIRE 2024 Quality Assessment of AI-Generated Content Challenge, which will be held in conjunction with the New Trends in Image Restoration and Enhancement Workshop (NTIRE) at CVPR 2024. This challenge is to address a major challenge in the field of image and video processing, namely, Image Quality Assessment (IQA) and Video Quality Assessment (VQA) for AI-Generated Content (AIGC). The challenge is divided into the image track and the video track. The image track uses the AIGIQA-20K, which contains 20,000 AI-Generated Images (AIGIs) generated by 15 popular generative models. The image track has a total of 318 registered participants. A total of 1,646 submissions are received in the development phase, and 221 submissions are received in the test phase. Finally, 16 participating teams submitted their models and fact sheets. The video track uses the T2VQA-DB, which contains 10,000 AI-Generated Videos (AIGVs) generated by 9 popular Text-to-Video (T2V) models. A total of 196 participants have registered in the video track. A total of 991 submissions are received in the development phase, and 185 submissions are received in the test phase. Finally, 12 participating teams submitted their models and fact sheets. Some methods have achieved better results than baseline methods, and the winning methods in both tracks have demonstrated superior prediction performance on AIGC.
翻訳日:2024-04-26 13:20:37 公開日:2024-04-25
# ディープラーニングモデルを再利用する - ソフトウェア工学の課題と方向性

Reusing Deep Learning Models: Challenges and Directions in Software Engineering ( http://arxiv.org/abs/2404.16688v1 )

ライセンス: Link先を確認
James C. Davis, Purvish Jajal, Wenxin Jiang, Taylor R. Schorlemmer, Nicholas Synovic, George K. Thiruvathukal, (参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、システム構成、質問応答など、多くの分野で最先端のパフォーマンスを実現している。 しかし、DNNは、知的努力(例えば、新しいアーキテクチャを考案する)と計算コスト(例えば、トレーニング)の両方において、開発に費用がかかる。 DNNの再利用は、企業内およびコンピューティング業界全体におけるコストの削減に有望な方向である。 しかし、他の新しい技術と同様に、DNNの再利用には多くの課題がある。 これらの課題には、技術的能力の欠如とエンジニアリングプラクティスの欠如の両方が含まれる。 このビジョンペーパーは、DNNの再使用に対する現在のアプローチの課題について述べる。 本研究は, 再使用の失敗(例:研究論文に基づく再利用), 適応(例: 既存実装に基づく再利用), 展開(例: 新しいデバイスへの直接再利用)を含む, 再使用の失敗(例: 研究論文に基づく再利用)のスペクトルにわたる研究を要約する。 各種類の再利用を改善する可能性のある進歩について概説する。

Deep neural networks (DNNs) achieve state-of-the-art performance in many areas, including computer vision, system configuration, and question-answering. However, DNNs are expensive to develop, both in intellectual effort (e.g., devising new architectures) and computational costs (e.g., training). Reusing DNNs is a promising direction to amortize costs within a company and across the computing industry. As with any new technology, however, there are many challenges in reusing DNNs. These challenges include both missing technical capabilities and missing engineering practices. This vision paper describes challenges in current approaches to DNN re-use. We summarize studies of re-use failures across the spectrum of re-use techniques, including conceptual (e.g., reusing based on a research paper), adaptation (e.g., re-using by building on an existing implementation), and deployment (e.g., direct re-use on a new device). We outline possible advances that would improve each kind of re-use.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# ByteRLに勝つための学習: カードゲームエージェントの爆発性

Learning to Beat ByteRL: Exploitability of Collectible Card Game Agents ( http://arxiv.org/abs/2404.16689v1 )

ライセンス: Link先を確認
Radovan Haluska, Martin Schmid, (参考訳) ポーカーは過去数十年にわたって広く研究されてきたが、収集可能なカードゲームはあまり注目されていない。 つい最近になって、最も人気のある収集可能なカードゲームの一つであるHarthstoneで、プロの人間プレイヤーと競争できるエージェントが登場した。 人工エージェントはどちらのジャンルでも不完全な情報を扱わなければならないが、収集可能なカードゲームには別の課題がある。 多くのポーカーの変種とは異なり、エージェントは巨大な状態空間を扱う必要があり、エージェントの信念と整合した状態の列挙さえも難解であり、現在の検索メソッドは使用不能であり、エージェントは他のテクニックを選択する必要がある。 本稿では,このクラスのゲームにおいて,そのような手法の強みについて検討する。 すなわち,コードとマジックとヘースストーンの最先端エージェントであるByteRLの予備解析結果を示す。 ByteRLは中国からトップ10のHarthstoneプレーヤーを打ち負かしているが、Legends of Code and Magicでのプレイは極めて悪用されている。

While Poker, as a family of games, has been studied extensively in the last decades, collectible card games have seen relatively little attention. Only recently have we seen an agent that can compete with professional human players in Hearthstone, one of the most popular collectible card games. Although artificial agents must be able to work with imperfect information in both of these genres, collectible card games pose another set of distinct challenges. Unlike in many poker variants, agents must deal with state space so vast that even enumerating all states consistent with the agent's beliefs is intractable, rendering the current search methods unusable and requiring the agents to opt for other techniques. In this paper, we investigate the strength of such techniques for this class of games. Namely, we present preliminary analysis results of ByteRL, the state-of-the-art agent in Legends of Code and Magic and Hearthstone. Although ByteRL beat a top-10 Hearthstone player from China, we show that its play in Legends of Code and Magic is highly exploitable.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# ヒトとGPT-4の添加および減量的解法に及ぼす解効率と指示の妥当性の影響

Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4 ( http://arxiv.org/abs/2404.16692v1 )

ライセンス: Link先を確認
Lydia Uhler, Verena Jordan, Jürgen Buder, Markus Huff, Frank Papenmeier, (参考訳) 両人の問題解決行動とOpenAlのGPT-4大言語モデルを用いて,初期状態や構造を変えるために要素を除去するよりも,要素を加えることを優先する認知的傾向である付加バイアスについて検討した。 実験では、米国から588人、GPT-4モデルの680人の参加者が参加した。 問題解決の課題は、グリッド内で対称性を作成すること(実験1と3)、または要約を編集すること(実験2と4)であった。 仮説として、私たちは全体として、追加バイアスが存在することに気付きました。 解の効率(実験1と2)と命令の妥当性(実験3と4)は重要な役割を担った。 減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。 GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。 命令価の面では、GPT-4は"edit"よりも"improve"を要求されたときに単語を追加する傾向があったが、人間はこの効果を示さなかった。 異なる条件下での添加バイアスを調べたところ、GPT-4の反応は人間に比べてより偏りが強いことがわかった。 本研究は,言語モデルの課題解決行動の再評価とともに,比較的かつ時として優れた抽出代替案を検討することの重要性を強調した。

We explored the addition bias, a cognitive tendency to prefer adding elements over removing them to alter an initial state or structure, by conducting four preregistered experiments examining the problem-solving behavior of both humans and OpenAl's GPT-4 large language model. The experiments involved 588 participants from the U.S. and 680 iterations of the GPT-4 model. The problem-solving task was either to create symmetry within a grid (Experiments 1 and 3) or to edit a summary (Experiments 2 and 4). As hypothesized, we found that overall, the addition bias was present. Solution efficiency (Experiments 1 and 2) and valence of the instruction (Experiments 3 and 4) played important roles. Human participants were less likely to use additive strategies when subtraction was relatively more efficient than when addition and subtraction were equally efficient. GPT-4 exhibited the opposite behavior, with a strong addition bias when subtraction was more efficient. In terms of instruction valence, GPT-4 was more likely to add words when asked to "improve" compared to "edit", whereas humans did not show this effect. When we looked at the addition bias under different conditions, we found more biased responses for GPT-4 compared to humans. Our findings highlight the importance of considering comparable and sometimes superior subtractive alternatives, as well as reevaluating one's own and particularly the language models' problem-solving behavior.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# クリフォードゲートによる任意の3次クビット木の相互変換

Mutual transformations of arbitrary ternary qubit trees by Clifford gates ( http://arxiv.org/abs/2404.16693v1 )

ライセンス: Link先を確認
Alexander Yu. Vlasov, (参考訳) 同じ数のノードを持つ3次キュービット木は、自然に定義されたクリフォードゲートの列によって互いに変換するか、ジョルダン・ウィグナー変換に対応する1D鎖として標準表現に変換することができる。

It is shown that ternary qubit trees with the same number of nodes can be transformed by the naturally defined sequence of Clifford gates into each other or into standard representation as 1D chain corresponding to Jordan-Wigner transform.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# 2次元アーキテクチャにおける高コヒーレンスKerr-cat量子ビット

High-Coherence Kerr-cat qubit in 2D architecture ( http://arxiv.org/abs/2404.16697v1 )

ライセンス: Link先を確認
Ahmed Hajr, Bingcheng Qing, Ke Wang, Gerwin Koolstra, Zahra Pedramrazi, Ziqi Kang, Larry Chen, Long B. Nguyen, Christian Junger, Noah Goss, Irwin Huang, Bibek Bhandari, Nicholas E. Frattini, Shruti Puri, Justin Dressel, Andrew Jordan, David Santiago, Irfan Siddiqi, (参考訳) Kerr-cat量子ビット(Kerr-cat qubit)は、Kerr非線形性を持つ発振器に2光子駆動を適用することにより、多光子シュロディンガー猫状態が安定化されるボソニック量子ビットである。 猫サイズの増大に伴う抑制ビットフリップ率により、この量子ビットはノイズバイアス量子ビットに適した量子誤り訂正符号を実装するための有望な候補となる。 しかし、この量子ビットの安定化と制御に必要な強力な光-物質相互作用を達成するためには、伝統的に、量子ビットを加熱して性能を低下させる強いマイクロ波駆動が必要である。 対照的に、駆動ポートとの結合を増大させることで、パーセルの大規模な崩壊を犠牲にして、強い駆動の必要性がなくなる。 有効帯域ブロックフィルタをオンチップに統合することにより、このトレードオフを克服し、高コヒーレンスを有するスケーラブルな2D超伝導回路におけるKerr-cat量子ビットを実現する。 このフィルタは、安定化および読み出しに必要な周波数で無視可能な減衰で、キュービット周波数で30dBのアイソレーションを提供する。 実験では、8個の光子を持つ猫に対して99.6%の量子非破壊読み出し率を実験的に実証した。 また、この量子ビットを高忠実に普遍的に制御するために、高速なラビ振動とX(90)ゲートの新たなデモを安定化ドライブの位相変調により組み合わせる。 最後に、回路の理論解析と整合して、1ms以上のビットフリップ時間と位相フリップ時間の線形減少しか達成しない発振器における最大10光子の猫の大きさの関数として、このアーキテクチャの寿命を調べた。 我々の量子ビットは、小さなフットプリントを持つフォールトトレラント量子プロセッサのビルディングブロックとして有望であることを示している。

The Kerr-cat qubit is a bosonic qubit in which multi-photon Schrodinger cat states are stabilized by applying a two-photon drive to an oscillator with a Kerr nonlinearity. The suppressed bit-flip rate with increasing cat size makes this qubit a promising candidate to implement quantum error correction codes tailored for noise-biased qubits. However, achieving strong light-matter interactions necessary for stabilizing and controlling this qubit has traditionally required strong microwave drives that heat the qubit and degrade its performance. In contrast, increasing the coupling to the drive port removes the need for strong drives at the expense of large Purcell decay. By integrating an effective band-block filter on-chip, we overcome this trade-off and realize a Kerr-cat qubit in a scalable 2D superconducting circuit with high coherence. This filter provides 30 dB of isolation at the qubit frequency with negligible attenuation at the frequencies required for stabilization and readout. We experimentally demonstrate quantum non-demolition readout fidelity of 99.6% for a cat with 8 photons. Also, to have high-fidelity universal control over this qubit, we combine fast Rabi oscillations with a new demonstration of the X(90) gate through phase modulation of the stabilization drive. Finally, the lifetime in this architecture is examined as a function of the cat size of up to 10 photons in the oscillator achieving a bit-flip time higher than 1 ms and only a linear decrease in the phase-flip time, in good agreement with the theoretical analysis of the circuit. Our qubit shows promise as a building block for fault-tolerant quantum processors with a small footprint.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# 協力・崩壊: LLM エージェント学会における持続可能性行動の創出

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents ( http://arxiv.org/abs/2404.16698v1 )

ライセンス: Link先を確認
Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Schölkopf, Mrinmaya Sachan, Rada Mihalcea, (参考訳) 人工知能の急速に発展する分野では、Large Language Models(LLM)の安全な意思決定が重要な課題である。 本稿では,LLMにおける戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。 このシミュレーション環境を通じて,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。 GovSimは汎用的で、LLMエージェントを含むテキストベースのエージェントをサポートする。 Generative Agentフレームワークを使用して、異なるLLMの統合を容易にする標準エージェントを作成します。 GovSimでは15のLSMのうち2つしか持続的な結果が得られず、モデルが共有リソースを管理する能力に重大なギャップがあることが判明した。 さらに,エージェントのコミュニケーション能力を取り除き,共有リソースを過剰に利用し,協調のためのコミュニケーションの重要性を強調した。 興味深いことに、ほとんどのLLMは普遍的な仮説を立てる能力に欠けており、彼らの推論スキルの重大な弱点を浮き彫りにしている。 シミュレーション環境やエージェントプロンプト,包括的なWebインターフェースなど,研究成果の全スイートをオープンソースとして公開しています。

In the rapidly evolving field of artificial intelligence, ensuring safe decision-making of Large Language Models (LLMs) is a significant challenge. This paper introduces Governance of the Commons Simulation (GovSim), a simulation platform designed to study strategic interactions and cooperative decision-making in LLMs. Through this simulation environment, we explore the dynamics of resource sharing among AI agents, highlighting the importance of ethical considerations, strategic planning, and negotiation skills. GovSim is versatile and supports any text-based agent, including LLMs agents. Using the Generative Agent framework, we create a standard agent that facilitates the integration of different LLMs. Our findings reveal that within GovSim, only two out of 15 tested LLMs managed to achieve a sustainable outcome, indicating a significant gap in the ability of models to manage shared resources. Furthermore, we find that by removing the ability of agents to communicate, they overuse the shared resource, highlighting the importance of communication for cooperation. Interestingly, most LLMs lack the ability to make universalized hypotheses, which highlights a significant weakness in their reasoning skills. We open source the full suite of our research results, including the simulation environment, agent prompts, and a comprehensive web interface.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# ディファレンシャルプライバシのストリーミングのための高効率・準最適ノイズ生成

Efficient and Near-Optimal Noise Generation for Streaming Differential Privacy ( http://arxiv.org/abs/2404.16706v1 )

ライセンス: Link先を確認
Krishnamurthy, Dvijotham, H. Brendan McMahan, Krishna Pillutla, Thomas Steinke, Abhradeep Thakurta, (参考訳) 差分的プライベート(DP)連続カウントのタスクでは、インクリメントのストリームを受け取り、特定のインクリメントについて多くを明らかにすることなく、これらのインクリメントの総実行量を近似的に出力することを目的としています。 その単純さにもかかわらず、差分的に個人的連続的数え上げは理論と実際の両方において大きな注目を集めている。 微分プライベートな連続的数え上げのための既存のアルゴリズムは、その空間的使用法において非効率であるか、あるいは過度のノイズを付加し、準最適効用を誘導する。 最も実用的なDP連続計数アルゴリズムは、ガウス雑音を注意深く値に付加する。 このノイズの共分散を選択するタスクは、(プレフィックス和を計算する)下の三角形行列を分解する言葉で表すことができる。 本稿では,DP の連続数え上げに近似的有用性を実現し,対数的あるいは多対数的空間(および時間)のみを必要とする,このクラスからの2つのアプローチを提案する。 最初のアプローチは、Toeplitz行列のクラスに対する空間効率のよいストリーミング行列乗算アルゴリズムに基づいている。 DP連続数え上げのためにこのアルゴリズムをインスタンス化するには、複素平面上の円上の平方根を近似する低次有理関数を見つけるのに十分であることを示す。 次に、ツールを近似理論から拡張してこれを実現する。 また、任意に多くのステップに対して目的関数の効率的な閉形式を導出し、直接数値最適化がこの問題に対して非常に実用的な解をもたらすことを示す。 第2のアプローチは、最初のアプローチとバイナリツリー機構に似た再帰的な構造を組み合わせるものです。

In the task of differentially private (DP) continual counting, we receive a stream of increments and our goal is to output an approximate running total of these increments, without revealing too much about any specific increment. Despite its simplicity, differentially private continual counting has attracted significant attention both in theory and in practice. Existing algorithms for differentially private continual counting are either inefficient in terms of their space usage or add an excessive amount of noise, inducing suboptimal utility. The most practical DP continual counting algorithms add carefully correlated Gaussian noise to the values. The task of choosing the covariance for this noise can be expressed in terms of factoring the lower-triangular matrix of ones (which computes prefix sums). We present two approaches from this class (for different parameter regimes) that achieve near-optimal utility for DP continual counting and only require logarithmic or polylogarithmic space (and time). Our first approach is based on a space-efficient streaming matrix multiplication algorithm for a class of Toeplitz matrices. We show that to instantiate this algorithm for DP continual counting, it is sufficient to find a low-degree rational function that approximates the square root on a circle in the complex plane. We then apply and extend tools from approximation theory to achieve this. We also derive efficient closed-forms for the objective function for arbitrarily many steps, and show direct numerical optimization yields a highly practical solution to the problem. Our second approach combines our first approach with a recursive construction similar to the binary tree mechanism.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# Layer Skip: 早期の排他推論と自己投機的デコーディングを実現する

Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding ( http://arxiv.org/abs/2404.16710v1 )

ライセンス: Link先を確認
Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti, Liangzhen Lai, Anas Mahmoud, Bilge Acun, Saurabh Agarwal, Ahmed Roman, Ahmed A Aly, Beidi Chen, Carole-Jean Wu, (参考訳) 本稿では,大規模言語モデル(LLM)の高速化のためのエンドツーエンドソリューションであるLayerSkipを紹介する。 まず、トレーニング中に、以前のレイヤのドロップアウト率を低くし、後のレイヤのドロップアウト率を高くし、すべてのトランスフォーマーレイヤが同じ出口を共有する早期のエグアウトロスを適用します。 次に, モデルに補助層やモジュールを追加することなく, 早期退避の精度が向上することを示す。 第三に、我々は初期の層から出て、モデルの残りの層で検証と修正を行う、新しい自己投機的復号化ソリューションを提案する。 提案する自己投機的復号化手法は,他の投機的復号化手法よりもメモリフットプリントが小さく,ドラフトと検証段階の共有計算とアクティベーションの利点がある。 私たちは、スクラッチからの事前トレーニング、連続的な事前トレーニング、特定のデータ領域の微調整、特定のタスクの微調整など、さまざまなタイプのトレーニングで異なるLlamaモデルサイズで実験を実行します。 我々は,提案手法を実装し,CNN/DM文書の要約における最大2.16倍,符号化における1.82倍,TOPv2セマンティック解析タスクにおける2.0倍の高速化を示す。

We present LayerSkip, an end-to-end solution to speed-up inference of large language models (LLMs). First, during training we apply layer dropout, with low dropout rates for earlier layers and higher dropout rates for later layers, and an early exit loss where all transformer layers share the same exit. Second, during inference, we show that this training recipe increases the accuracy of early exit at earlier layers, without adding any auxiliary layers or modules to the model. Third, we present a novel self-speculative decoding solution where we exit at early layers and verify and correct with remaining layers of the model. Our proposed self-speculative decoding approach has less memory footprint than other speculative decoding approaches and benefits from shared compute and activations of the draft and verification stages. We run experiments on different Llama model sizes on different types of training: pretraining from scratch, continual pretraining, finetuning on specific data domain, and finetuning on specific task. We implement our inference solution and show speedups of up to 2.16x on summarization for CNN/DM documents, 1.82x on coding, and 2.0x on TOPv2 semantic parsing task.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# 多様性を受け入れる:クラス毎に1つのベクトルを超えた解釈可能なゼロショット分類

Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class ( http://arxiv.org/abs/2404.16717v1 )

ライセンス: Link先を確認
Mazda Moayeri, Michael Rabbat, Mark Ibrahim, Diane Bouchacourt, (参考訳) ビジョン言語モデルは、再トレーニングを必要とせずに、オープンワールドのオブジェクト分類を可能にする。 このゼロショットのパラダイムは大きな進歩であるが、現在の最高のモデルでさえ、オブジェクトが典型的な描写と異なるときに歪んだパフォーマンスを示す。 pearsのような現実世界のオブジェクトは、テーブル上やボウル上など、さまざまな形式で表示されますが、標準的なVLM分類器は、クラスのすべてのインスタンスをクラスラベルに基づいて \it{single ベクトルにマップします。 クラス内でこの豊富な多様性を表現するために、ゼロショット分類は1つのベクトルを超えるべきであると論じる。 そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。 提案手法は,階層,多様なオブジェクト状態,現実世界の地理的多様性を含む大規模なデータセット群と,クラス内多様性があまり普及しないような細粒度データセットに対して,標準ゼロショット分類を一貫して上回っている。 重要なことは、本手法は本質的に解釈可能であり、モデルデバッグを容易にし透明性を高めるために、各推論に忠実な説明を提供する。 また、多様性を考慮に入れた多数の属性に効率的にスケールすることで、非定型インスタンスのより正確な予測を可能にします。 最後に、本手法のハイパーパラメータによって調整可能な、全体と最悪のクラスの精度のトレードオフを特徴付ける。 この研究は、世界中の多様性を捉え、パフォーマンスを損なうことなく透明なAIシステムを構築するために、単一のクラスベクトルを超えたゼロショット分類の約束について、さらなる研究を促すことを願っている。

Vision-language models enable open-world classification of objects without the need for any retraining. While this zero-shot paradigm marks a significant advance, even today's best models exhibit skewed performance when objects are dissimilar from their typical depiction. Real world objects such as pears appear in a variety of forms -- from diced to whole, on a table or in a bowl -- yet standard VLM classifiers map all instances of a class to a \it{single vector based on the class label}. We argue that to represent this rich diversity within a class, zero-shot classification should move beyond a single vector. We propose a method to encode and account for diversity within a class using inferred attributes, still in the zero-shot setting without retraining. We find our method consistently outperforms standard zero-shot classification over a large suite of datasets encompassing hierarchies, diverse object states, and real-world geographic diversity, as well finer-grained datasets where intra-class diversity may be less prevalent. Importantly, our method is inherently interpretable, offering faithful explanations for each inference to facilitate model debugging and enhance transparency. We also find our method scales efficiently to a large number of attributes to account for diversity -- leading to more accurate predictions for atypical instances. Finally, we characterize a principled trade-off between overall and worst class accuracy, which can be tuned via a hyperparameter of our method. We hope this work spurs further research into the promise of zero-shot classification beyond a single class vector for capturing diversity in the world, and building transparent AI systems without compromising performance.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# デュアルビューマンモグラフィマス検出のための特徴融合

Features Fusion for Dual-View Mammography Mass Detection ( http://arxiv.org/abs/2404.16718v1 )

ライセンス: Link先を確認
Arina Varlamova, Valery Belotsky, Grigory Novikov, Anton Konushin, Evgeny Sidorov, (参考訳) 乳腺画像上悪性病変の検出は早期乳癌の診断において極めて重要である。 臨床では、画像は2つの異なる角度から取得され、放射線技師は両方の視点から情報を十分に活用し、同時に同じ病変を特定できる。 しかし、自動検出手法では、そのような情報融合は依然として課題である。 本稿では,MAMM-Netと呼ばれる新しいモデルを提案し,既存の作品に見られるように,オブジェクトレベルだけでなく特徴レベルにも情報を共有することで,両マンモグラフィビューの同時処理を可能にする。 MAMM-NetのキーコンポーネントはFusion Layerであり、変形可能な注意に基づいて、高いリコールを維持しながら検出精度を高めるように設計されている。 本実験は, 従来の最先端モデルと比較して, パブリックDDSMデータセットにおいて優れた性能を示すとともに, 画素レベルの病変診断や悪性腫瘍の分類など, 新たな有用な特徴を導入している。

Detection of malignant lesions on mammography images is extremely important for early breast cancer diagnosis. In clinical practice, images are acquired from two different angles, and radiologists can fully utilize information from both views, simultaneously locating the same lesion. However, for automatic detection approaches such information fusion remains a challenge. In this paper, we propose a new model called MAMM-Net, which allows the processing of both mammography views simultaneously by sharing information not only on an object level, as seen in existing works, but also on a feature level. MAMM-Net's key component is the Fusion Layer, based on deformable attention and designed to increase detection precision while keeping high recall. Our experiments show superior performance on the public DDSM dataset compared to the previous state-of-the-art model, while introducing new helpful features such as lesion annotation on pixel-level and classification of lesions malignancy.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# 周辺地域の販売マン問題に対処する旅館の民生情報

Distilling Privileged Information for Dubins Traveling Salesman Problems with Neighborhoods ( http://arxiv.org/abs/2404.16721v1 )

ライセンス: Link先を確認
Min Kyu Shin, Su-Jeong Park, Seung-Keol Ryu, Heeyeon Kim, Han-Lim Choi, (参考訳) 本稿では,近隣地域(DTSPN)とDubins Traveling Salesman Problems(DTSP)を併用して,与えられたタスクポイントの近傍を通る非ホロノミック車両のツアーを迅速に作成するための新しい学習手法を提案する。 モデルのない強化学習アプローチは、LinKernighan Heuristic (LKH)アルゴリズムによって生成された専門的軌跡から知識を抽出するために特権情報を活用する。 その後、教師付き学習フェーズは、特権情報とは無関係に問題を解決するために適応ネットワークを訓練する。 第1学習期には,実演データを用いたパラメータ初期化手法も考案され,訓練効率が向上した。 提案手法はLKHの約50倍の速さで解を生成し,他の模擬学習やRLを実演方式で大幅に上回っている。

This paper presents a novel learning approach for Dubins Traveling Salesman Problems(DTSP) with Neighborhood (DTSPN) to quickly produce a tour of a non-holonomic vehicle passing through neighborhoods of given task points. The method involves two learning phases: initially, a model-free reinforcement learning approach leverages privileged information to distill knowledge from expert trajectories generated by the LinKernighan heuristic (LKH) algorithm. Subsequently, a supervised learning phase trains an adaptation network to solve problems independently of privileged information. Before the first learning phase, a parameter initialization technique using the demonstration data was also devised to enhance training efficiency. The proposed learning method produces a solution about 50 times faster than LKH and substantially outperforms other imitation learning and RL with demonstration schemes, most of which fail to sense all the task points.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# トヴァーバーグの定理と多クラスサポートベクトルマシン

Tverberg's theorem and multi-class support vector machines ( http://arxiv.org/abs/2404.16724v1 )

ライセンス: Link先を確認
Pablo Soberón, (参考訳) 本稿では,Tverbergの定理を組合せ幾何学で証明するために開発された線形代数ツールを用いて,マルチクラスサポートベクトルマシン(SVM)の新しいモデルを設計する方法を示す。 これらの教師付き学習プロトコルは点の集合を分類する条件を少なくし、ソフトマージンSVMアルゴリズムを含む高次元空間における既存のバイナリSVMアルゴリズムを用いて計算することができる。 本稿では,標準サポートベクトルマシンの理論的保証が,これらの新しいクラスであるマルチクラスサポートベクトルマシンにどのように転送されるかを説明する。 本稿では,Veelaert による最大のマージン SVM に対するサポートベクトルの幾何学的特徴付けの新しい簡単な証明を与える。

We show how, using linear-algebraic tools developed to prove Tverberg's theorem in combinatorial geometry, we can design new models of multi-class support vector machines (SVMs). These supervised learning protocols require fewer conditions to classify sets of points, and can be computed using existing binary SVM algorithms in higher-dimensional spaces, including soft-margin SVM algorithms. We describe how the theoretical guarantees of standard support vector machines transfer to these new classes of multi-class support vector machines. We give a new simple proof of a geometric characterization of support vectors for largest margin SVMs by Veelaert.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# 歴史が繰り返す: 時間的知識グラフ予測のためのベースライン

History repeats itself: A Baseline for Temporal Knowledge Graph Forecasting ( http://arxiv.org/abs/2404.16726v1 )

ライセンス: Link先を確認
Julia Gastinger, Christian Meilicke, Federico Errica, Timo Sztyler, Anett Schuelke, Heiner Stuckenschmidt, (参考訳) 時間的知識グラフ (TKG) 予測は、知識グラフの歴史に基づいた将来の時間ステップのための知識グラフのリンクを予測することを目的としている。 現在までに、標準化された評価プロトコルとTKGモデル間の厳密な比較が可能であるが、評価において単純なベースラインの重要性は無視されることが多く、研究者が実際の進歩と架空の進歩を区別することができない。 本稿では,TKG予測のための直感的なベースラインを,繰り返し発生する事実の予測に基づいて設計することで,このギャップを埋めることを提案する。 ほとんどのTKGモデルと比較して、ハイパーパラメータチューニングがほとんど必要ではなく、反復的なトレーニングも必要ありません。 さらに、既存のアプローチで障害モードを特定するのにも役立ちます。 5つのデータセットの11の手法と比較すると、ベースラインのランクは3つのうち1つか3つで、最先端の予測品質が根本的に異なる。

Temporal Knowledge Graph (TKG) Forecasting aims at predicting links in Knowledge Graphs for future timesteps based on a history of Knowledge Graphs. To this day, standardized evaluation protocols and rigorous comparison across TKG models are available, but the importance of simple baselines is often neglected in the evaluation, which prevents researchers from discerning actual and fictitious progress. We propose to close this gap by designing an intuitive baseline for TKG Forecasting based on predicting recurring facts. Compared to most TKG models, it requires little hyperparameter tuning and no iterative training. Further, it can help to identify failure modes in existing approaches. The empirical findings are quite unexpected: compared to 11 methods on five datasets, our baseline ranks first or third in three of them, painting a radically different picture of the predictive quality of the state of the art.
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# トラッピングイオン量子コンピュータを用いた逆ゲートと格子手術を用いた論理量子ビットの高忠実・耐故障性テレポーテーション

High-fidelity and Fault-tolerant Teleportation of a Logical Qubit using Transversal Gates and Lattice Surgery on a Trapped-ion Quantum Computer ( http://arxiv.org/abs/2404.16728v1 )

ライセンス: Link先を確認
C. Ryan-Anderson, N. C. Brown, C. H. Baldwin, J. M. Dreiling, C. Foltz, J. P. Gaebler, T. M. Gatterman, N. Hewitt, C. Holliman, C. V. Horst, J. Johansen, D. Lucchetti, T. Mengle, M. Matheny, Y. Matsuoka, K. Mayer, M. Mills, S. A. Moses, B. Neyenhuis, J. Pino, P. Siegfried, R. P. Stutz, J. Walker, D. Hayes, (参考訳) 量子状態テレポーテーションは、大規模フォールトトレラント量子コンピュータの設計において一般的に用いられる。 QuantinuumのH2トラップイオン量子プロセッサを用いて、量子エラー訂正符号(特に平面トポロジカル[[7,1,3]]カラーコード、またはステアーンコード)に対するフォールトトレラント状態テレポーテーション回路の最初のデモを実行する。 回路は、物理層の量子ビットに最大30個の閉じ込められたイオンを使用し、リアルタイムの量子エラー補正(シンドロームの中間回路計測を復号し、プロトコル中に修正を実装する)を採用している。 トランスバーサルゲートと格子手術プロトコルの両方を用いて,様々な論理的テレポーテーション回路の実験を行った。 本報告では, 伝送路の論理的プロセス忠実度を0.975(2)とし, 格子状手術路テレポーテーション回路の論理的プロセス忠実度を0.851(9。 さらに、Knill方式の量子誤り補正と等価なテレポーテーション回路を実行し、プロセスの忠実度を0.989(2)とする。

Quantum state teleportation is commonly used in designs for large-scale fault-tolerant quantum computers. Using Quantinuum's H2 trapped-ion quantum processor, we implement the first demonstration of a fault-tolerant state teleportation circuit for a quantum error correction code - in particular, the planar topological [[7,1,3]] color code, or Steane code. The circuits use up to 30 trapped ions at the physical layer qubits and employ real-time quantum error correction - decoding mid-circuit measurement of syndromes and implementing corrections during the protocol. We conduct experiments on several variations of logical teleportation circuits using both transversal gates and lattice surgery protocols. Among the many measurements we report on, we measure the logical process fidelity of the transversal teleportation circuit to be 0.975(2) and the logical process fidelity of the lattice surgery teleportation circuit to be 0.851(9). Additionally, we run a teleportation circuit that is equivalent to Knill-style quantum error correction and measure the process fidelity to be 0.989(2).
翻訳日:2024-04-26 13:10:51 公開日:2024-04-25
# DoD買収のためのオープンソースソフトウェア(OSS)の透明性

Open Source Software (OSS) Transparency for DoD Acquisition ( http://arxiv.org/abs/2404.16737v1 )

ライセンス: Link先を確認
Nancy Mead, Carol Woody, Scott Hissam, (参考訳) Caveat emptor(英語版)、または買い手のbeware(英語版)は、一般的にオープンソースソフトウェア(OSS)に帰属する。 OSSは、消費者がすべてのソースコードを閲覧してコピーを取ることができるオープンマーケットのバザーと比較されている。 本稿では,OSS消費者が製品の製造に使用するプロセス,プロジェクト,およびそれらのプロジェクトによる保護に関する情報を得る上での課題について考察する。 OSSプロジェクトによる透明性向上の必要性について論じるとともに、OSSプロジェクトとその製品について、OSSコンシューマが使用するための推論のためのフレームワークを導入する。

Caveat emptor, or let the buyer beware, is commonly attributed to open source software (OSS)-the onus is on the OSS consumer to ensure that it is fit for use in the consumer's context. OSS has been compared to an open market bazaar where consumers are free to browse all the source code and take a copy. In this paper, we observe challenges for the OSS consumer to obtain information about the process(es), project(s) used to produce a product and the protection(s) employed by those projects. We discuss the need for more transparency by OSS projects, where possible and introduce a framework for reasoning about those OSS projects and their products for use by the OSS consumer.
翻訳日:2024-04-26 13:10:50 公開日:2024-04-25
# CBRW: CBRWによるバイオメトリックテンプレート生成のための新しいアプローチ

CBRW: A Novel Approach for Cancelable Biometric Template Generation based on ( http://arxiv.org/abs/2404.16739v1 )

ライセンス: Link先を確認
Nitin Kumar, Manisha, (参考訳) Cancelable Biometricは、元のバイオメトリック画像のセキュリティが、元のバイオメトリックを別の不可逆領域に変換することによって保証される、挑戦的な研究分野である。 キャンセル可能なバイオメトリックテンプレートを生成するために、文献でいくつかのアプローチが提案されている。 本稿では,ランダムウォーク(CBRW)に基づく2つの新規かつ簡易なバイオメトリックテンプレート生成手法を提案する。 提案した2つのアルゴリズムvizにランダムウォークやその他のステップを適用する。 CBRW-BitXORとCBRW-BitCMPでは、元の生体認証は可搬性テンプレートに変換される。 提案手法の性能は他の最先端手法と比較した。 実験は、一般に利用可能な8つのグレーとカラーのデータセット、すなわちCP (ear) (gray and color)、UTIRIS (iris) (gray and color)、ORL (face) (gray)、IIT Delhi (iris) (gray and color)、AR (face) (color)で実施された。 相関係数(Cr)、ルート平均角誤差(RMSE)、ピーク信号とノイズ比(PSNR)、構造的類似度(SSIM)、平均絶対誤差(MAE)、画素数変化率(NPCR)、統一平均変化強度(UACI)で評価した。 実験結果から,提案手法は定性だけでなく定量的解析においても他の最先端手法よりも優れていることが証明された。 さらに、CBRWはグレーとカラー画像の両方で優れた性能を発揮する。

Cancelable Biometric is a challenging research field in which security of an original biometric image is ensured by transforming the original biometric into another irreversible domain. Several approaches have been suggested in literature for generating cancelable biometric templates. In this paper, two novel and simple cancelable biometric template generation methods based on Random Walk (CBRW) have been proposed. By employing random walk and other steps given in the proposed two algorithms viz. CBRW-BitXOR and CBRW-BitCMP, the original biometric is transformed into a cancellable template. The performance of the proposed methods is compared with other state-of-the-art methods. Experiments have been performed on eight publicly available gray and color datasets i.e. CP (ear) (gray and color), UTIRIS (iris) (gray and color), ORL (face) (gray), IIT Delhi (iris) (gray and color), and AR (face) (color). Performance of the generated templates is measured in terms of Correlation Coefficient (Cr), Root Mean Square Error (RMSE), Peak Signal to Noise Ratio (PSNR), Structural Similarity (SSIM), Mean Absolute Error (MAE), Number of Pixel Change Rate (NPCR), and Unified Average Changing Intensity (UACI). By experimental results, it has been proved that proposed methods are superior than other state-of-the-art methods in qualitative as well as quantitative analysis. Furthermore, CBRW performs better on both gray as well as color images.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# TELA:レイヤーワイドな3Dクローン・ヒューマン・ジェネレーション

TELA: Text to Layer-wise 3D Clothed Human Generation ( http://arxiv.org/abs/2404.16748v1 )

ライセンス: Link先を確認
Junting Dong, Qi Fang, Zehuan Huang, Xudong Xu, Jingbo Wang, Sida Peng, Bo Dai, (参考訳) 本稿では,テクスチャ記述による3次元衣料人文生成の課題について論じる。 以前の作品は通常、人体と衣服を総体モデルとしてエンコードし、一段最適化でモデル全体を生成するため、服の編集に苦労する一方で、生成プロセス全体のきめ細かい制御を失う。 そこで本研究では, プログレッシブ最適化戦略と組み合わさって, 生成プロセスの制御能力を提供しながら, 着脱可能な3次元人体モデルを生成するレイヤワイドな人体表現を提案する。 基本的なアイデアは、最小限の衣服とレイヤーワイドな衣服を徐々に作り出すことだ。 衣服生成において, 新規な階層化合成レンダリング法が提案され, 衣服モデルを人体から切り離すのに役立つ新たな損失関数が導入された。 提案手法は高品質なアンタングル化を実現し、3次元衣料生成に有効な方法を提供する。 広汎な実験により,本手法は仮想試着などの布地編集アプリケーションをサポートしながら,最先端の3次元布地生成を実現することが実証された。 プロジェクトページ: http://jtdong.com/tela_layer/

This paper addresses the task of 3D clothed human generation from textural descriptions. Previous works usually encode the human body and clothes as a holistic model and generate the whole model in a single-stage optimization, which makes them struggle for clothing editing and meanwhile lose fine-grained control over the whole generation process. To solve this, we propose a layer-wise clothed human representation combined with a progressive optimization strategy, which produces clothing-disentangled 3D human models while providing control capacity for the generation process. The basic idea is progressively generating a minimal-clothed human body and layer-wise clothes. During clothing generation, a novel stratified compositional rendering method is proposed to fuse multi-layer human models, and a new loss function is utilized to help decouple the clothing model from the human body. The proposed method achieves high-quality disentanglement, which thereby provides an effective way for 3D garment generation. Extensive experiments demonstrate that our approach achieves state-of-the-art 3D clothed human generation while also supporting cloth editing applications such as virtual try-on. Project page: http://jtdong.com/tela_layer/
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# 置換による効率的なユニタリ設計と擬似ランダムユニタリ

Efficient unitary designs and pseudorandom unitaries from permutations ( http://arxiv.org/abs/2404.16751v1 )

ライセンス: Link先を確認
Chi-Fang Chen, Adam Bouland, Fernando G. S. L. Brandão, Jordan Docter, Patrick Hayden, Michelle Xu, (参考訳) 本研究では、$\tilde{O}(k\cdot poly(n))$量子ゲートを用いたユニタリな$k$-設計の効率的な構成と、並列セキュア擬似ランダムユニタリ(PRU)の効率的な構成を与える。 どちらの結果も、$S(N)$から$U(N)$から$N=2^n$のランダムなユニタリにランダムな置換を持ち上げる効率的な量子アルゴリズムを提供することによって得られる。 特に、ランダム位相の指数和$S(N)$置換の積は、ハール測度の最初の270Omega(n)}$モーメントとほぼ一致することを示す。 ランダムな置換の代わりに$\tilde{O}(k)$-wise independent permutations または Quantum-secure pseudorandom permutations (PRPs) を置換することにより、上記の結果が得られる。 証明の中心は、ランダム行列理論における大次元(大域=N$)展開と多項式法の間の概念的接続であり、より単純な大域=N$極限から補間することにより、有限$N$でのクエリ下界の証明を可能にする。 重要な技術的ステップは、低次大N$展開を持つ分割代数の既約表現の正規直交基底を示すことである。 これにより、判別確率は次元$N$の低次有理多項式であることを示すことができる。

In this work we give an efficient construction of unitary $k$-designs using $\tilde{O}(k\cdot poly(n))$ quantum gates, as well as an efficient construction of a parallel-secure pseudorandom unitary (PRU). Both results are obtained by giving an efficient quantum algorithm that lifts random permutations over $S(N)$ to random unitaries over $U(N)$ for $N=2^n$. In particular, we show that products of exponentiated sums of $S(N)$ permutations with random phases approximately match the first $2^{\Omega(n)}$ moments of the Haar measure. By substituting either $\tilde{O}(k)$-wise independent permutations, or quantum-secure pseudorandom permutations (PRPs) in place of the random permutations, we obtain the above results. The heart of our proof is a conceptual connection between the large dimension (large-$N$) expansion in random matrix theory and the polynomial method, which allows us to prove query lower bounds at finite-$N$ by interpolating from the much simpler large-$N$ limit. The key technical step is to exhibit an orthonormal basis for irreducible representations of the partition algebra that has a low-degree large-$N$ expansion. This allows us to show that the distinguishing probability is a low-degree rational polynomial of the dimension $N$.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# TokenHMR:Tokenized Pose Representationによる人間のメッシュ回復の促進

TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation ( http://arxiv.org/abs/2404.16752v1 )

ライセンス: Link先を確認
Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Yao Feng, Michael J. Black, (参考訳) 我々は,1枚の画像から3次元の人間のポーズと形状を復元する問題を3次元精度に焦点をあてて解決する。 現在のベストメソッドは、3D擬似地下構造(p-GT)と2Dキーポイントの大規模なデータセットを活用することで、堅牢なパフォーマンスを実現している。 このような手法により、3次元ポーズ精度のパラドックス的低下が観察され、2次元精度が増大する。 これは、p-GTのバイアスと近似カメラ投影モデルの使用によって引き起こされる。 現行のカメラモデルによる誤差を定量化し、2Dキーポイントとp-GTの装着が正確な3Dポーズを引き起こすことを示す。 本分析では,2Dおよびp-GT損失の最小化が有害な距離を規定する。 我々はこの手法を用いて、Treshold-Adaptive Loss Scaling (TALS) という新たな損失を定式化した。 このような損失により、同様に2Dの証拠を説明することができる多くの3Dポーズが存在する。 このあいまいさを減らすには、有効な人間のポーズよりも先行性が必要であるが、そのような先行性は望ましくないバイアスをもたらす可能性がある。 これを解決するために、人間のポーズのトークン化表現を利用し、トークン予測として問題を再構築する。 これは、推定されたポーズを妥当なポーズの空間に制限し、効果的に均一な事前を与える。 EMDBと3DPWデータセットの大規模な実験により、我々の改定されたキーポイントロスとトークン化により、最先端の3D精度を向上しつつ、ウィジェット内データのトレーニングが可能になります。 私たちのモデルとコードはhttps://tokenhmr.is.tue.mpg.de.comで研究できます。

We address the problem of regressing 3D human pose and shape from a single image, with a focus on 3D accuracy. The current best methods leverage large datasets of 3D pseudo-ground-truth (p-GT) and 2D keypoints, leading to robust performance. With such methods, we observe a paradoxical decline in 3D pose accuracy with increasing 2D accuracy. This is caused by biases in the p-GT and the use of an approximate camera projection model. We quantify the error induced by current camera models and show that fitting 2D keypoints and p-GT accurately causes incorrect 3D poses. Our analysis defines the invalid distances within which minimizing 2D and p-GT losses is detrimental. We use this to formulate a new loss Threshold-Adaptive Loss Scaling (TALS) that penalizes gross 2D and p-GT losses but not smaller ones. With such a loss, there are many 3D poses that could equally explain the 2D evidence. To reduce this ambiguity we need a prior over valid human poses but such priors can introduce unwanted bias. To address this, we exploit a tokenized representation of human pose and reformulate the problem as token prediction. This restricts the estimated poses to the space of valid poses, effectively providing a uniform prior. Extensive experiments on the EMDB and 3DPW datasets show that our reformulated keypoint loss and tokenization allows us to train on in-the-wild data while improving 3D accuracy over the state-of-the-art. Our models and code are available for research at https://tokenhmr.is.tue.mpg.de.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# RadGenome-Chest CT:胸部CT解析のための接地型視線画像データセット

RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis ( http://arxiv.org/abs/2404.16754v1 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Jiayu Lei, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) AI4メディシン(AI4Medicine)の分野の研究者の間では、ジェネラリスト基盤モデルの開発が注目されている。 これらのモデルの開発における重要な洞察は、データセットのスケーリングへの依存であり、さまざまな画像モダリティにまたがる多様な監視信号を含む、オープンソースの医療画像データセットの開発に必要な要件を強調している。 本稿では,CT-RATEに基づく大規模3次元胸部CT解析データセットであるRadGenome-Chest CTを紹介する。 具体的には、最新の強力なユニバーサルセグメンテーションと大規模言語モデルを活用し、元のデータセット(25,692件の非造影3D胸部CTボリュームと2万件の患者からの報告)を以下の側面から拡張する。 一 解釈のための中間的推論視覚的手がかりを提供する197のカテゴリーを包含するオルガンレベルのセグメンテーションマスク (二)分割マスクの形で、報告書の各文が対応するCTボリュームの解剖学的領域に関連づけられた報告を六六六五K件の多粒性接地報告 (iii)1.3Mの接地されたVQAペアでは、質問と回答がすべて参照セグメンテーションマスクにリンクされ、モデルが視覚的証拠とテキスト的説明を関連付けることができる。 検証セットのすべての基盤となるレポートとVQAペアは、データセットの品質を保証するために、手作業による検証を経ている。 我々はRadGenome-Chest CTが、既存のデータセットでは達成不可能な、与えられたセグメンテーション領域に基づいてテキストを生成する訓練により、マルチモーダル医療基盤モデルの開発を著しく前進させることができると信じている。 この分野のさらなる研究と開発を促進するため、すべてのセグメンテーションマスク、接地レポート、VQAペアをリリースする。

Developing generalist foundation model has recently attracted tremendous attention among researchers in the field of AI for Medicine (AI4Medicine). A pivotal insight in developing these models is their reliance on dataset scaling, which emphasizes the requirements on developing open-source medical image datasets that incorporate diverse supervision signals across various imaging modalities. In this paper, we introduce RadGenome-Chest CT, a comprehensive, large-scale, region-guided 3D chest CT interpretation dataset based on CT-RATE. Specifically, we leverage the latest powerful universal segmentation and large language models, to extend the original datasets (over 25,692 non-contrast 3D chest CT volume and reports from 20,000 patients) from the following aspects: (i) organ-level segmentation masks covering 197 categories, which provide intermediate reasoning visual clues for interpretation; (ii) 665 K multi-granularity grounded reports, where each sentence of the report is linked to the corresponding anatomical region of CT volume in the form of a segmentation mask; (iii) 1.3 M grounded VQA pairs, where questions and answers are all linked with reference segmentation masks, enabling models to associate visual evidence with textual explanations. All grounded reports and VQA pairs in the validation set have gone through manual verification to ensure dataset quality. We believe that RadGenome-Chest CT can significantly advance the development of multimodal medical foundation models, by training to generate texts based on given segmentation regions, which is unattainable with previous relevant datasets. We will release all segmentation masks, grounded reports, and VQA pairs to facilitate further research and development in this field.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# ドイツ語ニュース記事における引用属性のデータセット

Dataset of Quotation Attribution in German News Articles ( http://arxiv.org/abs/2404.16764v1 )

ライセンス: Link先を確認
Fynn Petersen-Frey, Chris Biemann, (参考訳) オンラインニュース記事などの膨大なデータの中で、人的コミュニケーションを解析する上で、誰が重要な役割を担っているのかを抽出する。 しかし、ドイツのニュース記事において、このタスクに注釈付きデータがないことは、システムの品質とユーザビリティを著しく制限している。 これを改善するために、WIKINEWSに基づくドイツのニュース記事において、引用帰属のための新しい、自由で、クリエイティブなライセンス付きデータセットを提示する。 データセットは、1000のドキュメント(25万のトークン)にわたるキュレートされた高品質なアノテーションを、データセットのさまざまなダウンストリーム使用を可能にする詳細なアノテーションスキーマで提供します。 アノテーションは、誰が何を言ったかだけでなく、どの文脈で誰が引用の種類を定義し、どのように定義するかも指定する。 アノテーションスキーマを定義し、データセットの作成を記述し、定量的分析を提供する。 さらに、適切な評価指標を記述し、引用属性に既存の2つのシステムを適用し、その結果を議論し、データセットの有用性を評価し、下流タスクにおけるデータセットの使用事例を概説する。

Extracting who says what to whom is a crucial part in analyzing human communication in today's abundance of data such as online news articles. Yet, the lack of annotated data for this task in German news articles severely limits the quality and usability of possible systems. To remedy this, we present a new, freely available, creative-commons-licensed dataset for quotation attribution in German news articles based on WIKINEWS. The dataset provides curated, high-quality annotations across 1000 documents (250,000 tokens) in a fine-grained annotation schema enabling various downstream uses for the dataset. The annotations not only specify who said what but also how, in which context, to whom and define the type of quotation. We specify our annotation schema, describe the creation of the dataset and provide a quantitative analysis. Further, we describe suitable evaluation metrics, apply two existing systems for quotation attribution, discuss their results to evaluate the utility of our dataset and outline use cases of our dataset in downstream tasks.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# ヤーンとしてのプレフィックステキスト:基礎言語モデルにおける非英語アライメントの回避

Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model ( http://arxiv.org/abs/2404.16766v1 )

ライセンス: Link先を確認
Runzhe Zhan, Xinyi Yang, Derek F. Wong, Lidia S. Chao, Yue Zhang, (参考訳) 教師付き微調整(SFT)は、基礎的大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチであるが、このアライメントの深さに関する懸念が提起されており、一部の批判は単に「超現実的」であることを示している。 我々は,この仮説を言語間生成タスクの範囲内で批判的に検証し,SFTの有効性は,言語間生成を導くための先行トークンに依存することによって制約される可能性があることを示唆した。 このような重要な知見と、SFTの非英語データの利用が高価で制限されていることによる課題を踏まえ、本研究では、最小限のタスク関連事前トークンを用いて基礎LPMとSFT LLMをブリッジし、トレーニングなしで同等のパフォーマンスを達成する、PreTTYという新しいトレーニングフリーアライメント手法を導入する。 8言語にまたがる機械翻訳と音声タギングの実験は、言語間設定におけるPreTTYの有効性を実証している。 注目すべきは、復号処理を1つまたは2つの先行トークンで開始することで、基礎LPMはSFTと同等のパフォーマンスを達成できるということだ。 本手法はSFTに代わる費用対効果を示し,多言語LLMの民主化を推し進める。

While supervised fine-tuning (SFT) has been a straightforward approach for tailoring the output of foundation large language model (LLM) to specific preferences, concerns have been raised about the depth of this alignment, with some critiques suggesting it is merely "superficial". We critically examine this hypothesis within the scope of cross-lingual generation tasks, proposing that the effectiveness of SFT may be constrained by its reliance on prior tokens to guide cross-lingual generation. Based on this crucial insight, and in response to the challenges posed by the costly and limited availability of non-English data for SFT, we introduce a novel training-free alignment method named PreTTY, which employs minimal task-related prior tokens to bridge the foundation LLM and the SFT LLM, achieving comparable performance without training. Experiments on machine translation and part-of-speech tagging across eight languages demonstrate the efficacy of PreTTY in cross-lingual settings. Remarkably, by initiating the decoding process with only one or two prior tokens, foundation LLMs can achieve performance comparable to their SFT counterparts. This method presents a cost-effective alternative to SFT and advances the democratization of multilingual LLMs.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# REBEL:Regressing Relative Rewardsによる強化学習

REBEL: Reinforcement Learning via Regressing Relative Rewards ( http://arxiv.org/abs/2404.16767v1 )

ライセンス: Link先を確認
Zhaolin Gao, Jonathan D. Chang, Wenhao Zhan, Owen Oertell, Gokul Swamy, Kianté Brantley, Thorsten Joachims, J. Andrew Bagnell, Jason D. Lee, Wen Sun, (参考訳) 元々は連続的な制御問題のために開発されたが、PPO(Proximal Policy Optimization)は、生成モデルの微調整を含む様々な強化学習(RL)応用のワークホースとして登場した。 残念ながら、PPOは安定収束(例えば値ネットワーク、クリップ)を可能にするために複数のヒューリスティックを必要としており、これらのコンポーネントの正確な実装に敏感であることで有名である。 これに対し、我々は後退して、生成モデルの時代における最小限のRLアルゴリズムがどのようなものになるのかを尋ねる。 本稿では,2つのコンプリートからプロンプトへの直接的ポリシーパラメータ化により,相対報酬を回帰するために,ポリシー最適化の問題をクリーンに低減するアルゴリズムREBELを提案する。 理論的には、自然ポリシーグラディエントのような基本的RLアルゴリズムはREBELの変種と見なせることが証明され、RLの文献における収束とサンプルの複雑さの観点から最も強力な理論的保証と一致させることができる。 REBELはまた、オフラインデータをきれいに組み込むことができ、実際によく見られる非推移的な好みを扱うことができます。 経験的に、REBELは言語モデリングと画像生成に統一的なアプローチを提供し、PPOやDPOと同等以上の性能を持ち、PPOよりも実装が簡単で、計算処理も容易である。

While originally developed for continuous control problems, Proximal Policy Optimization (PPO) has emerged as the work-horse of a variety of reinforcement learning (RL) applications including the fine-tuning of generative models. Unfortunately, PPO requires multiple heuristics to enable stable convergence (e.g. value networks, clipping) and is notorious for its sensitivity to the precise implementation of these components. In response, we take a step back and ask what a minimalist RL algorithm for the era of generative models would look like. We propose REBEL, an algorithm that cleanly reduces the problem of policy optimization to regressing the relative rewards via a direct policy parameterization between two completions to a prompt, enabling strikingly lightweight implementation. In theory, we prove that fundamental RL algorithms like Natural Policy Gradient can be seen as variants of REBEL, which allows us to match the strongest known theoretical guarantees in terms of convergence and sample complexity in the RL literature. REBEL can also cleanly incorporate offline data and handle the intransitive preferences we frequently see in practice. Empirically, we find that REBEL provides a unified approach to language modeling and image generation with stronger or similar performance as PPO and DPO, all while being simpler to implement and more computationally tractable than PPO.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# ConsistentID:マルチモーダルファイングラインドID保存による画像生成

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving ( http://arxiv.org/abs/2404.16771v1 )

ライセンス: Link先を確認
Jiehui Huang, Xiao Dong, Wenhui Song, Hanhui Li, Jun Zhou, Yuhao Cheng, Shutao Liao, Long Chen, Yiqiang Yan, Shengcai Liao, Xiaodan Liang, (参考訳) 拡散に基づく技術は、特にパーソナライズされ、カスタマイズされた顔生成において、大きな進歩を遂げている。 しかし、既存の手法では、顔領域のきめ細かい制御が不十分であり、複雑な顔の詳細と全体像を十分に考慮し、ID保存のための包括的な戦略が欠如していることから、高忠実かつ詳細なID整合性を達成する上で困難に直面している。 この制限に対処するために,1つの参照画像のみを利用して,微細なマルチモーダル顔のプロンプト下での多元性保存肖像画生成のための革新的な手法であるConsistentIDを導入する。 ConsistentIDは、顔の特徴と対応する顔の記述、顔の詳細の精度を高めるための全体的な顔コンテキストを組み合わせたマルチモーダルな顔プロンプトジェネレータと、顔領域におけるID一貫性の保存を目的とした顔注意位置決め戦略によって最適化されたID保存ネットワークの2つの重要なコンポーネントから構成される。 これらのコンポーネントは、顔領域から細粒度多モードID情報を導入することにより、ID保存の精度を著しく向上させる。 ConsistentIDのトレーニングを容易にするために,50,000以上の顔画像を持つ微細なポートレートデータセットFGIDを提案する。 例えば、LAION-Face、CelebA、FFHQ、SFHQだ。 実験結果から,我々のConsistentIDは,MyStyleデータセットの既存の手法を超越して,顔の個人化における異常な精度と多様性を達成できることが確認された。 さらに、ConsistentIDはよりマルチモーダルID情報を導入するが、生成時に高速な推論速度を維持する。

Diffusion-based technologies have made significant strides, particularly in personalized and customized facialgeneration. However, existing methods face challenges in achieving high-fidelity and detailed identity (ID)consistency, primarily due to insufficient fine-grained control over facial areas and the lack of a comprehensive strategy for ID preservation by fully considering intricate facial details and the overall face. To address these limitations, we introduce ConsistentID, an innovative method crafted for diverseidentity-preserving portrait generation under fine-grained multimodal facial prompts, utilizing only a single reference image. ConsistentID comprises two key components: a multimodal facial prompt generator that combines facial features, corresponding facial descriptions and the overall facial context to enhance precision in facial details, and an ID-preservation network optimized through the facial attention localization strategy, aimed at preserving ID consistency in facial regions. Together, these components significantly enhance the accuracy of ID preservation by introducing fine-grained multimodal ID information from facial regions. To facilitate training of ConsistentID, we present a fine-grained portrait dataset, FGID, with over 500,000 facial images, offering greater diversity and comprehensiveness than existing public facial datasets. % such as LAION-Face, CelebA, FFHQ, and SFHQ. Experimental results substantiate that our ConsistentID achieves exceptional precision and diversity in personalized facial generation, surpassing existing methods in the MyStyle dataset. Furthermore, while ConsistentID introduces more multimodal ID information, it maintains a fast inference speed during generation.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# ConKeD++ -- 網膜画像登録のための記述子学習の改善:対照的な損失に関する包括的な研究

ConKeD++ -- Improving descriptor learning for retinal image registration: A comprehensive study of contrastive losses ( http://arxiv.org/abs/2404.16773v1 )

ライセンス: Link先を確認
David Rivas-Villar, Álvaro S. Hervella, José Rouco, Jorge Novo, (参考訳) 自己指導型コントラスト学習は、最も成功したディープラーニングパラダイムの1つとして登場した。 この点において、画像登録や、最近では特定の医療画像登録の分野で広く利用されている。 本研究では,カラーファンドイメージ登録のための最先端フレームワークであるConKeDの試験,拡張,改良を提案する。 ConKeDフレームワークを使用して、複数の損失関数をテストし、フレームワークとアプリケーションドメインに適応します。 さらに,本モデルでは,先行ベンチマークデータセットFIREとカラーファンドの登録に使用したことのないいくつかのデータセットを用いて評価を行った。 我々の研究は、現在のSOTAカラーファンドの登録方法に対するいくつかの利点を示すすべてのデータセットとメトリクスの最先端性能を示す。

Self-supervised contrastive learning has emerged as one of the most successful deep learning paradigms. In this regard, it has seen extensive use in image registration and, more recently, in the particular field of medical image registration. In this work, we propose to test and extend and improve a state-of-the-art framework for color fundus image registration, ConKeD. Using the ConKeD framework we test multiple loss functions, adapting them to the framework and the application domain. Furthermore, we evaluate our models using the standarized benchmark dataset FIRE as well as several datasets that have never been used before for color fundus registration, for which we are releasing the pairing data as well as a standardized evaluation approach. Our work demonstrates state-of-the-art performance across all datasets and metrics demonstrating several advantages over current SOTA color fundus registration methods
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# 表現に基づくシームズテキストマッチングのための選択的特徴注意のモデル化

Modeling Selective Feature Attention for Representation-based Siamese Text Matching ( http://arxiv.org/abs/2404.16776v1 )

ライセンス: Link先を確認
Jianxiang Zang, Hui Liu, (参考訳) 表現ベースのシームズネットワークは、展開コストと推論コストが低いため、軽量テキストマッチングで人気を博している。 単語レベルのアテンション機構をシムズネットワーク内に実装し,性能向上を図る一方で,埋め込み機能間の依存性のモデリングを強化するために設計された,新たな下流ブロックであるFeature Attention (FA)を提案する。 FAブロックは、"squeeze-and-excitation"技術を用いることで、個々の特徴の強調を動的に調整し、最終分類に大きく貢献する特徴にネットワークが集中できるようにする。 FA 上に構築した Selective Feature Attention (SFA) と呼ばれる動的 "選択" 機構は,積み重ねた BiGRU のインセプション構造を利用する。 SFAブロックは、異なる積み重ねたBiGRU層をトラバースすることで、マルチスケールなセマンティック抽出を容易にする。 FAブロックとSFAブロックは、様々なSiameseネットワークとのシームレスな統合機能を提供し、プラグ・アンド・プレイの特徴を示している。 多様なテキストマッチングベースラインとベンチマークで実施した実験的評価は、モデリングの特徴的注意の欠如と「選択」機構の優越性を裏付けるものである。

Representation-based Siamese networks have risen to popularity in lightweight text matching due to their low deployment and inference costs. While word-level attention mechanisms have been implemented within Siamese networks to improve performance, we propose Feature Attention (FA), a novel downstream block designed to enrich the modeling of dependencies among embedding features. Employing "squeeze-and-excitation" techniques, the FA block dynamically adjusts the emphasis on individual features, enabling the network to concentrate more on features that significantly contribute to the final classification. Building upon FA, we introduce a dynamic "selection" mechanism called Selective Feature Attention (SFA), which leverages a stacked BiGRU Inception structure. The SFA block facilitates multi-scale semantic extraction by traversing different stacked BiGRU layers, encouraging the network to selectively concentrate on semantic information and embedding features across varying levels of abstraction. Both the FA and SFA blocks offer a seamless integration capability with various Siamese networks, showcasing a plug-and-play characteristic. Experimental evaluations conducted across diverse text matching baselines and benchmarks underscore the indispensability of modeling feature attention and the superiority of the "selection" mechanism.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# DrS: マルチステージタスクのための再利用可能なDense Rewardsの学習

DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks ( http://arxiv.org/abs/2404.16779v1 )

ライセンス: Link先を確認
Tongzhou Mu, Minghua Liu, Hao Su, (参考訳) 多くのRL技術の成功は、人間工学的な高密度報酬に大きく依存している。 本研究では,DrS(Dense reward Learning from Stages)を提案する。DrS(Dense reward Learning from Stages)は,多段階タスクに対する再利用可能な高密度報酬をデータ駆動方式で学習するための新しいアプローチである。 タスクのステージ構造を活用することで、DrSはスパース報酬やデモから高品質の高密度報酬を学ぶ。 学習した報酬は目に見えないタスクではtextit{reused} となり、それによって報酬工学に対する人間の労力が減る。 1000以上のタスク変異を持つ3つの物理ロボット操作タスクファミリーに対する大規模な実験により、学習した報酬を目に見えないタスクで再利用できることが示され、その結果、RLアルゴリズムの性能とサンプル効率が向上した。 学習した報酬は、あるタスクにおける人間工学的な報酬と同等のパフォーマンスを達成する。 詳細はプロジェクトのページ(https://sites.google.com/view/iclr24drs)を参照してください。

The success of many RL techniques heavily relies on human-engineered dense rewards, which typically demand substantial domain expertise and extensive trial and error. In our work, we propose DrS (Dense reward learning from Stages), a novel approach for learning reusable dense rewards for multi-stage tasks in a data-driven manner. By leveraging the stage structures of the task, DrS learns a high-quality dense reward from sparse rewards and demonstrations if given. The learned rewards can be \textit{reused} in unseen tasks, thus reducing the human effort for reward engineering. Extensive experiments on three physical robot manipulation task families with 1000+ task variants demonstrate that our learned rewards can be reused in unseen tasks, resulting in improved performance and sample efficiency of RL algorithms. The learned rewards even achieve comparable performance to human-engineered rewards on some tasks. See our project page (https://sites.google.com/view/iclr24drs) for more details.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# 回帰による登録(RbR) : 解釈可能かつ柔軟なアトラス登録のための枠組み

Registration by Regression (RbR): a framework for interpretable and flexible atlas registration ( http://arxiv.org/abs/2404.16781v1 )

ライセンス: Link先を確認
Karthik Gopinath, Xiaoling Hu, Malte Hoffmann, Oula Puonti, Juan Eugenio Iglesias, (参考訳) 人間の神経画像研究において、アトラス登録はMRIスキャンを共通の座標フレームにマッピングすることを可能にする。 機械学習の登録方法は、優れたスピードと精度を達成したが、解釈性に欠けていた。 最近では、キーポイントに基づく手法がこの問題に対処するために提案されているが、その精度はまだ低い。 本稿では、非常に堅牢で柔軟性があり、概念的にはシンプルで、安価に取得したデータでトレーニングできる新しいアトラス登録フレームワークであるRegistration by Regression (RbR)を提案する。 RbR は入力スキャンのすべてのボクセルに対する (x,y,z) アトラス座標を予測し(すなわち、すべてのボクセルがキーポイントである)、その後、アフィンや非線形(例えば、Bspline, Demons, invertible diffeomorphic modelなど)を含む様々な可能な変形モデルを用いて変換を素早く適合させる閉形式式を使用する。 ロバスト性は登録を通知する多数のボクセルによって提供され、RANSACのような堅牢な推定器によってさらに増大させることができる。 独立した公開データセットの実験では、RbRは競合するキーポイントアプローチよりも正確な登録を得る一方で、変形モデルの完全な制御を提供する。

In human neuroimaging studies, atlas registration enables mapping MRI scans to a common coordinate frame, which is necessary to aggregate data from multiple subjects. Machine learning registration methods have achieved excellent speed and accuracy but lack interpretability. More recently, keypoint-based methods have been proposed to tackle this issue, but their accuracy is still subpar, particularly when fitting nonlinear transforms. Here we propose Registration by Regression (RbR), a novel atlas registration framework that is highly robust and flexible, conceptually simple, and can be trained with cheaply obtained data. RbR predicts the (x,y,z) atlas coordinates for every voxel of the input scan (i.e., every voxel is a keypoint), and then uses closed-form expressions to quickly fit transforms using a wide array of possible deformation models, including affine and nonlinear (e.g., Bspline, Demons, invertible diffeomorphic models, etc.). Robustness is provided by the large number of voxels informing the registration and can be further increased by robust estimators like RANSAC. Experiments on independent public datasets show that RbR yields more accurate registration than competing keypoint approaches, while providing full control of the deformation model.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# 大規模言語モデルの継続的な学習:包括的調査

Continual Learning of Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2404.16789v1 )

ライセンス: Link先を確認
Haizhou Shi, Zihao Xu, Hengyi Wang, Weiyi Qin, Wenyuan Wang, Yibin Wang, Hao Wang, (参考訳) 最近の大規模言語モデル(LLM)の成功は、静的で、事前にコンパイルされた一般的なデータセットに基づいて訓練され、多くの研究の方向性と応用を引き起こした。 そのような方向の1つは、トレーニング済みのLLMを動的データ分散、タスク構造、ユーザの好みに組み込むという、簡単ではない課題に対処する。 特定のニーズに合わせて調整された事前訓練されたLLMは、しばしば「破滅的な忘れ物」として知られる、以前の知識領域で顕著なパフォーマンス劣化を経験する。 CL(Continuous Learning)コミュニティで広く研究されているが、LSMの領域では新たなマニフェストが提示されている。 本稿では,CL の文脈における LLM 研究の現状について概観する。 縦連続性(縦連続性学習)、一般から特定の能力への連続的適応(横連続性学習)、横連続性(横連続性学習)、時間と領域をまたいだ連続的適応(第3部)の2つの方向からなる連続的学習 LLM の概要を最初に記述する(第3部)。 次に,CPT(Continuous Pre-Training),DAP(Domain-Adaptive Pre-Training),CFT(Continuous Fine-Tuning)(Section 4)の3つの段階について述べる。 次に、LLMを用いた連続学習のための評価プロトコルの概要と、現在利用可能なデータソースについて概説する(第5部)。 最後に,LLMの継続学習に関する興味深い疑問について論じる(第6部)。 この調査で調査された論文の完全なリストはhttps://github.com/Wang-ML-Lab/llm-continual-learning-surveyで公開されている。

The recent success of large language models (LLMs) trained on static, pre-collected, general datasets has sparked numerous research directions and applications. One such direction addresses the non-trivial challenge of integrating pre-trained LLMs into dynamic data distributions, task structures, and user preferences. Pre-trained LLMs, when tailored for specific needs, often experience significant performance degradation in previous knowledge domains -- a phenomenon known as "catastrophic forgetting". While extensively studied in the continual learning (CL) community, it presents new manifestations in the realm of LLMs. In this survey, we provide a comprehensive overview of the current research progress on LLMs within the context of CL. This survey is structured into four main sections: we first describe an overview of continually learning LLMs, consisting of two directions of continuity: vertical continuity (or vertical continual learning), i.e., continual adaptation from general to specific capabilities, and horizontal continuity (or horizontal continual learning), i.e., continual adaptation across time and domains (Section 3). We then summarize three stages of learning LLMs in the context of modern CL: Continual Pre-Training (CPT), Domain-Adaptive Pre-training (DAP), and Continual Fine-Tuning (CFT) (Section 4). Then we provide an overview of evaluation protocols for continual learning with LLMs, along with the current available data sources (Section 5). Finally, we discuss intriguing questions pertaining to continual learning for LLMs (Section 6). The full list of papers examined in this survey is available at https://github.com/Wang-ML-Lab/llm-continual-learning-survey.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# SEED-Bench-2-Plus:テキストリッチビジュアル理解による多モーダル大言語モデルのベンチマーク

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension ( http://arxiv.org/abs/2404.16790v1 )

ライセンス: Link先を確認
Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan, (参考訳) マルチモーダル大言語モデル(MLLM)の実践的応用においては,テキストリッチなビジュアルコンテンツが最重要であり,テキストリッチなシナリオは実世界においてユビキタスであり,画像内に埋め込まれた広範なテキストの存在が特徴である。 近年,MLLM の出現は,MLLM に期待できる範囲を拡大している。 しかし、現在のMLLMベンチマークは主に一般的な視覚的理解を評価することに重点を置いているため、テキストリッチなシナリオにおけるそれらの習熟度はまだ包括的かつ客観的に評価されていない。 本稿では,MLLMの「textbf{text-rich visual comprehension}」を評価するためのベンチマークであるSEED-Bench-2-Plusを紹介する。 我々のベンチマークは2.3Kの多重選択質問と正確な人間のアノテーションを持ち、グラフ、マップ、ウェブの3つの幅広いカテゴリにまたがる。 これらのカテゴリは、その固有の複雑さと多様性のために、現実世界のテキストリッチ環境を効果的にシミュレートする。 さらに,GPT-4V,Gemini-Pro-Vision,Claude-3-Opusを含む34種のMLLM(GPT-4V,Gemini-Pro-Vision,Claude-3-Opus)を包括的に評価し,テキストリッチ視覚理解におけるMLLMの限界を強調した。 我々の研究が既存のMLLMベンチマークに価値ある追加として役立ち、洞察に富んだ観察を提供し、MLLMとのテキスト豊富な視覚的理解の領域におけるさらなる研究を促したいと考えています。 データセットと評価コードはhttps://github.com/AILab-CVC/SEED-Bench.comでアクセスすることができる。

Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating \textbf{text-rich visual comprehension} of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.
翻訳日:2024-04-26 13:01:06 公開日:2024-04-25
# 弱-ストロング外挿処理の迅速化

Weak-to-Strong Extrapolation Expedites Alignment ( http://arxiv.org/abs/2404.16792v1 )

ライセンス: Link先を確認
Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun Peng, (参考訳) 大規模言語モデル(LLM)の能力は、データと計算量の増加とともに理想的にはスケールアップするが、実際には限られたリソースによって必然的に制限される。 適度に訓練されたLLM(例えば、人間の好みに合わせて訓練されたLLM)が手元にあると仮定すれば、その可能性をさらに活用して、より強力なモデルを安価に取得できるだろうか? 本稿では,人間の嗜好に合わせたLCMのアライメントを高めるための,ExPOと呼ばれる簡単な手法を提案する。 ExPOは、中間整列モデルは、低整列(ウェイカー)モデル、eg、初期SFTモデル、より良い整列(ストロンガー)モデルの間で補間可能であると仮定し、したがって、以前の2つの比較的弱いモデルの重みから外挿することで、このより強いモデルを得る。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデル(例えば、10%または20%)に、追加のトレーニングを行なわずにリーチし、完全にトレーニングされたモデルを超えることを示しています。 さらに、ExPOは市販のDPO/RLHFモデルを大幅に改善し、7Bから70Bまでのモデルサイズにわたって優れたスケーラビリティを示す。 本研究は, LLMの能力を活用したモデル外挿の有効性を実証し, 今後の探査にふさわしい将来性を示すものであることを示唆する。

Although the capabilities of large language models (LLMs) ideally scale up with increasing data and compute, they are inevitably constrained by limited resources in reality. Suppose we have a moderately trained LLM (e.g., trained to align with human preference) in hand, can we further exploit its potential and cheaply acquire a stronger model? In this paper, we propose a simple method called ExPO to boost LLMs' alignment with human preference. ExPO assumes that a medium-aligned model can be interpolated between a less-aligned (weaker) model, e.g., the initial SFT model, and a better-aligned (stronger) one, thereby directly obtaining this stronger model by extrapolating from the weights of the former two relatively weaker models. On the AlpacaEval 2.0 benchmark, we show that ExPO pushes models trained with less preference data (e.g., 10% or 20%) to reach and even surpass the fully-trained one, without any additional training. Furthermore, ExPO also significantly improves off-the-shelf DPO/RLHF models and exhibits decent scalability across model sizes from 7B to 70B. Our work demonstrates the efficacy of model extrapolation in exploiting LLMs' capabilities, suggesting a promising direction that deserves future exploration.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# ハイパーパラメータ最適化のためのIn-Context Freeze-Thaw Bayesian Optimization

In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization ( http://arxiv.org/abs/2404.16795v1 )

ライセンス: Link先を確認
Herilalaina Rakotoarison, Steven Adriaensen, Neeratyoy Mallik, Samir Garibov, Edward Bergman, Frank Hutter, (参考訳) 深層学習に伴う計算コストの増大に伴い、自動ハイパーパラメータ最適化法はブラックボックスベイズ最適化(BO)に強く依存しており、限界に直面している。 Freeze-thaw BOは有望なグレーボックスの代替を提供し、戦略的に不足するリソースを異なる構成に段階的に割り当てる。 しかし、このアプローチに固有の頻繁なサロゲートモデル更新は、既存の手法に課題をもたらし、ニューラルネットワークのサロゲートをオンラインで再トレーニングまたは微調整し、オーバーヘッド、不安定性、ハイパーハイパーパラメータを導入する。 本研究では,フリーズソースタイルBOのための新しいサロゲートであるFT-PFNを提案する。 FT-PFN(FT-PFN)は、トランスフォーマーのコンテキスト内学習能力を利用して、ベイズ学習曲線外挿を1つの前方通過で効率よく確実に行う、事前データ付きネットワーク(PFN)である。 3つのベンチマークスイートを比較検討した結果,FT-PFN による予測は,ガウス過程の深部と深部アンサンブルサロゲートの10~100倍の精度で高速であることがわかった。 さらに,本手法とMFPI-randomの併用により,従来検討されていた3種類の深層学習HPOベンチマークにおいて,実環境における凍結ソーBO法(ifBO)が新たに実現されたことを示す。

With the increasing computational costs associated with deep learning, automated hyperparameter optimization methods, strongly relying on black-box Bayesian optimization (BO), face limitations. Freeze-thaw BO offers a promising grey-box alternative, strategically allocating scarce resources incrementally to different configurations. However, the frequent surrogate model updates inherent to this approach pose challenges for existing methods, requiring retraining or fine-tuning their neural network surrogates online, introducing overhead, instability, and hyper-hyperparameters. In this work, we propose FT-PFN, a novel surrogate for Freeze-thaw style BO. FT-PFN is a prior-data fitted network (PFN) that leverages the transformers' in-context learning ability to efficiently and reliably do Bayesian learning curve extrapolation in a single forward pass. Our empirical analysis across three benchmark suites shows that the predictions made by FT-PFN are more accurate and 10-100 times faster than those of the deep Gaussian process and deep ensemble surrogates used in previous work. Furthermore, we show that, when combined with our novel acquisition mechanism (MFPI-random), the resulting in-context freeze-thaw BO method (ifBO), yields new state-of-the-art performance in the same three families of deep learning HPO benchmarks considered in prior work.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# AAPL:視覚言語モデルのためのプロンプト学習への属性の追加

AAPL: Adding Attributes to Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2404.16804v1 )

ライセンス: Link先を確認
Gahyeon Kim, Sohee Kim, Seokju Lee, (参考訳) 大規模な事前学習型視覚言語モデルの最近の進歩は、ゼロショットダウンストリームタスクにおいて顕著な性能を示している。 これに基づいて、CoOpやCoCoOpといった最近の研究では、プロンプト内のコンテキストを学習可能なベクトルに置き換えるプロンプト学習が提案されており、手作業によるプロンプトよりも大幅に改善されている。 しかし、未確認クラスの性能改善はいまだに限界であり、この問題に対処するため、従来のゼロショット学習技術ではデータ拡張が頻繁に用いられてきた。 実験を通じて,CoOpとCoCoOpの重要な問題を明らかにした。従来の画像拡張によって学習された文脈は,目に見えないクラスへの一般化に悪影響を及ぼす。 この問題に対処するために,学習可能なプロンプトにおいてバイアスを誘導する場合に,高レベルの情報から低レベルの視覚的拡張特徴を分離するための逆トークン埋め込みを提案する。 AAPL(Adding Attributes to Prompt Learning)と呼ばれる新しいメカニズムを通じて、学習可能なコンテキストをガイドし、目に見えないクラスの高レベル機能に着目してテキスト特徴を効果的に抽出する。 我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。

Recent advances in large pre-trained vision-language models have demonstrated remarkable performance on zero-shot downstream tasks. Building upon this, recent studies, such as CoOp and CoCoOp, have proposed the use of prompt learning, where context within a prompt is replaced with learnable vectors, leading to significant improvements over manually crafted prompts. However, the performance improvement for unseen classes is still marginal, and to tackle this problem, data augmentation has been frequently used in traditional zero-shot learning techniques. Through our experiments, we have identified important issues in CoOp and CoCoOp: the context learned through traditional image augmentation is biased toward seen classes, negatively impacting generalization to unseen classes. To address this problem, we propose adversarial token embedding to disentangle low-level visual augmentation features from high-level class information when inducing bias in learnable prompts. Through our novel mechanism called "Adding Attributes to Prompt Learning", AAPL, we guide the learnable context to effectively extract text features by focusing on high-level features for unseen classes. We have conducted experiments across 11 datasets, and overall, AAPL shows favorable performances compared to the existing methods in few-shot learning, zero-shot learning, cross-dataset, and domain generalization tasks.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# インコンテキスト学習による大規模言語モデルによるコモンセンス生成の多様性向上

Improving Diversity of Commonsense Generation by Large Language Models via In-Context Learning ( http://arxiv.org/abs/2404.16807v1 )

ライセンス: Link先を確認
Tianhui Zhang, Bei Peng, Danushka Bollegala, (参考訳) 生成コモンセンス推論 (Generative Commonsense Reasoning, GCR) は、コヒーレントな文を生成しながら、コモンセンス知識を用いて状況を理解するモデルを必要とする。 生成した文の品質は重要であるが、モデルが様々な常識的知識事実を使用する能力を反映しているため、生成の多様性も同様に重要である。 大規模言語モデル(LLM)は、微調整を必要とせず、与えられた例を用いて、コンテキスト内学習(ICL)を通じて、様々なタスクにわたる生成品質を向上させる能力を示した。 しかし, LLM出力の多様性については, これまで体系的に研究されていない。 そこで本研究では,LLM世代を多様化し,その品質を保ちつつ,簡易な手法を提案する。 3つのベンチマークGCRデータセットによる実験結果から,本手法は品質と多様性の理想的なバランスを達成できることが示された。 さらに,提案手法により生成された文は,既存のコモンセンスジェネレータの多様性を向上させるためのトレーニングデータとして利用することができる。

Generative Commonsense Reasoning (GCR) requires a model to reason about a situation using commonsense knowledge, while generating coherent sentences. Although the quality of the generated sentences is crucial, the diversity of the generation is equally important because it reflects the model's ability to use a range of commonsense knowledge facts. Large Language Models (LLMs) have shown proficiency in enhancing the generation quality across various tasks through in-context learning (ICL) using given examples without the need for any fine-tuning. However, the diversity aspect in LLM outputs has not been systematically studied before. To address this, we propose a simple method that diversifies the LLM generations, while preserving their quality. Experimental results on three benchmark GCR datasets show that our method achieves an ideal balance between the quality and diversity. Moreover, the sentences generated by our proposed method can be used as training data to improve diversity in existing commonsense generators.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# LLMがコンテキストをフル活用する

Make Your LLM Fully Utilize the Context ( http://arxiv.org/abs/2404.16811v1 )

ライセンス: Link先を確認
Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, (参考訳) 多くの現代の大規模言語モデル(LLM)は長い入力を処理できるが、中途半端な課題として知られる長いコンテキスト内で情報の活用に苦慮している。 長い文脈におけるいかなる位置でも重要な情報を保持できることを強調できないような、長期のコンテキストトレーニングにおいて、明確な監督が不十分であることに起因する、という仮説を立てる。 この直感に基づいて,情報集約学習(Information-intensive training,IN2)を提案する。 特に、IN2トレーニングでは、(1)短いセグメント(〜128トークン)の細かな情報認識を合成された長いコンテキスト(4K-32Kトークン)内で行うこと、(2)2つ以上の短いセグメントからの情報の統合と推論を行う。 この情報集約トレーニングをMistral-7Bに適用し、FILM-7B(FILl-in-the-Middle)を提案する。 長いコンテキストを利用するためのFILM-7Bの能力を徹底的に評価するために、様々なコンテキストスタイル(文書、コード、構造化データコンテキスト)と情報検索パターン(前方、後方、双方向検索)を含む3つの探索タスクを設計する。 その結果、FILM-7Bは32Kコンテキストウィンドウ内の異なる位置から情報を取り出すことができることがわかった。 これらの探索タスク以外にも、FILM-7Bは実世界の長文タスク(NarrativeQAでは23.5->26.9スコア)のパフォーマンスを大幅に改善し、短文タスク(MMLUでは59.3->59.2精度)では同等のパフォーマンスを維持している。 Githubリンク:https://github.com/microsoft/FILM

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# メタトランスファー皮膚診断 : 長鎖分布における皮膚疾患分類のためのわずかなショット学習と移植学習

Meta-Transfer Derm-Diagnosis: Exploring Few-Shot Learning and Transfer Learning for Skin Disease Classification in Long-Tail Distribution ( http://arxiv.org/abs/2404.16814v1 )

ライセンス: Link先を確認
Zeynep Özdemir, Hacer Yalim Keles, Ömer Özgür Tanrıöver, (参考訳) まれな疾患の課題に対処することは、特に参照画像の数や患者数が少ない場合に困難である。 これは稀な皮膚疾患においてより明らかであり、長い尾を持つデータ分布に遭遇し、偏りのない広範囲に有効なモデルを開発するのが困難になる。 画像データセットの収集方法や目的の異なるさまざまな方法も、これらの課題に寄与する。 本研究は, 転帰学習と並行して, 数発の学習アプローチを採用することで, エピソードおよび従来の訓練手法の利点と欠点を詳細に検討する。 我々はISIC2018、Derm7pt、SD-198データセットを用いてモデルを評価した。 最小限のラベル付き例で、我々のモデルは以前トレーニングされたモデルと比較して、かなりの情報獲得と性能向上を示した。 我々は,DenseNet121モデルとMobileNetV2モデルの特徴を表現する能力の向上を強調した。 さらに, 最大10例の2方向分類から5方向分類まで, 事例数の増加に伴い, 従来の転帰学習手法の成功率も向上した。 データ拡張技術の追加により、トランスファーラーニングベースのモデル性能が大幅に向上し、特にSD-198およびISIC2018データセットにおいて、既存の手法よりもパフォーマンスが向上した。 この作業に関連するすべてのソースコードは、まもなく提供されるURLで公開される予定である。

Addressing the challenges of rare diseases is difficult, especially with the limited number of reference images and a small patient population. This is more evident in rare skin diseases, where we encounter long-tailed data distributions that make it difficult to develop unbiased and broadly effective models. The diverse ways in which image datasets are gathered and their distinct purposes also add to these challenges. Our study conducts a detailed examination of the benefits and drawbacks of episodic and conventional training methodologies, adopting a few-shot learning approach alongside transfer learning. We evaluated our models using the ISIC2018, Derm7pt, and SD-198 datasets. With minimal labeled examples, our models showed substantial information gains and better performance compared to previously trained models. Our research emphasizes the improved ability to represent features in DenseNet121 and MobileNetV2 models, achieved by using pre-trained models on ImageNet to increase similarities within classes. Moreover, our experiments, ranging from 2-way to 5-way classifications with up to 10 examples, showed a growing success rate for traditional transfer learning methods as the number of examples increased. The addition of data augmentation techniques significantly improved our transfer learning based model performance, leading to higher performances than existing methods, especially in the SD-198 and ISIC2018 datasets. All source code related to this work will be made publicly available soon at the provided URL.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# IndicGenBench: 言語におけるLLMの生成能力を評価するための多言語ベンチマーク

IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages ( http://arxiv.org/abs/2404.16816v1 )

ライセンス: Link先を確認
Harman Singh, Nitish Gupta, Shikhar Bharadwaj, Dinesh Tewari, Partha Talukdar, (参考訳) 大規模言語モデル(LLM)が世界中で普及するにつれて、LLMは世界の言語多様性を表現することが不可欠である。 インドは14億人の言語的に多様である。 IndicGenBenchは、13のスクリプトと4つの言語ファミリーをカバーする多言語言語29の多言語からなるユーザ向け生成タスクにおいて、LLMを評価するための最大のベンチマークである。 IndicGenBenchは、言語間要約、機械翻訳、言語間質問応答など、さまざまな生成タスクで構成されている。 IndicGenBenchは、人間のキュレーションを通じて既存のベンチマークを多くのIndic言語に拡張し、非表現のIndic言語で初めてマルチウェイ並列評価データを提供する。 我々は,IndicGenBench 上で GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM, LLaMA など,プロプライエタリかつオープンソースな LLM を多種多様な設定で評価した。 最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して、より包括的な多言語言語モデルの開発にはさらなる研究が必要であることを示している。 IndicGenBenchはwww.github.com/google-research-datasets/indic-gen-benchでリリースされた。

As large language models (LLMs) see increasing adoption across the globe, it is imperative for LLMs to be representative of the linguistic diversity of the world. India is a linguistically diverse country of 1.4 Billion people. To facilitate research on multilingual LLM evaluation, we release IndicGenBench - the largest benchmark for evaluating LLMs on user-facing generation tasks across a diverse set 29 of Indic languages covering 13 scripts and 4 language families. IndicGenBench is composed of diverse generation tasks like cross-lingual summarization, machine translation, and cross-lingual question answering. IndicGenBench extends existing benchmarks to many Indic languages through human curation providing multi-way parallel evaluation data for many under-represented Indic languages for the first time. We evaluate a wide range of proprietary and open-source LLMs including GPT-3.5, GPT-4, PaLM-2, mT5, Gemma, BLOOM and LLaMA on IndicGenBench in a variety of settings. The largest PaLM-2 models performs the best on most tasks, however, there is a significant performance gap in all languages compared to English showing that further research is needed for the development of more inclusive multilingual language models. IndicGenBench is released at www.github.com/google-research-datasets/indic-gen-bench
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# 主マスクの提案による教師なしセマンティックセマンティックセグメンテーションの促進

Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals ( http://arxiv.org/abs/2404.16818v1 )

ライセンス: Link先を確認
Oliver Hahn, Nikita Araslanov, Simone Schaub-Meyer, Stefan Roth, (参考訳) 教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。 近年の自己教師付き表現学習の進歩を踏まえ、教師なしセグメンテーションの下流タスクにおいて、これらの大規模な事前訓練モデルをどのように活用するかに焦点をあてる。 そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。 これにより、クラスプロトタイプをPriMaPsに確率的予測最大化アルゴリズムであるPriMaPs-EMで適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。 PriMaPs-EMはその概念的単純さにもかかわらず、DINOやDINOv2といった事前訓練されたバックボーンモデルや、Cityscapes、COCO-Stuff、Potsdam-3といったデータセット間の競合結果につながっている。 PriMaPs-EMは、現在の最先端の教師なしセマンティックセマンティックセグメンテーションパイプラインに直交して適用することで、結果を向上することができる。

Unsupervised semantic segmentation aims to automatically partition images into semantically meaningful regions by identifying global categories within an image corpus without any form of annotation. Building upon recent advances in self-supervised representation learning, we focus on how to leverage these large pre-trained models for the downstream task of unsupervised segmentation. We present PriMaPs - Principal Mask Proposals - decomposing images into semantically meaningful masks based on their feature representation. This allows us to realize unsupervised semantic segmentation by fitting class prototypes to PriMaPs with a stochastic expectation-maximization algorithm, PriMaPs-EM. Despite its conceptual simplicity, PriMaPs-EM leads to competitive results across various pre-trained backbone models, including DINO and DINOv2, and across datasets, such as Cityscapes, COCO-Stuff, and Potsdam-3. Importantly, PriMaPs-EM is able to boost results when applied orthogonally to current state-of-the-art unsupervised semantic segmentation pipelines.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# Geckoによるテキスト・トゥ・イメージ・アセスメントの再考:メトリクス、プロンプット、人間のレーティングについて

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings ( http://arxiv.org/abs/2404.16820v1 )

ライセンス: Link先を確認
Olivia Wiles, Chuhan Zhang, Isabela Albuquerque, Ivana Kajić, Su Wang, Emanuele Bugliarello, Yasumasa Onoe, Chris Knutsen, Cyrus Rashtchian, Jordi Pont-Tuset, Aida Nematzadeh, (参考訳) テキスト・トゥ・イメージ(T2I)生成モデルはユビキタスになりつつあるが、必ずしも与えられたプロンプトに一致した画像を生成するとは限らない。 これまでの研究では、人間の判断を収集するためのメトリクスやベンチマーク、テンプレートを提案してT2Iアライメントを評価してきたが、これらのコンポーネントの品質は体系的に測定されていない。 人間の評価プロンプトセットは一般的に小さく、評価の信頼性は -- モデルを比較するために使用されるプロンプトセット -- 評価されない。 このギャップに対処するために、オートエバルなメトリクスと人間のテンプレートを評価する広範囲な研究を行った。 1)異なる人間のテンプレートでモデルを識別できる総合的なスキルベースのベンチマークを導入する。 このスキルベースのベンチマークは、サブスキルへのプロンプトであり、実践者はどのスキルが難しいかだけでなく、どのレベルの複雑さが難しいかを見極めることができる。 2)4つのテンプレートと4つのT2Iモデルにまたがって,100K以上のアノテーションに対する人間の評価を収集する。 これにより、プロンプトの固有のあいまいさと、メートル法とモデルの品質の違いによって生じる違いを理解できます。 (3) 最後に、新しいデータセット、異なるヒューマンテンプレート、TIFA160における既存のデータセットのメトリクスよりも、人間のレーティングと相関した新しいQAベースの自動評価指標を導入する。

While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings -- and thereby the prompt set used to compare models -- is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# GPT-4Vはどこまであるのか?オープンソース・スイートによる商用マルチモーダルモデルへのギャップを埋める

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites ( http://arxiv.org/abs/2404.16821v1 )

ライセンス: Link先を確認
Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, (参考訳) 本稿では,オープンソースのマルチモーダル言語モデル(MLLM)であるInternVL 1.5を紹介する。 1)Strong Vision Encoder: 大規模ビジョンファウンデーションモデルのための継続的学習戦略を探求し、InternViT-6Bを導入し、視覚的理解能力を向上し、異なるLLMで転送および再利用できるようにする。 2)動的高解像度化:最大4K解像度入力をサポートする入力画像のアスペクト比と解像度に応じて、448$\times$448ピクセルのうち1~40ピクセルのタイルに分割する。 ハイクオリティバイリンガルデータセット: 共通場面, 文書画像, 注釈を英語と中国語の問合せペアで収集し, OCRおよび中国語に関連するタスクのパフォーマンスを大幅に向上させた。 InternVL 1.5を一連のベンチマークと比較研究により評価した。 オープンソースモデルとプロプライエタリモデルの両方と比較して、InternVL 1.5は競争力のあるパフォーマンスを示し、18ベンチマーク中8ベンチマークで最先端の結果を達成した。 コードはhttps://github.com/OpenGVLab/InternVLでリリースされた。

In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$\times$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# マルチフィンガーハンドによるヴァイオタクティルスキルの学習

Learning Visuotactile Skills with Two Multifingered Hands ( http://arxiv.org/abs/2404.16823v1 )

ライセンス: Link先を確認
Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, Jitendra Malik, (参考訳) 人のような器用さ,知覚経験,動作パターンを再現することを目的として,多指ハンドとビゾタクタクタブルデータを用いたバイマダルシステムを用いて,人間の実演からの学習を探索する。 2つの大きな課題は、マルチフィンガーハンドを備えたデュアルアーム設定に適した安価な遠隔操作システムがないこと、タッチセンサーを備えたマルチフィンガーハンドハードウェアの不足である。 最初の課題に取り組むために、私たちは、市販の電子機器を活用する低コストのハンドアーム遠隔操作システムであるHATOを開発し、効率的なデータ収集を可能にするソフトウェアスイートを補完し、包括的なソフトウェアスイートはマルチモーダルデータ処理、スケーラブルなポリシー学習、スムーズなポリシー展開もサポートしています。 後者の課題に対処するために, タッチセンサを備えた2本の義手を再使用し, 新たなハードウェア適応を導入する。 本システムから収集した粘菌データを用いて,マルチフィンガードデキスタリティやタッチフィードバックを伴わずに達成し難い長時間の高精度タスクを完遂する技術を学ぶ。 さらに,データサイズ,モダリティ,視覚入力前処理が政策学習に与える影響を実証的に検討した。 以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。 ビデオ、コード、データセットはhttps://toruowo.github.io/hato/で見ることができる。

Aiming to replicate human-like dexterity, perceptual experiences, and motion patterns, we explore learning from human demonstrations using a bimanual system with multifingered hands and visuotactile data. Two significant challenges exist: the lack of an affordable and accessible teleoperation system suitable for a dual-arm setup with multifingered hands, and the scarcity of multifingered hand hardware equipped with touch sensing. To tackle the first challenge, we develop HATO, a low-cost hands-arms teleoperation system that leverages off-the-shelf electronics, complemented with a software suite that enables efficient data collection; the comprehensive software suite also supports multimodal data processing, scalable policy learning, and smooth policy deployment. To tackle the latter challenge, we introduce a novel hardware adaptation by repurposing two prosthetic hands equipped with touch sensors for research. Using visuotactile data collected from our system, we learn skills to complete long-horizon, high-precision tasks which are difficult to achieve without multifingered dexterity and touch feedback. Furthermore, we empirically investigate the effects of dataset size, sensing modality, and visual input preprocessing on policy learning. Our results mark a promising step forward in bimanual multifingered manipulation from visuotactile data. Videos, code, and datasets can be found at https://toruowo.github.io/hato/ .
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking

V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection ( http://arxiv.org/abs/2404.16824v1 )

ライセンス: Link先を確認
Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang, (参考訳) AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。 しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。 この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。 ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。 また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。 一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。 V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。

AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見

Made to Order: Discovering monotonic temporal changes via self-supervised video ordering ( http://arxiv.org/abs/2404.16828v1 )

ライセンス: Link先を確認
Charig Yang, Weidi Xie, Andrew Zisserman, (参考訳) 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。 これを実現するために、シャッフル画像列を順序付けする単純なプロキシタスクを、時間とともに単調な変化だけが正しい順序付けをもたらすため、監督信号として機能する'time'を用いて利用する。 また、任意の長さの画像列と帰属写像を組み込んだ汎用的な順序付けのためのフレキシブルトランスフォーマーベースモデルも導入する。 訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。 本研究では、異なるシーンとオブジェクトタイプをカバーする複数のビデオ設定におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境変化の両方を発見する。 また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。 最後に,一組の画像を順序付けするための標準ベンチマークにおいて,そのモデルが最先端のベンチマークを実現することを示す。

Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a flexible transformer-based model for general-purpose ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple video settings covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state of the art on standard benchmarks for ordering a set of images.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# Make-it-Real:3Dオブジェクトをリアル素材で描ける大規模マルチモーダルモデル

Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials ( http://arxiv.org/abs/2404.16829v1 )

ライセンス: Link先を確認
Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin, (参考訳) 物理的に現実的な材料は、様々な用途や照明条件にまたがる3Dアセットの現実性を高める上で重要である。 しかし、既存の3Dアセットや生成モデルは、しばしば真の材料特性を欠いている。 グラフィックソフトウェアを用いた教材のマニュアル割り当ては面倒で時間を要する作業である。 本稿では,MLLM(Make-it-Real:Make-it-Real:)の進歩,特にGPT-4Vを利用した新しいアプローチを提案する。 1) GPT-4Vは, 資料を効果的に認識し, 記述し, 詳細な資料ライブラリの構築を可能にすることを実証する。 2)視覚的手がかりと階層的テキストプロンプトを組み合わせることで,GPT-4Vは材料を3Dオブジェクトの対応するコンポーネントと正確に識別・整合する。 3) 正マッチした材料は, 元の拡散マップに従って新たなSVBRDF材料生成の基準として細心の注意を払って適用され, 視覚的信頼性が著しく向上した。 Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。

Physically realistic materials are pivotal in augmenting the realism of 3D assets across various applications and lighting conditions. However, existing 3D assets and generative models often lack authentic material properties. Manual assignment of materials using graphic software is a tedious and time-consuming task. In this paper, we exploit advancements in Multimodal Large Language Models (MLLMs), particularly GPT-4V, to present a novel approach, Make-it-Real: 1) We demonstrate that GPT-4V can effectively recognize and describe materials, allowing the construction of a detailed material library. 2) Utilizing a combination of visual cues and hierarchical text prompts, GPT-4V precisely identifies and aligns materials with the corresponding components of 3D objects. 3) The correctly matched materials are then meticulously applied as reference for the new SVBRDF material generation according to the original diffuse map, significantly enhancing their visual authenticity. Make-it-Real offers a streamlined integration into the 3D content creation workflow, showcasing its utility as an essential tool for developers of 3D assets.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# 第3回単分子深度推定チャレンジ

The Third Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2404.16831v1 )

ライセンス: Link先を確認
Jaime Spencer, Fabio Tosi, Matteo Poggi, Ripudaman Singh Arora, Chris Russell, Simon Hadfield, Richard Bowden, GuangYuan Zhou, ZhengXin Li, Qiang Rao, YiPing Bao, Xiao Liu, Dohyeong Kim, Jinseong Kim, Myunghyun Kim, Mykola Lavreniuk, Rui Li, Qing Mao, Jiang Wu, Yu Zhu, Jinqiu Sun, Yanning Zhang, Suraj Patni, Aradhye Agarwal, Chetan Arora, Pihai Sun, Kui Jiang, Gang Wu, Jian Liu, Xianming Liu, Junjun Jiang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan, Jiabao Wang, Albert Luginov, Muhammad Shahzad, Seyed Hosseini, Aleksander Trajcevski, James H. Elder, (参考訳) 本稿では,MDEC(Monocular Depth Estimation Challenge)の第3版の結果について述べる。 この課題は、自然と屋内の複雑なシーンを特徴とする、挑戦的なSynS-Patchesデータセットへのゼロショットの一般化に焦点を当てている。 前版と同様に、メソッドはいかなる種類の監督、すなわち監督または自己監督も使用できる。 10人が彼らのアプローチを説明するレポートを提出し、メソッドのコアでDepth Anythingのような基礎モデルの拡散した使用を強調した。 挑戦者は17.51%から23.72%の3D Fスコアのパフォーマンスを大幅に改善した。

This paper discusses the results of the third edition of the Monocular Depth Estimation Challenge (MDEC). The challenge focuses on zero-shot generalization to the challenging SYNS-Patches dataset, featuring complex scenes in natural and indoor settings. As with the previous edition, methods can use any form of supervision, i.e. supervised or self-supervised. The challenge received a total of 19 submissions outperforming the baseline on the test set: 10 among them submitted a report describing their approach, highlighting a diffused use of foundational models such as Depth Anything at the core of their method. The challenge winners drastically improved 3D F-Score performance, from 17.51% to 23.72%.
翻訳日:2024-04-26 12:51:20 公開日:2024-04-25
# ニュートリノ多体フレーバー進化:フルハミルトニアン

Neutrino many-body flavor evolution: the full Hamiltonian ( http://arxiv.org/abs/2404.16690v1 )

ライセンス: Link先を確認
Vincenzo Cirigliano, Srimoyee Sen, Yukari Yamauchi, (参考訳) フルニュートリノ-ニュートリノハミルトニアンを用いた量子多体法におけるニュートリノフレーバーの進化について検討し、非フォワード散乱過程を媒介する通常無視された用語を含む。 平面波を単一粒子状態とする占有数表現において、N=10$ニュートリノを持つ単純な初期状態の時間発展を探索する。 本研究では,Loschmidtエコーの経時変化,片身の風味,運動可観測物,片身の絡み合いエントロピーについて論じる。 検討対象とする小型システムでは, マイクロカノニカルアンサンブル内で計算された期待値に収束し, フラストレーションと運動量自由度の両方の「熱化」を観測した。 また,非フォワード過程を包含することで,(フォワード)ハミルトニアンによって誘導されるものに比べ,フレーバーの進化が速くなることも観察した。

We study neutrino flavor evolution in the quantum many-body approach using the full neutrino-neutrino Hamiltonian, including the usually neglected terms that mediate non-forward scattering processes. Working in the occupation number representation with plane waves as single-particle states, we explore the time evolution of simple initial states with up to $N=10$ neutrinos. We discuss the time evolution of the Loschmidt echo, one body flavor and kinetic observables, and the one-body entanglement entropy. For the small systems considered, we observe `thermalization' of both flavor and momentum degrees of freedom on comparable time scales, with results converging towards expectation values computed within a microcanonical ensemble. We also observe that the inclusion of non-forward processes generates a faster flavor evolution compared to the one induced by the truncated (forward) Hamiltonian.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 意識評価のための候補計算指標に関する調査報告

Report on Candidate Computational Indicators for Conscious Valenced Experience ( http://arxiv.org/abs/2404.16696v1 )

ライセンス: Link先を確認
Andres Campero, (参考訳) 本報告では、意識的な有能な経験の構成要素であるとされる計算用語でキャッシュアウトされた13の機能条件を列挙する。 これらは、動物知覚、医学的障害、麻酔、哲学、進化、神経科学、人工知能など、既存の実証的および理論的文献から抽出される。

This report enlists 13 functional conditions cashed out in computational terms that have been argued to be constituent of conscious valenced experience. These are extracted from existing empirical and theoretical literature on, among others, animal sentience, medical disorders, anaesthetics, philosophy, evolution, neuroscience, and artificial intelligence.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 経時的前駆体を用いた多視点心画像分割

Multi-view Cardiac Image Segmentation via Trans-Dimensional Priors ( http://arxiv.org/abs/2404.16708v1 )

ライセンス: Link先を確認
Abbas Khan, Muhammad Asad, Martin Benning, Caroline Roney, Gregory Slabaugh, (参考訳) 本稿では,多視点心画像分割のための新しい多次元超次元アーキテクチャを提案する。 本手法は, 長軸(2D)と短軸(3D)の磁気共鳴画像の関係を利用して, 連続的に3次元から2次元へ3次元に分割し, 長軸と短軸を分割する。 第1段階では、短軸画像を用いて3Dセグメンテーションを行い、その予測を長軸ビューに変換し、次のステージに先立ってセグメンテーションとして使用する。 第2ステップでは、2Dセグメンテーションを行う画像の心臓領域に後続のモデルを集中させて、Heart Localization and Cropping (HLC)モジュールを用いて、心臓領域を局所化し、セグメンテーションの周囲に収穫する。 同様に、長軸予測を短軸ビューに変換し、心臓領域をローカライズし、収穫し、再度3次元セグメンテーションを行い、初期短軸セグメンテーションを洗練させる。 心臓MRI(M&Ms-2)データセットにおける多自由度, マルチビュー, マルチセンター右室セグメンテーション(M&Ms-2)における提案手法の評価を行った。 事前訓練されたモデル、ソースコード、実装の詳細は、公開される予定である。

We propose a novel multi-stage trans-dimensional architecture for multi-view cardiac image segmentation. Our method exploits the relationship between long-axis (2D) and short-axis (3D) magnetic resonance (MR) images to perform a sequential 3D-to-2D-to-3D segmentation, segmenting the long-axis and short-axis images. In the first stage, 3D segmentation is performed using the short-axis image, and the prediction is transformed to the long-axis view and used as a segmentation prior in the next stage. In the second step, the heart region is localized and cropped around the segmentation prior using a Heart Localization and Cropping (HLC) module, focusing the subsequent model on the heart region of the image, where a 2D segmentation is performed. Similarly, we transform the long-axis prediction to the short-axis view, localize and crop the heart region and again perform a 3D segmentation to refine the initial short-axis segmentation. We evaluate our proposed method on the Multi-Disease, Multi-View & Multi-Center Right Ventricular Segmentation in Cardiac MRI (M&Ms-2) dataset, where our method outperforms state-of-the-art methods in segmenting cardiac regions of interest in both short-axis and long-axis images. The pre-trained models, source code, and implementation details will be publicly available.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 量子CSS符号のリフト

Lifts of quantum CSS codes ( http://arxiv.org/abs/2404.16736v1 )

ライセンス: Link先を確認
Virgile Guemard, (参考訳) 本稿では,量子CSS符号に対するリフトの概念を提案する。 これは、タナー・コーン・コンプレックス(Tanner cone-complex)という名前で導入し、カバースペースを生成する、任意のCSSコードに関連付けられた標準的なコンプレックスの存在に基づいている。 第1の応用として、ハイパーグラフ製品コード(HPC)のリフトの分類について述べ、Panteleev と Kalachev の昇降積コード(LPC)と等価性を実証する。 第2の応用として、量子CSS符号の新規な非生産的構成を報告し、この規則を適用して、特定の選択された被覆写像に対して、初期値と比較して相対パラメータが向上した符号であるリフトを生成する。

We propose a notion of lift for quantum CSS codes, inspired by the geometrical construction of Freedman and Hastings. It is based on the existence of a canonical complex associated to any CSS code, that we introduce under the name of Tanner cone-complex, and over which we generate covering spaces. As a first application, we describe the classification of lifts of hypergraph product codes (HPC) and demonstrate the equivalence with the lifted product code (LPC) of Panteleev and Kalachev, including when the linear codes, factors of the HPC, are Tanner codes. As a second application, we report several new non-product constructions of quantum CSS codes, and we apply the prescription to generate their lifts which, for certain selected covering maps, are codes with improved relative parameters compared to the initial one.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 音声認識システムに依存しない単語誤り率の自動推定

Automatic Speech Recognition System-Independent Word Error Rate Estimatio ( http://arxiv.org/abs/2404.16743v1 )

ライセンス: Link先を確認
Chanho Park, Mingjie Chen, Thomas Hain, (参考訳) 単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。 多くの応用において、WERは音声の発声と書き起こしのペアを推定することに興味がある。 WER推定に関するこれまでの研究は、特定のASRシステム(ASRシステムに依存している)を念頭に置いて訓練されたモデルの構築に焦点を当てていた。 ドメイン依存であり、現実のアプリケーションでは非フレキシブルである。 本稿では, ASR System-Independent WER Estimation (SIWE) の仮説生成手法を提案する。 以前の作業とは対照的に、WER推定器はASRシステムの出力をシミュレートするデータを用いて訓練される。 仮説は、音声的に類似または言語的によりありそうな代替語を用いて生成される。 WER推定実験では、提案手法はドメイン内データ上でのASRシステム依存のWER推定器と同等の性能に達し、ドメイン外データ上で最先端の性能を達成する。 ドメイン外データでは、SIWEモデルは、SwitchboardとCALLHOMEでそれぞれ17.58%と18.21%の相関係数で、根平均平方誤差とピアソン相関係数でベースライン推定値を上回った。 トレーニングセットのWERが評価データセットのWERに近くなると、さらに性能が向上した。

Word error rate (WER) is a metric used to evaluate the quality of transcriptions produced by Automatic Speech Recognition (ASR) systems. In many applications, it is of interest to estimate WER given a pair of a speech utterance and a transcript. Previous work on WER estimation focused on building models that are trained with a specific ASR system in mind (referred to as ASR system-dependent). These are also domain-dependent and inflexible in real-world applications. In this paper, a hypothesis generation method for ASR System-Independent WER estimation (SIWE) is proposed. In contrast to prior work, the WER estimators are trained using data that simulates ASR system output. Hypotheses are generated using phonetically similar or linguistically more likely alternative words. In WER estimation experiments, the proposed method reaches a similar performance to ASR system-dependent WER estimators on in-domain data and achieves state-of-the-art performance on out-of-domain data. On the out-of-domain data, the SIWE model outperformed the baseline estimators in root mean square error and Pearson correlation coefficient by relative 17.58% and 18.21%, respectively, on Switchboard and CALLHOME. The performance was further improved when the WER of the training set was close to the WER of the evaluation dataset.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# JITScanner: LinuxオペレーティングシステムにおけるJust-in-Time Executable Page Check

JITScanner: Just-in-Time Executable Page Check in the Linux Operating System ( http://arxiv.org/abs/2404.16744v1 )

ライセンス: Link先を確認
Pasquale Caporaso, Giuseppe Bianchi, Francesco Quaglia, (参考訳) 現代のマルウェアは、サイバーセキュリティに深刻な脅威を与え、高度化において継続的に進化している。 この脅威に対処するため、研究者とセキュリティ専門家は継続的にマルウェアの検出と分析の高度な技術を探究している。 動的解析は、静的解析よりも利点があり、実行時の振る舞いを観察し、検出を避けるために使用される難読化または暗号化されたコードを検出する。 しかし、制御された環境でプログラムを実行することは、リソース集約的であり、サンドボックスを初期期間に制限するなど、しばしば妥協を必要とする。 本稿では、動的実行可能解析の代替手法として、実行可能仮想ページ内の悪意あるシグネチャの存在を、時間経過に伴う更新を含む現在のコンテンツが、命令フェッチのためにアクセスされた場合に正確に調べる手法を提案する。 我々のソリューションはJITScannerと呼ばれ、Loadable Kernel Module (LKM)上に構築されたLinux指向のパッケージとして開発されています。 スケーラブルなマルチプロセッサ/コア技術を使用してLKMと効率的に通信するユーザレベルのコンポーネントを統合する。 JITScannerによるマルウェア検出の有効性と、通常のランタイムシナリオにおける最小限の侵入が広くテストされている。 これらの実験は、実行時のオーバーヘッドを最小限に抑えながら、マルウェアを効果的に識別するJITScannerの機能を示す。

Modern malware poses a severe threat to cybersecurity, continually evolving in sophistication. To combat this threat, researchers and security professionals continuously explore advanced techniques for malware detection and analysis. Dynamic analysis, a prevalent approach, offers advantages over static analysis by enabling observation of runtime behavior and detecting obfuscated or encrypted code used to evade detection. However, executing programs within a controlled environment can be resource-intensive, often necessitating compromises, such as limiting sandboxing to an initial period. In our article, we propose an alternative method for dynamic executable analysis: examining the presence of malicious signatures within executable virtual pages precisely when their current content, including any updates over time, is accessed for instruction fetching. Our solution, named JITScanner, is developed as a Linux-oriented package built upon a Loadable Kernel Module (LKM). It integrates a user-level component that communicates efficiently with the LKM using scalable multi-processor/core technology. JITScanner's effectiveness in detecting malware programs and its minimal intrusion in normal runtime scenarios have been extensively tested, with the experiment results detailed in this article. These experiments affirm the viability of our approach, showcasing JITScanner's capability to effectively identify malware while minimizing runtime overhead.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 変分近似による有限混合モデルの成分数推定

Estimating the Number of Components in Finite Mixture Models via Variational Approximation ( http://arxiv.org/abs/2404.16746v1 )

ライセンス: Link先を確認
Chenyang Wang, Yun Yang, (参考訳) 本研究は, 平均場 (MF) 変動近似から導かれるエビデンス下界 (ELBO) の大きなサンプル特性に着想を得た, 変分ベイズを用いた有限混合モデル (FMM) の成分数選択法を提案する。 具体的には, 共役前処理を仮定することなく, ELBOの上限値と下限値との整合性を確立し, ELBOの最大化に基づくFMMのモデル選択の整合性を示す。 我々の証明の副産物として、MF近似が後部分布の安定な挙動(モデル特異性に相応しい)を継承することを示した。 この安定な振舞いはまた、パラメータ推定の$n^{-1/2}$収束率を、このモデル過剰特異性の下で対数係数まで導く。 理論的知見を検証し、FMMにおけるコンポーネント数を選択するための他の最先端手法と比較するための実証実験を行った。

This work introduces a new method for selecting the number of components in finite mixture models (FMMs) using variational Bayes, inspired by the large-sample properties of the Evidence Lower Bound (ELBO) derived from mean-field (MF) variational approximation. Specifically, we establish matching upper and lower bounds for the ELBO without assuming conjugate priors, suggesting the consistency of model selection for FMMs based on maximizing the ELBO. As a by-product of our proof, we demonstrate that the MF approximation inherits the stable behavior (benefited from model singularity) of the posterior distribution, which tends to eliminate the extra components under model misspecification where the number of mixture components is over-specified. This stable behavior also leads to the $n^{-1/2}$ convergence rate for parameter estimation, up to a logarithmic factor, under this model overspecification. Empirical experiments are conducted to validate our theoretical findings and compare with other state-of-the-art methods for selecting the number of components in FMMs.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 1ラウンド測定による1次元量子状態の分類

Classifying One-Dimensional Quantum States Prepared by a Single Round of Measurements ( http://arxiv.org/abs/2404.16753v1 )

ライセンス: Link先を確認
Rahul Sahay, Ruben Verresen, (参考訳) 測定とフィードバックは量子状態を作るための強力なリソースとして現れてきた。 しかし、詳細な理解は、物質の相の固定点代表に限られる。 ここでは、このことを超えて、測定からどのような多体絡みを創出できるかを問う。 1つの空間次元に焦点をあてて、1ラウンドの計測が唯一の絡み合う操作である場合のフレームワークを開発する。 これにより行列積状態が生成され、準備可能性のための必要かつ十分なテンソル条件が特定され、準備プロトコルが一意に決定される。 これらの条件は、準備可能な量子状態の物理的制約を特徴づけるために使用される。 まず、準備可能な絡み合いスペクトルの豊かさと相関関数とのトレードオフを見出す。 第二に、望ましくない測定結果を独立にペアアップして修正できる場合のサブセットでは、準備可能な量子状態の完全な分類を提供することができる。 最後に、均一な対称性と変調された対称性の両方に対する自明性、対称性の破れ、および対称性に保護された位相を含む、生成プロトコルの特性を物質相に接続する。 この研究は、準備可能な量子絡み合いに関する資源理論的な視点を提供し、量子デバイスにおいて、固定点から離れて、物質の状態をどのように体系的に生成するかを示す。

Measurements and feedback have emerged as a powerful resource for creating quantum states. However, a detailed understanding is restricted to fixed-point representatives of phases of matter. Here, we go beyond this and ask which types of many-body entanglement can be created from measurement. Focusing on one spatial dimension, a framework is developed for the case where a single round of measurements are the only entangling operations. We show this creates matrix product states and identify necessary and sufficient tensor conditions for preparability, which uniquely determine the preparation protocol. These conditions are then used to characterize the physical constraints on preparable quantum states. First, we find a trade-off between the richness of the preparable entanglement spectrum and correlation functions, which moreover leads to a powerful no-go theorem. Second, in a subset of cases, where undesired measurement outcomes can be independently paired up and corrected, we are able to provide a complete classification for preparable quantum states. Finally, we connect properties of the preparation protocol to the resulting phase of matter, including trivial, symmetry-breaking, and symmetry-protected topological phases -- for both uniform and modulated symmetries. This work offers a resource-theoretic perspective on preparable quantum entanglement and shows how to systematically create states of matter, away from their fixed points, in quantum devices.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 冷イッテルビウムレーザーの閾値と周波数特性

Threshold and frequency properties of a cold ytterbium laser ( http://arxiv.org/abs/2404.16765v1 )

ライセンス: Link先を確認
Dmitriy Sholokhov, Saran Shaju, Ke Li, Simon B. Jäger, Jürgen Eschner, (参考訳) レーザー冷却されたイッテルビウム原子の1S0--3P1結合遷移で観察されたラシング作用の特性について検討した。 磁気光学トラップ(MOT)レーザー光による1S0--1P1遷移の原子状態のドレッシングにより、結合された原子キャビティ系は、2光子遷移を介して、励起される同じ線上に遅延する。 この現象の観測と基礎的な説明は、Gothe et al [Phys. Rev. A 99, 013415 (2019)] によって以前に発表された。 本研究は, レーシング閾値と周波数特性の詳細な解析に焦点をあて, 理論モデルとの比較を行う。

We investigate properties of the lasing action observed on the 1S0--3P1 intercombination transition of ytterbium atoms that are laser-cooled and -trapped inside a high-finesse cavity. The dressing of the atomic states on the 1S0--1P1 transition by the magneto-optical trap (MOT) laser light allows the coupled atom-cavity system to lase, via a two-photon transition, on the same line on which it is pumped. The observation and basic description of this phenomenon was presented earlier by Gothe et al. [Phys. Rev. A 99, 013415 (2019)]. In the current work, we focus on a detailed analysis of the lasing threshold and frequency properties and perform a comparison to our theoretical models.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 自動運転車の安全性の見直し

Redefining Safety for Autonomous Vehicles ( http://arxiv.org/abs/2404.16768v1 )

ライセンス: Link先を確認
Philip Koopman, William Widen, (参考訳) コンピュータベースのシステムの安全性に関する既存の定義と関連する概念的枠組みは、自動運転車の展開から現実の体験に照らして再考されるべきである。 業界安全基準で現在使用されている用語は、特定されたハザードからのリスクの軽減を強調し、人間の監督された車両操作に基づく仮定を実行している。 人間の運転者なしでの運転は、特にオープンワールド環境での運転、運用制限を自己強化する要件、アドホックな社会技術システムへの参加、法的および倫理的制約の両方に準拠する要件により、安全上の問題の範囲を劇的に拡大する。 既存の標準と用語は、これらの新しい課題に部分的に対処するだけである。 我々は、これらの新たな安全課題に対処するための安全なアプローチを進化させる出発点として、これらの追加考慮を含むコアシステム安全概念の更新定義を提案する。 これらの結果は、他の自律システムアプリケーションに対するフレーミング安全用語を通知する可能性がある。

Existing definitions and associated conceptual frameworks for computer-based system safety should be revisited in light of real-world experiences from deploying autonomous vehicles. Current terminology used by industry safety standards emphasizes mitigation of risk from specifically identified hazards, and carries assumptions based on human-supervised vehicle operation. Operation without a human driver dramatically increases the scope of safety concerns, especially due to operation in an open world environment, a requirement to self-enforce operational limits, participation in an ad hoc sociotechnical system of systems, and a requirement to conform to both legal and ethical constraints. Existing standards and terminology only partially address these new challenges. We propose updated definitions for core system safety concepts that encompass these additional considerations as a starting point for evolving safe-ty approaches to address these additional safety challenges. These results might additionally inform framing safety terminology for other autonomous system applications.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# イマジナリースターク皮膚効果

Imaginary Stark Skin Effect ( http://arxiv.org/abs/2404.16774v1 )

ライセンス: Link先を確認
Heng Lin, Jinghui Pi, Yunyao Qi, Guilu Long, (参考訳) 非エルミート皮膚効果(英: non-Hermitian skin effect, NHSE)は、非エルミート系において特異な現象である。 しかし、翻訳対称性のない系におけるNHSEの研究はほとんど未解明のままである。 ここでは,空間的に減少する損失率を有する1次元の損失格子上に,"imaginary Stark skin effect"(ISSE)と呼ばれる新しいNHSEのクラスを公表する。 このモデルのエネルギースペクトルはT字型の特徴を示し、左境界にほぼ半分の固有状態が局在している。 これらのスキンモードは、バルク領域内の単一の安定した指数減衰波として表される特異な挙動を示す。 本モデルでは, 転送行列法を用いてISSEの生成を解析する。 伝達行列の固有分解により、波動関数は2つの部分に分けられ、そのうちの1つはバルク内のスキンモードの挙動を支配している。 本研究は,翻訳対称性のないシステムにおけるNHSEに関する知見を提供し,一般の非エルミート系の理解に寄与する。

The non-Hermitian skin effect (NHSE) is a unique phenomenon in non-Hermitian systems. However, studies on NHSE in systems without translational symmetry remain largely unexplored. Here, we unveil a new class of NHSE, dubbed "imaginary Stark skin effect" (ISSE), in a one-dimensional lossy lattice with a spatially increasing loss rate. The energy spectrum of this model exhibits a T-shaped feature, with approximately half of the eigenstates localized at the left boundary. These skin modes exhibit peculiar behaviors, expressed as a single stable exponential decay wave within the bulk region. We use the transfer matrix method to analyze the formation of the ISSE in this model. According to the eigen-decomposition of the transfer matrix, the wave function is divided into two parts, one of which dominates the behavior of the skin modes in the bulk. Our findings provide insights into the NHSE in systems without translational symmetry and contribute to the understanding of non-Hermitian systems in general.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 通勤ハミルトニアンの散逸多体ダイナミクスの迅速熱化

Rapid thermalization of dissipative many-body dynamics of commuting Hamiltonians ( http://arxiv.org/abs/2404.16780v1 )

ライセンス: Link先を確認
Jan Kochanowski, Alvaro M. Alhambra, Angela Capel, Cambyse Rouzé, (参考訳) 量子系は通常、熱環境に結合するとより早く熱平衡に達する。 このプロセスの速度をバウンディングする一般的な方法は、散逸発生器のスペクトルギャップを推定することである。 しかし、このギャップ自体が、多体系の熱化時間に対する合理的な推定値であるとは限らない: さらなる構造がなければ、その上の均一な下限は、システムサイズと多項式的に成長する熱化時間のみを制約する。 ここでは、ダヴィーズ生成体の幾何的に2-局所モデルと通勤ハミルトニアンとの大規模なクラスにおいて、熱化時間は1よりずっと短くなることを示す:システムサイズにおいてほとんどの対数論的にこのギャップから推定する。これは、放散動力学の急激な混合をもたらす。この結果は、生成体の正のギャップからのみシステムサイズ独立崩壊率による急激な熱化を証明している1Dシステムに特に関係している。また、任意の次元の超立方体格子の系と、木のような指数グラフの系が高温で急激な混合を持つことも証明する。 これはギブズ州への熱化率や、関連するワッサーシュタイン距離や輸送コストの不等式にも影響する。 その過程で、通勤ハミルトニアンのギブス状態における相関の崩壊のいくつかの尺度が、独立な関心の結果、等価であることを示す。 技術的レベルでは、デービースとシュミットの力学特性の直接的な関係も示しており、両者の間で熱化の結果を伝達することができる。

Quantum systems typically reach thermal equilibrium rather quickly when coupled to a thermal environment. The usual way of bounding the speed of this process is by estimating the spectral gap of the dissipative generator. However the gap, by itself, does not always yield a reasonable estimate for the thermalization time in many-body systems: without further structure, a uniform lower bound on it only constrains the thermalization time to grow polynomially with system size. Here, instead, we show that for a large class of geometrically-2-local models of Davies generators with commuting Hamiltonians, the thermalization time is much shorter than one would na\"ively estimate from the gap: at most logarithmic in the system size. This yields the so-called rapid mixing of dissipative dynamics. The result is particularly relevant for 1D systems, for which we prove rapid thermalization with a system size independent decay rate only from a positive gap in the generator. We also prove that systems in hypercubic lattices of any dimension, and exponential graphs, such as trees, have rapid mixing at high enough temperatures. We do this by introducing a novel notion of clustering which we call "strong local indistinguishability" based on a max-relative entropy, and then proving that it implies a lower bound on the modified logarithmic Sobolev inequality (MLSI) for nearest neighbour commuting models. This has consequences for the rate of thermalization towards Gibbs states, and also for their relevant Wasserstein distances and transportation cost inequalities. Along the way, we show that several measures of decay of correlations on Gibbs states of commuting Hamiltonians are equivalent, a result of independent interest. At the technical level, we also show a direct relation between properties of Davies and Schmidt dynamics, that allows to transfer results of thermalization between both.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# Dual-isometric Projected Entangled Pair States

Dual-isometric Projected Entangled Pair States ( http://arxiv.org/abs/2404.16783v1 )

ライセンス: Link先を確認
Xie-Hang Yu, J. Ignacio Cirac, Pavel Kos, Georgios Styliaris, (参考訳) 高次元多体物理状態の効率的なキャラクタリゼーションは重要な課題を示す。 本稿では,2つの等尺条件を組み込んだプロジェクト・エンタングルド・ペア・ステート(PEPS)を提案する。 この新たなクラスは、一般的な局所可観測関数の効率的な計算や、一般的なPEPSやPEPSに対して1つの等尺的制約のみを課すような2点相関関数の効率的な計算を容易にする。 2つの等尺条件が組み込まれているにもかかわらず、我々のクラスは分析能力を高めながらリッチな物理構造を保っている。 可変パラメータの大規模なセットが特徴で、一般的なPEPSと比較すると、サブリード補正のみである。 さらに、このクラスが普遍的な量子計算を符号化し、位相的から自明な順序への遷移を表現できることを解析的に示す。

Efficient characterization of higher dimensional many-body physical states presents significant challenges. In this paper, we propose a new class of Project Entangled Pair State (PEPS) that incorporates two isometric conditions. This new class facilitates the efficient calculation of general local observables and certain two-point correlation functions, which have been previously shown to be intractable for general PEPS, or PEPS with only a single isometric constraint. Despite incorporating two isometric conditions, our class preserves the rich physical structure while enhancing the analytical capabilities. It features a large set of tunable parameters, with only a subleading correction compared to that of general PEPS. Furthermore, we analytically demonstrate that this class can encode universal quantum computations and can represent a transition from topological to trivial order.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# 量子アルゴリズムからロバストな解を得る

Harnessing Inferior Solutions For Superior Outcomes: Obtaining Robust Solutions From Quantum Algorithms ( http://arxiv.org/abs/2404.16784v1 )

ライセンス: Link先を確認
Pascal Halffmann, Steve Lenk, Michael Trebing, (参考訳) 量子最適化の急速に進歩する領域では、量子アニーリング(QA)や量子近似最適化アルゴリズム(QAOA)などの量子アルゴリズムと堅牢な最適化手法が相まって、最先端のフロンティアが提示される。 不確実性に直面して量子アルゴリズムを適用するのは自然に思えるが、これはほとんどアプローチされていない。 本稿では、上記の量子最適化手法を適用し、ロバストな最適化問題に取り組む。 量子アニールの固有確率性を活用し、QAOA内のパラメータと評価関数を調整することにより、ロバストな最適解を得るための2つの革新的な方法を提案する。 これらのヒューリスティックスをエネルギーセクター内の2つのユースケースに適用し、電力プラント運用のスケジューリングの中心となるユニットコミットメント問題と、太陽光発電(PV)からの電力を含む電気自動車(EV)を最適化してコストを最小化する。 これらの例は、エネルギー管理における意思決定を強化する量子最適化手法の可能性だけでなく、量子コンピューティング全般の若い分野の実践的関連性も強調している。 量子アルゴリズムを慎重に適用することで、我々は現実世界で発生する複雑な最適化シナリオにおいて、より信頼性が高く効率的なソリューションを実現する方法を模索する基礎を築いた。

In the rapidly advancing domain of quantum optimization, the confluence of quantum algorithms such as Quantum Annealing (QA) and the Quantum Approximate Optimization Algorithm (QAOA) with robust optimization methodologies presents a cutting-edge frontier. Although it seems natural to apply quantum algorithms when facing uncertainty, this has barely been approached. In this paper we adapt the aforementioned quantum optimization techniques to tackle robust optimization problems. By leveraging the inherent stochasticity of quantum annealing and adjusting the parameters and evaluation functions within QAOA, we present two innovative methods for obtaining robust optimal solutions. These heuristics are applied on two use cases within the energy sector: the unit commitment problem, which is central to the scheduling of power plant operations, and the optimization of charging electric vehicles (EVs) including electricity from photovoltaic (PV) to minimize costs. These examples highlight not only the potential of quantum optimization methods to enhance decision-making in energy management but also the practical relevance of the young field of quantum computing in general. Through careful adaptation of quantum algorithms, we lay the foundation for exploring ways to achieve more reliable and efficient solutions in complex optimization scenarios that occur in the real-world.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# ResVR: 全方位画像の同時再スケーリングとビューポートレンダリング

ResVR: Joint Rescaling and Viewport Rendering of Omnidirectional Images ( http://arxiv.org/abs/2404.16825v1 )

ライセンス: Link先を確認
Weiqi Li, Shijie Zhao, Bin Chen, Xinhua Cheng, Junlin Li, Li Zhang, Jian Zhang, (参考訳) 仮想現実技術の出現に伴い、高画質を保ちながら送信されたファイルサイズと保存されたファイルサイズを減らすため、全方位画像(ODI)再スケーリング技術がますます採用されている。 このような進展にもかかわらず、現在のODI再スケーリング手法は、頭部搭載ディスプレイ(HMD)で見るコンテンツが実際にはERP画像ではなく描画ビューポートであるという事実を無視する等角投影(ERP)フォーマットにおける画像の品質向上に重点を置いている。 本研究では,ERPの品質にのみ焦点をあてた結果,ユーザにとってビューポートの視覚的体験が劣っていることを強調する。 そこで我々は,ODIのリスケーリングとビューポートレンダリングを共同で行うための,初の包括的フレームワークであるResVRを提案する。 ResVRは、ユーザーがHMDで見るための高品質なビューポートをレンダリングしながら、伝送用のLR ERP画像を取得することができる。 ResVRでは、ビューポートとERPの複雑なマッピングに取り組むために、新しい離散画素サンプリング戦略を開発し、ResVRパイプラインのエンドツーエンドトレーニングを可能にした。 さらに、球面形状表現技術は、描画されたビューポートの視覚的品質を著しく向上させるために、球面微分から革新的に導出される。 我々のResVRは、様々な視野、解像度、方向のタスクにおいて、透過オーバーヘッドを低く保ちながら、既存のビューポートレンダリングタスクよりも優れています。

With the advent of virtual reality technology, omnidirectional image (ODI) rescaling techniques are increasingly embraced for reducing transmitted and stored file sizes while preserving high image quality. Despite this progress, current ODI rescaling methods predominantly focus on enhancing the quality of images in equirectangular projection (ERP) format, which overlooks the fact that the content viewed on head mounted displays (HMDs) is actually a rendered viewport instead of an ERP image. In this work, we emphasize that focusing solely on ERP quality results in inferior viewport visual experiences for users. Thus, we propose ResVR, which is the first comprehensive framework for the joint Rescaling and Viewport Rendering of ODIs. ResVR allows obtaining LR ERP images for transmission while rendering high-quality viewports for users to watch on HMDs. In our ResVR, a novel discrete pixel sampling strategy is developed to tackle the complex mapping between the viewport and ERP, enabling end-to-end training of ResVR pipeline. Furthermore, a spherical pixel shape representation technique is innovatively derived from spherical differentiation to significantly improve the visual quality of rendered viewports. Extensive experiments demonstrate that our ResVR outperforms existing methods in viewport rendering tasks across different fields of view, resolutions, and view directions while keeping a low transmission overhead.
翻訳日:2024-04-26 12:41:33 公開日:2024-04-25
# FedTAD:グラフフェデレーション学習のためのトポロジ対応データフリー知識蒸留

FedTAD: Topology-aware Data-free Knowledge Distillation for Subgraph Federated Learning ( http://arxiv.org/abs/2404.14061v2 )

ライセンス: Link先を確認
Yinlin Zhu, Xunkai Li, Zhengyu Wu, Di Wu, Miao Hu, Rong-Hua Li, (参考訳) サブグラフフェデレーション学習(Subgraph Federated Learning, Subgraph-FL)は、グラフニューラルネットワーク(GNN)の多目的サブグラフによる協調トレーニングを容易にする新しい分散パラダイムである。 残念ながら、サブグラフFLの重大な課題は、ノードとトポロジの変動に起因するサブグラフの不均一性から生じ、グローバルGNNの性能を損なう。 様々な研究にもかかわらず、彼らはまだサブグラフの不均一性の影響メカニズムを徹底的に研究していない。 この目的のために、ノードとトポロジのばらつきを分離し、ラベル分布と構造ホモフィリーの違いに対応することを示した。 注目すべきは、これらのバリエーションは、複数の局所的なGNNのクラスレベルでの知識信頼性に大きな違いをもたらし、モデルの集約を様々な程度に誤解させる。 この知見に基づいて,局所モデルからグローバルモデルへの信頼性の高い知識伝達を向上するトポロジ対応データフリーな知識蒸留技術 (FedTAD) を提案する。 6つの公開データセットに対する大規模な実験は、最先端のベースラインよりもFedTADの方が優れていることを一貫して示している。

Subgraph federated learning (subgraph-FL) is a new distributed paradigm that facilitates the collaborative training of graph neural networks (GNNs) by multi-client subgraphs. Unfortunately, a significant challenge of subgraph-FL arises from subgraph heterogeneity, which stems from node and topology variation, causing the impaired performance of the global GNN. Despite various studies, they have not yet thoroughly investigated the impact mechanism of subgraph heterogeneity. To this end, we decouple node and topology variation, revealing that they correspond to differences in label distribution and structure homophily. Remarkably, these variations lead to significant differences in the class-wise knowledge reliability of multiple local GNNs, misguiding the model aggregation with varying degrees. Building on this insight, we propose topology-aware data-free knowledge distillation technology (FedTAD), enhancing reliable knowledge transfer from the local model to the global model. Extensive experiments on six public datasets consistently demonstrate the superiority of FedTAD over state-of-the-art baselines.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 信頼の連鎖:コモン・クレーテリア認定商品における参照の発見

Chain of trust: Unraveling references among Common Criteria certified products ( http://arxiv.org/abs/2404.14246v2 )

ライセンス: Link先を確認
Adam Janovsky, Łukasz Chmielewski, Petr Svenda, Jan Jancar, Vashek Matyas, (参考訳) IT製品とシステムのセキュリティ証明書5394により、Common Criteria for Information Technology Security Evaluation(情報技術セキュリティ評価共通基準)は、認定された製品とさまざまな種類の関係に絡み合ったエコシステムを育んでいる。 しかし、Common Criteria認定製品における依存性の頻度と性質はほとんど解明されていない。 本研究は,Common Criteria認定商品間の参照グラフの構築,教師付き機械学習アルゴリズムによる参照の異なるコンテキストの決定,および,認定商品間の実際の依存度を計測する新しい手法を提案する。 この研究は、結果の参照グラフの助けを借りて、エコシステム全体の少なくとも10%が依存している認証済みのコンポーネントをわずか10個特定する。 それらの妥協の影響が評価され、アーカイブ製品への潜在的に問題のある参照が議論される。

With 5394 security certificates of IT products and systems, the Common Criteria for Information Technology Security Evaluation have bred an ecosystem entangled with various kind of relations between the certified products. Yet, the prevalence and nature of dependencies among Common Criteria certified products remains largely unexplored. This study devises a novel method for building the graph of references among the Common Criteria certified products, determining the different contexts of references with a supervised machine-learning algorithm, and measuring how often the references constitute actual dependencies between the certified products. With the help of the resulting reference graph, this work identifies just a dozen of certified components that are relied on by at least 10% of the whole ecosystem -- making them a prime target for malicious actors. The impact of their compromise is assessed and potentially problematic references to archived products are discussed.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# Adaptive Local Binary Pattern: アンサンブルに基づく機械学習アプローチを用いたCTスキャン画像の腎異常解析のための新しい特徴記述子

Adaptive Local Binary Pattern: A Novel Feature Descriptor for Enhanced Analysis of Kidney Abnormalities in CT Scan Images using ensemble based Machine Learning Approach ( http://arxiv.org/abs/2404.14560v2 )

ライセンス: Link先を確認
Tahmim Hossain, Faisal Sayed, Solehin Islam, (参考訳) 腎科医の不足と腎不全に対する公衆衛生上の懸念が高まり、腎臓の異常を自律的に検出できるAIシステムへの需要が高まった。 腎機能低下を特徴とする腎不全は、嚢胞、石、腫瘍などの要因によって引き起こされる。 慢性腎臓病は早期に発症し、進行期に達するまで治療を受けない症例が生じることがある。 ダッカの複数の病院で撮影された12,427枚の画像からなるデータセットは、嚢胞、腫瘍、石、正常の4つのグループに分類された。 提案手法は,Cropping,Resizing,CALHEを用いてCTスキャン画像の品質を向上させることを目的としており,続いてAdaptive Local Binary Pattern (A-LBP) 特徴抽出法を,最先端のローカルバイナリパターン (LBP) 法と比較した。 提案する特徴は,ランダムフォレスト,決定木,ナイーブベイズ,K-Nearest Neighbor,SVMなどの分類器に伝達される。 我々は,より堅牢なタスクモデルを得るために,ソフト投票によるアンサンブルモデルを探索した。 特徴記述子と5つの分類子(Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, Support Vector Machine)をソフト投票方式で組み合わせることで,99%以上の精度が得られた。

The shortage of nephrologists and the growing public health concern over renal failure have spurred the demand for AI systems capable of autonomously detecting kidney abnormalities. Renal failure, marked by a gradual decline in kidney function, can result from factors like cysts, stones, and tumors. Chronic kidney disease may go unnoticed initially, leading to untreated cases until they reach an advanced stage. The dataset, comprising 12,427 images from multiple hospitals in Dhaka, was categorized into four groups: cyst, tumor, stone, and normal. Our methodology aims to enhance CT scan image quality using Cropping, Resizing, and CALHE techniques, followed by feature extraction with our proposed Adaptive Local Binary Pattern (A-LBP) feature extraction method compared with the state-of-the-art local binary pattern (LBP) method. Our proposed features fed into classifiers such as Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, and SVM. We explored an ensemble model with soft voting to get a more robust model for our task. We got the highest of more than 99% in accuracy using our feature descriptor and ensembling five classifiers (Random Forest, Decision Tree, Naive Bayes, K-Nearest Neighbor, Support Vector Machine) with the soft voting method.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# FlashSpeech:効率的なゼロショット音声合成

FlashSpeech: Efficient Zero-Shot Speech Synthesis ( http://arxiv.org/abs/2404.14700v3 )

ライセンス: Link先を確認
Zhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue, (参考訳) 大規模ゼロショット音声合成の最近の進歩は言語モデルや拡散モデルによって著しく進歩している。 しかし、両手法の生成プロセスは遅く、計算集約的である。 従来の作業に匹敵する品質を実現するために,低予算の音声合成を効果的に行うことは,依然として大きな課題である。 本稿では,従来に比べて推定時間の約5倍の大規模ゼロショット音声合成システムであるFlashSpeechを提案する。 FlashSpeechは遅延一貫性モデルに基づいて構築されており、教師としてトレーニング済みの拡散モデルを必要としない、スクラッチからトレーニング可能な、新しい逆整合トレーニングアプローチを採用している。 さらに、新しい韻律生成モジュールは、韻律の多様性を高め、音声のリズムをより自然にする。 FlashSpeechの生成プロセスは、ゼロショット音声生成のための音声プロンプトに高い音質と高い類似性を維持しつつ、1つか2つのサンプリングステップで効率よく実現できる。 実験の結果,FlashSpeechの優れた性能が示された。 特に、FlashSpeechは、他のゼロショット音声合成システムよりも約20倍高速で、音声品質と類似性の点で同等の性能を維持している。 さらに、FlashSpeechは、音声変換、音声編集、多様な音声サンプリングといったタスクを効率的に実行することで、その汎用性を示す。 オーディオサンプルはhttps://flashspeech.github.io/で確認できる。

Recent progress in large-scale zero-shot speech synthesis has been significantly advanced by language models and diffusion models. However, the generation process of both methods is slow and computationally intensive. Efficient speech synthesis using a lower computing budget to achieve quality on par with previous work remains a significant challenge. In this paper, we present FlashSpeech, a large-scale zero-shot speech synthesis system with approximately 5\% of the inference time compared with previous work. FlashSpeech is built on the latent consistency model and applies a novel adversarial consistency training approach that can train from scratch without the need for a pre-trained diffusion model as the teacher. Furthermore, a new prosody generator module enhances the diversity of prosody, making the rhythm of the speech sound more natural. The generation processes of FlashSpeech can be achieved efficiently with one or two sampling steps while maintaining high audio quality and high similarity to the audio prompt for zero-shot speech generation. Our experimental results demonstrate the superior performance of FlashSpeech. Notably, FlashSpeech can be about 20 times faster than other zero-shot speech synthesis systems while maintaining comparable performance in terms of voice quality and similarity. Furthermore, FlashSpeech demonstrates its versatility by efficiently performing tasks like voice conversion, speech editing, and diverse speech sampling. Audio samples can be found in https://flashspeech.github.io/.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 継続的学習のためのニューラルネットワークの再検討:アーキテクチャ的視点

Revisiting Neural Networks for Continual Learning: An Architectural Perspective ( http://arxiv.org/abs/2404.14829v2 )

ライセンス: Link先を確認
Aojun Lu, Tao Feng, Hangjie Yuan, Xiaotian Song, Yanan Sun, (参考訳) 破滅的な忘れを克服する努力は、主により効果的な継続的学習(CL)手法の開発に焦点を当ててきた。 対照的に、CLへの貢献におけるネットワークアーキテクチャ設計(例えば、ネットワーク深さ、幅、コンポーネント)の役割を分析することにはあまり注意が払われなかった。 本稿では,ネットワークアーキテクチャ設計とCLのこのギャップを埋めることと,ネットワークアーキテクチャがCLに与える影響に関する総合的研究を提案する。 この研究は、ネットワークスケーリングレベルでのアーキテクチャ設計、すなわち幅と深さ、およびネットワークコンポーネント、すなわち接続のスキップ、グローバルプール層、ダウンサンプリングについても検討している。 どちらの場合も、アーキテクチャ設計がCLにどのように影響するかを体系的に検討することで、まず洞察を導き出します。 そして、これらの知見に基づいて、CLのための特別な検索スペースを構築し、CLフレンドリーなアーキテクチャ、すなわちこのメソッドがAlexNet/ResNetをAlexAC/ResACに再構成する、シンプルで効果的なArchCraftメソッドを提案する。 さまざまなCL設定やシナリオに対する実験的検証では、改善されたアーキテクチャはパラメータ効率が高く、タスクILやクラスILの単純なCLアーキテクチャよりも86%、61%、97%コンパクトである。 コードはhttps://github.com/byyx666/ArchCraft.comで入手できる。

Efforts to overcome catastrophic forgetting have primarily centered around developing more effective Continual Learning (CL) methods. In contrast, less attention was devoted to analyzing the role of network architecture design (e.g., network depth, width, and components) in contributing to CL. This paper seeks to bridge this gap between network architecture design and CL, and to present a holistic study on the impact of network architectures on CL. This work considers architecture design at the network scaling level, i.e., width and depth, and also at the network components, i.e., skip connections, global pooling layers, and down-sampling. In both cases, we first derive insights through systematically exploring how architectural designs affect CL. Then, grounded in these insights, we craft a specialized search space for CL and further propose a simple yet effective ArchCraft method to steer a CL-friendly architecture, namely, this method recrafts AlexNet/ResNet into AlexAC/ResAC. Experimental validation across various CL settings and scenarios demonstrates that improved architectures are parameter-efficient, achieving state-of-the-art performance of CL while being 86%, 61%, and 97% more compact in terms of parameters than the naive CL architecture in Task IL and Class IL. Code is available at https://github.com/byyx666/ArchCraft.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# エンティティ・リゾリューションのためのユニバーサル・ディエンス・ブロッキングを目指して

Towards Universal Dense Blocking for Entity Resolution ( http://arxiv.org/abs/2404.14831v2 )

ライセンス: Link先を確認
Tianshu Wang, Hongyu Lin, Xianpei Han, Xiaoyang Chen, Boxi Cao, Le Sun, (参考訳) ブロッキングはエンティティ解決における重要なステップであり、ニューラルネットワークベースの表現モデルの出現は、ブロッキングの深いセマンティクスを探求するための有望なアプローチとして、密ブロッキングの開発につながっている。 しかし、従来の先進的な自己監督型高密度ブロッキングアプローチは、これらの手法の利点と迅速な適応を制限する、対象領域でのドメイン固有の訓練を必要とする。 この問題に対処するため,UniBlockerを提案する。UniBlockerは,自己教師付きコントラスト学習を用いて,ドメインに依存しない,分かり易い表型コーパス上で事前学習を行う密集型ブロッカである。 ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。 エンティティブロッカーの普遍性を評価するため、複数のドメインやシナリオから幅広いブロッキングタスクをカバーする新しいベンチマークを構築した。 提案したUniBlockerは,ドメイン固有の学習を伴わずに,従来の自己および教師なし密なブロッキング手法を著しく上回り,最先端のスパースブロッキング手法と同等かつ相補的であることを示す。

Blocking is a critical step in entity resolution, and the emergence of neural network-based representation models has led to the development of dense blocking as a promising approach for exploring deep semantics in blocking. However, previous advanced self-supervised dense blocking approaches require domain-specific training on the target domain, which limits the benefits and rapid adaptation of these methods. To address this issue, we propose UniBlocker, a dense blocker that is pre-trained on a domain-independent, easily-obtainable tabular corpus using self-supervised contrastive learning. By conducting domain-independent pre-training, UniBlocker can be adapted to various downstream blocking scenarios without requiring domain-specific fine-tuning. To evaluate the universality of our entity blocker, we also construct a new benchmark covering a wide range of blocking tasks from multiple domains and scenarios. Our experiments show that the proposed UniBlocker, without any domain-specific learning, significantly outperforms previous self- and unsupervised dense blocking methods and is comparable and complementary to the state-of-the-art sparse blocking methods.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 多レベルアライメントによるドメイン適応ポーズ推定

Domain adaptive pose estimation via multi-level alignment ( http://arxiv.org/abs/2404.14885v2 )

ライセンス: Link先を確認
Yugan Chen, Lin Zhao, Yalong Xu, Honglei Zu, Xiaoqi An, Guangyu Li, (参考訳) ドメイン適応ポーズ推定は、ソースドメイン(合成された)データセットでトレーニングされたディープモデルが、ターゲットドメイン(現実世界)データセットで同様の結果を生成することを目的としている。 既存の手法は、画像レベルのアライメントや特徴レベルのアライメントを実行することで大きな進歩を遂げている。 しかし、単一のレベルで整列するだけでは、ドメインギャップを完全にブリッジし、優れたドメイン適応結果を得るには不十分です。 本稿では,画像,特徴,ポーズレベルに異なる領域をアライメントするマルチレベルドメイン適応アプラッハを提案する。 具体的には、まず、ソースとターゲットドメインの画像が同じ分布であることを保証するために、イメージスタイルトランスを用いる。 続いて、特徴レベルにおいて、ソースとターゲットドメインからの特徴を最大限に保存するために、敵の訓練を実践する。 最後に、ポーズレベルでは、モデルがさまざまな知識を学習し、ドメインギャップに暗黙的に対処できるように、自己監督的なアプローチが利用されます。 実験の結果, 提案手法により, 従来のヒトのポーズでは2.4%, 動物のポーズでは3.1%, ヒツジでは1.4%と有意な改善が得られた。

Domain adaptive pose estimation aims to enable deep models trained on source domain (synthesized) datasets produce similar results on the target domain (real-world) datasets. The existing methods have made significant progress by conducting image-level or feature-level alignment. However, only aligning at a single level is not sufficient to fully bridge the domain gap and achieve excellent domain adaptive results. In this paper, we propose a multi-level domain adaptation aproach, which aligns different domains at the image, feature, and pose levels. Specifically, we first utilize image style transer to ensure that images from the source and target domains have a similar distribution. Subsequently, at the feature level, we employ adversarial training to make the features from the source and target domains preserve domain-invariant characeristics as much as possible. Finally, at the pose level, a self-supervised approach is utilized to enable the model to learn diverse knowledge, implicitly addressing the domain gap. Experimental results demonstrate that significant imrovement can be achieved by the proposed multi-level alignment method in pose estimation, which outperforms previous state-of-the-art in human pose by up to 2.4% and animal pose estimation by up to 3.1% for dogs and 1.4% for sheep.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 拡張時系列予測のための量子畳み込みニューラルネットワークのフーリエシリーズガイド設計

Fourier Series Guided Design of Quantum Convolutional Neural Networks for Enhanced Time Series Forecasting ( http://arxiv.org/abs/2404.15377v2 )

ライセンス: Link先を確認
Sandra Leticia Juárez Osorio, Mayra Alejandra Rivera Ruiz, Andres Mendez-Vazquez, Eduardo Rodriguez-Tello, (参考訳) 本研究では,時系列予測の課題に1次元量子畳み込みを適用した。 複数の点を量子回路に符号化して後続のデータを予測することで、各点が特徴となり、問題を多次元に変換する。 可変量子回路(VQC)を多次元フーリエ級数として表現できることを実証した先行研究の理論的基礎に基づいて、異なるアーキテクチャとアンザッツの能力について検討する。 この分析は、回路表現可能性の概念とバレンプラトーの存在を考察する。 Fourierシリーズのフレームワーク内での問題を分析することで、データ再アップロードを組み込んだアーキテクチャの設計が可能となり、パフォーマンスが向上した。 フーリエ級数の自由度を超える自由パラメータの数に対する厳密な要件ではなく、限られた数のパラメータでさえ高い次数のフーリエ函数を生成できることを示す。 これは量子回路の顕著な表現力を強調している。 この観察は、トレーニング時間を短縮する上でも重要である。 表現性が高く、非ゼロフーリエ係数の数が多いアンサッツは、キュービット数が増加するにつれてパフォーマンス指標が向上するなど、異なるシナリオで常に良好な結果をもたらす。

In this study, we apply 1D quantum convolution to address the task of time series forecasting. By encoding multiple points into the quantum circuit to predict subsequent data, each point becomes a feature, transforming the problem into a multidimensional one. Building on theoretical foundations from prior research, which demonstrated that Variational Quantum Circuits (VQCs) can be expressed as multidimensional Fourier series, we explore the capabilities of different architectures and ansatz. This analysis considers the concepts of circuit expressibility and the presence of barren plateaus. Analyzing the problem within the framework of the Fourier series enabled the design of an architecture that incorporates data reuploading, resulting in enhanced performance. Rather than a strict requirement for the number of free parameters to exceed the degrees of freedom of the Fourier series, our findings suggest that even a limited number of parameters can produce Fourier functions of higher degrees. This highlights the remarkable expressive power of quantum circuits. This observation is also significant in reducing training times. The ansatz with greater expressibility and number of non-zero Fourier coefficients consistently delivers favorable results across different scenarios, with performance metrics improving as the number of qubits increases.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 深層学習を用いたENSO予測の初期誤差感度の同定

Using Deep Learning to Identify Initial Error Sensitivity of ENSO Forecasts ( http://arxiv.org/abs/2404.15419v2 )

ライセンス: Link先を確認
Kinya Toride, Matthew Newman, Andrew Hoell, Antonietta Capotondi, Jakob Schlör, Dillon Amaya, (参考訳) モデルシミュレーションのレポジトリにおいて,モデル・アナログ予測と深層学習を統合するハイブリッド手法を提案する。 このハイブリッドフレームワークは、畳み込みニューラルネットワークを使用して、状態依存の重みを推定し、アナログ状態を特定する。 提案手法の利点は, 推定重みによる初期エラー感応領域の洞察と, アナログ予測によるシステムの物理的時間的進化を追跡できる点にある。 我々は,コミュニティアースシステムモデルバージョン2大アンサンブルを用いて,季節ごとの時間スケールでエルニコ~南方振動(ENSO)を予測した。 その結果,9~12ヶ月の赤道太平洋における海面温度異常の予測は従来のモデルアナログ法と比較して10%改善した。 さらに,本モデルでは, 実冬と春の初生化が, リアナリシスデータセットと比較した場合に改善されることが示されている。 深層学習に基づくアプローチでは,太平洋メリディショナルモード,赤道リチャージ発振器,確率風力など,季節によって変化する様々な物理過程に関連付けられた状態依存感度が明らかになった。 特に、El Ni\no および La Ni\~na イベントに関連する感度に相違が生じる。 熱帯太平洋の海面温度はエル・ニ・ナの予測においてより重要な役割を担っているのに対し、同じ地域の帯状風力はラ・ニ・ナの予測においてより重要な役割を担っている。 このアプローチは、地域温度や降水量を含む多様な気候現象を予測するために幅広い意味を持ち、従来のモデル・アナログ予測法では難しい。

We introduce a hybrid method that integrates deep learning with model-analog forecasting, a straightforward yet effective approach that generates forecasts from similar initial climate states in a repository of model simulations. This hybrid framework employs a convolutional neural network to estimate state-dependent weights to identify analog states. The advantage of our method lies in its physical interpretability, offering insights into initial-error-sensitive regions through estimated weights and the ability to trace the physically-based temporal evolution of the system through analog forecasting. We evaluate our approach using the Community Earth System Model Version 2 Large Ensemble to forecast the El Ni\~no-Southern Oscillation (ENSO) on a seasonal-to-annual time scale. Results show a 10% improvement in forecasting sea surface temperature anomalies over the equatorial Pacific at 9-12 months leads compared to the traditional model-analog technique. Furthermore, our hybrid model demonstrates improvements in boreal winter and spring initialization when evaluated against a reanalysis dataset. Our deep learning-based approach reveals state-dependent sensitivity linked to various seasonally varying physical processes, including the Pacific Meridional Modes, equatorial recharge oscillator, and stochastic wind forcing. Notably, disparities emerge in the sensitivity associated with El Ni\~no and La Ni\~na events. We find that sea surface temperature over the tropical Pacific plays a more crucial role in El Ni\~no forecasting, while zonal wind stress over the same region exhibits greater significance in La Ni\~na prediction. This approach has broad implications for forecasting diverse climate phenomena, including regional temperature and precipitation, which are challenging for the traditional model-analog forecasting method.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# 量子ドットの絡み合い:動的サセプティビリティと量子漁業情報から

Entanglement in Quantum Dots: Insights from Dynamic Susceptibility and Quantum Fisher Information ( http://arxiv.org/abs/2404.15477v2 )

ライセンス: Link先を確認
Jahanfar Abouie, Daryoosh Vashaee, (参考訳) 本研究では,量子ドット(QD)の粒子間クーロン相互作用を電荷エネルギーと交換結合項に分解するハミルトニアンの下での絡み合い特性について検討した。 この形式主義は典型的には電荷とスピン成分を分離するが、閉じ込めによって引き起こされるエネルギー分割は系の予期せぬ絡みを引き起こす。 動的感受性と量子フィッシャー情報(QFI)を解析することにより、交換定数、温度変動、閉じ込め効果に影響される興味深い挙動を明らかにする。 Ising QDsは、QDが乱れた常磁性相にあるストーナー不安定点よりはるかに低い位置にあり、予想外の温度低下によって絡み合いが減少し、従来の期待に反する。 逆に、異方性ハイゼンベルク模型は等方点付近の強い絡み合いを示す。 本研究は,QDにおける交換相互作用と絡み合いの複雑な相互作用に注目し,トポロジカルな絡み合いと絡み合いの影響に関する今後の研究の基盤となっている。 全体として、この研究は量子技術におけるQDの絡み合いの理解と潜在的な応用に寄与する。

This study investigates the entanglement properties of quantum dots (QDs) under a universal Hamiltonian where the Coulomb interaction between particles (electrons or holes) decouples into a charging energy and an exchange coupling term. While this formalism typically decouples the charge and spin components, the confinement-induced energy splitting can induce unexpected entanglement in the system. By analyzing the dynamic susceptibility and quantum Fisher information (QFI), we uncover intriguing behaviors influenced by exchange constants, temperature variations, and confinement effects. In Ising QDs, far below the Stoner instability point where the QD is in a disordered paramagnetic phase, temperature reductions unexpectedly lead to decreased entanglement, challenging conventional expectations. Conversely, anisotropic Heisenberg models exhibit enhanced entanglement near isotropic points. Our findings highlight the intricate interplay between exchange interactions and entanglement in QDs, laying the groundwork for future studies on topological entanglement and the influence of entanglement on material properties. Overall, this work contributes to advancing our understanding of entanglement in QDs and its potential applications in quantum technologies.
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25
# NeuraChip: ハッシュベースのデカップリング空間加速器によるGNN計算の高速化

NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator ( http://arxiv.org/abs/2404.15510v2 )

ライセンス: Link先を確認
Kaustubh Shivdikar, Nicolas Bohm Agostini, Malith Jayaweera, Gilbert Jonatan, Jose L. Abellan, Ajay Joshi, John Kim, David Kaeli, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析からバイオインフォマティクスまで、さまざまな領域にわたる非ユークリッドデータを処理するための、恐ろしいツールとして登場している。 その効果にもかかわらず、大規模なグラフデータセットに関連するスケーラビリティ上の課題、特にメッセージパッシングを利用した場合、採用は広範に行われていない。 これらの課題に対処するために、Gustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。 NeuraChipはスパース行列乗算における乗算と加算計算を分離する。 この分離により、独自のデータ依存関係を独立して活用することができ、効率的なリソース割り当てが容易になる。 本稿では,オンチップメモリにおけるデータのアイドリングを軽減し,スパースグラフ計算におけるメモリ肥大問題に対処するためのローリングエビクション戦略を提案する。 さらに、動的再検索ハッシュベースのマッピングによって計算リソースの負荷分散を実現し、スパーシティパターンに依存しない計算リソースの均一な利用を確保する。 最後に,包括的性能解析のためのオープンソース,サイクル精度,マルチスレッド,モジュールシミュレータであるNeuraSimを紹介する。 全体として、NeuraChipはIntelのMKLよりも平均22.1倍、NVIDIAのcuSPARSEより17.1倍、AMDのhipSPARSEより16.7倍、最先端のSpGEMMアクセラレータより1.5倍、GNNアクセラレータより平均1.3倍のスピードアップを実現している。 オープンソースシミュレータとパフォーマンスビジュアライザのソースコードはGitHub https://neurachip.usで公開されている。

Graph Neural Networks (GNNs) are emerging as a formidable tool for processing non-euclidean data across various domains, ranging from social network analysis to bioinformatics. Despite their effectiveness, their adoption has not been pervasive because of scalability challenges associated with large-scale graph datasets, particularly when leveraging message passing. To tackle these challenges, we introduce NeuraChip, a novel GNN spatial accelerator based on Gustavson's algorithm. NeuraChip decouples the multiplication and addition computations in sparse matrix multiplication. This separation allows for independent exploitation of their unique data dependencies, facilitating efficient resource allocation. We introduce a rolling eviction strategy to mitigate data idling in on-chip memory as well as address the prevalent issue of memory bloat in sparse graph computations. Furthermore, the compute resource load balancing is achieved through a dynamic reseeding hash-based mapping, ensuring uniform utilization of computing resources agnostic of sparsity patterns. Finally, we present NeuraSim, an open-source, cycle-accurate, multi-threaded, modular simulator for comprehensive performance analysis. Overall, NeuraChip presents a significant improvement, yielding an average speedup of 22.1x over Intel's MKL, 17.1x over NVIDIA's cuSPARSE, 16.7x over AMD's hipSPARSE, and 1.5x over prior state-of-the-art SpGEMM accelerator and 1.3x over GNN accelerator. The source code for our open-sourced simulator and performance visualizer is publicly accessible on GitHub https://neurachip.us
翻訳日:2024-04-26 12:31:48 公開日:2024-04-25