このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231231となっている論文です。

PDF登録状況(公開日: 20231231)

TitleAuthorsAbstract論文公表日・翻訳日
# SDNで実現可能な産業IoT環境のためのブロックチェーンとディープラーニングベースのIDS

Blockchain and Deep Learning-Based IDS for Securing SDN-Enabled Industrial IoT Environments ( http://arxiv.org/abs/2401.00468v1 )

ライセンス: Link先を確認
Samira Kamali Poorazad, Chafika Benzaıd, Tarik Taleb, (参考訳) 産業用IoT(Industrial Internet of Things)は、IoT(Internet of Things)技術を産業用環境に統合する。 しかし、産業制御システムネットワークとIIoTのセキュリティに対する業界の高感度さを考えると、SDN(Software-Defined Network)技術を使用することで、通信プロセスのセキュリティと自動化が向上する。 それにもかかわらず、SDNのアーキテクチャは様々なセキュリティ脅威を引き起こす可能性がある。 したがって、これらの脅威がSDNベースのIIoT環境に与える影響を考慮することが最重要となる。 IIoTとSDNアーキテクチャのセキュリティを別々に重視した以前の研究とは異なり、SDNベースのIIoTアーキテクチャに関連するセキュリティ脅威の検出と防止のために、シームレスに連携する2つのコンポーネントを含む統合手法を提案する。 この2つのコンポーネントはそれぞれ、SDNアプリケーションとして実装された畳み込みニューラルネットワークベースの侵入検知システム(IDS)と、アプリケーション層とネットワーク層セキュリティを強化するBlockchainベースのシステム(BS)で構成されている。 提案手法の大きな利点は、SDNベースのIIoTアーキテクチャ層に対するコマンドインジェクションやルールインジェクションといった攻撃の影響を最小化することにある。 提案したIDSは、二進分類と多進分類の両方において優れた分類精度を示す。

The industrial Internet of Things (IIoT) involves the integration of Internet of Things (IoT) technologies into industrial settings. However, given the high sensitivity of the industry to the security of industrial control system networks and IIoT, the use of software-defined networking (SDN) technology can provide improved security and automation of communication processes. Despite this, the architecture of SDN can give rise to various security threats. Therefore, it is of paramount importance to consider the impact of these threats on SDN-based IIoT environments. Unlike previous research, which focused on security in IIoT and SDN architectures separately, we propose an integrated method including two components that work together seamlessly for better detecting and preventing security threats associated with SDN-based IIoT architectures. The two components consist in a convolutional neural network-based Intrusion Detection System (IDS) implemented as an SDN application and a Blockchain-based system (BS) to empower application layer and network layer security, respectively. A significant advantage of the proposed method lies in jointly minimizing the impact of attacks such as command injection and rule injection on SDN-based IIoT architecture layers. The proposed IDS exhibits superior classification accuracy in both binary and multiclass categories.
翻訳日:2024-03-25 12:57:08 公開日:2023-12-31
# Pandoraの箱を開く: カスタムGPTの時代に知っておくべきこと

Opening A Pandora's Box: Things You Should Know in the Era of Custom GPTs ( http://arxiv.org/abs/2401.00905v1 )

ライセンス: Link先を確認
Guanhong Tao, Siyuan Cheng, Zhuo Zhang, Junmin Zhu, Guangyu Shen, Xiangyu Zhang, (参考訳) 大規模言語モデル(LLM)の出現は、様々な分野にわたる幅広いアプリケーションの開発を著しく加速させてきた。 OpenAI が新たに導入したカスタム GPT など,LSM に基づいた専用プラットフォームの構築が進んでいる。 カスタムのGPTはWebブラウジングやコード実行といったさまざまな機能を提供する一方で、重大なセキュリティ脅威も導入している。 本稿では,カスタムGPTプラットフォームから生じるセキュリティとプライバシの問題を包括的に分析する。 本研究は,攻撃シナリオを悪意のあるアクターの役割に基づく3つの脅威モデルに分類し,GPTにおける重要なデータ交換チャネルを同定する。 STRIDE脅威モデリングフレームワークを利用することで、26の潜在的な攻撃ベクトルを特定し、19は現実の環境で部分的にまたは完全に検証されている。 当社の調査結果は,特にOpenAIによる公式GPTストアのローンチを契機に,カスタムGPTエコシステムにおける堅牢なセキュリティとプライバシ対策の緊急性の必要性を強調した。

The emergence of large language models (LLMs) has significantly accelerated the development of a wide range of applications across various fields. There is a growing trend in the construction of specialized platforms based on LLMs, such as the newly introduced custom GPTs by OpenAI. While custom GPTs provide various functionalities like web browsing and code execution, they also introduce significant security threats. In this paper, we conduct a comprehensive analysis of the security and privacy issues arising from the custom GPT platform. Our systematic examination categorizes potential attack scenarios into three threat models based on the role of the malicious actor, and identifies critical data exchange channels in custom GPTs. Utilizing the STRIDE threat modeling framework, we identify 26 potential attack vectors, with 19 being partially or fully validated in real-world settings. Our findings emphasize the urgent need for robust security and privacy measures in the custom GPT ecosystem, especially in light of the forthcoming launch of the official GPT store by OpenAI.
翻訳日:2024-03-25 12:57:08 公開日:2023-12-31
# 中本合意のセキュリティ・レイテンシ・アウトプットのトレードオフ

Trade-off of Security, Latency, and Throughput of the Nakamoto Consensus ( http://arxiv.org/abs/2312.05506v2 )

ライセンス: Link先を確認
Shu-Jie Cao, Dongning Guo, (参考訳) 本稿は,中本コンセンサス(中本コンセンサス)としても知られる,作業長鎖プロトコルのセキュリティ,レイテンシ,スループットの基本的なトレードオフを論じる。 取引の安全性を損なう可能性の新たな上限と下位境界は、正反対のマイニングレート、ブロック伝搬遅延の上限、およびトランザクション確認遅延の関数として、時間とブロック深さの両方で導出される。 その結果は、すべての遅延に適応する最初の閉形式有限レイテンシと、究極の耐故障性までマイニングレートを含む。 特に、Bitcoinと仕事の証明Ethereumに関連するほとんどのパラメータでは、上と下の境界の間のギャップは、以前文献で確立された最高のギャップよりも大幅に狭められている。 さらに,所望の耐障害性によって決定されるトランザクションスループットと確認遅延の基本的なトレードオフと,ブロックサイズの増加に伴うブロック伝搬遅延の増大を明らかにする。

This paper delves into the fundamental trade-off between security, latency, and throughput in proof-of-work longest-chain-wins protocols, also known as the Nakamoto consensus. New upper and lower bounds on the probability of violating transaction safety are derived as a function of honest and adversarial mining rates, an upper bound on block propagation delays, and transaction confirmation latency, both in time and in block depth. The results include a first closed-form finite-latency bound applicable to all delays and mining rates up to the ultimate fault tolerance. Notably, for most parameters relevant to Bitcoin and proof-of-work Ethereum, the gap between the upper and lower bounds is significantly narrower than the best gaps previously established in the literature. Furthermore, the paper reveals a fundamental trade-off between transaction throughput and confirmation latency, ultimately determined by the desired fault tolerance and the growth of block propagation delay as block size increases.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-31
# 数学的説明

Mathematical Explanations ( http://arxiv.org/abs/2402.09413v1 )

ライセンス: Link先を確認
Joseph Y. Halpern(参考訳) 数学的ステートメントの説明として数えられるものの定義があり、ある説明が他の説明より優れている場合は与えられる。 すべての数学的事実はすべての因果モデルにおいて真でなければならず、従ってエージェントによって知られているので、数学的事実は(説明の標準的な概念の下で)説明の一部にはならない。 この問題は不可能可能な世界を使って解決される。

A definition of what counts as an explanation of mathematical statement, and when one explanation is better than another, is given. Since all mathematical facts must be true in all causal models, and hence known by an agent, mathematical facts cannot be part of an explanation (under the standard notion of explanation). This problem is solved using impossible possible worlds.
翻訳日:2024-02-18 13:15:20 公開日:2023-12-31
# RTHDet:回転テーブル領域と画像の頭部検出

RTHDet: Rotate Table Area and Head Detection in images ( http://arxiv.org/abs/2402.03315v1 )

ライセンス: Link先を確認
Wenxing Hu, Minglei Tong(参考訳) 伝統的なモデルは水平テーブルの検出に重点を置いているが、テーブル認識の進歩を制限する回転コンテキストに苦戦している。 本稿では,テーブル領域の検出と回転シナリオにおけるヘッドテール部分のローカライズを行う。 本稿では,対応するデータセット,評価指標,方法を提案する。 提案手法は,回転するテーブルとそのヘッドテール部分を検出する際のデータセット不足に対処する。 我々は「ICDAR2019MTD」に基づくテーブルヘッドとテールの意味情報を組み込んだデータセット「TRR360D」を作成した。 新しい測定基準「r360 ap」は、回転領域の検出とヘッドテール部分のローカライズにおける精度を測定する。 我々のベースラインである高速かつ正確な「RTMDet-S」は、広範囲なレビューとテストの後に選択される。 本稿では,「RTHDet」を導入し,r360回転長方形角表現と「アングルロス」分岐でベースラインを強化し,ヘッドテールのローカライゼーションを改善した。 転送学習と適応境界回転拡張を適用することで、RTHDetのAP50(T<90)はベースラインに比べて23.7%から88.7%に向上した。 これはRTHDetが回転テーブル領域を検出し、頭部と尾部の正確なローカライズに有効であることを示し、RTHDetは広く使われているオープンソースのMMRotateツールキットに統合されている。

Traditional models focus on horizontal table detection but struggle in rotating contexts, limiting progress in table recognition. This paper introduces a new task: detecting table regions and localizing head-tail parts in rotation scenarios. We propose corresponding datasets, evaluation metrics, and methods. Our novel method, 'Adaptively Bounded Rotation,' addresses dataset scarcity in detecting rotated tables and their head-tail parts. We produced 'TRR360D,' a dataset incorporating semantic information of table head and tail, based on 'ICDAR2019MTD.' A new metric, 'R360 AP,' measures precision in detecting rotated regions and localizing head-tail parts. Our baseline, the high-speed and accurate 'RTMDet-S,' is chosen after extensive review and testing. We introduce 'RTHDet,' enhancing the baseline with a 'r360' rotated rectangle angle representation and an 'Angle Loss' branch, improving head-tail localization. By applying transfer learning and adaptive boundary rotation augmentation, RTHDet's AP50 (T<90) improved from 23.7% to 88.7% compared to the baseline. This demonstrates RTHDet's effectiveness in detecting rotating table regions and accurately localizing head and tail parts.RTHDet is integrated into the widely-used open-source MMRotate toolkit: https://github.com/open-mmlab/mmrotate/tree/dev-1.x/projects/RR360.
翻訳日:2024-02-11 15:52:09 公開日:2023-12-31
# 株式市場予測における機械学習の適用:ディズニー株を事例として

Application of Machine Learning in Stock Market Forecasting: A Case Study of Disney Stock ( http://arxiv.org/abs/2401.10903v1 )

ライセンス: Link先を確認
Dengxin Huang(参考訳) この文書は、2014-10-23年に寄贈された750のインスタンスと16の属性からなるデータセット上で実行される株式市場分析を示す。 この分析には、探索データ分析(EDA)セクション、特徴工学、データ準備、モデル選択、分析からの洞察が含まれる。 famaフランスの3要素モデルも分析に使われている。 解析結果が提示され, 線形回帰が最良性能モデルである。

This document presents a stock market analysis conducted on a dataset consisting of 750 instances and 16 attributes donated in 2014-10-23. The analysis includes an exploratory data analysis (EDA) section, feature engineering, data preparation, model selection, and insights from the analysis. The Fama French 3-factor model is also utilized in the analysis. The results of the analysis are presented, with linear regression being the best-performing model.
翻訳日:2024-01-28 16:08:04 公開日:2023-12-31
# AR-GAN: 自動車の交通標識分類システムにおける敵攻撃に対する生成的敵ネットワークベース防御手法

AR-GAN: Generative Adversarial Network-Based Defense Method Against Adversarial Attacks on the Traffic Sign Classification System of Autonomous Vehicles ( http://arxiv.org/abs/2401.14232v1 )

ライセンス: Link先を確認
M Sabbir Salek, Abdullah Al Mamun, and Mashrur Chowdhury(参考訳) 本研究では,自律走行車(AV)における交通標識分類のためのGAN(Generative Adversarial Network)に基づく防衛手法を開発した。 AR-GANの新規性 (i)敵の攻撃モデル及びサンプルの知識がゼロであると仮定する。 (II) 様々な攻撃種別で一貫した高い交通標識分類性能を提供する。 AR-GAN分類システムは、再構成によって画像を識別するジェネレータと、再構成された画像を分類する分類器で構成される。 著者らはAR-GANを無攻撃でテストし、FGSM(Fast Gradient Sign Method)、DeepFool(DeepFool)、Carini and Wagner(C&W)、Projected Gradient Descent(PGD)といった様々な敵攻撃を受けた。 著者らはこれらの攻撃の2つの形態、すなわち (i)ブラックボックス攻撃(攻撃者が分類器の事前の知識を持っていなければ) (ii)ホワイトボックス攻撃(攻撃者が分類器の完全な知識を持っている場合)。 ar-ganの分類性能は,いくつかの対向防御法と比較した。 その結果,AR-GANとベンチマーク防御手法はブラックボックス攻撃に対して耐性があり,非摂動画像と同様の分類性能が得られることがわかった。 しかし,本研究では,すべてのホワイトボックス攻撃に対して,AR-GAN法がベンチマーク防御法より優れていた。 さらに、AR-GANは、様々なホワイトボックスの対向摂動の程度で高い分類性能を維持することができたが、他の防御法の性能は摂動の程度が大きくなると突然低下した。

This study developed a generative adversarial network (GAN)-based defense method for traffic sign classification in an autonomous vehicle (AV), referred to as the attack-resilient GAN (AR-GAN). The novelty of the AR-GAN lies in (i) assuming zero knowledge of adversarial attack models and samples and (ii) providing consistently high traffic sign classification performance under various adversarial attack types. The AR-GAN classification system consists of a generator that denoises an image by reconstruction, and a classifier that classifies the reconstructed image. The authors have tested the AR-GAN under no-attack and under various adversarial attacks, such as Fast Gradient Sign Method (FGSM), DeepFool, Carlini and Wagner (C&W), and Projected Gradient Descent (PGD). The authors considered two forms of these attacks, i.e., (i) black-box attacks (assuming the attackers possess no prior knowledge of the classifier), and (ii) white-box attacks (assuming the attackers possess full knowledge of the classifier). The classification performance of the AR-GAN was compared with several benchmark adversarial defense methods. The results showed that both the AR-GAN and the benchmark defense methods are resilient against black-box attacks and could achieve similar classification performance to that of the unperturbed images. However, for all the white-box attacks considered in this study, the AR-GAN method outperformed the benchmark defense methods. In addition, the AR-GAN was able to maintain its high classification performance under varied white-box adversarial perturbation magnitudes, whereas the performance of the other defense methods dropped abruptly at increased perturbation magnitudes.
翻訳日:2024-01-28 15:34:03 公開日:2023-12-31
# 同じ音を言っていますか。 表現型ピアノ演奏における単語埋め込み空間の分析

Are we describing the same sound? An analysis of word embedding spaces of expressive piano performance ( http://arxiv.org/abs/2401.02979v1 )

ライセンス: Link先を確認
Silvan David Peter, Shreyan Chowdhury, Carlos Eduardo Cancino-Chac\'on, Gerhard Widmer(参考訳) セマンティック埋め込みは自然言語に基づく情報検索において重要な役割を果たす。 埋め込みモデルは、大きなテキストコーパスにおける単語の分布から空間的構成が導出されるベクトルとして単語と文脈を表す。 このような表現は一般的に非常に強力だが、きめ細かいドメイン固有のニュアンスを考慮できないかもしれない。 本稿では,表現力のあるピアノ演奏の特徴領域における不確実性について考察する。 自由テキスト性能評価のための音楽研究データセットと、アノテーションをクラスタに分類するフォローアップスタディを用いて、ドメイン固有の意味的類似性構造に対する基礎的真理を導出する。 5つの埋め込みモデルとその類似性構造を基底真理に対応するために検証する。 さらに,コンテキスト化プロンプト,ハブネス低減,クロスモーダル類似性,k平均クラスタリングの効果についても検討した。 より一般的なモデルはドメイン適応モデルよりも優れた性能を示し、最高のモデル構成は人間レベルの合意に達する。

Semantic embeddings play a crucial role in natural language-based information retrieval. Embedding models represent words and contexts as vectors whose spatial configuration is derived from the distribution of words in large text corpora. While such representations are generally very powerful, they might fail to account for fine-grained domain-specific nuances. In this article, we investigate this uncertainty for the domain of characterizations of expressive piano performance. Using a music research dataset of free text performance characterizations and a follow-up study sorting the annotations into clusters, we derive a ground truth for a domain-specific semantic similarity structure. We test five embedding models and their similarity structure for correspondence with the ground truth. We further assess the effects of contextualizing prompts, hubness reduction, cross-modal similarity, and k-means clustering. The quality of embedding models shows great variability with respect to this task; more general models perform better than domain-adapted ones and the best model configurations reach human-level agreement.
翻訳日:2024-01-15 09:33:06 公開日:2023-12-31
# 生成型AIプレデシデントから学ぶ - 会話エージェントと対話するための多くの動機

Learning from a Generative AI Predecessor -- The Many Motivations for Interacting with Conversational Agents ( http://arxiv.org/abs/2401.02978v1 )

ライセンス: Link先を確認
Donald Brinkman and Jonathan Grudin(参考訳) 生成的AIが成功するためには、会話主義者の関与はどの程度必要か? 約60年間、一部の会話エージェントは、会話を続けるためにあらゆる質問やコメントに答えてきた。 近年では、Tay、Xiaoice、Zo、Hugging Face、Kuki、Replikaといった機械学習や高度な言語処理を活用している。 生成AIとは異なり、彼らは専門知識ではなくエンゲージメントに焦点を当てた。 何百万人もの人々が彼らと関わり始めた。 魅力は何だった? 生成AIは、等しくエンゲージメントが高い場合、あるいはエンゲージメントが低い場合、より良いものとなるか? 生成AIの出現に先立ち、我々は大規模で質的な分析を行い、何百万人もの人々がそのような「仮想の仲間」であるMicrosoftのZoと関わる動機を学習した。 匿名化2000人のチャットログについて検討した。 私たちは、人々がこのソフトウェアと対話するための12以上のモチベーションを特定しました。 デザイナーはエンゲージメントを高める異なる方法を学びました。 生成的会話型AIは、その高コストに対応するための明確な収益モデルを持っていない。 生産性と創造性をサポートするとしても、より熱心であることの恩恵を受けるかも知れません。 我々の研究と分析は機会と課題を示している。

For generative AI to succeed, how engaging a conversationalist must it be? For almost sixty years, some conversational agents have responded to any question or comment to keep a conversation going. In recent years, several utilized machine learning or sophisticated language processing, such as Tay, Xiaoice, Zo, Hugging Face, Kuki, and Replika. Unlike generative AI, they focused on engagement, not expertise. Millions of people were motivated to engage with them. What were the attractions? Will generative AI do better if it is equally engaging, or should it be less engaging? Prior to the emergence of generative AI, we conducted a large-scale quantitative and qualitative analysis to learn what motivated millions of people to engage with one such 'virtual companion,' Microsoft's Zo. We examined the complete chat logs of 2000 anonymized people. We identified over a dozen motivations that people had for interacting with this software. Designers learned different ways to increase engagement. Generative conversational AI does not yet have a clear revenue model to address its high cost. It might benefit from being more engaging, even as it supports productivity and creativity. Our study and analysis point to opportunities and challenges.
翻訳日:2024-01-15 09:32:50 公開日:2023-12-31
# 音声におけるAI生成テキストと人間認証テキストを区別するZ世代

Generation Z's Ability to Discriminate Between AI-generated and Human-Authored Text on Discord ( http://arxiv.org/abs/2401.04120v1 )

ライセンス: Link先を確認
Dhruv Ramu and Rishab Jain and Aditya Jain(参考訳) chatgptのような生成型人工知能(ai)チャットボットの人気は、ソーシャルメディアに変化をもたらす。 AI生成コンテンツの普及に伴い、プライバシーや誤報に関する懸念が高まっている。 ソーシャルメディアプラットフォームの中でdiscordは、ai統合を可能にする -- 主に“世代z”ユーザベースを、特にai生成コンテンツに公開する。 我々は,AI生成テキストと人間によるDiscordテキストの識別能力を評価するため,世代Z(n = 335)を調査した。 調査はchatgptをワンショットプロンプトし、discord.comプラットフォームで受信したテキストメッセージに偽装した。 我々は,人口構成要因が能力に与える影響,および参加者がディスコードや人工知能技術に親しんだことについて検討する。 その結果、z世代は、aiと人間の著者テキストの区別ができず(p = 0.011)、discordとの自己報告の親密性が低い者は、aiの自己報告経験を持つ者に比べて、人間の著者を識別する能力が向上した(p < 0.0001)。 以上の結果から,人間とコンピュータのインタラクション,デジタルコミュニケーション,人工知能リテラシーに関する貴重な知見を提供するため,ai技術とz世代向けの一般的なコミュニケーションモードとの間にニュアンスがあることが示唆された。

The growing popularity of generative artificial intelligence (AI) chatbots such as ChatGPT is having transformative effects on social media. As the prevalence of AI-generated content grows, concerns have been raised regarding privacy and misinformation online. Among social media platforms, Discord enables AI integrations -- making their primarily "Generation Z" userbase particularly exposed to AI-generated content. We surveyed Generation Z aged individuals (n = 335) to evaluate their proficiency in discriminating between AI-generated and human-authored text on Discord. The investigation employed one-shot prompting of ChatGPT, disguised as a text message received on the Discord.com platform. We explore the influence of demographic factors on ability, as well as participants' familiarity with Discord and artificial intelligence technologies. We find that Generation Z individuals are unable to discern between AI and human-authored text (p = 0.011), and that those with lower self-reported familiarity with Discord demonstrated an improved ability in identifying human-authored compared to those with self-reported experience with AI (p << 0.0001). Our results suggest that there is a nuanced relationship between AI technology and popular modes of communication for Generation Z, contributing valuable insights into human-computer interactions, digital communication, and artificial intelligence literacy.
翻訳日:2024-01-15 09:22:17 公開日:2023-12-31
# フェデレーション平均値とNesterov FedAvgの統一線形高速化解析

A Unified Linear Speedup Analysis of Federated Averaging and Nesterov FedAvg ( http://arxiv.org/abs/2007.05690v4 )

ライセンス: Link先を確認
Zhaonan Qu, Kaixiang Lin, Zhaojian Li, Jiayu Zhou, Zhengyuan Zhou(参考訳) フェデレーション学習(fl)は、相互に保持されたデータを共有せずに、一組の参加者デバイスから共同でモデルを学習する。 ネットワーク全体にわたる非IDデータの特徴、低いデバイス参加、高い通信コスト、およびデータが非公開であることの義務は、FLアルゴリズムの収束を理解する上での課題をもたらし、特にコンバージェンスが参加者のデバイス数とどのようにスケールするかについてである。 本稿では,今日使用されている最もポピュラーで効果的なFLアルゴリズムの1つであるフェデレート平均化(FedAvg)と,Nesterovの高速化された変種に着目し,非I.D.データの下での参加デバイス数とコンベックス設定における部分的な参加数との収束のスケールに関する系統的研究を行う。 強凸,凸および過パラメータの強凸問題の下でfedavgの収束保証を確立する統一解析を提供する。 コンバージェンスレートと通信効率の異なるFedAvgは,それぞれのケースで線形スピードアップを楽しむことを示す。 強い凸問題と凸問題に対しては、凸設定におけるFedAvgの運動量変動に対する最初の線形高速化保証であるNesterovAccelered FedAvgアルゴリズムの収束率も特徴付ける。 様々な環境でのアルゴリズムの実証研究は、我々の理論的な結果を支持した。

Federated learning (FL) learns a model jointly from a set of participating devices without sharing each other's privately held data. The characteristics of non-i.i.d. data across the network, low device participation, high communication costs, and the mandate that data remain private bring challenges in understanding the convergence of FL algorithms, particularly regarding how convergence scales with the number of participating devices. In this paper, we focus on Federated Averaging (FedAvg), one of the most popular and effective FL algorithms in use today, as well as its Nesterov accelerated variant, and conduct a systematic study of how their convergence scale with the number of participating devices under non-i.i.d. data and partial participation in convex settings. We provide a unified analysis that establishes convergence guarantees for FedAvg under strongly convex, convex, and overparameterized strongly convex problems. We show that FedAvg enjoys linear speedup in each case, although with different convergence rates and communication efficiencies. For strongly convex and convex problems, we also characterize the corresponding convergence rates for the Nesterov accelerated FedAvg algorithm, which are the first linear speedup guarantees for momentum variants of FedAvg in convex settings. Empirical studies of the algorithms in various settings have supported our theoretical results.
翻訳日:2024-01-05 18:14:48 公開日:2023-12-31
# バックドア攻撃による学習は少ないか?

Does Few-shot Learning Suffer from Backdoor Attacks? ( http://arxiv.org/abs/2401.01377v1 )

ライセンス: Link先を確認
Xinwei Liu, Xiaojun Jia, Jindong Gu, Yuan Xun, Siyuan Liang, Xiaochun Cao(参考訳) 少数ショット学習(FSL)の分野は、トレーニングデータが制限されているシナリオにおいて、有望な結果を示している。 まず,少数の学習シナリオにおいて,既存のバックドア攻撃手法の性能をまず評価することで,この話題を考察する。 標準的な教師あり学習とは異なり、既存のバックドア攻撃法は2つの主要な問題により、FSLにおいて効果的な攻撃を行なわなかった。 第一に、モデルは良質な特徴またはトリガー機能に過度に適合する傾向にあり、攻撃の成功率と良質な正確性の間に厳しいトレードオフを引き起こす。 第2に、少数のトレーニングサンプルにより、サポートセットの汚れたラベルや目に見えるトリガーが被害者によって容易に検出でき、攻撃のステルスネスを低減できる。 FSLはバックドア攻撃で生き残ることができた。 しかし,本稿では,fslがバックドア攻撃に対して脆弱であることを示すために,fslの学習バックドア攻撃法を提案する。 具体的には、毒と良性の特徴のギャップを最大化するトリガーを最初に生成する。 モデルが良性機能とトリガー機能の両方を学習できるため、オーバーフィットの問題が解決される。 よりステルスにするために、トリガーを直接取り付けるのではなく、魅力的で反発的な摂動という2種類の不可避な摂動を最適化することでトリガーを隠す。 摂動が得られたら、良性サポートセットのすべてのサンプルを、隠れた毒付きサポートセットに毒付けし、モデルに微調整することができる。 本手法は,fslタスクにおいて,クリーンな精度とステルス性を維持しつつ,異なるマイナショット学習パラダイムで高い攻撃成功率(asr)を示す。 本研究は,ショット学習が依然としてバックドア攻撃に苦しむことを明らかにし,そのセキュリティに注意を払わなければならない。

The field of few-shot learning (FSL) has shown promising results in scenarios where training data is limited, but its vulnerability to backdoor attacks remains largely unexplored. We first explore this topic by first evaluating the performance of the existing backdoor attack methods on few-shot learning scenarios. Unlike in standard supervised learning, existing backdoor attack methods failed to perform an effective attack in FSL due to two main issues. Firstly, the model tends to overfit to either benign features or trigger features, causing a tough trade-off between attack success rate and benign accuracy. Secondly, due to the small number of training samples, the dirty label or visible trigger in the support set can be easily detected by victims, which reduces the stealthiness of attacks. It seemed that FSL could survive from backdoor attacks. However, in this paper, we propose the Few-shot Learning Backdoor Attack (FLBA) to show that FSL can still be vulnerable to backdoor attacks. Specifically, we first generate a trigger to maximize the gap between poisoned and benign features. It enables the model to learn both benign and trigger features, which solves the problem of overfitting. To make it more stealthy, we hide the trigger by optimizing two types of imperceptible perturbation, namely attractive and repulsive perturbation, instead of attaching the trigger directly. Once we obtain the perturbations, we can poison all samples in the benign support set into a hidden poisoned support set and fine-tune the model on it. Our method demonstrates a high Attack Success Rate (ASR) in FSL tasks with different few-shot learning paradigms while preserving clean accuracy and maintaining stealthiness. This study reveals that few-shot learning still suffers from backdoor attacks, and its security should be given attention.
翻訳日:2024-01-04 16:13:56 公開日:2023-12-31
# Nested Winograd Transformation.pdfによる大カーネル畳み込みの高速化

Accelerating Large Kernel Convolutions with Nested Winograd Transformation.pdf ( http://arxiv.org/abs/2102.13272v2 )

ライセンス: Link先を確認
Jingbo Jiang, Xizi Chen, Chi-Ying Tsui(参考訳) 近年の文献では、大きなカーネルを持つ畳み込みニューラルネットワーク(CNN)が、オブジェクト検出や画像復元といった多くのコンピュータビジョンタスクにおいて、積み重ねられた小さなカーネルを持つ視覚変換器(ViT)やCNNより優れていることが示されている。 Winograd変換は畳み込みにおける繰り返しの乗算数を減らし、多くの商用AIプロセッサで広くサポートされている。 研究者は、多数の小さなカーネル畳み込みに線形に分解し、Winogradアルゴリズムで各小さなカーネル畳み込みを逐次加速することで、大きなカーネル畳み込みを加速することを提案した。 本研究では,大規模カーネル畳み込みを小さなカーネル畳み込みに反復分解し,線形分解型ウィノグラード変換アルゴリズムよりも効果的であることを証明したネスト型ウィノグラードアルゴリズムを提案する。 線形分解ウィノグラードアルゴリズムと比較して,提案アルゴリズムは4x4から31x31の畳み込みを計算するために,乗算の総数を1.4倍から10.5倍に削減することを示した。

Recent literature has shown that convolutional neural networks (CNNs) with large kernels outperform vision transformers (ViTs) and CNNs with stacked small kernels in many computer vision tasks, such as object detection and image restoration. The Winograd transformation helps reduce the number of repetitive multiplications in convolution and is widely supported by many commercial AI processors. Researchers have proposed accelerating large kernel convolutions by linearly decomposing them into many small kernel convolutions and then sequentially accelerating each small kernel convolution with the Winograd algorithm. This work proposes a nested Winograd algorithm that iteratively decomposes a large kernel convolution into small kernel convolutions and proves it to be more effective than the linear decomposition Winograd transformation algorithm. Experiments show that compared to the linear decomposition Winograd algorithm, the proposed algorithm reduces the total number of multiplications by 1.4 to 10.5 times for computing 4x4 to 31x31 convolutions.
翻訳日:2024-01-03 20:33:03 公開日:2023-12-31
# 最短共通スーパーストリングとテキスト集合問題に対する量子アルゴリズム

Quantum Algorithms for the Shortest Common Superstring and Text Assembling Problems ( http://arxiv.org/abs/2306.10572v2 )

ライセンス: Link先を確認
Kamil Khadiev, Carlos Manuel Bosch Machado, Zeyu Chen, Junde Wu(参考訳) 本稿では,テキスト集合問題の2つのバージョンについて考察する。 文字列の列$s^1,\dots,s^n$ of total length $l$(辞書)と$t$ of length $m$(テキスト)が与えられます。 問題の最初のバージョンは、辞書から$t$を組み立てることである。 2番目のバージョンは ``Shortest Superstring Problem' (SSP) または ``Shortest Common Superstring Problem' (SCS) である。 この場合、$t$は与えられず、与えられたシーケンスから各文字列をサブストリングとして含む最短文字列(スーパーストリングと呼ぶ)を構築するべきです。 これらの問題は、小さな断片から長いDNA配列を再構成する配列アセンブリー法に関連付けられている。 どちらの問題に対しても、従来のアルゴリズムよりも優れた量子アルゴリズムを提案する。 最初のケースでは、$O(m+\log m\sqrt{nL})$ run time の量子アルゴリズムを示す。 SSP の場合、実行時間 $O(n^3 1.728^n +L +\sqrt{L}n^{1.5}+\sqrt{L}n\log^2L\log^2n)$ の量子アルゴリズムを示す。

In this paper, we consider two versions of the Text Assembling problem. We are given a sequence of strings $s^1,\dots,s^n$ of total length $L$ that is a dictionary, and a string $t$ of length $m$ that is texts. The first version of the problem is assembling $t$ from the dictionary. The second version is the ``Shortest Superstring Problem''(SSP) or the ``Shortest Common Superstring Problem''(SCS). In this case, $t$ is not given, and we should construct the shortest string (we call it superstring) that contains each string from the given sequence as a substring. These problems are connected with the sequence assembly method for reconstructing a long DNA sequence from small fragments. For both problems, we suggest new quantum algorithms that work better than their classical counterparts. In the first case, we present a quantum algorithm with $O(m+\log m\sqrt{nL})$ running time. In the case of SSP, we present a quantum algorithm with running time $O(n^3 1.728^n +L +\sqrt{L}n^{1.5}+\sqrt{L}n\log^2L\log^2n)$.
翻訳日:2024-01-03 20:00:05 公開日:2023-12-31
# HQ-VAE:変動ベイを用いた階層型離散表現学習

HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes ( http://arxiv.org/abs/2401.00365v1 )

ライセンス: Link先を確認
Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji(参考訳) ベクトル量子化(VQ)は、離散コードブック表現を用いて特徴を決定論的に学習する技法である。 変分自動符号化モデルであるVQ-VAEを用いて、高忠実度再構成のために階層構造にさらに拡張することができる。 しかし、このようなvq-vaeの階層的拡張は、コードブック/レイヤー崩壊の問題に苦しむことが多く、コードブックはデータの表現に効果的に使われず、リコンストラクションの精度が低下する。 本稿では,階層的量子化変分オートエンコーダ(hq-vae)と呼ばれる変分ベイズフレームワークに基づいて,階層的離散表現を確率的に学習する新しい統一フレームワークを提案する。 HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的な変種を自然に一般化し、ベイズ的な訓練スキームを提供する。 画像データセットに関する包括的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させる。 また、音声データセットによる異なるモダリティの適用性の観点からHQ-VAEを検証した。

Vector quantization (VQ) is a technique to deterministically learn features with discrete codebook representations. It is commonly performed with a variational autoencoding model, VQ-VAE, which can be further extended to hierarchical structures for making high-fidelity reconstructions. However, such hierarchical extensions of VQ-VAE often suffer from the codebook/layer collapse issue, where the codebook is not efficiently used to express the data, and hence degrades reconstruction accuracy. To mitigate this problem, we propose a novel unified framework to stochastically learn hierarchical discrete representation on the basis of the variational Bayes framework, called hierarchically quantized variational autoencoder (HQ-VAE). HQ-VAE naturally generalizes the hierarchical variants of VQ-VAE, such as VQ-VAE-2 and residual-quantized VAE (RQ-VAE), and provides them with a Bayesian training scheme. Our comprehensive experiments on image datasets show that HQ-VAE enhances codebook usage and improves reconstruction performance. We also validated HQ-VAE in terms of its applicability to a different modality with an audio dataset.
翻訳日:2024-01-03 17:56:47 公開日:2023-12-31
# マルコフ雑音を伴う2時間スケール線形確率近似の厳密な有限時間境界

Tight Finite Time Bounds of Two-Time-Scale Linear Stochastic Approximation with Markovian Noise ( http://arxiv.org/abs/2401.00364v1 )

ライセンス: Link先を確認
Shaan Ul Haque, Sajad Khodadadian, Siva Theja Maguluri(参考訳) 確率近似 (Stochastic Approximation, SA) は、この演算子の雑音のあるサンプルを与えられた演算子の定点を求める反復アルゴリズムである。 SAは最適化や強化学習(RL)など、多くの分野に現れる。 実際に実装する場合、RLアルゴリズムの更新に現れるノイズは自然にマルコビアンである。 さらに、勾配TDなどのいくつかの設定では、SAを2段階的に使用する。 マルコフ雑音と2つの時間スケール構造の組み合わせは、理論的に解析するのが複雑なアルゴリズムをもたらす。 本稿では,マルコフ雑音を伴う線形2時間スケールSAの繰り返しに対して,厳密な収束を特徴付ける。 本研究の結果は,ステップサイズを多種に選択したアルゴリズムの収束挙動を示す。 我々の結果をよく知られたTDCアルゴリズムに適用すると、このアルゴリズムの収束のために最初の$O(1/\epsilon)$サンプルの複雑さを示し、以前の全ての作業より優れていた。 同様に、この結果は、Polyak平均化を用いたTD学習、GTD、GTD2など、様々なRLアルゴリズムの収束挙動を確立するために応用できる。

Stochastic approximation (SA) is an iterative algorithm to find the fixed point of an operator given noisy samples of this operator. SA appears in many areas such as optimization and Reinforcement Learning (RL). When implemented in practice, the noise that appears in the update of RL algorithms is naturally Markovian. Furthermore, in some settings, such as gradient TD, SA is employed in a two-time-scale manner. The mix of Markovian noise along with the two-time-scale structure results in an algorithm which is complex to analyze theoretically. In this paper, we characterize a tight convergence bound for the iterations of linear two-time-scale SA with Markovian noise. Our results show the convergence behavior of this algorithm given various choices of step sizes. Applying our result to the well-known TDC algorithm, we show the first $O(1/\epsilon)$ sample complexity for the convergence of this algorithm, outperforming all the previous work. Similarly, our results can be applied to establish the convergence behavior of a variety of RL algorithms, such as TD-learning with Polyak averaging, GTD, and GTD2.
翻訳日:2024-01-03 17:56:25 公開日:2023-12-31
# 頂点分離性の新しい結果

New results in vertex sedentariness ( http://arxiv.org/abs/2401.00362v1 )

ライセンス: Link先を確認
Hermie Monterde(参考訳) グラフ内の頂点は、その頂点に割り当てられた量子状態がその頂点に留まる傾向にある場合、セジタリーと呼ばれる。 軽度条件下では,直積および結合操作が頂点セデンタリ性を維持することを示す。 また、爆破グラフにおけるセデンタリティを完全に特徴づける。 これらの結果により、セジタリー頂点を持つグラフの新しい無限族を構築することができる。 双子の頂点が摂食的であるか、状態遷移がかなり良いことを証明しています。 さらに,sedentaryである双対頂点の完全な特徴付けを行い,それらの分離性に鋭い境界を与える。 アプリケーションとして,完全状態転送,状態転送,分離性が任意の順序の完全二部グラフやしきい値グラフにおいて生じる条件を決定する。

A vertex in a graph is said to be sedentary if a quantum state assigned on that vertex tends to stay on that vertex. Under mild conditions, we show that the direct product and join operations preserve vertex sedentariness. We also completely characterize sedentariness in blow-up graphs. These results allow us to construct new infinite families of graphs with sedentary vertices. We prove that a vertex with a twin is either sedentary or admits pretty good state transfer. Moreover, we give a complete characterization of twin vertices that are sedentary, and provide sharp bounds on their sedentariness. As an application, we determine the conditions in which perfect state transfer, pretty good state transfer and sedentariness occur in complete bipartite graphs and threshold graphs of any order.
翻訳日:2024-01-03 17:56:08 公開日:2023-12-31
# ライドシェアリングにおけるドライバエージェントの理解

Understanding Driver Agency in RideSharing ( http://arxiv.org/abs/2401.00356v1 )

ライセンス: Link先を確認
Iyadunni Adenuga, Benjamin Hanrahan(参考訳) 自動複雑化技術の利用者は通常否定される重要な人間特性である。 これはユーザエクスペリエンスに影響を与え、満足度と生産性が低下します。 本稿では、ライドシェアリングの文脈を考察し、7人のドライバーにインタビューして、自分が感じるエージェントを改善するためのコントロールを理解する。 結果は、透明性、コミュニティ、そしてレッドレスを求める効果的な能力を求めることを示している。

Agency is an important human characteristic that users of automated complex technologies are usually denied. This affects the user's experience leading to decreased satisfaction and productivity. In this paper, we consider the ridesharing context and interviewed 7 drivers to understand the controls that would improve the agency they feel. The results show that they desire transparency, community and an effective ability to seek redress.
翻訳日:2024-01-03 17:55:54 公開日:2023-12-31
# balanced multi-modal federated learningにおけるクライアントサイドモダリティ選択

Client-wise Modality Selection for Balanced Multi-modal Federated Learning ( http://arxiv.org/abs/2401.00403v1 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Penghui Ruan and Song Guo(参考訳) 反復フェデレーション学習(fl)ラウンドに参加する適切なクライアントを選択することは、幅広い分散データセットを効果的に活用するには不可欠である。 既存のクライアント選択手法は、単モーダルデータを持つFLクライアント間のばらつきを単純に考慮するが、マルチモーダルデータを持つクライアントについてはまだ検討していない。 我々は,MFLにおける従来のクライアント選択方式が,マルチモーダルデータの協調的利用を妨げる重大なモダリティレベルのバイアスに悩まされ,ローカルデータ探索やグローバルアグリゲーションが不十分なことを明らかにする。 そこで本研究では,モダリティの不均衡に起因するクライアント選択バイアスを回避し,各モダリティからの情報を総合的に活用できるmfl(cmsfed)のクライアント側モダリティ選択方式を提案する。 具体的には、各mflラウンドにおいて、異なるモダリティからのローカルデータを選択的に採用して、局所トレーニングおよび集約に参加し、グローバルモデルの潜在的なモダリティ不均衡を緩和する。 完全集約モデル更新をバランスよく近似するために,異なるクライアントに対して不整合なモダリティ導入戦略によって生じる分散特徴空間を同時に整合させる,新たな局所学習損失関数を導入する。 そして、各繰り返しにおける局所的モダリティ不均衡に応じて、選択進行中の勾配の多様性を保ち、MFLのバランスをとるために、各部分モジュラー関数を導出するモードレベル勾配疎結合法を設計する。 本研究は, CMSFがベースラインよりも優れていること, マルチモーダルデータエクスプロイトにおける有効性を示すものである。

Selecting proper clients to participate in the iterative federated learning (FL) rounds is critical to effectively harness a broad range of distributed datasets. Existing client selection methods simply consider the variability among FL clients with uni-modal data, however, have yet to consider clients with multi-modalities. We reveal that traditional client selection scheme in MFL may suffer from a severe modality-level bias, which impedes the collaborative exploitation of multi-modal data, leading to insufficient local data exploration and global aggregation. To tackle this challenge, we propose a Client-wise Modality Selection scheme for MFL (CMSFed) that can comprehensively utilize information from each modality via avoiding such client selection bias caused by modality imbalance. Specifically, in each MFL round, the local data from different modalities are selectively employed to participate in local training and aggregation to mitigate potential modality imbalance of the global model. To approximate the fully aggregated model update in a balanced way, we introduce a novel local training loss function to enhance the weak modality and align the divergent feature spaces caused by inconsistent modality adoption strategies for different clients simultaneously. Then, a modality-level gradient decoupling method is designed to derive respective submodular functions to maintain the gradient diversity during the selection progress and balance MFL according to local modality imbalance in each iteration. Our extensive experiments showcase the superiority of CMSFed over baselines and its effectiveness in multi-modal data exploitation.
翻訳日:2024-01-03 17:44:40 公開日:2023-12-31
# 複雑な最適化問題に対するマルチプレイヤーバトルゲームインスパイアオプティマイザ

Multiplayer Battle Game-Inspired Optimizer for Complex Optimization Problems ( http://arxiv.org/abs/2401.00401v1 )

ライセンス: Link先を確認
Yuefeng Xu, Rui Zhong, Chao Zhang, and Jun Yu(参考訳) 様々な人気のマルチプレイヤーバトルロイヤルゲームは、多くの共通要素を共有している。 そこで我々は,これらの共有特性を要約し,マルチプレイヤーバトルゲームインスパイアされたオプティマイザ(MBGO)という新しいヒューリスティックアルゴリズムを提案する。 mbgoは、メインストリームのマルチプレイヤーバトルロイヤルゲームをムーブメントとバトルの2つの別々のフェーズに合理化する。 具体的には、運動段階は、一般的に遭遇する「安全なゾーン」の原則を取り入れ、参加者に生存可能性の高い地域への移動を促す。 戦闘段階は様々な状況でプレイヤーが採用する様々な戦略をシミュレートし、人口の多様性を高める。 提案するMBGOの性能評価と解析のために,CEC2017 と CEC2020 ベンチマーク関数内の様々な次元にわたる3つの古典と5つの最新のアルゴリズムを含む,他の8つのアルゴリズムとともに実行した。 さらに,提案するMBGOのスケーラビリティと実用性を評価するために,いくつかの産業設計問題を採用した。 統計解析の結果、新しいMBGOは収束速度だけでなく、ベンチマーク関数と実世界の問題の間で高い収束精度を達成する上でも優れた競争力を示すことが明らかとなった。

Various popular multiplayer battle royale games share a lot of common elements. Drawing from our observations, we summarized these shared characteristics and subsequently proposed a novel heuristic algorithm named multiplayer battle game-inspired optimizer (MBGO). The proposed MBGO streamlines mainstream multiplayer battle royale games into two discrete phases: movement and battle. Specifically, the movement phase incorporates the principles of commonly encountered ``safe zones'' to incentivize participants to relocate to areas with a higher survival potential. The battle phase simulates a range of strategies adopted by players in various situations to enhance the diversity of the population. To evaluate and analyze the performance of the proposed MBGO, we executed it alongside eight other algorithms, including three classics and five latest ones, across multiple diverse dimensions within the CEC2017 and CEC2020 benchmark functions. In addition, we employed several industrial design problems to evaluate the scalability and practicality of the proposed MBGO. The results of the statistical analysis reveal that the novel MBGO demonstrates significant competitiveness, excelling not only in convergence speed, but also in achieving high levels of convergence accuracy across both benchmark functions and real-world problems.
翻訳日:2024-01-03 17:44:10 公開日:2023-12-31
# RAGTruth: 信頼できる検索強化言語モデルを開発するための幻覚コーパス

RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models ( http://arxiv.org/abs/2401.00396v1 )

ライセンス: Link先を確認
Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Cheng Niu, Randy Zhong, Juntong Song, Tong Zhang(参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する主要な技術となっている。 RAGが統合されているにもかかわらず、LLMは検索された内容に対してまだサポートされていない、あるいは矛盾している主張をすることができる。 RAGの下で効果的な幻覚予防戦略を開発するためには,幻覚の程度を計測できるベンチマークデータセットを作成することが重要である。 本稿では,LLMアプリケーションのための標準RAGフレームワーク内で,様々なドメインやタスクにおける単語レベルの幻覚を解析するためのコーパスであるRAGTruthについて述べる。 RAGTruth は、RAG を用いて様々な LLM から18,000 個の自然発生応答を持つ。 これらの反応は個々の症例と単語レベルの両方で微妙な手動アノテーションを受けており、幻覚強度の評価を取り入れている。 我々は、異なるLLMの幻覚周波数をベンチマークするだけでなく、既存の幻覚検出手法の有効性を批判的に評価する。 さらに,ragtruthのような高品質なデータセットを使用することで,gpt-4のような最先端の大規模言語モデルを用いた既存のプロンプトベースアプローチと比較して,比較的小さなllmを微調整し,幻覚検出における競争力レベルを達成することが可能であることを示す。

Retrieval-augmented generation (RAG) has become a main technique for alleviating hallucinations in large language models (LLMs). Despite the integration of RAG, LLMs may still present unsupported or contradictory claims to the retrieved contents. In order to develop effective hallucination prevention strategies under RAG, it is important to create benchmark datasets that can measure the extent of hallucination. This paper presents RAGTruth, a corpus tailored for analyzing word-level hallucinations in various domains and tasks within the standard RAG frameworks for LLM applications. RAGTruth comprises nearly 18,000 naturally generated responses from diverse LLMs using RAG. These responses have undergone meticulous manual annotations at both the individual cases and word levels, incorporating evaluations of hallucination intensity. We not only benchmark hallucination frequencies across different LLMs, but also critically assess the effectiveness of several existing hallucination detection methodologies. Furthermore, we show that using a high-quality dataset such as RAGTruth, it is possible to finetune a relatively small LLM and achieve a competitive level of performance in hallucination detection when compared to the existing prompt-based approaches using state-of-the-art large language models such as GPT-4.
翻訳日:2024-01-03 17:43:48 公開日:2023-12-31
# 生成モデル駆動合成学習画像生成:レール欠陥検出における認識へのアプローチ

Generative Model-Driven Synthetic Training Image Generation: An Approach to Cognition in Rail Defect Detection ( http://arxiv.org/abs/2401.00393v1 )

ライセンス: Link先を確認
Rahatara Ferdousi, Chunsheng Yang, M. Anwar Hossain, Fedwa Laamarti, M. Shamim Hossain, Abdulmotaleb El Saddik(参考訳) 近年の認知コンピューティングの進歩は、ディープラーニング技術の統合によって、インテリジェント認知システム(ics)の開発を促進している。 これは、ICSが欠陥パターンの画像データの人間的な解析をエミュレートするレール欠陥検出の文脈で特に有用である。 視覚的欠陥分類における畳み込みニューラルネットワーク(CNN)の成功にもかかわらず、レール欠陥検出のための大規模なデータセットの不足は、部品や画像に欠陥をもたらすような事故が頻発することによる課題である。 現代の研究者は、ルールベースおよび生成データ拡張モデルを調べることで、このデータ不足に対処している。 これらのうち、変動オートエンコーダ(VAE)モデルは、ノイズモデリングのための広範なベースラインデータセットなしで現実的なデータを生成することができる。 本研究では, レール欠陥に対するVAEを用いた合成画像生成手法を提案する。 提案手法を用いて,カナダ太平洋鉄道 (CPR) の合成データセットを5つのクラスに50個の実サンプルで作成する。 驚くべきことに、500個の合成サンプルが生成され、最小の再構成損失は0.021である。 ビジュアルトランスフォーマー(ViT)モデルは、この合成CPRデータセットを使用して微調整を行い、5つの欠陥クラスの分類において高い精度(98%~99%)を達成した。 この研究は、レール欠陥検出におけるデータ不足問題に対する有望な解決策を提供し、この分野における堅牢なICS開発の可能性を示している。

Recent advancements in cognitive computing, with the integration of deep learning techniques, have facilitated the development of intelligent cognitive systems (ICS). This is particularly beneficial in the context of rail defect detection, where the ICS would emulate human-like analysis of image data for defect patterns. Despite the success of Convolutional Neural Networks (CNN) in visual defect classification, the scarcity of large datasets for rail defect detection remains a challenge due to infrequent accident events that would result in defective parts and images. Contemporary researchers have addressed this data scarcity challenge by exploring rule-based and generative data augmentation models. Among these, Variational Autoencoder (VAE) models can generate realistic data without extensive baseline datasets for noise modeling. This study proposes a VAE-based synthetic image generation technique for rail defects, incorporating weight decay regularization and image reconstruction loss to prevent overfitting. The proposed method is applied to create a synthetic dataset for the Canadian Pacific Railway (CPR) with just 50 real samples across five classes. Remarkably, 500 synthetic samples are generated with a minimal reconstruction loss of 0.021. A Visual Transformer (ViT) model underwent fine-tuning using this synthetic CPR dataset, achieving high accuracy rates (98%-99%) in classifying the five defect classes. This research offers a promising solution to the data scarcity challenge in rail defect detection, showcasing the potential for robust ICS development in this domain.
翻訳日:2024-01-03 17:43:28 公開日:2023-12-31
# 誘導拡散による安全臨界閉ループ交通シミュレーション

Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion ( http://arxiv.org/abs/2401.00391v1 )

ライセンス: Link先を確認
Wei-Jer Chang, Francesco Pittaluga, Masayoshi Tomizuka, Wei Zhan, Manmohan Chandraker(参考訳) 自動運転車計画アルゴリズムの性能を評価するには、長距離交通シナリオをシミュレートする必要がある。 安全クリティカルなシナリオを生成する従来の方法は、現実主義と制御性に欠けることが多い。 さらに、これらの手法は一般にエージェント相互作用のダイナミクスを無視している。 これらの制約を緩和するために, 誘導拡散モデルに根ざした閉ループシミュレーションフレームワークを提案する。 私たちのアプローチは2つの異なる利点をもたらします 1)現実世界の状況を密にエミュレートする現実的なロングテールシナリオの生成 2)制御性の向上,より包括的かつインタラクティブな評価の実現。 我々は、衝突率とオフロード率を下げながら、道路の進行を促進する新しい誘導目標によりこれを達成する。 提案手法では, 現場のすべてのエージェントが反応的かつ現実的な行動を示す一方で, 敵エージェントがプランナーに対して, 合理的な操作で挑戦することを可能にする。 我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。 これらの結果は、誘導拡散モデルが安全クリティカルでインタラクティブな交通シミュレーションのためのロバストで多用途な基盤を提供し、その有用性が自動運転の広い景観に拡がっていることを裏付ける。 追加のリソースやデモについては、https://safe-sim.github.io.orgのプロジェクトページを参照してください。

Evaluating the performance of autonomous vehicle planning algorithms necessitates simulating long-tail traffic scenarios. Traditional methods for generating safety-critical scenarios often fall short in realism and controllability. Furthermore, these techniques generally neglect the dynamics of agent interactions. To mitigate these limitations, we introduce a novel closed-loop simulation framework rooted in guided diffusion models. Our approach yields two distinct advantages: 1) the generation of realistic long-tail scenarios that closely emulate real-world conditions, and 2) enhanced controllability, enabling more comprehensive and interactive evaluations. We achieve this through novel guidance objectives that enhance road progress while lowering collision and off-road rates. We develop a novel approach to simulate safety-critical scenarios through an adversarial term in the denoising process, which allows the adversarial agent to challenge a planner with plausible maneuvers, while all agents in the scene exhibit reactive and realistic behaviors. We validate our framework empirically using the NuScenes dataset, demonstrating improvements in both realism and controllability. These findings affirm that guided diffusion models provide a robust and versatile foundation for safety-critical, interactive traffic simulation, extending their utility across the broader landscape of autonomous driving. For additional resources and demonstrations, visit our project page at https://safe-sim.github.io.
翻訳日:2024-01-03 17:43:02 公開日:2023-12-31
# 水平フェデレーション型コンピュータビジョン

Horizontal Federated Computer Vision ( http://arxiv.org/abs/2401.00390v1 )

ライセンス: Link先を確認
Paul K. Mandal, Cole Leo, Connor Hurley(参考訳) 現代の世界では、記録された視覚データの量は急速に増加している。 多くの場合、データは地理的に異なる場所に格納され、統合するには大量の時間と空間を必要とする。 また、データ統合を防止するプライバシー保護に関する規制もある。 本研究では、FRCNN(Ferated Faster R-CNN)とFCN(Ferated Fully Convolutional Network)を用いた画像分割を用いたオブジェクト検出と認識のためのフェデレーション実装を提案する。 FRCNNはCOCO2017データセットの5000例をトレーニングし、FCNはCamVidデータセットの全トレインセットでトレーニングしました。 提案するフェデレーションモデルでは,視覚データの量増加と分散化がもたらす課題に対処し,プライバシー規制に準拠した効率的なソリューションを提供する。

In the modern world, the amount of visual data recorded has been rapidly increasing. In many cases, data is stored in geographically distinct locations and thus requires a large amount of time and space to consolidate. Sometimes, there are also regulations for privacy protection which prevent data consolidation. In this work, we present federated implementations for object detection and recognition using a federated Faster R-CNN (FRCNN) and image segmentation using a federated Fully Convolutional Network (FCN). Our FRCNN was trained on 5000 examples of the COCO2017 dataset while our FCN was trained on the entire train set of the CamVid dataset. The proposed federated models address the challenges posed by the increasing volume and decentralized nature of visual data, offering efficient solutions in compliance with privacy regulations.
翻訳日:2024-01-03 17:42:43 公開日:2023-12-31
# FusionMind -- 外部コンテキスト融合による質問と回答の改善

FusionMind -- Improving question and answering with external context fusion ( http://arxiv.org/abs/2401.00388v1 )

ライセンス: Link先を確認
Shreyas Verma, Manoj Parmar, Palash Choudhary, Sanchita Porwal(参考訳) 事前学習された言語モデル (lms) と知識グラフ (kgs) を用いた質問への回答は、関連する知識の特定と共同推論を行う上での課題を提示する。我々は、前述したqagnn法(qagnn method for the question-answering (qa) objective)と比較し、さらに、qagnnのパフォーマンスに対する追加の事実的文脈の影響を計測した。 QAGNN法は、LMを用いてQAコンテキストを符号化し、KGノードの重要度を推定し、グラフニューラルネットワーク(GNN)を用いて質問選択エンティティ表現を効果的に更新する。 さらに,質問ステムに関連する知識事実を取り入れたQAコンテキストエンコーディングの強化実験を行った。 モデルは、約6000の4方向の複数の選択質問を含むOpenbookQAデータセットでトレーニングされており、QAタスクのベンチマークとして広く使用されている。 実験を通じて,知識事実のコンテキストを組み込むことで,パフォーマンスが大幅に向上することを発見した。 対照的に、言語モデルに知識グラフを追加することで、わずかに増加しました。 これは、知識グラフのみを追加するよりも、質問応答性能を高めるために文脈知識事実の統合がより影響があることを示唆している。

Answering questions using pre-trained language models (LMs) and knowledge graphs (KGs) presents challenges in identifying relevant knowledge and performing joint reasoning.We compared LMs (fine-tuned for the task) with the previously published QAGNN method for the Question-answering (QA) objective and further measured the impact of additional factual context on the QAGNN performance. The QAGNN method employs LMs to encode QA context and estimate KG node importance, and effectively update the question choice entity representations using Graph Neural Networks (GNNs). We further experimented with enhancing the QA context encoding by incorporating relevant knowledge facts for the question stem. The models are trained on the OpenbookQA dataset, which contains ~6000 4-way multiple choice questions and is widely used as a benchmark for QA tasks. Through our experimentation, we found that incorporating knowledge facts context led to a significant improvement in performance. In contrast, the addition of knowledge graphs to language models resulted in only a modest increase. This suggests that the integration of contextual knowledge facts may be more impactful for enhancing question answering performance compared to solely adding knowledge graphs.
翻訳日:2024-01-03 17:42:29 公開日:2023-12-31
# 効率の良いキャビティを介する断熱伝達の速度限界

Speed Limit of Efficient Cavity-Mediated Adiabatic Transfer ( http://arxiv.org/abs/2401.00384v1 )

ライセンス: Link先を確認
Akinori Suenaga, Takeru Utsugi, Rui Asaoka, Yuuki Tokunaga, Rina Kanamoto, and Takao Aoki(参考訳) キャビティ媒介アディアバティックトランスファー(CMAT)は、光学キャビティ内の閉じ込められた原子間で2ビットゲートを行うための堅牢な方法である。 後藤・市村(H. Goto・K.ichimura, Phys. A 77, 013816(2008))による前回の研究では, CMATの成功確率の上限は, 手術が断続的に遅かった。 しかし,実用化においては,成功確率を犠牲にすることなく,できるだけ早くCMATを運用することが重要である。 本稿では,上界に近い成功確率を条件としたCMATの動作速度限界について検討する。 CMATでは、断熱状態と原子の崩壊とキャビティモードの両方が運用速度を制限している。 いずれの条件が各キャビティqedパラメータ領域の動作速度を著しく制限しているかを示し,キャビティ崩壊の影響が自然放出よりも支配的である場合に最大動作速度が達成されることを示す。

Cavity-mediated adiabatic transfer (CMAT) is a robust way to perform a two-qubit gate between trapped atoms inside an optical cavity. In the previous study by Goto and Ichimura [H. Goto and K. Ichimura, Phys. Rev. A 77, 013816 (2008).], the upper bound of success probability of CMAT was shown where the operation is adiabatically slow. For practical applications, however, it is crucial to operate CMAT as fast as possible without sacrificing the success probability. In this paper, we investigate the operational speed limit of CMAT conditioned on the success probability being close to the upper bound. In CMAT both the adiabatic condition and the decay of atoms and cavity modes limit the operational speed. We show which of these two conditions more severely limits the operational speed in each cavity-QED parameter region, and find that the maximal operational speed is achieved when the influence of cavity decay is dominant compared to spontaneous emission.
翻訳日:2024-01-03 17:42:06 公開日:2023-12-31
# 会話における誘発感情の予測

Predicting Evoked Emotions in Conversations ( http://arxiv.org/abs/2401.00383v1 )

ライセンス: Link先を確認
Enas Altarawneh, Ameeta Agrawal, Michael Jenkin, Manos Papagelis(参考訳) 多人数会話における感情的軌跡の理解と予測は極めて重要である。 このような情報は、例えば、人間と機械の相互作用において共感的な反応を生成するために、またはプリエンプティブ毒性検出のモデルに通知するために用いられる。 本研究では,次のターン(n+1)における会話における感情予測(PEC)の新たな問題を紹介する。 対話における誘発感情に内在する3次元をモデル化し,問題を体系的に解決する。 (i)シーケンスモデリング。 (ii)自己依存モデリング、及び (iii)recency modeling。 これらのモデリング次元は、シーケンスモデルとグラフ畳み込みネットワークモデルという2つのディープニューラルネットワークアーキテクチャに組み込まれる。 前者は対話中の発話のシーケンスをキャプチャし、後者は発話のシーケンスと多人数対話のネットワーク形成をキャプチャするように設計されている。 我々は,pec問題に対処するために提案する各種モデルの包括的実証評価を行う。 その結果は (i)予測課題における自己依存度・正規性モデル次元の重要性 (ii)短い対話における単純なシーケンスモデルの品質 (iii)長い対話における予測の改善におけるグラフニューラルモデルの重要性。

Understanding and predicting the emotional trajectory in multi-party multi-turn conversations is of great significance. Such information can be used, for example, to generate empathetic response in human-machine interaction or to inform models of pre-emptive toxicity detection. In this work, we introduce the novel problem of Predicting Emotions in Conversations (PEC) for the next turn (n+1), given combinations of textual and/or emotion input up to turn n. We systematically approach the problem by modeling three dimensions inherently connected to evoked emotions in dialogues, including (i) sequence modeling, (ii) self-dependency modeling, and (iii) recency modeling. These modeling dimensions are then incorporated into two deep neural network architectures, a sequence model and a graph convolutional network model. The former is designed to capture the sequence of utterances in a dialogue, while the latter captures the sequence of utterances and the network formation of multi-party dialogues. We perform a comprehensive empirical evaluation of the various proposed models for addressing the PEC problem. The results indicate (i) the importance of the self-dependency and recency model dimensions for the prediction task, (ii) the quality of simpler sequence models in short dialogues, (iii) the importance of the graph neural models in improving the predictions in long dialogues.
翻訳日:2024-01-03 17:41:45 公開日:2023-12-31
# DREAM: AutoMLパイプラインのデバッグと修復

DREAM: Debugging and Repairing AutoML Pipelines ( http://arxiv.org/abs/2401.00379v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Chao Shen(参考訳) ディープラーニングモデルは、現代のソフトウェアシステムの統合コンポーネントとなっている。 モデル設計の課題に対して、研究者らは、与えられたタスクに対してモデルアーキテクチャとハイパーパラメータを自動的に検索するAutomated Machine Learning (AutoML)システムを提案した。 他のソフトウェアシステムと同様に、既存のAutoMLシステムはバグに悩まされている。 AutoMLの一般的な2つのバグ、パフォーマンスバグ(すなわち、所望のモデルを探すのに不合理な時間を要する)、非効率的な検索バグ(つまり、AutoMLシステムは十分なモデルを見つけることができない)を特定します。 AutoMLのワークフローを解析した結果、既存のAutoMLシステムは検索空間や検索方法、検索フィードバックの潜在的な可能性を見落とし、その結果、性能と非効率な検索バグが発生していることがわかった。 この分析に基づいて,automlシステムのための自動デバッグおよび修正システムであるdreamを設計,実装した。 AutoMLのプロセスを監視し、詳細なフィードバックを収集し、検索スペースを拡張し、フィードバック駆動の検索戦略を活用することでバグを自動的に修復する。 評価の結果,DREAMはAutoMLのバグを効果的かつ効率的に修復できることがわかった。

Deep Learning models have become an integrated component of modern software systems. In response to the challenge of model design, researchers proposed Automated Machine Learning (AutoML) systems, which automatically search for model architecture and hyperparameters for a given task. Like other software systems, existing AutoML systems suffer from bugs. We identify two common and severe bugs in AutoML, performance bug (i.e., searching for the desired model takes an unreasonably long time) and ineffective search bug (i.e., AutoML systems are not able to find an accurate enough model). After analyzing the workflow of AutoML, we observe that existing AutoML systems overlook potential opportunities in search space, search method, and search feedback, which results in performance and ineffective search bugs. Based on our analysis, we design and implement DREAM, an automatic debugging and repairing system for AutoML systems. It monitors the process of AutoML to collect detailed feedback and automatically repairs bugs by expanding search space and leveraging a feedback-driven search strategy. Our evaluation results show that DREAM can effectively and efficiently repair AutoML bugs.
翻訳日:2024-01-03 17:41:27 公開日:2023-12-31
# スケッチに基づく動的顔画像検索のためのマルチグラニュリティ表現学習

Multi-Granularity Representation Learning for Sketch-based Dynamic Face Image Retrieval ( http://arxiv.org/abs/2401.00371v1 )

ライセンス: Link先を確認
Liang Wang, Dawei Dai, Shiyu Fu, Guoyin Wang(参考訳) 特定のシナリオでは、顔のスケッチを使って人物を識別することができる。 しかし、顔のスケッチを描くには、しばしば例外的なスキルが必要であり、実際のシナリオでの幅広い応用を制限するのに時間がかかる。 sketch less face image retrieval (slfir)[1]の新たなフレームワークは、描画プロセス中に人間と機械が対話する手段を提供することで、障壁を克服しようとするものである。 SLFIR問題を考えると、ストロークが少ない部分スケッチと顔写真全体の間には大きなギャップがあり、初期の段階ではパフォーマンスが低下する。 本研究では,SLFIR問題に対処する多粒度表現学習法(MGRL)を提案し,部分スケッチの異なる粒度領域の表現を学習し,スケッチと画像のすべてのMG領域を組み合わせて最終的な距離を決定する。 実験では,2つのアクセス可能なデータセットの早期検索において,最先端のベースラインを上回った。 コードはhttps://github.com/ddw2aigroup2cqupt/mgrlで入手できる。

In specific scenarios, face sketch can be used to identify a person. However, drawing a face sketch often requires exceptional skill and is time-consuming, limiting its widespread applications in actual scenarios. The new framework of sketch less face image retrieval (SLFIR)[1] attempts to overcome the barriers by providing a means for humans and machines to interact during the drawing process. Considering SLFIR problem, there is a large gap between a partial sketch with few strokes and any whole face photo, resulting in poor performance at the early stages. In this study, we propose a multigranularity (MG) representation learning (MGRL) method to address the SLFIR problem, in which we learn the representation of different granularity regions for a partial sketch, and then, by combining all MG regions of the sketches and images, the final distance was determined. In the experiments, our method outperformed state-of-the-art baselines in terms of early retrieval on two accessible datasets. Codes are available at https://github.com/ddw2AIGROUP2CQUPT/MGRL.
翻訳日:2024-01-03 17:40:44 公開日:2023-12-31
# UGPNet:イメージ復元のためのユニバーサルジェネレーター

UGPNet: Universal Generative Prior for Image Restoration ( http://arxiv.org/abs/2401.00370v1 )

ライセンス: Link先を確認
Hwayoon Lee, Kyoungkook Kang, Hyeongmin Lee, Seung-Hwan Baek, Sunghyun Cho(参考訳) 最近の画像復元手法は,(1)高周波ディテールを合成することなく原画像の粗い構造を復元する回帰法,(2)入力元の構造から逸脱した場合でも知覚的実数的高周波ディテールを合成する生成法,の2種類に大別できる。 どちらの方向も独立して広く研究されているが、その利点と単一のフレームワークを統合することはめったに研究されていない。 本稿では,既存の回帰モデルと生成モデルのペアを採用するだけで,両アプローチのメリットを効果的に実現できる普遍的な画像復元フレームワークであるUGPNetを提案する。 UGPNetはまず回帰モデルを用いて劣化した入力の画像構造を復元し、回帰出力の上に生成モデルを用いた知覚現実画像を生成する。 UGPNetは、回帰出力と合成出力を組み合わせることで、最終的な結果として、知覚的に現実的なテクスチャに加えて、元のイメージの構造を忠実に再構築する。 超高精細度画像復元のための回帰法と生成法の両方をUGPNetが有効に活用できることを示す。

Recent image restoration methods can be broadly categorized into two classes: (1) regression methods that recover the rough structure of the original image without synthesizing high-frequency details and (2) generative methods that synthesize perceptually-realistic high-frequency details even though the resulting image deviates from the original structure of the input. While both directions have been extensively studied in isolation, merging their benefits with a single framework has been rarely studied. In this paper, we propose UGPNet, a universal image restoration framework that can effectively achieve the benefits of both approaches by simply adopting a pair of an existing regression model and a generative model. UGPNet first restores the image structure of a degraded input using a regression model and synthesizes a perceptually-realistic image with a generative model on top of the regressed output. UGPNet then combines the regressed output and the synthesized output, resulting in a final result that faithfully reconstructs the structure of the original image in addition to perceptually-realistic textures. Our extensive experiments on deblurring, denoising, and super-resolution demonstrate that UGPNet can successfully exploit both regression and generative methods for high-fidelity image restoration.
翻訳日:2024-01-03 17:40:25 公開日:2023-12-31
# 大規模言語モデルによるテキスト埋め込みの改善

Improving Text Embeddings with Large Language Models ( http://arxiv.org/abs/2401.00368v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei(参考訳) 本稿では,合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現する方法を提案する。 数十億の弱い教師付きテキストペアを持つ多段階の中間訓練にしばしば依存する既存の方法とは異なり、ラベル付きデータセットによる微調整は複雑なトレーニングパイプラインの構築や、タスクの多様性や言語カバレッジに制約されるような手作業によるデータセットに頼る必要がない。 プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。 次に、標準コントラスト損失を用いた合成データ上に、オープンソースデコーダのみを微調整する。 本手法は,ラベル付きデータを用いずに,高い競合性を持つテキスト埋め込みベンチマークにおいて,強力な性能を実現することを実証する。 さらに、合成データとラベルデータの混合を微調整すると、BEIRおよびMTEBベンチマークに新たな最先端結果が設定される。

In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across nearly 100 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.
翻訳日:2024-01-03 17:40:02 公開日:2023-12-31
# ワルツの「国際政治の新興構造」における議論

Argumentation in Waltz's "Emerging Structure of International Politics'' ( http://arxiv.org/abs/2401.00366v1 )

ライセンス: Link先を確認
Magdalena Wolska, Bernd Fr\"ohlich, Katrin Girgensohn, Sassan Gholiagha, Dora Kiesel, J\"urgen Neyer, Patrick Riehmann, Mitja Sienknecht, Benno Stein(参考訳) 本稿では,国際関係論における学術論文の論証的・ドメイン特化的側面のアノテーションスキームを提案する。 議論レベルでは、クレームとサポート/アタックの関係を識別します。 ドメインレベルでは、理論とデータ関連ステートメントの観点から談話の内容をモデル化します。 我々はWaltzの1993年の構造的リアリズムに関するテキストに注釈を付け、我々のスキームがドメインの専門家によって確実に適用可能であることを示す。

We present an annotation scheme for argumentative and domain-specific aspects of scholarly articles on the theory of International Relations. At argumentation level we identify Claims and Support/Attack relations. At domain level we model discourse content in terms of Theory and Data-related statements. We annotate Waltz's 1993 text on structural realism and show that our scheme can be reliably applied by domain experts enables insights on two research questions on justifications of claims.
翻訳日:2024-01-03 17:39:46 公開日:2023-12-31
# Wild2Avatar:人間を隠蔽する

Wild2Avatar: Rendering Humans Behind Occlusions ( http://arxiv.org/abs/2401.00431v1 )

ライセンス: Link先を確認
Tiange Xiang, Adam Sun, Scott Delp, Kazuki Kozuka, Li Fei-Fei, Ehsan Adeli(参考訳) 人間の視覚的な外観をモノクロビデオからレンダリングするのは、難しい作業だ。 既存の研究のほとんどは、理想の条件下で3dの人間を描いている。 これらの手法は、障害物がカメラの視界を遮り、部分閉塞に繋がる現実世界のシーンで人間を映し出すのに使用できない。 この研究で、我々はWild2Avatarを紹介します。 そこで我々は,シーンを3つの部分 – 隠蔽,人間,背景 – に分離するシーンパラメータ化を提案する。 さらに、広範囲な目的関数は、人間の排他性と背景の両方からの切り離しを強制し、人間のモデルの完全性を確保するために設計されている。 In-the-wild video 実験により,本手法の有効性を検証する。

Rendering the visual appearance of moving humans from occluded monocular videos is a challenging task. Most existing research renders 3D humans under ideal conditions, requiring a clear and unobstructed scene. Those methods cannot be used to render humans in real-world scenes where obstacles may block the camera's view and lead to partial occlusions. In this work, we present Wild2Avatar, a neural rendering approach catered for occluded in-the-wild monocular videos. We propose occlusion-aware scene parameterization for decoupling the scene into three parts - occlusion, human, and background. Additionally, extensive objective functions are designed to help enforce the decoupling of the human from both the occlusion and the background and to ensure the completeness of the human model. We verify the effectiveness of our approach with experiments on in-the-wild videos.
翻訳日:2024-01-03 17:34:24 公開日:2023-12-31
# 脳条件型マルチモーダル合成:調査と分類

Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy ( http://arxiv.org/abs/2401.00430v1 )

ライセンス: Link先を確認
Weijian Mai, Jian Zhang, Pengfei Fang, Zhijun Zhang(参考訳) 人工知能生成コンテンツ(AIGC)の時代において、条件付きマルチモーダル合成技術(例えば、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ、テキスト・トゥ・オーディオ)は、現実の世界における自然なコンテンツを徐々に作り直す。 マルチモーダル合成技術の鍵は、異なるモダリティ間のマッピング関係を確立することである。 脳信号は、脳が外部情報をどのように解釈するかの潜在的反映として機能し、様々な外部のモダリティと一対一の明確な対応を示す。 この対応により、マルチモーダルコンテンツ合成のための有望な誘導条件として脳信号が出現する。 ブライアン条件のマルチモーダル合成(Brian-conditional multimodal synthesis)とは、脳の信号を知覚経験に復号することであり、脳とコンピュータのインターフェイスシステムを実践し、脳が外部の刺激を理解し理解する方法の基礎となる複雑なメカニズムを明らかにするために重要である。 本研究は、aigc-brainと呼ばれる、aigcベースの脳条件型マルチモーダル合成の新たな分野を包括的に検討し、現在の景観と今後の方向性を明らかにした。 まず、AIGC-Brainデコーディングと分析の基礎として、関連脳神経画像データセット、機能脳領域、および主流生成モデルを導入する。 次に,aigc-脳デコードモデルのための包括的分類法を提供し,タスク固有の代表的作業と詳細な実装戦略を提示し,比較および詳細な解析を容易にする。 質評価は質評価と定量的評価の両方に導入される。 最後に、この調査は得られた洞察を探求し、aigc-brainの現在の課題と展望を概説する。 この領域における最初の調査として、AIGC-Brain研究の進展の道を開き、今後の研究を導く基礎的な概要を提供する。

In the era of Artificial Intelligence Generated Content (AIGC), conditional multimodal synthesis technologies (e.g., text-to-image, text-to-video, text-to-audio, etc) are gradually reshaping the natural content in the real world. The key to multimodal synthesis technology is to establish the mapping relationship between different modalities. Brain signals, serving as potential reflections of how the brain interprets external information, exhibit a distinctive One-to-Many correspondence with various external modalities. This correspondence makes brain signals emerge as a promising guiding condition for multimodal content synthesis. Brian-conditional multimodal synthesis refers to decoding brain signals back to perceptual experience, which is crucial for developing practical brain-computer interface systems and unraveling complex mechanisms underlying how the brain perceives and comprehends external stimuli. This survey comprehensively examines the emerging field of AIGC-based Brain-conditional Multimodal Synthesis, termed AIGC-Brain, to delineate the current landscape and future directions. To begin, related brain neuroimaging datasets, functional brain regions, and mainstream generative models are introduced as the foundation of AIGC-Brain decoding and analysis. Next, we provide a comprehensive taxonomy for AIGC-Brain decoding models and present task-specific representative work and detailed implementation strategies to facilitate comparison and in-depth analysis. Quality assessments are then introduced for both qualitative and quantitative evaluation. Finally, this survey explores insights gained, providing current challenges and outlining prospects of AIGC-Brain. Being the inaugural survey in this domain, this paper paves the way for the progress of AIGC-Brain research, offering a foundational overview to guide future work.
翻訳日:2024-01-03 17:34:09 公開日:2023-12-31
# Decorrelated Event Classifier Transformer Neural Networkによる重要度学習の試み

Training towards significance with the decorrelated event classifier transformer neural network ( http://arxiv.org/abs/2401.00428v1 )

ライセンス: Link先を確認
Jaebak Kim(参考訳) 実験粒子物理学は、信号と背景イベントを分類する、多くのタスクに機械学習を使用する。 この分類は、質量共鳴探索に期待される重要性を高めるために分析領域をビンにすることができる。 自然言語処理において、主要なニューラルネットワークアーキテクチャの1つがtransformerである。 本研究では,ネットワークを特別な手法で訓練する解析領域をビン化するために,イベント分類器変換器を提案する。 ここで開発された技術は、ネットワークの出力と再構成された質量との相関性を高めることができる。 この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮する。

Experimental particle physics uses machine learning for many of tasks, where one application is to classify signal and background events. The classification can be used to bin an analysis region to enhance the expected significance for a mass resonance search. In natural language processing, one of the leading neural network architectures is the transformer. In this work, an event classifier transformer is proposed to bin an analysis region, in which the network is trained with special techniques. The techniques developed here can enhance the significance and reduce the correlation between the network's output and the reconstructed mass. It is found that this trained network can perform better than boosted decision trees and feed-forward networks.
翻訳日:2024-01-03 17:33:34 公開日:2023-12-31
# keqing:ナレッジベースの質問応答はLLMの自然連鎖型メンターである

keqing: knowledge-based question answering is a nature chain-of-thought mentor of LLM ( http://arxiv.org/abs/2401.00426v1 )

ライセンス: Link先を確認
Chaojie Wang, Yishi Xu, Zhong Peng, Chenxi Zhang, Bo Chen, Xinrun Wang, Lei Feng, Bo An(参考訳) 大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。 しかし、知識の範囲を超えて問題に直面している場合、これらのLCMは直面とナンセンスな会話をする傾向にあり、潜在的な解決策は情報検索(IR)モジュールを組み込んでこれらの知識に基づいて応答を生成することができる。 本稿では,知識グラフに関する質問関連構造化情報を取得するためのChatGPTなどのLCMを支援する新しいフレームワークを提案するとともに,知識に基づく質問応答(Keqing)が,解釈可能な論理的連鎖を通じて複雑な質問の回答エンティティを逐次見つけ出すための,Chain-of-Thought(CoT)の指導者であることを実証する。 具体的には、Keqingのワークフローは、事前に定義されたテンプレートに従って複雑な質問を分解し、知識グラフ上の候補エンティティを検索し、サブクエストの回答を推論し、最後に推論パスで応答を生成し、LLMの応答の信頼性を大幅に向上する。 KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。

Large language models (LLMs) have exhibited remarkable performance on various natural language processing (NLP) tasks, especially for question answering. However, in the face of problems beyond the scope of knowledge, these LLMs tend to talk nonsense with a straight face, where the potential solution could be incorporating an Information Retrieval (IR) module and generating response based on these retrieved knowledge. In this paper, we present a novel framework to assist LLMs, such as ChatGPT, to retrieve question-related structured information on the knowledge graph, and demonstrate that Knowledge-based question answering (Keqing) could be a nature Chain-of-Thought (CoT) mentor to guide the LLM to sequentially find the answer entities of a complex question through interpretable logical chains. Specifically, the workflow of Keqing will execute decomposing a complex question according to predefined templates, retrieving candidate entities on knowledge graph, reasoning answers of sub-questions, and finally generating response with reasoning paths, which greatly improves the reliability of LLM's response. The experimental results on KBQA datasets show that Keqing can achieve competitive performance and illustrate the logic of answering each question.
翻訳日:2024-01-03 17:33:23 公開日:2023-12-31
# SDIF-DA:マルチモーダルインテント検出のためのデータ拡張による浅層間相互作用フレームワーク

SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation for Multi-modal Intent Detection ( http://arxiv.org/abs/2401.00424v1 )

ライセンス: Link先を確認
Shijue Huang, Libo Qin, Bingbing Wang, Geng Tu, Ruifeng Xu(参考訳) マルチモーダルインテント検出は,現実のシナリオにおける対話システムの展開に不可欠な,ユーザの意図を理解するために様々なモダリティを活用することを目的としている。 マルチモーダルインテント検出における2つの主な課題は,(1)異なるモダリティの特徴を効果的に調整し融合する方法,(2)限定ラベル付きマルチモーダルインテントトレーニングデータである。 本研究では,データ拡張(SDIF-DA)を用いた浅層間相互作用フレームワークを導入し,これらの課題に対処する。 まず、SDIF-DAは浅層から深層までの相互作用モジュールを利用して、テキスト、ビデオ、オーディオモダリティ間の機能を段階的に効果的に整列させ、融合させる。 次に,十分なトレーニングデータを自動的に強化するchatgptベースのデータ拡張手法を提案する。 実験の結果,SDIF-DAは最先端性能を達成し,マルチモーダル特徴を効果的に整合・融合できることが示された。 さらに,データ拡張手法の導入により,大規模言語モデルから知識を抽出することに成功した。

Multi-modal intent detection aims to utilize various modalities to understand the user's intentions, which is essential for the deployment of dialogue systems in real-world scenarios. The two core challenges for multi-modal intent detection are (1) how to effectively align and fuse different features of modalities and (2) the limited labeled multi-modal intent training data. In this work, we introduce a shallow-to-deep interaction framework with data augmentation (SDIF-DA) to address the above challenges. Firstly, SDIF-DA leverages a shallow-to-deep interaction module to progressively and effectively align and fuse features across text, video, and audio modalities. Secondly, we propose a ChatGPT-based data augmentation approach to automatically augment sufficient training data. Experimental results demonstrate that SDIF-DA can effectively align and fuse multi-modal features by achieving state-of-the-art performance. In addition, extensive analyses show that the introduced data augmentation approach can successfully distill knowledge from the large language model.
翻訳日:2024-01-03 17:32:55 公開日:2023-12-31
# MSGNet:多変量時系列予測のためのマルチスケール時系列相関学習

MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2401.00423v1 )

ライセンス: Link先を確認
Wanlin Cai, Yuxuan Liang, Xianggen Liu, Jianshuai Feng, Yuankai Wu(参考訳) 多変量時系列予測は、様々な分野にわたる継続的な課題を提起する。 時系列データはしばしばシリーズ内およびシリーズ間相関を示し、多くの研究の焦点となった複雑な依存関係と相互依存関係に寄与する。 それにもかかわらず、複数の時系列間で異なる時間スケールにわたって異なる時系列間の相関関係を理解することには、重要な研究ギャップが残っている。 このギャップを埋めるために、周波数領域解析と適応グラフ畳み込みを用いて、複数の時間スケールにわたる時系列間相関をキャプチャする高度な深層学習モデルMSGNetを提案する。 周波数領域解析を利用して、MSGNetは周期パターンを効果的に抽出し、時系列を異なる時間尺度に分解する。 このモデルには、シリーズ内の依存関係をキャプチャする自己注意機構が組み込まれ、適応的なミックスホップグラフ畳み込み層を導入し、各タイムスケール内でさまざまなシリーズ間の相関を自律的に学習する。 MSGNetの有効性を示すために、複数の実世界のデータセットで大規模な実験が行われた。 さらに、msgnetは、説明可能な複数スケールのシリーズ間相関を自動的に学習する能力を持ち、分散サンプルに適用しても強力な一般化能力を示す。

Multivariate time series forecasting poses an ongoing challenge across various disciplines. Time series data often exhibit diverse intra-series and inter-series correlations, contributing to intricate and interwoven dependencies that have been the focus of numerous studies. Nevertheless, a significant research gap remains in comprehending the varying inter-series correlations across different time scales among multiple time series, an area that has received limited attention in the literature. To bridge this gap, this paper introduces MSGNet, an advanced deep learning model designed to capture the varying inter-series correlations across multiple time scales using frequency domain analysis and adaptive graph convolution. By leveraging frequency domain analysis, MSGNet effectively extracts salient periodic patterns and decomposes the time series into distinct time scales. The model incorporates a self-attention mechanism to capture intra-series dependencies, while introducing an adaptive mixhop graph convolution layer to autonomously learn diverse inter-series correlations within each time scale. Extensive experiments are conducted on several real-world datasets to showcase the effectiveness of MSGNet. Furthermore, MSGNet possesses the ability to automatically learn explainable multi-scale inter-series correlations, exhibiting strong generalization capabilities even when applied to out-of-distribution samples.
翻訳日:2024-01-03 17:32:36 公開日:2023-12-31
# 距離集中と多様体効果による次元の呪いの解釈

Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect ( http://arxiv.org/abs/2401.00422v1 )

ライセンス: Link先を確認
Dehua Peng, Zhipeng Gui, Huayi Wu(参考訳) 次元が増加するにつれて、データの特性と解釈性はより抽象的で複雑になる。 低次元空間において保持される共通パターンと関係は、高次元空間において保持されないことがある。 この現象は回帰、分類、クラスタリングモデルまたはアルゴリズムのパフォーマンスを低下させ、これは次元の呪いとして知られている。 次元の呪いは多くの原因によって引き起こされる。 本稿ではまず,高次元データの操作に関わる5つの課題を要約し,回帰,分類,クラスタリングタスクの失敗の原因について説明する。 次に, 次元の呪い, 距離集中, 多様体効果の2つの主な原因を理論的, 経験的分析によって考察する。 その結果,3つの典型的な距離,ミンコフスキー距離,チェビシェフ距離,コサイン距離を用いた近接探索(NNS)は次元が増加するにつれて意味がなくなることがわかった。 一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。 次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解し、高次元空間におけるデータ解析や機械学習タスクの性能を向上させることができる。

The characteristics and interpretability of data become more abstract and complex as the dimensionality increases. Common patterns and relationships that hold in in low-dimensional space may fail to hold in higher-dimensional space. This phenomenon leads to a decreasing performance for the regression, classification or clustering models or algorithms, which is known as curse of dimensionality. Curse of dimensionality can be attributed to many causes. In this paper, we first summarize five challenges associated with manipulating high-dimensional data, and explains the potential causes for the failure of regression, classification or clustering tasks. Subsequently, we delve into two major causes of the curse of dimensionality, distance concentration and manifold effect, by performing theoretical and empirical analyses. The results demonstrate that nearest neighbor search (NNS) using three typical distance measurements, Minkowski distance, Chebyshev distance, and cosine distance, becomes meaningless as the dimensionality increases. Meanwhile, the data incorporates more redundant features, and the variance contribution of principal component analysis (PCA) is skewed towards a few dimensions. By interpreting the causes of the curse of dimensionality, we can better understand the limitations of current models and algorithms, and drive to improve the performance of data analysis and machine learning tasks in high-dimensional space.
翻訳日:2024-01-03 17:32:14 公開日:2023-12-31
# テキストからピクセルへ:赤外線と可視画像融合のためのコンテキスト対応セマンティックシナジーソリューション

From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2401.00421v1 )

ライセンス: Link先を確認
Xingyuan Li, Yang Zou, Jinyuan Liu, Zhiying Jiang, Long Ma, Xin Fan, Risheng Liu(参考訳) ディープラーニング技術の急速な進歩に伴い、オブジェクト検出タスクにおいて多モード画像融合がますます普及している。 その人気にもかかわらず、異なるソースがシーンコンテンツを描写する方法における固有の格差は、融合を困難な問題にしている。 現在の融合手法では、2つのモダリティ間の共有特性を識別し、反復的最適化またはディープラーニングアーキテクチャを用いて共有ドメインに統合し、モダリティ間の複雑な意味関係を無視して、モダリティ間の相互接続を表面的に理解し、その結果、準最適融合結果をもたらす。 そこで本研究では,テキスト記述から高レベルなセマンティクスを活用し,赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合手法を提案する。 本手法は, 物体検出の精度とロバスト性を両立させ, 多様なモーダルの相補的特性に乗じる。 このコードブックは、検出タスクにおける最適な性能のために微調整されたドメイン内およびドメイン間ダイナミクスの合理的で簡潔な描写を強化するために利用される。 本稿では,融合問題と検出問題とを両立させる二段階最適化戦略を提案し,両者のプロセスを同時に最適化する。 さらに、テキストプロンプトを伴い、対の赤外線と可視画像の最初のデータセットを導入し、将来の研究への道を開く。 いくつかのデータセットに対する大規模な実験により、我々の手法は視覚的に優れた融合結果を生成するだけでなく、既存の手法よりも高い検出mAPを達成し、最先端の結果を得ることを示した。

With the rapid progression of deep learning technologies, multi-modality image fusion has become increasingly prevalent in object detection tasks. Despite its popularity, the inherent disparities in how different sources depict scene content make fusion a challenging problem. Current fusion methodologies identify shared characteristics between the two modalities and integrate them within this shared domain using either iterative optimization or deep learning architectures, which often neglect the intricate semantic relationships between modalities, resulting in a superficial understanding of inter-modal connections and, consequently, suboptimal fusion outcomes. To address this, we introduce a text-guided multi-modality image fusion method that leverages the high-level semantics from textual descriptions to integrate semantics from infrared and visible images. This method capitalizes on the complementary characteristics of diverse modalities, bolstering both the accuracy and robustness of object detection. The codebook is utilized to enhance a streamlined and concise depiction of the fused intra- and inter-domain dynamics, fine-tuned for optimal performance in detection tasks. We present a bilevel optimization strategy that establishes a nexus between the joint problem of fusion and detection, optimizing both processes concurrently. Furthermore, we introduce the first dataset of paired infrared and visible images accompanied by text prompts, paving the way for future research. Extensive experiments on several datasets demonstrate that our method not only produces visually superior fusion results but also achieves a higher detection mAP over existing methods, achieving state-of-the-art results.
翻訳日:2024-01-03 17:31:53 公開日:2023-12-31
# SynCDR : 合成データを用いたクロスドメイン検索モデルの訓練

SynCDR : Training Cross Domain Retrieval Models with Synthetic Data ( http://arxiv.org/abs/2401.00420v1 )

ライセンス: Link先を確認
Samarth Mishra, Kate Saenko, Venkatesh Saligrama(参考訳) クロスドメイン検索では、同じ意味カテゴリーの画像を2つのビジュアルドメインで識別するモデルが必要となる。 例えば、オブジェクトのスケッチが与えられた場合、モデルはオンラインストアのカタログから実際のイメージを取得する必要がある。 そのような問題に対する標準的なアプローチは、ユークリッド距離が類似性を反映する画像の特徴空間を学ぶことである。 人間のアノテーションがなくても、事前のメソッドはトレーニングにラベルなしの画像を使うのに適しています。 この制約は、2つのドメインがトレーニングデータの共通カテゴリを必ずしも共有しないシナリオにさらに当てはまる。 これは、2つのドメインが異なる人の身元を記録する生体センサーの異なるバージョンから来ている場合に起こりうる。 我々は、これらの欠落したカテゴリの例を満たすために合成データを生成する単純な解を仮定する。 これは、ある視覚領域から別の領域への画像の翻訳を保存するカテゴリを通して行う。 我々は,この2つのドメインに対して,この翻訳に特化して訓練されたアプローチと,プロンプトを介して大規模に事前訓練されたテキスト-画像拡散モデルを使用する手法を比較し,後者がより良い置換データを生成し,より正確なクロスドメイン検索モデルを実現することを見出した。 私たちの作業のコードはhttps://github.com/samarth4149/SynCDR で公開されている。

In cross-domain retrieval, a model is required to identify images from the same semantic category across two visual domains. For instance, given a sketch of an object, a model needs to retrieve a real image of it from an online store's catalog. A standard approach for such a problem is learning a feature space of images where Euclidean distances reflect similarity. Even without human annotations, which may be expensive to acquire, prior methods function reasonably well using unlabeled images for training. Our problem constraint takes this further to scenarios where the two domains do not necessarily share any common categories in training data. This can occur when the two domains in question come from different versions of some biometric sensor recording identities of different people. We posit a simple solution, which is to generate synthetic data to fill in these missing category examples across domains. This, we do via category preserving translation of images from one visual domain to another. We compare approaches specifically trained for this translation for a pair of domains, as well as those that can use large-scale pre-trained text-to-image diffusion models via prompts, and find that the latter can generate better replacement synthetic data, leading to more accurate cross-domain retrieval models. Code for our work is available at https://github.com/samarth4149/SynCDR .
翻訳日:2024-01-03 17:31:27 公開日:2023-12-31
# SVFAP: 自己監督型顔効果知覚装置

SVFAP: Self-supervised Video Facial Affect Perceiver ( http://arxiv.org/abs/2401.00416v1 )

ライセンス: Link先を確認
Licai Sun, Zheng Lian, Kexin Wang, Yu He, Mingyu Xu, Haiyang Sun, Bin Liu, and Jianhua Tao(参考訳) ビデオベースの顔の感情分析は、人間とコンピュータの相互作用において重要な役割を担っているため、最近注目を集めている。 これまでの研究は主に、さまざまなディープラーニングアーキテクチャの開発と、それらを完全に監督された方法でトレーニングすることに集中している。 これらの教師付き手法によって大きな進歩を遂げたものの、大規模で高品質なラベル付きデータの欠如がさらなる改善を妨げる。 近年,コンピュータビジョンにおける自己指導型学習の成功に触発されて,自己監督型ビデオファシアル・アフェイン・パーシーバー(SVFAP)と呼ばれる自己監督型アプローチを導入し,教師付き手法が直面するジレンマに対処する。 具体的には、SVFAPはマスク付き顔ビデオの自動符号化を利用して、巨大なラベルのない顔ビデオで自己教師付き事前トレーニングを行う。 本稿では,svfapのエンコーダとして,時空間的冗長性を考慮し,新しい時間的ピラミッドと空間的ボトルネックトランスフォーマを提案する。 提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。 総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。 コードはhttps://github.com/sunlicai/SVFAPで入手できる。

Video-based facial affect analysis has recently attracted increasing attention owing to its critical role in human-computer interaction. Previous studies mainly focus on developing various deep learning architectures and training them in a fully supervised manner. Although significant progress has been achieved by these supervised methods, the longstanding lack of large-scale high-quality labeled data severely hinders their further improvements. Motivated by the recent success of self-supervised learning in computer vision, this paper introduces a self-supervised approach, termed Self-supervised Video Facial Affect Perceiver (SVFAP), to address the dilemma faced by supervised methods. Specifically, SVFAP leverages masked facial video autoencoding to perform self-supervised pre-training on massive unlabeled facial videos. Considering that large spatiotemporal redundancy exists in facial videos, we propose a novel temporal pyramid and spatial bottleneck Transformer as the encoder of SVFAP, which not only enjoys low computational cost but also achieves excellent performance. To verify the effectiveness of our method, we conduct experiments on nine datasets spanning three downstream tasks, including dynamic facial expression recognition, dimensional emotion recognition, and personality recognition. Comprehensive results demonstrate that SVFAP can learn powerful affect-related representations via large-scale self-supervised pre-training and it significantly outperforms previous state-of-the-art methods on all datasets. Codes will be available at https://github.com/sunlicai/SVFAP.
翻訳日:2024-01-03 17:31:03 公開日:2023-12-31
# 自然トリガーによる顔偽造検出は可能か?

Is It Possible to Backdoor Face Forgery Detection with Natural Triggers? ( http://arxiv.org/abs/2401.00414v1 )

ライセンス: Link先を確認
Xiaoxuan Han, Songlin Yang, Wei Wang, Ziwen He, Jing Dong(参考訳) 深層ニューラルネットワークはAIGC(Artificial Intelligent Generated Content)の識別における顔偽造検出モデルの性能を大幅に改善した。 しかしながら、彼らのセキュリティはモデルトレーニング中のトリガー(つまりバックドアアタック)の注入によって著しく脅かされている。 既存のバックドア防御や手動データ選択は、パッチや逆向きのノイズなど、人間の目に敏感なトリガーを使用することを軽減できるが、より困難なバックドアトリガーは、十分に研究されていない。 自然トリガーをさらに調査するために,潜在空間に自然トリガーを埋め込んだ顔偽造検出モデルに対する新しい解析・合成バックドア攻撃を提案する。 モデル識別(Optimization-based Trigger): 代替検出モデルを採用し, クロスエントロピー損失を最小限にしてトリガーを見つける(2) データ分散(Custom Trigger): 長期分布における異常な顔の特徴を操作して, 検出モデルからの監督なしに有毒な試料を生成する。 さらに,最新のaigcに向けた検出モデルを完全に評価するために,最先端のスタイルガンと安定拡散をトリガー生成に用いる。 最後に、これらのバックドアトリガーは、より自然で堅牢な、生成した有毒なサンプル(例えば、皮膚のテクスチャや笑顔)に特定の意味的特徴を導入する。 1)攻撃成功率: 高い攻撃成功率(99%以上)を達成し、低毒率(3%以下)で小さなモデル精度低下(0.2%以下)を生じていること,(2)バックドアディフェンス: 既存のバックドアディフェンス法に直面する場合, より堅牢な性能を示すこと,(3) ヒューマンインスペクション: 包括的ユーザスタディより人目感受性が低いこと,の3つのレベルから,本手法が優れていることを示す。

Deep neural networks have significantly improved the performance of face forgery detection models in discriminating Artificial Intelligent Generated Content (AIGC). However, their security is significantly threatened by the injection of triggers during model training (i.e., backdoor attacks). Although existing backdoor defenses and manual data selection can mitigate those using human-eye-sensitive triggers, such as patches or adversarial noises, the more challenging natural backdoor triggers remain insufficiently researched. To further investigate natural triggers, we propose a novel analysis-by-synthesis backdoor attack against face forgery detection models, which embeds natural triggers in the latent space. We thoroughly study such backdoor vulnerability from two perspectives: (1) Model Discrimination (Optimization-Based Trigger): we adopt a substitute detection model and find the trigger by minimizing the cross-entropy loss; (2) Data Distribution (Custom Trigger): we manipulate the uncommon facial attributes in the long-tailed distribution to generate poisoned samples without the supervision from detection models. Furthermore, to completely evaluate the detection models towards the latest AIGC, we utilize both state-of-the-art StyleGAN and Stable Diffusion for trigger generation. Finally, these backdoor triggers introduce specific semantic features to the generated poisoned samples (e.g., skin textures and smile), which are more natural and robust. Extensive experiments show that our method is superior from three levels: (1) Attack Success Rate: ours achieves a high attack success rate (over 99%) and incurs a small model accuracy drop (below 0.2%) with a low poisoning rate (less than 3%); (2) Backdoor Defense: ours shows better robust performance when faced with existing backdoor defense methods; (3) Human Inspection: ours is less human-eye-sensitive from a comprehensive user study.
翻訳日:2024-01-03 17:30:35 公開日:2023-12-31
# バックプロパゲーションフリー光PINNトレーニングによる実時間FJ/MAC PDE解法

Real-Time FJ/MAC PDE Solvers via Tensorized, Back-Propagation-Free Optical PINN Training ( http://arxiv.org/abs/2401.00413v1 )

ライセンス: Link先を確認
Yequan Zhao, Xian Xian, Xinling Yu, Ziyue Liu, Zhixiong Chen, Geza Kurczveil, Raymond G. Beausoleil, Zheng Zhang(参考訳) 偏微分方程式 (pdes) を数値的に解くには, 計算時間, エネルギーコスト, ハードウェア資源を必要とすることが多い。 これにより、エネルギー予算が制限され、ほぼリアルタイムな応答を必要とする多くのシナリオ(自律システムや超音速流など)での使用が制限されている。 光コンピューティングを活用した物理インフォームドニューラルネットワーク(PINN)のオンチップトレーニングフレームワークを開発し,fJ/MAC光電力消費と超低レイテンシで高次元PDEを解くことを目的とした。 光ニューラルネットワークの超高速にもかかわらず、(1)フォトニックデバイスの大型化、(2)バックプロパゲーション(BP)の中間結果を格納するスケーラブルな光メモリ装置の欠如により、光チップ上でPINNを訓練することは困難である。 本稿では,実際の光PINNトレーニングを実現するために,BPプロセスを回避するスケーラブルな手法を提案する。 また、光PINNトレーニングの収束性と拡張性を改善するために、テンソル圧縮方式を用いる。 このトレーニングフレームワークは、スケーラブルな推論アクセラレーションのためのテンソル化光学ニューラルネットワーク(TONN)と、 \textit{in-situ}最適化のためのMZI位相領域チューニングを用いて設計されている。 20dim HJB PDEによるシミュレーションの結果、我々のフォトニック加速器はMZIの数を1.17\times 10^3$で減らし、Jが1.36ドル、sが1.15ドルであることがわかった。 これは、高次元pdesの解法に応用できる最初の実サイズ光ピン訓練フレームワークである。

Solving partial differential equations (PDEs) numerically often requires huge computing time, energy cost, and hardware resources in practical applications. This has limited their applications in many scenarios (e.g., autonomous systems, supersonic flows) that have a limited energy budget and require near real-time response. Leveraging optical computing, this paper develops an on-chip training framework for physics-informed neural networks (PINNs), aiming to solve high-dimensional PDEs with fJ/MAC photonic power consumption and ultra-low latency. Despite the ultra-high speed of optical neural networks, training a PINN on an optical chip is hard due to (1) the large size of photonic devices, and (2) the lack of scalable optical memory devices to store the intermediate results of back-propagation (BP). To enable realistic optical PINN training, this paper presents a scalable method to avoid the BP process. We also employ a tensor-compressed approach to improve the convergence and scalability of our optical PINN training. This training framework is designed with tensorized optical neural networks (TONN) for scalable inference acceleration and MZI phase-domain tuning for \textit{in-situ} optimization. Our simulation results of a 20-dim HJB PDE show that our photonic accelerator can reduce the number of MZIs by a factor of $1.17\times 10^3$, with only $1.36$ J and $1.15$ s to solve this equation. This is the first real-size optical PINN training framework that can be applied to solve high-dimensional PDEs.
翻訳日:2024-01-03 17:29:53 公開日:2023-12-31
# 骨格型ヒューマンインタラクション認識のための2ストリームハイブリッドCNN変換器ネットワーク

A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human Interaction Recognition ( http://arxiv.org/abs/2401.00409v1 )

ライセンス: Link先を確認
Ruoqi Yin, Jianqin Yin(参考訳) ヒューマンインタラクション認識は、特定の状況における複数の参加者間の対話的行動を特定するプロセスである。 目的は、複数の実体とその意味の間の相互作用を認識することである。 多くの単一畳み込みニューラルネットワークには、グローバルインスタンスインタラクションの特徴をキャプチャできない、トレーニングが難しいといった問題があり、アクションセマンティクスの曖昧さに繋がる。 さらに、トランスフォーマーの計算複雑性は無視できず、画像内のローカル情報やモーション特徴をキャプチャする能力は貧弱である。 本研究では,cnnの局所的特異性を活用し,トランスフォーマによるグローバル依存をモデル化する2ストリームハイブリッドcnn-transformer network (thct-net)を提案する。 CNNとTransformerは、インタラクティブなエンティティ間のエンティティ、時間、空間の関係を同時にモデル化する。 具体的には、トランスフォーマーベースのストリームは、3次元畳み込みとマルチヘッドセルフアテンションを統合して相互相関を学習し、cnnベースのストリームに対して、スケルトンシーケンスから時空間的特徴を自動的に学習する新しいマルチブランチcnnフレームワークを提案する。 畳み込み層は、各関節近傍の局所的特徴を独立に学習し、すべての関節の特徴を集約する。 そして、生の骨格座標とその時間的差は、骨格の運動特徴を融合させるためにデュアルブランチパラダイムと統合される。 また、トレーニング収束を高速化するために残留構造を付加する。 最後に、2つの枝の認識結果を並列スプライシングを用いて融合する。 提案手法は,多様かつ難解なデータセット上で,様々な動作の意味や文脈をよりよく理解し,推測できることが実証された。

Human Interaction Recognition is the process of identifying interactive actions between multiple participants in a specific situation. The aim is to recognise the action interactions between multiple entities and their meaning. Many single Convolutional Neural Network has issues, such as the inability to capture global instance interaction features or difficulty in training, leading to ambiguity in action semantics. In addition, the computational complexity of the Transformer cannot be ignored, and its ability to capture local information and motion features in the image is poor. In this work, we propose a Two-stream Hybrid CNN-Transformer Network (THCT-Net), which exploits the local specificity of CNN and models global dependencies through the Transformer. CNN and Transformer simultaneously model the entity, time and space relationships between interactive entities respectively. Specifically, Transformer-based stream integrates 3D convolutions with multi-head self-attention to learn inter-token correlations; We propose a new multi-branch CNN framework for CNN-based streams that automatically learns joint spatio-temporal features from skeleton sequences. The convolutional layer independently learns the local features of each joint neighborhood and aggregates the features of all joints. And the raw skeleton coordinates as well as their temporal difference are integrated with a dual-branch paradigm to fuse the motion features of the skeleton. Besides, a residual structure is added to speed up training convergence. Finally, the recognition results of the two branches are fused using parallel splicing. Experimental results on diverse and challenging datasets, demonstrate that the proposed method can better comprehend and infer the meaning and context of various actions, outperforming state-of-the-art methods.
翻訳日:2024-01-03 17:29:20 公開日:2023-12-31
# 深層学習による顔ランドマークを用いた低コスト形状に基づく視線検出

Low-cost Geometry-based Eye Gaze Detection using Facial Landmarks Generated through Deep Learning ( http://arxiv.org/abs/2401.00406v1 )

ライセンス: Link先を確認
Esther Enhui Ye, John Enzhou Ye, Joseph Ye, Jacob Ye, Runzhou Ye(参考訳) 導入:人間とコンピュータの相互作用と行動研究の領域では、正確なリアルタイム視線推定が重要である。 伝統的な手法は高価な機器や大規模なデータセットに頼りがちで、多くのシナリオでは実用的ではない。 本稿では,これらの課題に対する新たな幾何学的アプローチを提案する。 方法: コンシューマグレードチップの高速な推論が可能な新規な顔ランドマーク検出ニューラルネットワークを活用し, 顔と虹彩の正確な3Dランドマークを生成する。 これらから、眼球運動と頭部運動を表す8次元の多様体を形成する、幾何ベースの小さな記述子を導出する。 これらの記述子は、視線方向を予測する線形方程式を定式化するために使用される。 結果:本手法では,視線を1.9度未満の角度誤差で予測できることを示し,リアルタイムに動作し,無視可能な計算資源を必要とする。 結論: 開発した手法は、従来のシステムに対して非常に正確で効率的でアクセスしやすい代替手段を提供する、視線推定技術の大きな進歩を示す。 ゲームから心理学研究まで、さまざまな分野におけるリアルタイムアプリケーションへの新たな可能性を開く。

Introduction: In the realm of human-computer interaction and behavioral research, accurate real-time gaze estimation is critical. Traditional methods often rely on expensive equipment or large datasets, which are impractical in many scenarios. This paper introduces a novel, geometry-based approach to address these challenges, utilizing consumer-grade hardware for broader applicability. Methods: We leverage novel face landmark detection neural networks capable of fast inference on consumer-grade chips to generate accurate and stable 3D landmarks of the face and iris. From these, we derive a small set of geometry-based descriptors, forming an 8-dimensional manifold representing the eye and head movements. These descriptors are then used to formulate linear equations for predicting eye-gaze direction. Results: Our approach demonstrates the ability to predict gaze with an angular error of less than 1.9 degrees, rivaling state-of-the-art systems while operating in real-time and requiring negligible computational resources. Conclusion: The developed method marks a significant step forward in gaze estimation technology, offering a highly accurate, efficient, and accessible alternative to traditional systems. It opens up new possibilities for real-time applications in diverse fields, from gaming to psychological research.
翻訳日:2024-01-03 17:28:51 公開日:2023-12-31
# 咬合と見えない物体への単一視点3次元形状検索の一般化

Generalizing Single-View 3D Shape Retrieval to Occlusions and Unseen Objects ( http://arxiv.org/abs/2401.00405v1 )

ライセンス: Link先を確認
Qirui Wu, Daniel Ritchie, Manolis Savva, Angel X. Chang(参考訳) シングルビュー3D形状検索は、利用可能な3Dデータの増大に伴ってますます重要になる課題である。 これまでの研究では、現実的なオクルージョンがパフォーマンスに与える影響や、対象の3d形状データベースが見当たらない形状を含むシナリオや、入力画像が見当たらないオブジェクトを含むシナリオに、形状検索手法がどのように一般化するかを評価していない。 本稿では,3つの異なる軸に沿った一視点3次元形状検索を体系的に評価する。物体の閉塞や切り離しの存在,見えない3次元形状データへの一般化,入力画像における見えない物体への一般化である。 実画像の既存の2つのデータセットを標準化し、現実的なオクルージョンを示す複数のオブジェクトからなるシーンの合成データセットを生成するデータセット生成パイプラインを提案する。 実験の結果,従来のオクルージョンフリーデータのトレーニングは,オクルージョンを伴う入力に対して,大幅な性能低下をもたらすことがわかった。 人工データセットをオクルージョンで事前訓練し、実際のデータを微調整することで、以前の作業からモデルを大幅に上回り、目に見えない3D形状と見えない物体の両方に対して堅牢性を示すことができることがわかった。

Single-view 3D shape retrieval is a challenging task that is increasingly important with the growth of available 3D data. Prior work that has studied this task has not focused on evaluating how realistic occlusions impact performance, and how shape retrieval methods generalize to scenarios where either the target 3D shape database contains unseen shapes, or the input image contains unseen objects. In this paper, we systematically evaluate single-view 3D shape retrieval along three different axes: the presence of object occlusions and truncations, generalization to unseen 3D shape data, and generalization to unseen objects in the input images. We standardize two existing datasets of real images and propose a dataset generation pipeline to produce a synthetic dataset of scenes with multiple objects exhibiting realistic occlusions. Our experiments show that training on occlusion-free data as was commonly done in prior work leads to significant performance degradation for inputs with occlusion. We find that that by first pretraining on our synthetic dataset with occlusions and then finetuning on real data, we can significantly outperform models from prior work and demonstrate robustness to both unseen 3D shapes and unseen objects.
翻訳日:2024-01-03 17:28:30 公開日:2023-12-31
# 画像分割用ダブルウェルネット

Double-well Net for Image Segmentation ( http://arxiv.org/abs/2401.00456v1 )

ライセンス: Link先を確認
Hao Liu, Jun Liu, Raymond Chan, Xue-Cheng Tai(参考訳) 本研究では,従来の数学モデルとディープニューラルネットワークを統合することを目的として,ダブルウェルネットと呼ばれる画像分割のための2つの新しいディープニューラルネットワークモデルを提案する。 ポッツモデルからインスピレーションを得て、ニューラルネットワークを利用して領域力関数を表現する。 我々は、よく知られた MBO (Merriman-Bence-Osher) スキームを拡張して、ポッツモデルを解く。 広く認識されているポッツモデルはダブルウェルポテンシャルを用いて近似され、演算子分割法により解かれるが、これはよく知られたMBOスキームの拡張であることが判明した。 次に,potsモデルにおける領域力関数を,データ駆動のunet型ネットワークに置き換え,有効性を高めるための制御変数を導入する。 その結果得られるアルゴリズムは、ダブルウェルポテンシャルを最小化する関数によって活性化されるニューラルネットワークである。 画像セグメンテーションのための多くの既存のディープラーニング手法と異なり、提案したダブルウェルネットは強力な数学的基礎である。 これらはネットワーク近似理論から派生したもので、MBOスキームを用いてポッツモデルを大まかに解く。 数学的原理を取り入れることで、ダブルウェルネットはMBOスキームとニューラルネットワークを橋渡し、数学的背景を持つネットワークを設計するための代替の視点を提供する。 総合的な実験により,ダブルウェルネットの性能を実証し,最先端のニューラルネットワークと比較し,その精度と頑健性を示した。 全体として、我々の研究は、古典的変動モデルとディープニューラルネットワークの強みを組み合わせることで、画像セグメンテーションの分野への貴重な貢献を表している。 ダブルウェルネットは、セグメンテーション性能を高めるために数学的基礎を利用する革新的なアプローチを導入する。

In this study, our goal is to integrate classical mathematical models with deep neural networks by introducing two novel deep neural network models for image segmentation known as Double-well Nets. Drawing inspiration from the Potts model, our models leverage neural networks to represent a region force functional. We extend the well-know MBO (Merriman-Bence-Osher) scheme to solve the Potts model. The widely recognized Potts model is approximated using a double-well potential and then solved by an operator-splitting method, which turns out to be an extension of the well-known MBO scheme. Subsequently, we replace the region force functional in the Potts model with a UNet-type network, which is data-driven, and also introduce control variables to enhance effectiveness. The resulting algorithm is a neural network activated by a function that minimizes the double-well potential. What sets our proposed Double-well Nets apart from many existing deep learning methods for image segmentation is their strong mathematical foundation. They are derived from the network approximation theory and employ the MBO scheme to approximately solve the Potts model. By incorporating mathematical principles, Double-well Nets bridge the MBO scheme and neural networks, and offer an alternative perspective for designing networks with mathematical backgrounds. Through comprehensive experiments, we demonstrate the performance of Double-well Nets, showcasing their superior accuracy and robustness compared to state-of-the-art neural networks. Overall, our work represents a valuable contribution to the field of image segmentation by combining the strengths of classical variational models and deep neural networks. The Double-well Nets introduce an innovative approach that leverages mathematical foundations to enhance segmentation performance.
翻訳日:2024-01-03 17:22:29 公開日:2023-12-31
# 置換不変関数の量子・古典的通信複雑性

Quantum and Classical Communication Complexity of Permutation-Invariant Functions ( http://arxiv.org/abs/2401.00454v1 )

ライセンス: Link先を確認
Ziyi Guan, Yunqi Huang, Penghui Yao, Zekun Ye(参考訳) 本稿では、置換不変ブール関数の量子通信の複雑性を概密に評価する。 このような特徴付けにより、置換不変ブール関数の量子およびランダム化通信複雑性は(対数係数まで)二次同値であることを示す。 この結果,クエリの複雑性に関する最近の研究の行を通信の複雑さに拡張し,対称性が指数的量子スピードアップを防ぐことを示した。 さらに、任意の非自明な全置換不変ブール関数に対して、Log-rank Conjecture ホールドを示す。 さらに、量子/古典的通信複雑性と置換不変ブール関数の近似ランクの関係を確立する。 これは、乱数と量子の設定(対数係数まで)における置換不変ブール関数に対する対数次予想の正しさを意味する。

This paper gives a nearly tight characterization of the quantum communication complexity of the permutation-invariant Boolean functions. With such a characterization, we show that the quantum and randomized communication complexity of the permutation-invariant Boolean functions are quadratically equivalent (up to a logarithmic factor). Our results extend a recent line of research regarding query complexity \cite{AA14, Cha19, BCG+20} to communication complexity, showing symmetry prevents exponential quantum speedups. Furthermore, we show the Log-rank Conjecture holds for any non-trivial total permutation-invariant Boolean function. Moreover, we establish a relationship between the quantum/classical communication complexity and the approximate rank of permutation-invariant Boolean functions. This implies the correctness of the Log-approximate-rank Conjecture for permutation-invariant Boolean functions in both randomized and quantum settings (up to a logarithmic factor).
翻訳日:2024-01-03 17:21:28 公開日:2023-12-31
# ソフトウェア産業におけるアクセシビリティ教育の必要性を探る:インドにおけるソフトウェア専門家の調査から

Exploring the Need of Accessibility Education in the Software Industry: Insights from a Survey of Software Professionals in India ( http://arxiv.org/abs/2401.00451v1 )

ライセンス: Link先を確認
Parthasarathy P D and Swaroop Joshi(参考訳) 2021年のuserwayの調査によると、年間約160億ドルのeコマース売上の損失は、アクセス不能なウェブサイトやアプリケーションに起因する可能性がある。 2023年のWebAIMの調査によると、世界のトップ100万のウェブサイトのホームページはわずか3.7%しかアクセスできない。 これは、多くのソフトウェア開発者が、Web Content Accessibility Guidelines (WCAG)に準拠していないコーディングプラクティスを貧弱に使っていることを示している。 この研究は、ソフトウェア専門家とアクセシビリティに対処する役割に焦点を当てている。 この仕事は理解しようとする (a) ソフトウェア開発コミュニティ内でアクセシビリティを積極的に実践する人。 b) ソフトウェア開発ライフサイクルにおいてアクセシビリティがどのように考慮されるか。 c) アクセス可能なソフトウェアを構築する際の様々な課題 (d)製品アクセシビリティを高めるためにソフトウェア専門家が必要とするリソース。 インドからの269人のソフトウェア専門家に対する調査は、ソフトウェア産業におけるアクセシビリティ教育の必要性の高まりに光を当てている。 回答者の大多数(69.9%、N=269)は、アクセシビリティスキルを高めるためのトレーニング材料、ワークショップ、ブートキャンプの必要性を表明している。 アクセシビリティの意識とスキルを促進するために,業界内で実施可能なアクション可能な推奨事項のリストを提示する。 また、さらなる研究のために生データをオープンソースにし、この分野の継続的な調査を奨励しています。

A UserWay study in 2021 indicates that an annual global e-commerce revenue loss of approximately $16 billion can be attributed to inaccessible websites and applications. According to the 2023 WebAIM study, only 3.7% of the world's top one million website homepages are fully accessible. This shows that many software developers use poor coding practices that don't adhere to the Web Content Accessibility Guidelines (WCAG). This research centers on software professionals and their role in addressing accessibility. This work seeks to understand (a) who within the software development community actively practices accessibility, (b) when and how accessibility is considered in the software development lifecycle, (c) the various challenges encountered in building accessible software, and (d) the resources required by software professionals to enhance product accessibility. Our survey of 269 software professionals from India sheds light on the pressing need for accessibility education within the software industry. A substantial majority (69.9%, N=269) of respondents express the need for training materials, workshops, and bootcamps to enhance their accessibility skills. We present a list of actionable recommendations that can be implemented within the industry to promote accessibility awareness and skills. We also open source our raw data for further research, encouraging continued exploration in this domain.
翻訳日:2024-01-03 17:21:16 公開日:2023-12-31
# ボソニックキャットコードと単一光子を用いたハイブリッド量子ビットによるフォールトトレラント量子計算

Fault-tolerant quantum computation by hybrid qubits with bosonic cat-code and single photons ( http://arxiv.org/abs/2401.00450v1 )

ライセンス: Link先を確認
Jaehak Lee, Nuri Kang, Seok-Hyung Lee, Hyunseok Jeong, Liang Jiang, Seung-Woo Lee(参考訳) 異なる自由度や物理的プラットフォームをハイブリッド化することは、スケーラブルな量子アーキテクチャを構築する上で様々な利点をもたらす可能性がある。 本稿では、離散変数(DV)と連続変数(CV)の両方の利点を生かして、フォールトトレラントなハイブリッド量子計算を導入する。 特に,現在のフォトニックプラットフォームで実装可能な,ボソニックキャットコードと単一光子を用いたCV-DVハイブリッド量子ビットを定義する。 CV部で符号化されたキャットコードにより、DV部により論理基底が本質的に直交するのに対して、マルチビット符号化なしで、支配的損失誤差を容易に補正できる。 我々は,ハイブリッド量子ビットとトポロジカルコードなどの外DV量子誤り訂正符号を連結してフォールトトレラントアーキテクチャを設計し,スケーラブルな量子計算の開発におけるその可能性を探る。 シミュレーションにより,本手法は従来提案されていたフォトニックプラットフォームよりも,少なくとも1桁の資源効率が向上し,既存のCVおよびハイブリッドアプローチの損失閾値を達成できることを示した。 我々は、全フォトニックプラットフォームだけでなく、スーパーコンデュッティングやトラップイオンシステムを含む他のハイブリッドプラットフォームでもその実現について論じ、フォールトトレラントな量子コンピューティングへの様々な効率的な経路を見つけることができる。

Hybridizing different degrees of freedom or physical platforms potentially offers various advantages in building scalable quantum architectures. We here introduce a fault-tolerant hybrid quantum computation by taking the advantages of both discrete variable (DV) and continuous variable (CV) systems. Particularly, we define a CV-DV hybrid qubit with bosonic cat-code and single photon, which is implementable in current photonic platforms. By the cat-code encoded in the CV part, the dominant loss errors are readily correctable without multi-qubit encoding, while the logical basis is inherently orthogonal due to the DV part. We design fault-tolerant architectures by concatenating hybrid qubits and an outer DV quantum error correction code such as topological codes, exploring their potential merits in developing scalable quantum computation. We demonstrate by numerical simulations that our scheme is at least an order of magnitude more resource-efficient over all previous proposals in photonic platforms, allowing to achieve a record-high loss threshold among existing CV and hybrid approaches. We discuss its realization not only in all-photonic platforms but also in other hybrid platforms including superconduting and trapped-ion systems, which allows us to find various efficient routes towards fault-tolerant quantum computing.
翻訳日:2024-01-03 17:20:58 公開日:2023-12-31
# community of practice framework を用いた業界専門家へのデジタルアクセシビリティ教育の試み

Teaching Digital Accessibility to Industry Professionals using the Community of Practice Framework: An Experience Report ( http://arxiv.org/abs/2401.00449v1 )

ライセンス: Link先を確認
Parthasarathy PD and Swaroop Joshi(参考訳) アクセシビリティ向上を目的とした最近の取り組みにもかかわらず、デジタルアクセシビリティの分野は、多くの現実世界のソフトウェアやwebアプリケーションがアクセシビリティ要件に不足し続けているため、ソフトウェア産業における現代の進歩を著しく遅れている。 既存の技術労働者のスキル不足は持続的な障害であり、組織が真にアクセス可能なソフトウェア製品の提供を妨げる。 これにより、潜在的なユーザの大部分を隔離して排除するリスクが増大する。 本稿では,コミュニティ・オブ・プラクティス(CoP)フレームワークを用いたデジタルアクセシビリティ教育プログラムから学んだ教訓を,業界専門家に報告する。 大手多国籍ソフトウェア企業から66人の参加者を募集し、CoPに参加するグループと、セルフペース学習を使用したグループに割り当てました。 訓練プログラムの設計、実際の訓練の実施、および2つのアプローチの効率評価からの経験を報告する。 これらの結果を踏まえて,学習・開発チームの実践者や,業界の専門家のためのアクセシビリティコース設計の教育者への推薦を行う。

Despite recent initiatives aimed at improving accessibility, the field of digital accessibility remains markedly behind contemporary advancements in the software industry as a large number of real world software and web applications continue to fall short of accessibility requirements. A persisting skills deficit within the existing technology workforce has been an enduring impediment, hindering organizations from delivering truly accessible software products. This, in turn, elevates the risk of isolating and excluding a substantial portion of potential users. In this paper, we report lessons learned from a training program for teaching digital accessibility using the Communities of Practice (CoP) framework to industry professionals. We recruited 66 participants from a large multi-national software company and assigned them to two groups: one participating in a CoP and the other using self-paced learning. We report experiences from designing the training program, conducting the actual training, and assessing the efficiency of the two approaches. Based on these findings, we provide recommendations for practitioners in Learning and Development teams and educators in designing accessibility courses for industry professionals.
翻訳日:2024-01-03 17:20:33 公開日:2023-12-31
# Chinchilla-Optimalを超えて: 言語モデルスケーリング法における推論の会計

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws ( http://arxiv.org/abs/2401.00448v1 )

ライセンス: Link先を確認
Nikhil Sardana and Jonathan Frankle(参考訳) 大規模言語モデル(LLM)スケーリング法則は、パラメータ数の増加とトレーニングデータの結果、モデル品質の変化を推定する経験則である。 しかし、一般的なDeepMind Chinchillaスケーリング法を含むこれらの公式は、推論コストを含まない。 我々は,所与の品質と予測要求のモデルをトレーニングし,展開するために,最適LLMパラメータ数と事前学習データサイズを計算するために,Chinchillaスケーリング法を変更した。 計算予算と実世界のコストの両面から分析を行い、LLM研究者は、合理的に大きな推論要求(~1B要求)がチチラ最適よりも小さく、より長くモデルを訓練すべきであると期待している。

Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular DeepMind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal.
翻訳日:2024-01-03 17:20:14 公開日:2023-12-31
# UAVにおけるマルチタスクスプリット推論のためのエネルギー効率の良い電力制御:Tiny Learning-based Approach

Energy-Efficient Power Control for Multiple-Task Split Inference in UAVs: A Tiny Learning-Based Approach ( http://arxiv.org/abs/2401.00445v1 )

ライセンス: Link先を確認
Chenxi Zhao, Min Sheng, Junyu Liu, Tianshu Chu, Jiandong Li(参考訳) 無人航空機(UAV)の限られたエネルギーと計算資源は、航空人工知能の適用を妨げる。 UAVにおけるスプリット推論の利用は、計算とエネルギーの要求を緩和する効果のために大きな注目を集めている。 しかし、エネルギーレベルや遅延制約、特に複数のタスクを含む様々な重要なパラメータを考慮すると、UAVにおけるエネルギー効率の高い分割推定を達成することは複雑である。 本稿では,離散変数と連続変数を2つの時間スケールに分離し,動作空間と計算複雑性を小さくする,分割推論におけるエネルギー最小化の2つの時間スケールアプローチを提案する。 この分離により、シーケンシャルタスクの個別送信モードを選択するために、小さな強化学習(TRL)を利用することができる。 さらに、TRLの出力と報酬関数の間に最適化プログラミング(OP)が組み込まれ、連続送信電力を最適化する。 具体的には,伝送時間の増加に伴ってエネルギー消費が単調に減少することを明らかにするため,送信電力の最適化を送信時間に置き換えて,OPの計算複雑性を低減する。 この交換は実現可能領域を大幅に削減し、最適な送信電力のためのクローズドフォーム式に従って高速解を可能にする。 シミュレーションの結果,提案手法はより少ないエネルギー消費でタスク完了を成功させる確率が高いことがわかった。

The limited energy and computing resources of unmanned aerial vehicles (UAVs) hinder the application of aerial artificial intelligence. The utilization of split inference in UAVs garners significant attention due to its effectiveness in mitigating computing and energy requirements. However, achieving energy-efficient split inference in UAVs remains complex considering of various crucial parameters such as energy level and delay constraints, especially involving multiple tasks. In this paper, we present a two-timescale approach for energy minimization in split inference, where discrete and continuous variables are segregated into two timescales to reduce the size of action space and computational complexity. This segregation enables the utilization of tiny reinforcement learning (TRL) for selecting discrete transmission modes for sequential tasks. Moreover, optimization programming (OP) is embedded between TRL's output and reward function to optimize the continuous transmit power. Specifically, we replace the optimization of transmit power with that of transmission time to decrease the computational complexity of OP since we reveal that energy consumption monotonically decreases with increasing transmission time. The replacement significantly reduces the feasible region and enables a fast solution according to the closed-form expression for optimal transmit power. Simulation results show that the proposed algorithm can achieve a higher probability of successful task completion with lower energy consumption.
翻訳日:2024-01-03 17:19:57 公開日:2023-12-31
# 大規模ネットワークにおけるデータ駆動エネルギー効率モデリング-知識とMLに基づくアプローチ

Data-driven Energy Efficiency Modelling in Large-scale Networks: An Expert Knowledge and ML-based Approach ( http://arxiv.org/abs/2401.00443v1 )

ライセンス: Link先を確認
D L\'opez-P\'erez, A De Domenico, N Piovesan, M . Debbah(参考訳) モバイルネットワークのエネルギー消費は重要な課題である。 この懸念を緩和するには、ネットワークリソースを動的に管理するために、キャリアシャットダウンなどのネットワーク省エネソリューションの展開と最適化が必要となる。 従来の最適化アプローチは、多数のセル、確率的トラフィック、チャネルのバリエーション、複雑なトレードオフなどの要因によって複雑さに直面する。 本稿では、生のネットワークデータを活用し、機械学習(ML)とエキスパートベースモデルを組み合わせた新しいデータ駆動モデリングパラダイムである、通信ネットワーク(SRCON)フレームワークのシミュレーション現実を紹介する。 これらの混合モデルは、ネットワークコンポーネントの機能を正確に特徴付け、特定のネットワーク内の任意のエネルギーキャリアのシャットダウン構成に対するネットワークエネルギー効率とユーザ機器の品質を予測する。 SRCONは既存の手法から切り離すため、高価な専門家の知識、テスト駆動、あるいはネットワーク性能を予測する不完全なマップへの依存を排除している。 本稿では、srconが大規模ネットワークエネルギー効率モデリング問題をmlおよびエキスパートベースサブモデルに分解するパイプラインについて述べる。 確率性を受け入れ、そのようなサブモデル間の関係を慎重に構築することにより、全体的な計算複雑性を減らし、予測精度を向上できることを示す。 実ネットワークデータから得られた結果は、SRCONが導入したパラダイムシフトを裏付けるもので、オペレーターがネットワークエネルギー効率のモデリングに使用する最先端技術よりも大幅に向上したことを示している。 このローカルなデータ駆動型ネットワークモデリングの信頼性は、ネットワークの省エネ最適化の重要な資産であることが証明されている。

The energy consumption of mobile networks poses a critical challenge. Mitigating this concern necessitates the deployment and optimization of network energy-saving solutions, such as carrier shutdown, to dynamically manage network resources. Traditional optimization approaches encounter complexity due to factors like the large number of cells, stochastic traffic, channel variations, and intricate trade-offs. This paper introduces the simulated reality of communication networks (SRCON) framework, a novel, data-driven modeling paradigm that harnesses live network data and employs a blend of machine learning (ML)- and expert-based models. These mix of models accurately characterizes the functioning of network components, and predicts network energy efficiency and user equipment (UE) quality of service for any energy carrier shutdown configuration in a specific network. Distinguishing itself from existing methods, SRCON eliminates the reliance on expensive expert knowledge, drive testing, or incomplete maps for predicting network performance. This paper details the pipeline employed by SRCON to decompose the large network energy efficiency modeling problem into ML and expert-based submodels. It demonstrates how, by embracing stochasticity, and carefully crafting the relationship between such submodels, the overall computational complexity can be reduced and prediction accuracy enhanced. Results derived from real network data underscore the paradigm shift introduced by SRCON, showcasing significant gains over a state-of-the art method used by a operator for network energy efficiency modeling. The reliability of this local, data-driven modeling of the network proves to be a key asset for network energy-saving optimization.
翻訳日:2024-01-03 17:19:36 公開日:2023-12-31
# 魚眼カメラの歪み補正法の包括的概要

A Comprehensive Overview of Fish-Eye Camera Distortion Correction Methods ( http://arxiv.org/abs/2401.00442v1 )

ライセンス: Link先を確認
Jian Xu, De-Wei Han, Kang Li, Jun-Jie Li, Zhao-Yuan Ma(参考訳) 魚眼カメラは、独特の視野やその他の特徴を持つが、様々な分野で広く応用されている。 しかし、魚眼カメラはピンホールカメラに比べて大きな歪みに苦しめられ、撮影された物体の歪んだ画像となる。 魚眼カメラの歪みはデジタル画像処理において一般的な問題であり、画質を向上させるために効果的な補正技術を必要とする。 本稿では,魚眼カメラの歪み補正法について概観する。 本稿では、多項式関数を用いて半径歪みをモデル化し補正する多項式歪みモデルについて検討する。 さらに,パノラママッピング,グリッドマッピング,直接手法,深層学習に基づく手法などの代替手法についても論じる。 レビューでは、各手法の利点、限界、そして最近の進歩を強調し、読者がそれぞれのニーズに応じて情報的な意思決定を行えるようにしている。

The fisheye camera, with its unique wide field of view and other characteristics, has found extensive applications in various fields. However, the fisheye camera suffers from significant distortion compared to pinhole cameras, resulting in distorted images of captured objects. Fish-eye camera distortion is a common issue in digital image processing, requiring effective correction techniques to enhance image quality. This review provides a comprehensive overview of various methods used for fish-eye camera distortion correction. The article explores the polynomial distortion model, which utilizes polynomial functions to model and correct radial distortions. Additionally, alternative approaches such as panorama mapping, grid mapping, direct methods, and deep learning-based methods are discussed. The review highlights the advantages, limitations, and recent advancements of each method, enabling readers to make informed decisions based on their specific needs.
翻訳日:2024-01-03 17:19:06 公開日:2023-12-31
# TSGAN:光学ベースSAR時間シフト用光-SARデュアル条件GAN

TSGAN: An Optical-to-SAR Dual Conditional GAN for Optical based SAR Temporal Shifting ( http://arxiv.org/abs/2401.00440v1 )

ライセンス: Link先を確認
Moien Rangzan, Sara Attarchi, Richard Gloaguen, Seyed Kazem Alavipanah(参考訳) 本研究は、SAR-to-Optical翻訳の精巧な研究分野とは対照的に、光-to-SAR翻訳のより少ない研究領域を探求する。 この複雑さは、単一の光学データがSARの視線幾何学に基づく複数のSAR表現を持つため生じる。 本稿では,異なる時間点からSARデータとともに所望のタイムスタンプから光データを入力し,その間における光データの変化マップを補完する新たなSAR時間シフト方式を提案する。 このモデルは、光学データで観測された変化に基づいてSARデータを修正し、所望のタイムスタンプに対してSARデータを生成する。 我々のモデルでは、時間シフトGAN(Temporal Shifting GAN)という名前の二重条件生成適応ネットワーク(GAN)が、生成器と識別器の両方にシアムエンコーダを組み込んでいる。 モデルが入力されたSARデータに過度に収まるのを防止するため、我々は変更重み付き損失関数を採用した。 提案手法は,GANのフィクション現象,特に変化のない地域では排除することにより,従来の翻訳手法を超越し,これらの領域ではSSIMやPSNRが向上する。 さらに、Pix2Pixアーキテクチャの変更とアテンション機構の追加により、データの全領域におけるモデルの性能が向上した。 この研究は、地球データデータの最も豊富で長期にわたる情報源であるレガシー光学データセットの活用の道を開き、それらの使用をSARドメインと時間的分析に拡張する。 さらなる研究を促進するために、コード、研究で使用されるデータセット、および新しい関心領域のためのペア化されたSAR-Opticalデータセットを生成するためのフレームワークを提供する。 これらのリソースはgithub.com/moienr/temporalganで入手できる。

In contrast to the well-investigated field of SAR-to-Optical translation, this study explores the lesser-investigated domain of Optical-to-SAR translation, a challenging field due to the ill-posed nature of this translation. The complexity arises as a single optical data can have multiple SAR representations based on the SAR viewing geometry. We propose a novel approach, termed SAR Temporal Shifting, which inputs an optical data from the desired timestamp along with a SAR data from a different temporal point but with a consistent viewing geometry as the expected SAR data, both complemented with a change map of optical data during the intervening period. This model modifies the SAR data based on the changes observed in optical data to generate the SAR data for the desired timestamp. Our model, a dual conditional Generative Adversarial Network (GAN), named Temporal Shifting GAN (TSGAN), incorporates a siamese encoder in both the Generator and the Discriminator. To prevent the model from overfitting on the input SAR data, we employed a change weighted loss function. Our approach surpasses traditional translation methods by eliminating the GAN's fiction phenomenon, particularly in unchanged regions, resulting in higher SSIM and PSNR in these areas. Additionally, modifications to the Pix2Pix architecture and the inclusion of attention mechanisms have enhanced the model's performance on all regions of the data. This research paves the way for leveraging legacy optical datasets, the most abundant and longstanding source of Earth datary data, extending their use to SAR domains and temporal analyses. To foster further research, we provide the code, datasets used in our study, and a framework for generating paired SAR-Optical datasets for new regions of interest. These resources are available on github.com/moienr/TemporalGAN
翻訳日:2024-01-03 17:18:51 公開日:2023-12-31
# ヒューマンアクションセグメンテーションのためのsfgans self-supervised future generator

SFGANS Self-supervised Future Generator for human ActioN Segmentation ( http://arxiv.org/abs/2401.00438v1 )

ライセンス: Link先を確認
Or Berman and Adam Goldbraikh and Shlomi Laufer(参考訳) 長いビデオの中でアクションセグメントを特定して分類する能力は、自動運転車、ロボティクス、ヘルスケアアプリケーションなど、多くのアプリケーションに特に関心がある。 今日、アクションセグメンテーションの最も一般的なパイプラインは、フレームを特徴ベクトルにエンコードし、その後、セグメンテーションのための時間モデルによって処理される。 本稿では,標準パイプラインの中央に現れる自己教師付き手法を提案し,元の特徴ベクトルの洗練された表現を生成する。 実験により, 新たなパラメータチューニングがなくても, 動作セグメンテーションの異なるサブタスク上での既存モデルの性能が向上することが示された。

The ability to locate and classify action segments in long untrimmed video is of particular interest to many applications such as autonomous cars, robotics and healthcare applications. Today, the most popular pipeline for action segmentation is composed of encoding the frames into feature vectors, which are then processed by a temporal model for segmentation. In this paper we present a self-supervised method that comes in the middle of the standard pipeline and generated refined representations of the original feature vectors. Experiments show that this method improves the performance of existing models on different sub-tasks of action segmentation, even without additional hyper parameter tuning.
翻訳日:2024-01-03 17:18:17 公開日:2023-12-31
# BatchEval: ヒューマンライクなテキスト評価を目指して

BatchEval: Towards Human-like Text Evaluation ( http://arxiv.org/abs/2401.00437v1 )

ライセンス: Link先を確認
Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Boyuan Pan, Heda Wang, Kan Li(参考訳) 大規模言語モデル (LLM) を評価対象として導入し, 自動テキスト評価において重要な進展が見られた。 しかし, 現状のサンプル評価パラダイムは, 1) 設計の迅速化, (2) ノイズに対する抵抗性の低下, (3) 静的参照によるアンサンブル性能の低下といった問題に悩まされている。 ヒトは基準定義とサンプル間比較の両方を評価基準として扱うことに着想を得て、上記の問題を緩和するためにバッチワイズ評価を反復的に行うパラダイムであるBatchEvalを提案する。 我々は,このパラダイムの下での変種を探索し,不均質なバッチ構成戦略と十進採点形式を持つ2段階の手順を最適設定として確認する。 4つのテキスト評価タスクに関する3つのLLMの総合的な実験により、BatchEvalはピアソン相関で10.5%、平均64%のAPIコストで最先端の手法より優れていることが示された。 さらに,BatchEvalのロバスト性,一般化,動作機構の検証を行った。

Significant progress has been made in automatic text evaluation with the introduction of large language models (LLMs) as evaluators. However, current sample-wise evaluation paradigm suffers from the following issues: (1) Sensitive to prompt design; (2) Poor resistance to noise; (3) Inferior ensemble performance with static reference. Inspired by the fact that humans treat both criterion definition and inter sample comparison as references for evaluation, we propose BatchEval, a paradigm that conducts batch-wise evaluation iteratively to alleviate the above problems. We explore variants under this paradigm and confirm the optimal settings are two stage procedure with heterogeneous batch composition strategy and decimal scoring format. Comprehensive experiments across 3 LLMs on 4 text evaluation tasks demonstrate that BatchEval outperforms state-of-the-art methods by 10.5% on Pearson correlations with only 64% API cost on average. Further analyses have been conducted to verify the robustness, generalization, and working mechanism of BatchEval.
翻訳日:2024-01-03 17:18:05 公開日:2023-12-31
# Diff-PCR:点クラウド登録のための二重確率行列空間での拡散対応検索

Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration ( http://arxiv.org/abs/2401.00436v1 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang(参考訳) 点雲間の最適な対応を効果的に見つけることは、剛性および非剛性の両方の点雲登録問題を解決するために重要である。 既存の手法はしばしば幾何学的あるいは意味的な特徴の埋め込みに依存して対応を確立し、変換や流れ場を推定する。 近年、最先端の手法ではRAFTライクな反復的更新を用いてソリューションを洗練している。 しかし、これらの方法には一定の制限がある。 第一に、反復的な改善設計は透明性を欠き、反復的な更新は改良プロセス中に固定された経路を辿り、最適以下の結果をもたらす可能性がある。 第二に、これらの手法は変換や流れ場を解く前駆体として対応(あるいはマッチング行列)の精製や最適化の重要性を見落としている。 それらは通常、点特徴空間内の距離に基づいて候補対応を計算する。 しかし、彼らは候補マッチング行列をシンクホーン演算またはデュアルソフトマックス演算で一度だけある行列空間に射影し、最終的な対応を得る。 このワンショット射影マッチング行列はグローバル最適行列とは程遠い可能性があり、これらのアプローチは対象マッチング行列の分布を考慮しない。 本稿では,2次確率行列空間内の最適マッチング行列の探索勾配を予測するために,デノイング拡散モデルを用いた新しい手法を提案する。 逆復調過程において,本手法は,この復調勾配に沿った解を反復的に探索し,ターゲットマッチング行列の最大極性方向を指し示す。 提案手法は,オンラインバックボーンやホワイトノイズによって提供される任意の初期マッチング行列から検索を開始できるようにする。 3DMatch/3DLoMatchと4DMatch/4DLoMatchデータセットの実験的評価により,新たに設計されたフレームワークの有効性が示された。

Efficiently finding optimal correspondences between point clouds is crucial for solving both rigid and non-rigid point cloud registration problems. Existing methods often rely on geometric or semantic feature embedding to establish correspondences and estimate transformations or flow fields. Recently, state-of-the-art methods have employed RAFT-like iterative updates to refine the solution. However, these methods have certain limitations. Firstly, their iterative refinement design lacks transparency, and their iterative updates follow a fixed path during the refinement process, which can lead to suboptimal results. Secondly, these methods overlook the importance of refining or optimizing correspondences (or matching matrices) as a precursor to solving transformations or flow fields. They typically compute candidate correspondences based on distances in the point feature space. However, they only project the candidate matching matrix into some matrix space once with Sinkhorn or dual softmax operations to obtain final correspondences. This one-shot projected matching matrix may be far from the globally optimal one, and these approaches do not consider the distribution of the target matching matrix. In this paper, we propose a novel approach that exploits the Denoising Diffusion Model to predict a searching gradient for the optimal matching matrix within the Doubly Stochastic Matrix Space. During the reverse denoising process, our method iteratively searches for better solutions along this denoising gradient, which points towards the maximum likelihood direction of the target matching matrix. Our method offers flexibility by allowing the search to start from any initial matching matrix provided by the online backbone or white noise. Experimental evaluations on the 3DMatch/3DLoMatch and 4DMatch/4DLoMatch datasets demonstrate the effectiveness of our newly designed framework.
翻訳日:2024-01-03 17:17:48 公開日:2023-12-31
# 手書き数式認識のための双方向木構造デコーダ

Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2401.00435v1 )

ライセンス: Link先を確認
Hanbo Cheng, Chenyu Liu, Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Jun Du(参考訳) Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。 近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。 しかし、既存の手法では、推論段階で双方向の文脈情報を有効に利用できない。 さらに、現在の双方向トレーニング方法は、主に文字列デコーダ用に設計されており、ツリーデコーダに適切に一般化することはできない。 これらの制約を克服するため,我々はmf-slt(mirror-flipped symbol layout tree)とbat(bidirectional asynchronous training)構造を提案する。 本手法は,双方向学習戦略をツリーデコーダに拡張し,双方向情報を活用することにより,より効果的なトレーニングを可能にする。 さらに、HMERモデルの視覚的および言語的知覚の影響を別々に分析し、共有言語モデリング(SLM)機構を導入する。 SLMを通して、視覚的曖昧性を扱う場合、特に豊富なトレーニングデータを持つシナリオにおいて、モデルの堅牢性と一般化を強化する。 我々のアプローチは広範な実験を通じて検証され、CROHME 2014、2016、2019データセット、およびHME100Kデータセットで新しい最先端結果を達成する能力を示している。 私たちの実験で使われたコードは公開されます。

The Handwritten Mathematical Expression Recognition (HMER) task is a critical branch in the field of OCR. Recent studies have demonstrated that incorporating bidirectional context information significantly improves the performance of HMER models. However, existing methods fail to effectively utilize bidirectional context information during the inference stage. Furthermore, current bidirectional training methods are primarily designed for string decoders and cannot adequately generalize to tree decoders, which offer superior generalization capabilities and structural analysis capacity. In order to overcome these limitations, we propose the Mirror-Flipped Symbol Layout Tree (MF-SLT) and Bidirectional Asynchronous Training (BAT) structure. Our method extends the bidirectional training strategy to the tree decoder, allowing for more effective training by leveraging bidirectional information. Additionally, we analyze the impact of the visual and linguistic perception of the HMER model separately and introduce the Shared Language Modeling (SLM) mechanism. Through the SLM, we enhance the model's robustness and generalization when dealing with visual ambiguity, particularly in scenarios with abundant training data. Our approach has been validated through extensive experiments, demonstrating its ability to achieve new state-of-the-art results on the CROHME 2014, 2016, and 2019 datasets, as well as the HME100K dataset. The code used in our experiments will be publicly available.
翻訳日:2024-01-03 17:17:19 公開日:2023-12-31
# GeoGalactica:地球科学における科学的大規模言語モデル

GeoGalactica: A Scientific Large Language Model in Geoscience ( http://arxiv.org/abs/2401.00434v1 )

ライセンス: Link先を確認
Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。 その印象的な能力のために、LLMは人工知能(AI for science, AI4S)を使用して特定の分野の科学的発見を促進するための学際的応用の可能性に光を当てている。 その間、地学研究や実践におけるnlp技術の利用は広く畳み込み、知識抽出や文書分類から質問応答や知識発見に寄与している。 本研究では, LLMを科学に活用するための最初のステップを, 比較的簡単なアプローチで進める。 我々は、LLMを地学に専門化するために、地学の膨大なテキストでモデルを事前訓練し、また、カスタムに収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。 これらの取り組みにより、300億のパラメータからなるGeoGalacticaモデルが作られる。 我々の知る限りでは、地球科学領域における最大の言語モデルである。 より具体的には、GeoGalacticaはGalacticaのさらなる事前訓練に由来する。 我々は、地球科学関連のテキストコーパスでGeoGalacticaを訓練し、巨大な科学プロジェクトDeep-time Digital Earth (DDE)において、65億のトークンを収集した。 そして、専門家の地学知識に答えを求める質問からなる100万組の指導訓練データでモデルを微調整する。 本技術報告では,データ収集,データクリーニング,ベースモデル選択,事前学習,SFT,評価など,GeoGalacticaのすべての側面について詳述する。 データキュレーションツールとGeoGalacticaのチェックポイントを、事前トレーニングの最初の3/4でオープンソース化しました。

Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens curated from extensive data sources in the big science project Deep-time Digital Earth (DDE), preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
翻訳日:2024-01-03 17:16:58 公開日:2023-12-31
# 統合モニタリングと分析データを用いたマルチ空間多時間空気質予測

Multi-spatial Multi-temporal Air Quality Forecasting with Integrated Monitoring and Reanalysis Data ( http://arxiv.org/abs/2401.00521v1 )

ライセンス: Link先を確認
Yuxiao Hu, Qian Li, Xiaodan Shi, Jinyue Yan, and Yuntian Chen(参考訳) 正確な空気質予測は、公衆衛生、環境モニタリングと保護、都市計画に不可欠である。 しかし,既存の手法では空間的にも時間的にも,マルチスケール情報を効果的に活用できない。 空間的には、個々の監視局と都市規模の統合が欠如している。 空気質の変化の周期的性質は、しばしば見過ごされるか、あるいは不十分に考慮される。 そこで本研究では, グラフ畳み込みネットワークとゲートリカレントユニット(m2g2)に基づく, 空間的および時間的スケールでの空気品質予測のギャップを埋める, 多空間的多時空間的空気品質予測手法を提案する。 提案フレームワークは,空間情報融合のためのマルチスケール空間GCN (MS-GCN) と時間情報統合のためのマルチスケール時間GRU (MT-GRU) の2つのモジュールから構成される。 空間次元では、MS-GCNモジュールは双方向学習可能な構造と残留構造を用い、個々の監視局と都市規模グラフ間の包括的な情報交換を可能にする。 時間次元に関して、MT-GRUモジュールは異なる時間スケールからの情報を並列隠れ状態を通して適応的に結合する。 気象指標と4つの大気質指標を利用して総合的な比較分析とアブレーション実験を行い、M2G2の精度を全局的に利用可能な9つの高度なアプローチと比較した。 pm2.5: (7.72%, 6.67%, 10.45%), pm10: (6.43%, 5.68%, 7.73%), no2: (5.07%, 7.76%, 16.60%), o3: (6.46%, 6.86%, 9.79%) である。 さらに, アブレーション法によるM2G2の各モジュールの有効性を示す。

Accurate air quality forecasting is crucial for public health, environmental monitoring and protection, and urban planning. However, existing methods fail to effectively utilize multi-scale information, both spatially and temporally. Spatially, there is a lack of integration between individual monitoring stations and city-wide scales. Temporally, the periodic nature of air quality variations is often overlooked or inadequately considered. To address these limitations, we present a novel Multi-spatial Multi-temporal air quality forecasting method based on Graph Convolutional Networks and Gated Recurrent Units (M2G2), bridging the gap in air quality forecasting across spatial and temporal scales. The proposed framework consists of two modules: Multi-scale Spatial GCN (MS-GCN) for spatial information fusion and Multi-scale Temporal GRU(MT-GRU) for temporal information integration. In the spatial dimension, the MS-GCN module employs a bidirectional learnable structure and a residual structure, enabling comprehensive information exchange between individual monitoring stations and the city-scale graph. Regarding the temporal dimension, the MT-GRU module adaptively combines information from different temporal scales through parallel hidden states. Leveraging meteorological indicators and four air quality indicators, we present comprehensive comparative analyses and ablation experiments, showcasing the higher accuracy of M2G2 in comparison to nine currently available advanced approaches across all aspects. The improvements of M2G2 over the second-best method on RMSE of the 24h/48h/72h are as follows: PM2.5: (7.72%, 6.67%, 10.45%); PM10: (6.43%, 5.68%, 7.73%); NO2: (5.07%, 7.76%, 16.60%); O3: (6.46%, 6.86%, 9.79%). Furthermore, we demonstrate the effectiveness of each module of M2G2 by ablation study.
翻訳日:2024-01-03 17:10:51 公開日:2023-12-31
# 単一励起領域におけるマルチプレックスエンタングルメントと原子センブル量子メモリの交換

Multiplexed entanglement swapping with atomic-ensemble-based quantum memories in the single excitation regime ( http://arxiv.org/abs/2401.00519v1 )

ライセンス: Link先を確認
Minjie Wang, Haole Jiao, Jiajin Lu, Wenxin Fan, Shujing Li, Hai Wang(参考訳) メモリリピータリンク間のエンタングルメントスワップ(ES)は、量子リピータを介して量子ネットワークを確立する上で重要である。 これまでのところ、原子アンサンブルベースの記憶を持つESは達成されていない。 そこで我々はDuan-Lukin-Cirac-Zollerスキームを用いて2つの絡み合ったスピン波メモリ間のESを実験的に実証した。 空洞内に冷たい原子の雲を挿入すると、12の空間モードで非古典的に相関するスピン波-光子対を生成し、2つの絡み合ったスピン波メモリを多重スキームで作成する。 2つのメモリから取得したフィールドの単光子ベル測定により、残りの2つのメモリは、C = 0.0124(0.003) のコンカレンスで絡み合った状態になる。 我々のスキームにおけるESの確率は、非多重スキームと比較して3倍に増加する。 本報告では, 残りのメモリアンサンブル間の絡み合い(C>0)の発生には, スピン波-光子対の平均交叉相関関数が30以上必要であることを示す。

Entanglement swapping (ES) between memory repeater links is critical for establishing quantum networks via quantum repeaters. So far, ES with atomic-ensemble-based memories has not been achieved. Here, we experimentally demonstrated ES between two entangled pairs of spin-wave memories via Duan-Lukin-Cirac-Zoller scheme. With a cloud of cold atoms inserted in a cavity, we produce non-classically-correlated spin-wave-photon pairs in 12 spatial modes and then prepare two entangled pairs of spin-wave memories via a multiplexed scheme. Via single-photon Bell measurement on retrieved fields from two memories, we project the two remaining memories never entangled previously into an entangled state with the measured concurrence of C = 0.0124(0.003). The successful probability of ES in our scheme is increased by three times, compared with that in non-multiplexed scheme. Our presented work shows that the generation of entanglement (C>0) between the remaining memory ensembles requires the average cross-correlation function of the spin-wave-photon pairs to be >30 .
翻訳日:2024-01-03 17:10:08 公開日:2023-12-31
# golangエコシステムにおける脆弱性ライフサイクルの実証分析

Empirical Analysis of Vulnerabilities Life Cycle in Golang Ecosystem ( http://arxiv.org/abs/2401.00515v1 )

ライセンス: Link先を確認
Jinchang Hu (1), Lyuye Zhang (2), Chengwei Liu (2), Sen Yang (3), Song Huang (1) and Yang Liu (2) ((1) College of Command and Control Engineering, Army Engineering University of PLA, NanJing, China. (2) Continental-NTU Corporate Lab, Nanyang Technological University, Singapore, Singapore. (3) Academy of Military Science, BeiJing, China.)(参考訳) オープンソースソフトウェア(OSS)は、開発者のプログラム開発を大いに促進します。 しかしながら、オープンソースソフトウェアの脆弱性の多さは、比較的新しいプログラミング言語であるGolangなど、大きな懸念事項である。 一般的なOSSパッケージマネージャとは対照的に,Golangでは,公式リリースへの統合前に依存性バージョンとしてコミットが広く使用されるという,ユニークな機能を備えている。 この属性は、リリース前にタイムリーにパッチコミットを実装することができるため、ユーザにとって有利である。 しかし、Golangは依存関係を管理するための分散メカニズムを採用しており、依存関係は個別のリポジトリで維持され、分散される。 このアプローチはパッチや未解決の脆弱性の拡散を遅らせる可能性がある。 上記の懸念に取り組むため,go言語における脆弱性のライフサイクルを総合的に調査し,導入から開始し,その修正に到達した。 この目的のために、さまざまなソースからデータを収集し、脆弱性パッチの遅延を計算するアルゴリズムを体系的に組み合わさったフレームワークが確立された。 golangエコシステムのモジュールの66.10%が脆弱性の影響を受けていることが判明した。 脆弱性のライフサイクル内では,脆弱性修正の伝播を妨げる2種類のラグが見つかった。 タグ付けされていない脆弱性やラベル付けされていない脆弱性の背後にある理由を分析することで、タイムリーリリースとインデックス化がエコシステムのセキュリティを著しく向上させる可能性がある。

Open-source software (OSS) greatly facilitates program development for developers. However, the high number of vulnerabilities in open-source software is a major concern, including in Golang, a relatively new programming language. In contrast to other commonly used OSS package managers, Golang presents a distinctive feature whereby commits are prevalently used as dependency versions prior to their integration into official releases. This attribute can prove advantageous to users, as patch commits can be implemented in a timely manner before the releases. However, Golang employs a decentralized mechanism for managing dependencies, whereby dependencies are upheld and distributed in separate repositories. This approach can result in delays in the dissemination of patches and unresolved vulnerabilities. To tackle the aforementioned concern, a comprehensive investigation was undertaken to examine the life cycle of vulnerability in Golang, commencing from its introduction and culminating with its rectification. To this end, a framework was established by gathering data from diverse sources and systematically amalgamating them with an algorithm to compute the lags in vulnerability patching. It turned out that 66.10% of modules in the Golang ecosystem were affected by vulnerabilities. Within the vulnerability life cycle, we found two kinds of lag impeding the propagation of vulnerability fixing. By analyzing reasons behind non-lagged and lagged vulnerabilities, timely releasing and indexing patch versions could significantly enhance ecosystem security.
翻訳日:2024-01-03 17:09:45 公開日:2023-12-31
# 量子伝達の増幅と量子ラチェット

Amplification of quantum transfer and quantum ratchet ( http://arxiv.org/abs/2401.00508v1 )

ライセンス: Link先を確認
Sergei Kozyrev, Alexander Pechen(参考訳) 量子移動とラチェット型プロセスの増幅は量子技術にとって重要である。 また、量子ラチェットは量子光合成において働き、量子効果の役割が広く議論されているが、基礎となる力学過程はまだ明らかになっていない。 本研究では,量子移動の増幅モデルについて検討し,これを量子ラチェットモデル(quantum ratchet model)と呼ぶ。 このモデルは、フィードバック型プロセスによって動的に誘導される特別な量子制御マスター方程式に基づいている。 ラチェット効果は散逸と沈み込みを伴う量子制御モデルにおいて達成され、ハミルトニアンはエネルギー準位間の遷移に同期したエネルギー差の振動に依存する。 このモデルと量子光合成におけるコヒーレント輸送のモデルとの類似性について研究し、そこではハミルトニアンの時間依存性がビブロンによって生じる。 振動するバイブロンの振幅と周波数は、その効率を決定する量子ラチェットのパラメータである。 量子ラチェットが励起再結合時間を最小化するパラメータについて検討し、光合成反応中心のパラメータの実験的に知られている値は、励起子再結合時間の局所最小化を実現する量子ラチェットのパラメータの値に対応することを示した。 また、エキシトン再結合時間を最小化する量子ラチェットのパラメータの別の値は、実験で観測された値に比べてビブロンの2倍小さい周波数に対応する。

Amplification of quantum transfer and ratchet--type processes are important for quantum technologies. We also expect that quantum ratchet works in quantum photosynthesis, where possible role of quantum effects is now widely discussed but the underlying dynamical processes are still not clearly known. In this work, we study a model of amplification of quantum transfer and making it directed which we call the quantum ratchet model. The model is based on a special quantum control master equation with dynamics induced by a feedback-type process. The ratchet effect is achieved in the quantum control model with dissipation and sink, where the Hamiltonian depends on vibrations in the energy difference synchronized with transitions between energy levels. A similarity between this model and the model of coherent transport in quantum photosynthesis, where the time dependence of the Hamiltonian arises due to vibrons, is studied. Amplitude and frequency of the oscillating vibron together with the dephasing rate are the parameters of the quantum ratchet which determine its efficiency. We study with which parameters the quantum ratchet minimizes the exction recombination time and show that the experimentally known values of the parameters of the photosynthetic reaction center correspond to values of the parameters of the quantum ratchet which realize a local minimum of the exciton recombination time. We also find another values of the parameters of the quantum ratchet minimizing the exciton recombination time, which corresponds to a twice smaller frequency of the vibron compared to that observed in experiments.
翻訳日:2024-01-03 17:09:22 公開日:2023-12-31
# 高次セルオートマタによるトポロジカル位相の生成と多点ストレンジ相関器による検出

Higher-Order Cellular Automata Generated Symmetry-Protected Topological Phases and Detection Through Multi-Point Strange Correlators ( http://arxiv.org/abs/2401.00505v1 )

ライセンス: Link先を確認
Jie-Yu Zhang, Meng-Yuan Li, Peng Ye(参考訳) 高次セルオートマトン(英: Higher-order cellularautoa、HOCA)は、複数の時間ステップで進化するセルオートマトンの一種である。 これらのHOCAは時空格子内で複雑なパターンを生成し、対称性に保護された位相(SPT)相を生成するために利用することができる。 これらの位相の対称性は大域的ではなく、線やフラクタルのような格子の低次元部分集合に作用する。 これらはHOCA生成SPT(HGSPT)フェーズと呼ばれる。 これらの位相は、通常(線状、膜状)およびフラクタルサブシステムで支持される対称性で保護された位相を含む、サブシステム対称性を持つ以前に研究された位相を含む。 さらに、これらの位相は、以前に研究された位相を超えるサブシステム対称性を持つモデルを含んでいる。 これには、2種類のサブシステム対称性を同時に持つ混合サブシステムSPT(MSPT)と、フラクタルまたは正規サブシステムの分類を超えたカオスのような対称性を持つカオスSPT(CSPT)が含まれる。 有限初期条件を持つ各HOCAパターンは、数学的対象$X=(d,M)$で表現でき、HOCAルール$\mathbf{f}$は、規則が生成できるパターンに基づいて、異なるクラス$[\mathbf{f}]$に分類できる。 与えられた HGSPT の HOCA 則のクラスは、奇相関器の一般化として、多点奇相関器 (multi-point strange correlator) と呼ぶものによって識別できる。 我々は,hgsptモデルのガッピング基底状態とそれらのクラスにおける非自明なspt順序を検出するために,多点奇数の相関子を構築するための一般的な手順を提起した。

Higher-order cellular automata (HOCA) are a type of cellular automata that evolve over multiple time steps. These HOCA generate intricate patterns within the spacetime lattice, which can be utilized to create symmetry-protected topological (SPT) phases. The symmetries of these phases are not global, but act on lower-dimensional subsystems of the lattice, such as lines or fractals. These are referred to as HOCA generated SPT (HGSPT) phases. These phases naturally encompass previously studied phases with subsystem symmetries, including symmetry-protected topological phases protected by symmetries supported on regular (e.g., line-like, membrane-like) and fractal subsystems. Moreover, these phases include models with subsystem symmetries that extend beyond previously studied phases. They include mixed-subsystem SPT (MSPT) that possess two types of subsystem symmetries simultaneously (for example, fractal and line-like subsystem symmetries or two different fractal symmetries), and chaotic SPT (CSPT) that have chaos-like symmetries, beyond the classification of fractal or regular subsystems. We propose that each HOCA pattern with a finite initial condition can be represented by a mathematical object $X=(d,M)$, and HOCA rules $\mathbf{f}$ can be categorized into different classes $[\mathbf{f}]$ based on the pattern that the rule can generate. The class of the HOCA rule of a given HGSPT can be identified by what we dub as the multi-point strange correlator, as a generalization of the strange correlator. We have raised a general procedure to construct multi-point strange correlators to detect the nontrivial SPT orders in the gapped ground states of HGSPT models and the their classes.
翻訳日:2024-01-03 17:08:59 公開日:2023-12-31
# HSC-GPT:人間の居留地構築のための大規模言語モデル

HSC-GPT: A Large Language Model for Human Settlements Construction ( http://arxiv.org/abs/2401.00504v1 )

ライセンス: Link先を確認
Chen Ran, Yao Xueqi, Jiang Xuhui, Han Zhengqi, Guo Jingze, Zhang Xianyue, Lin Chunyu, Liu Chumin, Zhao Jing, Lian Zeke, Zhang Jingjing, Li Keke(参考訳) 人間居留地建設の分野は、都市計画やランドスケープデザインを含む、様々な空間設計と管理タスクを含んでいる。 これらのタスクには、設計要件の理解と効果的な設計ソリューションの作成に不可欠な、自然言語で提示される多くの指示と記述が含まれる。 近年、自然言語処理(NLP)と生成人工知能(AI)を人間の居住環境構築タスクに統合する研究が進められている。 データによるAIの効率的な処理と分析能力のため、この領域の設計において大きな成功を収めている。 しかし、この課題にはいくつかの根本的な課題がある。 関連するセマンティック情報には、複雑な空間の詳細、多様なデータソースフォーマット、地域文化への高い感受性、仕事シナリオにおけるイノベーションと厳格さの要求が含まれる。 これらの要因は、この分野で一般的な生成AIを適用する際の限界をもたらし、モデルトレーニングに高品質なデータが欠如していることによりさらに悪化する。 これらの課題に対処するために,本論文ではまず,人間の居留地構築作業に特化した大規模言語モデルフレームワークであるHSC-GPTを提案する。

The field of human settlement construction encompasses a range of spatial designs and management tasks, including urban planning and landscape architecture design. These tasks involve a plethora of instructions and descriptions presented in natural language, which are essential for understanding design requirements and producing effective design solutions. Recent research has sought to integrate natural language processing (NLP) and generative artificial intelligence (AI) into human settlement construction tasks. Due to the efficient processing and analysis capabilities of AI with data, significant successes have been achieved in design within this domain. However, this task still faces several fundamental challenges. The semantic information involved includes complex spatial details, diverse data source formats, high sensitivity to regional culture, and demanding requirements for innovation and rigor in work scenarios. These factors lead to limitations when applying general generative AI in this field, further exacerbated by a lack of high-quality data for model training. To address these challenges, this paper first proposes HSC-GPT, a large-scale language model framework specifically designed for tasks in human settlement construction, considering the unique characteristics of this domain.
翻訳日:2024-01-03 17:08:25 公開日:2023-12-31
# Viz: 法的に互換性のある生成AIのためのQLoRAベースの著作権マーケットプレイス

Viz: A QLoRA-based Copyright Marketplace for Legally Compliant Generative AI ( http://arxiv.org/abs/2401.00503v1 )

ライセンス: Link先を確認
Dipankar Sarkar(参考訳) 本稿では,量子化された低ランクアダプタ(qlora)と,法的に準拠したリソース効率の高いマーケットプレース内の大規模言語モデル(llm)を統合した,新しいシステムアーキテクチャであるvizシステムを包括的に導入し,分析することを目的とする。 Vizは人工知能分野への重要な貢献であり、特にLLMの利用と収益化における計算効率、法的なコンプライアンス、経済的持続可能性の課題に対処している。 本稿は,LLMモデルの進歩,AIトレーニングにおける著作権問題(NYTケース,2023),モデル微調整技術,特に低ランクアダプタと量子化ローランクアダプタの進化を中心に,Vizの創出を示唆する学術的談話と展開を概説し,LLM活用のための持続的かつ経済的に適合する枠組みを構築する。 経済モデルは、コンテンツクリエイター、ai開発者、エンドユーザの利益を提案し、テクノロジ、経済、法律の調和した統合を示し、今日のaiランドスケープの複雑な課題に対する包括的なソリューションを提供する。

This paper aims to introduce and analyze the Viz system in a comprehensive way, a novel system architecture that integrates Quantized Low-Rank Adapters (QLoRA) to fine-tune large language models (LLM) within a legally compliant and resource efficient marketplace. Viz represents a significant contribution to the field of artificial intelligence, particularly in addressing the challenges of computational efficiency, legal compliance, and economic sustainability in the utilization and monetization of LLMs. The paper delineates the scholarly discourse and developments that have informed the creation of Viz, focusing primarily on the advancements in LLM models, copyright issues in AI training (NYT case, 2023), and the evolution of model fine-tuning techniques, particularly low-rank adapters and quantized low-rank adapters, to create a sustainable and economically compliant framework for LLM utilization. The economic model it proposes benefits content creators, AI developers, and end-users, delineating a harmonious integration of technology, economy, and law, offering a comprehensive solution to the complex challenges of today's AI landscape.
翻訳日:2024-01-03 17:08:05 公開日:2023-12-31
# 分子動力学シミュレーションのための高精度力場の生成と分子構成変換器を用いた化学反応機構の研究

Generating High-Precision Force Fields for Molecular Dynamics Simulations to Study Chemical Reaction Mechanisms using Molecular Configuration Transformer ( http://arxiv.org/abs/2401.00499v1 )

ライセンス: Link先を確認
Sihao Yuan, Xu Han, Zhaoxin Xie, Cheng Fan, Yi Issac Yang, Yi Qin Gao(参考訳) 化学反応機構の理論的研究は有機化学において重要である。 伝統的に、量子化学計算を用いた化学反応の遷移状態の手動構成の分子コンフォメーションを計算することが最も一般的に用いられる方法である。 しかし、この方法は個々の経験と化学直観に大きく依存している。 そこで本研究では,QM/MM分子動力学シミュレーションによる化学反応のサンプリングを改良した研究パラダイムを提案する。 このアプローチは化学反応の全過程を直接シミュレートすることができる。 しかし、計算速度はシミュレーションにおける高精度ポテンシャルエネルギー関数の使用を制限する。 そこで本研究では, グラフニューラルネットワークに基づく分子モデルである分子構成変換器を用いて, 分子モデリングのための高精度な力場を訓練する手法を提案する。 このポテンシャルエネルギー関数は、低い計算コストで高精度なシミュレーションを可能にし、化学反応のメカニズムをより正確に計算することができる。 我々はこのアプローチを用いて,マンガン触媒によるコープ転位反応とカルボニル挿入反応の研究を行った。 この「AI+Physics」に基づくシミュレーション手法は、有機化学反応機構の理論研究において新しい傾向が期待される。

Theoretical studies on chemical reaction mechanisms have been crucial in organic chemistry. Traditionally, calculating the manually constructed molecular conformations of transition states for chemical reactions using quantum chemical calculations is the most commonly used method. However, this way is heavily dependent on individual experience and chemical intuition. In our previous study, we proposed a research paradigm that uses enhanced sampling in QM/MM molecular dynamics simulations to study chemical reactions. This approach can directly simulate the entire process of a chemical reaction. However, the computational speed limits the use of high-precision potential energy functions for simulations. To address this issue, we present a scheme for training high-precision force fields for molecular modeling using our developed graph-neural-network-based molecular model, molecular configuration transformer. This potential energy function allows for highly accurate simulations at a low computational cost, leading to more precise calculations of the mechanism of chemical reactions. We have used this approach to study a Cope rearrangement reaction and a Carbonyl insertion reaction catalyzed by Manganese. This "AI+Physics" based simulation approach is expected to become a new trend in the theoretical study of organic chemical reaction mechanisms.
翻訳日:2024-01-03 17:07:43 公開日:2023-12-31
# SAR-RARP50: ロボットによる根治的前立腺切除術における手術器具の分離と行動認識

SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge ( http://arxiv.org/abs/2401.00496v1 )

ライセンス: Link先を確認
Dimitrios Psychogyios, Emanuele Colleoni, Beatrice Van Amsterdam, Chih-Yang Li, Shu-Yu Huang, Yuchong Li, Fucang Jia, Baosheng Zou, Guotai Wang, Yang Liu, Maxence Boels, Jiayu Huo, Rachel Sparks, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin, Mengya Xu, An Wang, Yanan Wu, Long Bai, Hongliang Ren, Atsushi Yamada, Yuriko Harai, Yuto Ishikawa, Kazuyuki Hayashi, Jente Simoens, Pieter DeBacker, Francesco Cisternino, Gabriele Furnari, Alex Mottrie, Federica Ferraguti, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Soohee Kim, Seung Hyun Lee, Kyu Eun Lee, Hyoun-Joong Kong, Kui Fu, Chao Li, Shan An, Stefanie Krell, Sebastian Bodenstedt, Nicolas Ayobi, Alejandra Perez, Santiago Rodriguez, Juanita Puentes, Pablo Arbelaez, Omid Mohareri, Danail Stoyanov(参考訳) 手術用ツールのセグメンテーションと行動認識は、外科的スキル評価から意思決定支援システムまで、多くのコンピュータ支援介入アプリケーションにおいて基本的な構成要素である。 今日では、学習に基づくアクション認識とセグメンテーションのアプローチは古典的な手法よりも優れています。 さらに、アクション認識とツールセグメンテーションアルゴリズムは、しばしば訓練され、潜在的なクロスタスク関係を活用せずに、相互に独立した予測を行う。 EndoVis 2022 SAR-RARP50 チャレンジでは,ロボット補助的根治的前立腺切除術 (RARP) の50個の縫合ビデオセグメントを含む,外科的行動認識と意味計測のための最初のマルチモーダル・インビヴィオデータセットを公表した。 挑戦の目的は2つある。 まず、提供されたデータセットのスケールを利用して、手術領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発する。 第二に、マルチタスクベースの学習アプローチの可能性をさらに探求し、それらのシングルタスクに対する比較優位性を決定する。 合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器セグメンテーション手法、そしてアクション認識と計器セグメンテーションを統合した4つのマルチタスクアプローチを貢献した。

Surgical tool segmentation and action recognition are fundamental building blocks in many computer-assisted intervention applications, ranging from surgical skills assessment to decision support systems. Nowadays, learning-based action recognition and segmentation approaches outperform classical methods, relying, however, on large, annotated datasets. Furthermore, action recognition and tool segmentation algorithms are often trained and make predictions in isolation from each other, without exploiting potential cross-task relationships. With the EndoVis 2022 SAR-RARP50 challenge, we release the first multimodal, publicly available, in-vivo, dataset for surgical action recognition and semantic instrumentation segmentation, containing 50 suturing video segments of Robotic Assisted Radical Prostatectomy (RARP). The aim of the challenge is twofold. First, to enable researchers to leverage the scale of the provided dataset and develop robust and highly accurate single-task action recognition and tool segmentation approaches in the surgical domain. Second, to further explore the potential of multitask-based learning approaches and determine their comparative advantage against their single-task counterparts. A total of 12 teams participated in the challenge, contributing 7 action recognition methods, 9 instrument segmentation techniques, and 4 multitask approaches that integrated both action recognition and instrument segmentation.
翻訳日:2024-01-03 17:07:25 公開日:2023-12-31
# 多クラス量子化のためのカーネル密度推定

Kernel Density Estimation for Multiclass Quantification ( http://arxiv.org/abs/2401.00490v1 )

ライセンス: Link先を確認
Alejandro Moreo, Pablo Gonz\'alez, Juan Jos\'e del Coz(参考訳) 社会科学、疫学、感情分析、市場調査などのいくつかの分野は、そのメンバーの個々のラベルではなく、集団内のクラスの分布を知ることに興味を持っている。 量子化は、クラス有病率の正確な予測子を得るための教師付き機械学習タスクであり、特にラベルシフトの存在下で行う。 分布マッチング(dm)アプローチは、これまでに文献で提案されている量化手法の中で最も重要なファミリーの一つである。 現在のdmアプローチは、後発確率のヒストグラムを用いて関連する人口をモデル化する。 本稿では,ヒストグラムがクラス固有となり,データに存在する可能性のあるクラス間情報をモデル化する機会を欠くため,マルチクラス設定へのそれらの適用は最適ではないと主張する。 カーネル密度推定(KDE)によりモデル化した多変量密度に基づく新しい表現機構を提案する。 提案手法をKDEyと呼ぶ実験により,従来のDM手法よりも優れた定量化性能が得られた。 また, 最大度フレームワークにおけるkdeに基づく表現についても検討し, kdeyは, 量子化の期待最大化法に対してしばしば優れた性能を示すことを示した。

Several disciplines, like the social sciences, epidemiology, sentiment analysis, or market research, are interested in knowing the distribution of the classes in a population rather than the individual labels of the members thereof. Quantification is the supervised machine learning task concerned with obtaining accurate predictors of class prevalence, and to do so particularly in the presence of label shift. The distribution-matching (DM) approaches represent one of the most important families among the quantification methods that have been proposed in the literature so far. Current DM approaches model the involved populations by means of histograms of posterior probabilities. In this paper, we argue that their application to the multiclass setting is suboptimal since the histograms become class-specific, thus missing the opportunity to model inter-class information that may exist in the data. We propose a new representation mechanism based on multivariate densities that we model via kernel density estimation (KDE). The experiments we have carried out show our method, dubbed KDEy, yields superior quantification performance with respect to previous DM approaches. We also investigate the KDE-based representation within the maximum likelihood framework and show KDEy often shows superior performance with respect to the expectation-maximization method for quantification, arguably the strongest contender in the quantification arena to date.
翻訳日:2024-01-03 17:06:59 公開日:2023-12-31
# gaussian two-way channelのコーディング:線形および学習に基づくアプローチ

Coding for Gaussian Two-Way Channels: Linear and Learning-Based Approaches ( http://arxiv.org/abs/2401.00477v1 )

ライセンス: Link先を確認
Junghoon Kim, Taejoon Kim, Anindya Bijoy Das, Seyyedali Hosseinalipour, David J. Love, Christopher G. Brinton(参考訳) ガウシアン双方向チャネル(GTWC)の独立ノイズによる能力向上は不可能であるが,通信信頼性の向上が期待できる。 本稿では,エンコーダとデコーダの結合設計による誤り確率の和を最小化し,gtwcsにおける通信信頼性の向上とバランスを図ることを目的とする。 まず,ユーザの協調をユーザエンコーディングプロセスの結合によって捉えた一般的なエンコーディング/復号関数を定式化する。 結合効果はエンコーダ/デコーダの設計を非自明にし、この効果を捉えるのに効果的なデコーダと、電力制約内のエンコーダの効率的な電力管理を必要とする。 これらの課題に対処するため,線形コーディングと学習ベースコーディングの2つの異なる双方向コーディング戦略を提案する。 線形符号化のために, 最適線形復号法を提案し, 信頼性のバランスをとるために, ユーザの協調に関する符号化に関する新たな知見を考察する。 次に,共同エンコーダ/デコーダ設計のための効率的なアルゴリズムを提案する。 学習ベースコーディングでは,インタラクティブなrnnと電力制御層を提案するrecurrent neural network (rnn)ベースのコーディングアーキテクチャを導入し,双方向のrnnをデコードのための注意機構として組み込む。 シミュレーションにより,提案手法は,従来のチャネル符号化方式(ユーザの協力を活用しない)をはるかに上回っていることを示す。 また、線形符号化は高信号対雑音比(SNR)で優れており、RNNベースの符号化は低SNRで最高であることを示す。 我々は、電力分布、双方向符号化の利点、異なる符号化レート、ブロック長ゲインの観点から、我々の双方向コーディング戦略をさらに調査する。

Although user cooperation cannot improve the capacity of Gaussian two-way channels (GTWCs) with independent noises, it can improve communication reliability. In this work, we aim to enhance and balance the communication reliability in GTWCs by minimizing the sum of error probabilities via joint design of encoders and decoders at the users. We first formulate general encoding/decoding functions, where the user cooperation is captured by the coupling of user encoding processes. The coupling effect renders the encoder/decoder design non-trivial, requiring effective decoding to capture this effect, as well as efficient power management at the encoders within power constraints. To address these challenges, we propose two different two-way coding strategies: linear coding and learning-based coding. For linear coding, we propose optimal linear decoding and discuss new insights on encoding regarding user cooperation to balance reliability. We then propose an efficient algorithm for joint encoder/decoder design. For learning-based coding, we introduce a novel recurrent neural network (RNN)-based coding architecture, where we propose interactive RNNs and a power control layer for encoding, and we incorporate bi-directional RNNs with an attention mechanism for decoding. Through simulations, we show that our two-way coding methodologies outperform conventional channel coding schemes (that do not utilize user cooperation) significantly in sum-error performance. We also demonstrate that our linear coding excels at high signal-to-noise ratios (SNRs), while our RNN-based coding performs best at low SNRs. We further investigate our two-way coding strategies in terms of power distribution, two-way coding benefit, different coding rates, and block-length gain.
翻訳日:2024-01-03 17:06:37 公開日:2023-12-31
# ニューロモルフィックナビゲーションのための昆虫脳のエミュレート

Emulating insect brains for neuromorphic navigation ( http://arxiv.org/abs/2401.00473v1 )

ライセンス: Link先を確認
Korbinian Schreiber, Timo Wunderlich, Philipp Spilger, Sebastian Billaudelle, Benjamin Cramer, Yannik Stradmann, Christian Pehle, Eric M\"uller, Mihai A. Petrovici, Johannes Schemmel, Karlheinz Meier(参考訳) ミツバチは、環境への遠足を妨害した後、直線で家に帰る素晴らしい能力を示す。 神経生物学的イメージング研究により、この能力は昆虫の脳内に実装された経路統合機構から生じることが判明した。 本研究では,このニューラルネットワークをニューロモルフィック混合信号処理装置brainscales-2上でエミュレートし,デジタルコプロセッサ上で仮想的に具現化されたミツバチを,ランダムに環境を探索した後に自宅へ誘導する。 基礎となる神経インテグレータを実現するために,アキソアキソニックシナプスを用いた単一ニューロンスパイクベースの短期記憶細胞を導入する。 環境、感覚器官、脳、アクチュエーター、仮想体を含む全ての実体は、単一のBrainScaleS-2マイクロチップで自律的に実行される。 機能ネットワークは、進化戦略を通じて精度と信頼性を向上させるために微調整される。 BrainScaleS-2は、生物学の1000倍の速さで神経プロセスをエミュレートするので、320世代にまたがる4800回のハチの旅は、1つのニューロモルフィックコア上でわずか半時間以内に起こる。

Bees display the remarkable ability to return home in a straight line after meandering excursions to their environment. Neurobiological imaging studies have revealed that this capability emerges from a path integration mechanism implemented within the insect's brain. In the present work, we emulate this neural network on the neuromorphic mixed-signal processor BrainScaleS-2 to guide bees, virtually embodied on a digital co-processor, back to their home location after randomly exploring their environment. To realize the underlying neural integrators, we introduce single-neuron spike-based short-term memory cells with axo-axonic synapses. All entities, including environment, sensory organs, brain, actuators, and the virtual body, run autonomously on a single BrainScaleS-2 microchip. The functioning network is fine-tuned for better precision and reliability through an evolution strategy. As BrainScaleS-2 emulates neural processes 1000 times faster than biology, 4800 consecutive bee journeys distributed over 320 generations occur within only half an hour on a single neuromorphic core.
翻訳日:2024-01-03 17:06:07 公開日:2023-12-31
# オフライン強化学習によるオンラインシンボリック音楽アライメント

Online Symbolic Music Alignment with Offline Reinforcement Learning ( http://arxiv.org/abs/2401.00466v1 )

ライセンス: Link先を確認
Silvan David Peter(参考訳) シンボリック音楽アライメント(symbolic music alignment)は、midi音符と対応するスコア音符をマッチングするプロセスである。 本稿では,強化学習(RL)に基づくオンラインシンボリック音楽アライメント手法を提案する。 注意に基づくニューラルネットワークであるrlエージェントは、ローカルスコアとパフォーマンスコンテキストから現在のスコア位置を反復的に推定する。 このシンボリックアライメントタスクでは、環境状態が徹底的にサンプリングされ、報酬が密集し、簡易なオフラインrl問題として定式化される。 訓練されたエージェントを3つの方法で評価する。 第1に、サンプリングされたテストコンテキストに対する正しいスコア位置を特定する能力、第2に、オンラインノートワイドアライメントを象徴する完全アルゴリズムのコアテクニックとして、そして最後に、リアルタイムのシンボルスコアフォロワとして。 エージェントの入力として使用するピッチベースのスコアとパフォーマンス表現についてさらに検討する。 そこで我々は,同じ入力表現を用いた2段階動的時間ゆがみ(dtw)に基づくオフラインアライメントアルゴリズム,第2モデルを開発した。 提案モデルは,オフラインシンボリック音楽アライメントの最先端参照モデルよりも優れている。

Symbolic Music Alignment is the process of matching performed MIDI notes to corresponding score notes. In this paper, we introduce a reinforcement learning (RL)-based online symbolic music alignment technique. The RL agent - an attention-based neural network - iteratively estimates the current score position from local score and performance contexts. For this symbolic alignment task, environment states can be sampled exhaustively and the reward is dense, rendering a formulation as a simplified offline RL problem straightforward. We evaluate the trained agent in three ways. First, in its capacity to identify correct score positions for sampled test contexts; second, as the core technique of a complete algorithm for symbolic online note-wise alignment; and finally, as a real-time symbolic score follower. We further investigate the pitch-based score and performance representations used as the agent's inputs. To this end, we develop a second model, a two-step Dynamic Time Warping (DTW)-based offline alignment algorithm leveraging the same input representation. The proposed model outperforms a state-of-the-art reference model of offline symbolic music alignment.
翻訳日:2024-01-03 17:05:44 公開日:2023-12-31
# 自己監督型視覚変換器の局所表現の解析

Analyzing Local Representations of Self-supervised Vision Transformers ( http://arxiv.org/abs/2401.00463v1 )

ライセンス: Link先を確認
Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Vahan Huroyan, Hrant Khachatrian, Martin Danelljan(参考訳) 本稿では,各自監督型視覚変換器(ViT)の比較分析を行い,その局所的な代表力に着目した。 大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。 我々は,局所的,すなわちパッチレベル,少数ショットセマンティックセグメンテーション,インスタンス識別,オブジェクト検索,トラッキングのコンテキストにおける表現の質を分析するための評価フレームワークを設計する。 DINOのような対照的な学習に基づく手法は、マスク付き画像モデリングと比較して、パラメータチューニングのない下流タスクに即座に適用可能な、より普遍的なパッチ表現を生成する。 マスク付きオートエンコーダのような後者のアプローチで学んだ埋め込みは、k-nnのような距離ベースのアルゴリズムを損なう高い分散機能を持ち、下流タスクに有用な情報は含まない。 さらに,これらの高分散特徴の除去は,この作業のためのベンチマークと,マスク付きオートエンコーダの最近の拡張であるscale-maeの解析により,k-nnを増大させることを実証する。 最後に,2桁以上のデータに基づいて事前訓練されたモデルであるDINOv2が,計算集約度が低いDINOよりも性能が劣るオブジェクトのインスタンス検索設定を見つける。

In this paper, we present a comparative analysis of various self-supervised Vision Transformers (ViTs), focusing on their local representative power. Inspired by large language models, we examine the abilities of ViTs to perform various computer vision tasks with little to no fine-tuning. We design an evaluation framework to analyze the quality of local, i.e. patch-level, representations in the context of few-shot semantic segmentation, instance identification, object retrieval, and tracking. We discover that contrastive learning based methods like DINO produce more universal patch representations that can be immediately applied for downstream tasks with no parameter tuning, compared to masked image modeling. The embeddings learned using the latter approach, e.g. in masked autoencoders, have high variance features that harm distance-based algorithms, such as k-NN, and do not contain useful information for most downstream tasks. Furthermore, we demonstrate that removing these high-variance features enhances k-NN by providing an analysis of the benchmarks for this work and for Scale-MAE, a recent extension of masked autoencoders. Finally, we find an object instance retrieval setting where DINOv2, a model pretrained on two orders of magnitude more data, performs worse than its less compute-intensive counterpart DINO.
翻訳日:2024-01-03 17:05:26 公開日:2023-12-31
# RainSD:特徴レベル分布を用いた画像合成のためのレインスタイル多様化モジュール

RainSD: Rain Style Diversification Module for Image Synthesis Enhancement using Feature-Level Style Distribution ( http://arxiv.org/abs/2401.00460v1 )

ライセンス: Link先を確認
Hyeonjae Jeon, Junghyun Seo, Taesoo Kim, Sungho Son, Jungki Lee, Gyeungho Choi, Yongseob Lim(参考訳) 現在、自動運転技術はレベル4以上をターゲットにしているが、研究者らは様々な課題において信頼性の高い運転アルゴリズムを開発するためのいくつかの制限に直面している。 自動運転車の普及を促進するためには,この技術の安全性問題に取り組むことが重要である。 各種の安全上の懸念の中で、厳しい気象条件によるセンサーの遮断問題は、自律運転中のマルチタスク学習に基づく認識アルゴリズムの最も頻繁な脅威の1つである。 この問題に対処するため、適切なデータセットの生成の重要性が増している。 本稿では, BDD100Kアノテーションの形式を用いて, 実際の道路データセットBDD100Kからセンサブロックを発生させる合成道路データセットを提案する。 各フレームの雨片を実験的に定式化した式で作成し, スタイル転送に基づく画像から画像への変換ネットワークを用いて翻訳した。 このデータセットを用いて,車線検出,運転領域分割,交通物体検出など,自律走行のための多様なマルチタスクネットワークの劣化を評価し,解析した。 自動運転車用深層ニューラルネットワークを用いた知覚システムの性能低下傾向を深く分析した。 最後に,画像から画像への変換に基づく深層ニューラルネットワークに基づく知覚アルゴリズムと自律運転データセット生成の限界と今後の方向性について述べる。

Autonomous driving technology nowadays targets to level 4 or beyond, but the researchers are faced with some limitations for developing reliable driving algorithms in diverse challenges. To promote the autonomous vehicles to spread widely, it is important to address safety issues on this technology. Among various safety concerns, the sensor blockage problem by severe weather conditions can be one of the most frequent threats for multi-task learning based perception algorithms during autonomous driving. To handle this problem, the importance of the generation of proper datasets is becoming more significant. In this paper, a synthetic road dataset with sensor blockage generated from real road dataset BDD100K is suggested in the format of BDD100K annotation. Rain streaks for each frame were made by an experimentally established equation and translated utilizing the image-to-image translation network based on style transfer. Using this dataset, the degradation of the diverse multi-task networks for autonomous driving, such as lane detection, driving area segmentation, and traffic object detection, has been thoroughly evaluated and analyzed. The tendency of the performance degradation of deep neural network-based perception systems for autonomous vehicle has been analyzed in depth. Finally, we discuss the limitation and the future directions of the deep neural network-based perception algorithms and autonomous driving dataset generation based on image-to-image translation.
翻訳日:2024-01-03 17:05:02 公開日:2023-12-31
# スカイミオンからの高局所制御場を持つスピン・スピンアンサンブルの近位量子制御

Proximal quantum control of spin and spin ensemble with highly localized control field from skyrmions ( http://arxiv.org/abs/2401.00573v1 )

ライセンス: Link先を確認
Md Fahim F Chowdhury, Mohamad Niknam, Md Mahadi Rajib, Louis S. Bouchard, Jayasimha Atulasimha(参考訳) スピン状態に基づくスケーラブル量子コンピューティングには、個々のスピン量子ビットの選択的制御が必要である。 量子コンピュータの重要な構成要素である単一および2量子ゲートの高忠実性を達成するには、高度に局所化された制御フィールドが必要である。 これらのフィールドは、隣接するキュービットでゲートエラーやクロストークを最小限に抑えながら、特定のスピンキュービットに対処できなければならない。 局所的な電波磁場を生成するという課題を克服する上で, 単極子を欠いて, 発散と収束性ナノスケールの磁歪を結合する手法を導入する。 このアプローチは、高い忠実度でスピン量子ビットを操作する正確な制御フィールドを生成する。 3次元ヘッジホッグ構造の2次元類似体である2次元スカイマリオンの利用を提案する。 後者は磁化モノポールであるが、製造は困難である。 一方、2Dスカイミオンは標準的な半導体鋳造プロセスで製造することができる。 近位skyrmionとナノマグネットを含むシナリオにおける密度行列の進化とゲートフィデリティの比較分析により、 {\pi}/2ゲートでは99.95%、 {\pi}ゲートでは99.90%のゲートフィデリティが示される。 特に、スカイミオン構成は隣り合うスピン量子ビットにおいて、制御された量子ビットで同じ磁場を生成するナノマグネットと比較して、15倍小さい磁場を生成するため、隣接する量子ビットの障害を減らすことにより、スケーラブルな量子制御アーキテクチャの候補としてより適している。

Selective control of individual spin qubits is needed for scalable quantum computing based on spin states. Achieving high-fidelity in both single and two-qubit gates, essential components of universal quantum computers, necessitates highly localized control fields. These fields must be capable of addressing specific spin qubits while minimizing gate errors and cross-talk in adjacent qubits. Overcoming the challenge of generating a localized radio-frequency magnetic field, in the absence of elementary magnetic monopoles, we introduce a technique that combines divergent and convergent nanoscale magnetic skyrmions. This approach produces a precise control field that manipulates spin qubits with high fidelity. We propose the use of 2D skyrmions, which are 2D analogues of 3D hedgehog structures. The latter are emergent magnetic monopoles, but difficult to fabricate. The 2D skyrmions, on the other hand, can be fabricated using standard semiconductor foundry processes. Our comparative analysis of the density matrix evolution and gate fidelities in scenarios involving proximal skyrmions and nanomagnets indicates potential gate fidelities surpassing 99.95% for {\pi}/2-gates and 99.90% for {\pi}-gates. Notably, the skyrmion configuration generates a significantly lower field on neighboring spin qubits, i.e. 15 times smaller field on a neighboring qubit compared to nanomagnets that produces the same field at the controlled qubit, making it a more suitable candidate for scalable quantum control architectures by reducing disturbances in adjacent qubits.
翻訳日:2024-01-03 17:00:37 公開日:2023-12-31
# kernelgpt: 大規模言語モデルによるカーネルファジングの強化

KernelGPT: Enhanced Kernel Fuzzing via Large Language Models ( http://arxiv.org/abs/2401.00563v1 )

ライセンス: Link先を確認
Chenyuan Yang, Zijie Zhao, Lingming Zhang(参考訳) オペレーティングシステムカーネルのバグは、世界中の何十億ものデバイスやユーザに影響を与える可能性がある。 その結果、カーネルのファジング、すなわち潜在的なカーネルのバグや脆弱性を検出するためのsyscall(system call)シーケンスの自動生成に多くの研究が集中している。 syzkaller氏は最も広く研究されているカーネルファザーの1つで、syzlangで書かれた事前定義された仕様に基づいた有効なsyscallシーケンスの生成を目指している。 Syzkallerの仕様生成を自動化しようとする作業は以前からあったが、まだ手作業がほとんどであり、重要なsyscallが多数発見されている。 本稿では,カーネルファジィ化のためのLarge Language Models (LLM) を通じてSyzkaller仕様を自動推論する最初のアプローチであるKernelGPTを提案する。 我々の基本的な洞察は、llmは事前トレーニング中に大量のカーネルコード、ドキュメンテーション、ユースケースを見ていて、有効なsyscallを作成するのに必要な情報を自動的に抽出できるということです。 より具体的には、KernelGPTは必要なすべての仕様コンポーネントを自動推論するために反復的なアプローチを活用し、検証フィードバックを活用して初期仕様の修正/修正を行っている。 予備的な結果は、kernelgptがsyzkallerがより高いカバレッジを達成し、以前不明だった複数のバグを見つけるのに役立つことを示している。 さらに、我々はSyzkallerチームから、KernelGPTによって推測される上流仕様の要求を受け取りました。

Bugs in operating system kernels can affect billions of devices and users all over the world. As a result, a large body of research has been focused on kernel fuzzing, i.e., automatically generating syscall (system call) sequences to detect potential kernel bugs or vulnerabilities. Syzkaller, one of the most widely studied kernel fuzzers, aims to generate valid syscall sequences based on predefined specifications written in syzlang, a domain-specific language for defining syscalls, their arguments, and the relationships between them. While there has been existing work trying to automate Syzkaller specification generation, this still remains largely manual work and a large number of important syscalls are still uncovered. In this paper, we propose KernelGPT, the first approach to automatically inferring Syzkaller specifications via Large Language Models (LLMs) for enhanced kernel fuzzing. Our basic insight is that LLMs have seen massive kernel code, documentation, and use cases during pre-training, and thus can automatically distill the necessary information for making valid syscalls. More specifically, KernelGPT leverages an iterative approach to automatically infer all the necessary specification components, and further leverages the validation feedback to repair/refine the initial specifications. Our preliminary results demonstrate that KernelGPT can help Syzkaller achieve higher coverage and find multiple previously unknown bugs. Moreover, we also received a request from the Syzkaller team to upstream specifications inferred by KernelGPT.
翻訳日:2024-01-03 17:00:06 公開日:2023-12-31
# 顔の統一表現を学習するジェネラリストFaceX

A Generalist FaceX via Learning Unified Facial Representation ( http://arxiv.org/abs/2401.00551v1 )

ライセンス: Link先を確認
Yue Han, Jiangning Zhang, Junwei Zhu, Xiangtai Li, Yanhao Ge, Wei Li, Chengjie Wang, Yong Liu, Xiaoming Liu, Ying Tai(参考訳) この研究は、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルであるFaceXフレームワークを提示する。 この目的を達成するために,まず,多彩な顔編集タスクに対して統一的な顔表現を定式化し,その表情を基本同一性,個人内変異,環境要因に大局的に分解する。 そこで本稿では,顔編集作業のコア側面を顕微鏡的に分解し,様々な顔成分をシームレスに操作するための顔表情表現分解(FORD)を提案する。 さらに、事前訓練された安定拡散(SD)の先行を利用して、生成品質を高め、トレーニングを加速することにより、顔の統一表現を最初に統合し、効率の良い顔表現制御(FRC)により、SD認識生成プロセスを効果的に操る顔表現ステアリング(FORS)を設計する。 % 追加機能なしでは,顔編集タスクの精巧なタスク特化モデルと比較して,多機能なFaceXは競争力がある。 完全なコードとモデルはhttps://github.com/diffusion-facex/facexで入手できる。

This work presents FaceX framework, a novel facial generalist model capable of handling diverse facial tasks simultaneously. To achieve this goal, we initially formulate a unified facial representation for a broad spectrum of facial editing tasks, which macroscopically decomposes a face into fundamental identity, intra-personal variation, and environmental factors. Based on this, we introduce Facial Omni-Representation Decomposing (FORD) for seamless manipulation of various facial components, microscopically decomposing the core aspects of most facial editing tasks. Furthermore, by leveraging the prior of a pretrained StableDiffusion (SD) to enhance generation quality and accelerate training, we design Facial Omni-Representation Steering (FORS) to first assemble unified facial representations and then effectively steer the SD-aware generation process by the efficient Facial Representation Controller (FRC). %Without any additional features, Our versatile FaceX achieves competitive performance compared to elaborate task-specific models on popular facial editing tasks. Full codes and models will be available at https://github.com/diffusion-facex/FaceX.
翻訳日:2024-01-03 16:59:38 公開日:2023-12-31
# あいまいな確率制約のある問題に対する学習について

On Learning for Ambiguous Chance Constrained Problems ( http://arxiv.org/abs/2401.00547v1 )

ライセンス: Link先を確認
A Ch Madhusudanarao, Rahul Singh(参考訳) 確率制約付き最適化問題 $min_x f について検討する。 (x)$ s.t.$P(\left\{ \theta: g(x,\theta)\le 0 \right\})\ge 1-\epsilon$ ここで$\epsilon\in (0,1)$は、分布$P$が意思決定者(DM)に知られていない場合の違反確率である。 DMが$\mathcal{U}$に$P$が$\mathcal{U}$に含まれるような分布の集合にアクセスするとき、問題はあいまいな確率制約問題 \cite{erdougan 2006ambiguous} として知られている。 我々は、$\mathcal{u}$ が $\left\{\mu:\frac{\mu の形である場合の曖昧な確率制約問題を研究する。 (y)}{\nu (y)}\leq C, \forall y\in\Theta, \mu (y)\ge 0\right\}$, ここで$\nu$ は ``reference distribution である。 この場合、元の問題は、$n$ i.i.d. の$\theta$ のサンプルが $\nu$ から引き出され、元の制約は $g(x,\theta_i)\le 0,~i=1,2,\ldots,n$ に置き換えられるようなサンプル問題によって ``well-approximated''' となる。 また、この近似に関連するサンプルの複雑さ、すなわち$\epsilon,\delta>0$に対して、$\nu$から引かなければならないサンプルの個数を導出し、($\nu$のランダム性よりも)1-\delta$より大きい確率で、サンプルプログラムを解くことで得られる解は、元の確率制約問題に対して$\epsilon$-feasibleな解が得られる。

We study chance constrained optimization problems $\min_x f(x)$ s.t. $P(\left\{ \theta: g(x,\theta)\le 0 \right\})\ge 1-\epsilon$ where $\epsilon\in (0,1)$ is the violation probability, when the distribution $P$ is not known to the decision maker (DM). When the DM has access to a set of distributions $\mathcal{U}$ such that $P$ is contained in $\mathcal{U}$, then the problem is known as the ambiguous chance-constrained problem \cite{erdougan2006ambiguous}. We study ambiguous chance-constrained problem for the case when $\mathcal{U}$ is of the form $\left\{\mu:\frac{\mu (y)}{\nu(y)}\leq C, \forall y\in\Theta, \mu(y)\ge 0\right\}$, where $\nu$ is a ``reference distribution.'' We show that in this case the original problem can be ``well-approximated'' by a sampled problem in which $N$ i.i.d. samples of $\theta$ are drawn from $\nu$, and the original constraint is replaced with $g(x,\theta_i)\le 0,~i=1,2,\ldots,N$. We also derive the sample complexity associated with this approximation, i.e., for $\epsilon,\delta>0$ the number of samples which must be drawn from $\nu$ so that with a probability greater than $1-\delta$ (over the randomness of $\nu$), the solution obtained by solving the sampled program yields an $\epsilon$-feasible solution for the original chance constrained problem.
翻訳日:2024-01-03 16:59:19 公開日:2023-12-31
# AllSpark:マルチモーダル時空間一般モデル

AllSpark: a multimodal spatiotemporal general model ( http://arxiv.org/abs/2401.00546v1 )

ライセンス: Link先を確認
Run Shao, Cheng Yang, Qiujun Li, Qing Zhu, Yongjun Zhang, YanSheng Li, Yu Liu, Yong Tang, Dapeng Liu, Shizhong Yang, Jiayi Ma, Haifeng Li(参考訳) 様々な時空間モーダルデータにおける構造と意味の多様性が高いため、多モード時空間データの合同解釈は、長い間、非常に困難な問題であった。 主な課題は、様々なモダリティの凝集と自律性の間のトレードオフを打破することであり、このトレードオフはモダリティの数が増えるにつれて徐々に非線形な性質を示す。 言語・アズ・レファレンス・フレームワーク(LaRF)は多モーダル統一モデルを構築するための基本原理であり、異なるモダリティ間の凝集と自律性のトレードオフを打つことを目的としている。 我々はAllSparkと呼ばれるマルチモーダル時空間汎用人工知能モデルを提案する。 1D(テキスト,コード),2D(RGB,赤外線,SAR,マルチスペクトル,ハイパースペクトル,テーブル,グラフ,軌跡,斜め撮影),3D(ポイントクラウド,ビデオ)モダリティなど,13種類のモダリティを統一されたフレームワークに統合する。 モーダル結合を達成するため、AllSparkは様々なモーダル特徴を言語モーダルに一様にマッピングする。 さらに,マルチモーダルデータを正確に知覚するマルチモーダル大規模言語モデルのためのモーダリティ固有プロンプトの設計を行った。 モダリティの自律性を維持するため、AllSparkは様々な時空間モードのトークンを抽出するモダリティ固有のエンコーダを導入した。 モーダルブリッジは、各モーダルから言語モーダルへの次元投影を実現するために用いられる。 最後に、モデルの解釈と下流タスクのギャップを観察し、特定の下流タスクにおけるモデルの一般化能力を高めるためにタスクヘッドを設計した。 実験により、AllSparkは、最先端モデルと比較して、RGBやトラジェクトリのようなモダリティの競争精度を達成していることが示された。

For a long time, due to the high heterogeneity in structure and semantics among various spatiotemporal modal data, the joint interpretation of multimodal spatiotemporal data has been an extremely challenging problem. The primary challenge resides in striking a trade-off between the cohesion and autonomy of diverse modalities, and this trade-off exhibits a progressively nonlinear nature as the number of modalities expands. We introduce the Language as Reference Framework (LaRF), a fundamental principle for constructing a multimodal unified model, aiming to strike a trade-off between the cohesion and autonomy among different modalities. We propose a multimodal spatiotemporal general artificial intelligence model, called AllSpark. Our model integrates thirteen different modalities into a unified framework, including 1D (text, code), 2D (RGB, infrared, SAR, multispectral, hyperspectral, tables, graphs, trajectory, oblique photography), and 3D (point clouds, videos) modalities. To achieve modal cohesion, AllSpark uniformly maps diverse modal features to the language modality. In addition, we design modality-specific prompts to guide multi-modal large language models in accurately perceiving multimodal data. To maintain modality autonomy, AllSpark introduces modality-specific encoders to extract the tokens of various spatiotemporal modalities. And modal bridge is employed to achieve dimensional projection from each modality to the language modality. Finally, observing a gap between the model's interpretation and downstream tasks, we designed task heads to enhance the model's generalization capability on specific downstream tasks. Experiments indicate that AllSpark achieves competitive accuracy in modalities such as RGB and trajectory compared to state-of-the-art models.
翻訳日:2024-01-03 16:58:39 公開日:2023-12-31
# カテゴリー的・次元的感情予測のためのマルチタスクマルチモーダルアプローチ

A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions ( http://arxiv.org/abs/2401.00536v1 )

ライセンス: Link先を確認
Alex-R\u{a}zvan Ispas, Th\'eo Deschamps-Berger, Laurence Devillers(参考訳) 音声感情認識(ser)は,近年,自発的な会話の文脈において注目を集めている。 自然主義的二進的会話のコーパスであるIEMOCAPのようなデータセットでは、カテゴリー的感情と次元的感情の両方に対して顕著な結果が得られたが、両方のパラダイムを同時に予測しようとする論文は少ない。 そこで本研究では,カテゴリー的および次元的な感情を予測するマルチタスクマルチモーダルシステムを提案することにより,マルチタスク学習のパフォーマンス貢献を強調する。 その結果,2種類の感情の相互規則化の重要性が強調された。 我々のアプローチはマルチタスクマルチモーダルアーキテクチャで構成されており、各モダリティの特徴に対するセルフアテンションを通じて、並列特徴の洗練を利用する。 特徴を融合するために,我々は,音響的特徴と言語的特徴を相互接続の助けを借りて統合する学習可能なブリッジトークンのセットを導入した。 我々の10倍の検証結果に対するカテゴリー感情実験は、現在の最先端技術に匹敵する結果をもたらす。 私たちの構成では、マルチタスクアプローチは、各パラダイムを個別に学習するよりも優れた結果を提供します。 さらに, 従来のマルチタスク実験と比較して, 最良性能モデルでは有価値が高い結果が得られた。

Speech emotion recognition (SER) has received a great deal of attention in recent years in the context of spontaneous conversations. While there have been notable results on datasets like the well known corpus of naturalistic dyadic conversations, IEMOCAP, for both the case of categorical and dimensional emotions, there are few papers which try to predict both paradigms at the same time. Therefore, in this work, we aim to highlight the performance contribution of multi-task learning by proposing a multi-task, multi-modal system that predicts categorical and dimensional emotions. The results emphasise the importance of cross-regularisation between the two types of emotions. Our approach consists of a multi-task, multi-modal architecture that uses parallel feature refinement through self-attention for the feature of each modality. In order to fuse the features, our model introduces a set of learnable bridge tokens that merge the acoustic and linguistic features with the help of cross-attention. Our experiments for categorical emotions on 10-fold validation yield results comparable to the current state-of-the-art. In our configuration, our multi-task approach provides better results compared to learning each paradigm separately. On top of that, our best performing model achieves a high result for valence compared to the previous multi-task experiments.
翻訳日:2024-01-03 16:57:21 公開日:2023-12-31
# 金融時系列予測--ハイブリッド機械学習アプローチにおけるパフォーマンスと解釈可能性の統合に向けて

Financial Time-Series Forecasting: Towards Synergizing Performance And Interpretability Within a Hybrid Machine Learning Approach ( http://arxiv.org/abs/2401.00534v1 )

ライセンス: Link先を確認
Shun Liu, Kexin Wu, Chufeng Jiang, Bin Huang, Danqing Ma(参考訳) 暗号通貨の分野では、ビットコイン価格の予測が金融市場や投資戦略に影響を及ぼす可能性から、かなりの注目を集めている。 本稿では、ハイブリッド機械学習アルゴリズムの比較研究を行い、モデル解釈可能性の向上に活用する。 具体的には、線形回帰(ols, lasso),long-short term memory(lstm), decision tree regressorを導入する。 基礎実験により,線形回帰器が候補モデルの中で最高の性能を達成するのを観察する。 本研究では,時系列予測に現れる潜在関係や複雑なパターンを発掘することを目的とした,分解,自己相関関数,指数三重項予測などの時系列統計の前処理手法を体系的に概観する。 この研究は、より注目を集め、時系列分析とその現実的な応用の領域でより多くの研究を刺激するかもしれない。

In the realm of cryptocurrency, the prediction of Bitcoin prices has garnered substantial attention due to its potential impact on financial markets and investment strategies. This paper propose a comparative study on hybrid machine learning algorithms and leverage on enhancing model interpretability. Specifically, linear regression(OLS, LASSO), long-short term memory(LSTM), decision tree regressors are introduced. Through the grounded experiments, we observe linear regressor achieves the best performance among candidate models. For the interpretability, we carry out a systematic overview on the preprocessing techniques of time-series statistics, including decomposition, auto-correlational function, exponential triple forecasting, which aim to excavate latent relations and complex patterns appeared in the financial time-series forecasting. We believe this work may derive more attention and inspire more researches in the realm of time-series analysis and its realistic applications.
翻訳日:2024-01-03 16:56:45 公開日:2023-12-31
# メタラーニングの必要性:学習プロセスに適したパラメータ化の学習

On the Necessity of Metalearning: Learning Suitable Parameterizations for Learning Processes ( http://arxiv.org/abs/2401.00532v1 )

ライセンス: Link先を確認
Massinissa Hamidi, Aomar Osmani(参考訳) 本稿では、メタラーニングと、現在の古典的学習パラダイムを超越する方法について論じる。 まず、学習プロセスにおける帰納的バイアスの重要性と、何が重要か – 学習に必要なデータの量 – に対処する。 その後、適切に定義された学習プロセスにたどり着くために適切なパラメータ化を選択することの重要性を見極める。 特に実世界の応用の文脈では、センサの特異性、データソースの不均一性、視点の多重性など、多くのバイアスに直面している。 このことは、私たちが以前に発表した学習プロセスの組織化のために、学習すべき概念の構造化を活用するというアイデアにつながります。 パラメータタイリングスキームの観点と、学習したモデルにおける普遍的な側面の出現について論じる。

In this paper we will discuss metalearning and how we can go beyond the current classical learning paradigm. We will first address the importance of inductive biases in the learning process and what is at stake: the quantities of data necessary to learn. We will subsequently see the importance of choosing suitable parameterizations to end up with well-defined learning processes. Especially since in the context of real-world applications, we face numerous biases due, e.g., to the specificities of sensors, the heterogeneity of data sources, the multiplicity of points of view, etc. This will lead us to the idea of exploiting the structuring of the concepts to be learned in order to organize the learning process that we published previously. We conclude by discussing the perspectives around parameter-tying schemes and the emergence of universal aspects in the models thus learned.
翻訳日:2024-01-03 16:56:22 公開日:2023-12-31
# 非エルミート摂動による位相相転移の探索

Probing topological phase transition with non-Hermitian perturbations ( http://arxiv.org/abs/2401.00530v1 )

ライセンス: Link先を確認
Jingcheng Liang and Chen Fang and Jiangping Hu(参考訳) 非エルミート摂動は位相相転移を探究し、非アーベル零モードを曖昧に検出できることを実証する。 慎重に設計された非エルミート摂動の下では、Loschmidt echo(LE) は 1/N に崩壊し、N は位相的非自明な位相における基底状態退化であり、一方、自明な位相では 1 に近づく。 この区別は、非エルミート摂動における小さなパラメータ偏差に対して堅牢である。 さらにマヨラナモードやパラフェルミオンゼロモードをサポートする4つのよく知られたモデルについても検討する。 特定の非エルミート摂動に対するそれらの動的応答を計算することで、定常状態 LE が実際に異なる相を区別できることを証明できる。 この方法は自明な零エネルギー状態によってもたらされる曖昧さを避け、位相的に非自明な位相の出現を示す代替的かつ有望な方法を提供する。 非エルミート摂動の実験的実現について述べる。

We demonstrate that non-Hermitian perturbations can probe topological phase transitions and unambiguously detect non-Abelian zero modes. We show that under carefully designed non-Hermitian perturbations, the Loschmidt echo(LE) decays into 1/N where N is the ground state degeneracy in the topological non-trivial phase, while it approaches 1 in the trivial phase. This distinction is robust against small parameter deviations in the non-Hermitian perturbations. We further study four well-known models that support Majorana or parafermionic zero modes. By calculating their dynamical responses to specific non-Hermitian perturbations, we prove that the steady-state LE can indeed differentiate between different phases. This method avoids the ambiguity introduced by trivial zero-energy states and thus provides an alternative and promising way to demonstrate the emergence of topologically non-trivial phases. The experimental realizations of non-Hermitian perturbations are discussed.
翻訳日:2024-01-03 16:55:22 公開日:2023-12-31
# graphgpt:生成事前学習トランスフォーマによるグラフ学習

GraphGPT: Graph Learning with Generative Pre-trained Transformers ( http://arxiv.org/abs/2401.00529v1 )

ライセンス: Link先を確認
Qifang Zhao, Weidong Ren, Tianyu Li, Xiaoxiao Xu and Hong Liu(参考訳) 自己教師付き生成前学習トランスフォーマーによるグラフ学習の新しいモデルである \textit{graphgpt} を導入する。 本モデルでは,各グラフやサンプリングしたサブグラフを,まずユーレリアパスを用いて,ノード,エッジ,属性を表すトークン列に変換する。 次に、トークンを標準トランスフォーマーデコーダに入力し、Next-token-prediction (NTP)タスクで事前トレーニングする。 最後に、教師付きタスクでGraphGPTモデルを微調整する。 この直感的かつ効果的なモデルは、大規模分子データセットPCQM4Mv2、タンパク質関連データセットogbl-ppa、Open Graph Benchmark(OGB)のogbn-oproteinsデータセットのグラフ、エッジ、ノードレベルのタスクに対する最先端の手法に優れた、あるいは近い結果をもたらす。 さらに、生成事前学習により、GNNや従来のグラフトランスフォーマーの能力を超えるパフォーマンスで、最大4M以上のパラメータをトレーニングすることができる。 ソースコードと事前訓練済みのチェックポイントは近くリリースされる。footnote{\url{https://github.com/alibaba/graph-gpt}} graph foundation model researchへの道を開くとともに、薬学、化学、材料、バイオインフォマティクス分野における科学的発見を支援する。

We introduce \textit{GraphGPT}, a novel model for Graph learning by self-supervised Generative Pre-training Transformers. Our model transforms each graph or sampled subgraph into a sequence of tokens representing the node, edge and attributes reversibly using the Eulerian path first. Then we feed the tokens into a standard transformer decoder and pre-train it with the next-token-prediction (NTP) task. Lastly, we fine-tune the GraphGPT model with the supervised tasks. This intuitive, yet effective model achieves superior or close results to the state-of-the-art methods for the graph-, edge- and node-level tasks on the large scale molecular dataset PCQM4Mv2, the protein-protein association dataset ogbl-ppa and the ogbn-proteins dataset from the Open Graph Benchmark (OGB). Furthermore, the generative pre-training enables us to train GraphGPT up to 400M+ parameters with consistently increasing performance, which is beyond the capability of GNNs and previous graph transformers. The source code and pre-trained checkpoints will be released soon\footnote{\url{https://github.com/alibaba/graph-gpt}} to pave the way for the graph foundation model research, and also to assist the scientific discovery in pharmaceutical, chemistry, material and bio-informatics domains, etc.
翻訳日:2024-01-03 16:54:56 公開日:2023-12-31
# krylovは量子ウォークの複雑さを広げる

Krylov Spread Complexity of Quantum-Walks ( http://arxiv.org/abs/2401.00526v1 )

ライセンス: Link先を確認
Bhilahari Jeevanesan(参考訳) 量子技術の最近の進歩を考えると、量子状態の複雑さは重要な概念である。 Krylovの拡散複雑性の考え方は、これを定量的に捉えることを目的として最近注目されている。 本稿では,グラフ上の連続時間量子ウォークの文脈で探索することにより,クリロフ複雑性尺度について新たな光を当てる。 クリロフ拡散複雑性と量子ウォークの極限分布の概念との密接な関係が確立される。 さらに、グラフ最適化アルゴリズムを用いて、最小かつ最大長時間の平均 krylov $\bar c$-complexity を持つ量子ウォークグラフを構築する。 これはヒルベルト空間次元とちょうど下界の関数として、$\bar C$-複素性に対する経験的上界を明らかにする。

Given the recent advances in quantum technology, the complexity of quantum states is an important notion. The idea of the Krylov spread complexity has come into focus recently with the goal of capturing this in a quantitative way. The present paper sheds new light on the Krylov complexity measure by exploring it in the context of continuous-time quantum-walks on graphs. A close relationship between Krylov spread complexity and the concept of limiting-distributions for quantum-walks is established. Moreover, using a graph optimization algorithm, quantum-walk graphs are constructed that have minimal and maximal long-time average Krylov $\bar C$-complexity. This reveals an empirical upper bound for the $\bar C$-complexity as a function of Hilbert space dimension and an exact lower bound.
翻訳日:2024-01-03 16:54:30 公開日:2023-12-31
# Pack and Measure: ソーシャルネットワークにおける影響伝播の効果的なアプローチ

Pack and Measure: An Effective Approach for Influence Propagation in Social Networks ( http://arxiv.org/abs/2401.00525v1 )

ライセンス: Link先を確認
Faisal N. Abu-Khzam, Ghinwa Bou Matar and Sergio Thoumi(参考訳) 独立カスケードモデル(IC)における影響最大化問題について考察する。 この問題は、最大影響伝播が期待される「シード集合」として機能する最小の頂点集合を求める。 新しいシードセット選択法は、$d$-packingと頂点中心性の概念に基づいて導入された。 特に, 地域コミュニティにおいて, 影響価値が最も高いシードバーティッシュの選択に焦点をあてている。 我々の最良の結果は、$d$-Packingの初期計算によって達成され、その後、それぞれの閉じた地区の高次あるいは高中心性の頂点を選択する。 この総合的な"Pack and Measure"アプローチは、種選択法として非常に効果的である。

The Influence Maximization problem under the Independent Cascade model (IC) is considered. The problem asks for a minimal set of vertices to serve as "seed set" from which a maximum influence propagation is expected. New seed-set selection methods are introduced based on the notions of a $d$-packing and vertex centrality. In particular, we focus on selecting seed-vertices that are far apart and whose influence-values are the highest in their local communities. Our best results are achieved via an initial computation of a $d$-Packing followed by selecting either vertices of high degree or high centrality in their respective closed neighborhoods. This overall "Pack and Measure" approach proves highly effective as a seed selection method.
翻訳日:2024-01-03 16:54:17 公開日:2023-12-31
# 実証学習におけるハイパーネットワークのオプティマイザ,初期化器,アーキテクチャの影響

Effect of Optimizer, Initializer, and Architecture of Hypernetworks on Continual Learning from Demonstration ( http://arxiv.org/abs/2401.00524v1 )

ライセンス: Link先を確認
Sayantan Auddy, Sebastian Bergner, Justus Piater(参考訳) clfd(continual learning from demonstration)では、ロボットは人間のデモから現実世界の動きスキルを継続的に学習する。 近年,ハイパーネットワークがこの問題の解決に成功している。 本稿では,clfd用ハイパーネットワークの連続学習性能に及ぼす最適化器,初期化器,ネットワークアーキテクチャの影響を探索的に検討する。 その結果,適応学習率オプティマイザは良好であるが,ハイパーネットワーク用に特別に設計された初期化器はclfdに何の利点も与えないことがわかった。 また、安定した軌道予測が可能なハイパーネットワークは、異なるネットワークアーキテクチャに対して堅牢であることを示す。 私たちのオープンソースコードはhttps://github.com/sebastianbergner/exploringclfdで利用可能です。

In continual learning from demonstration (CLfD), a robot learns a sequence of real-world motion skills continually from human demonstrations. Recently, hypernetworks have been successful in solving this problem. In this paper, we perform an exploratory study of the effects of different optimizers, initializers, and network architectures on the continual learning performance of hypernetworks for CLfD. Our results show that adaptive learning rate optimizers work well, but initializers specially designed for hypernetworks offer no advantages for CLfD. We also show that hypernetworks that are capable of stable trajectory predictions are robust to different network architectures. Our open-source code is available at https://github.com/sebastianbergner/ExploringCLFD.
翻訳日:2024-01-03 16:54:07 公開日:2023-12-31
# 圧縮深部画像超解像モデル

Compressing Deep Image Super-resolution Models ( http://arxiv.org/abs/2401.00523v1 )

ライセンス: Link先を確認
Yuxuan Jiang, Jakub Nawala, Fan Zhang, and David Bull(参考訳) 画像超解像 (SR) の文脈において深層学習技術が適用され, 再現性能の面で顕著な進歩を遂げている。 既存の手法では、非常に複雑なモデル構造を採用しており、大きなモデルサイズと遅い推論速度をもたらす。 これはしばしば高エネルギー消費につながり、実用用途への採用を制限する。 この問題に対処するために、ディープSRモデルを圧縮するための3段階のワークフローを使用し、メモリ要求を大幅に削減する。 新たに設計した蒸留損失を用いた教師・生徒の知識蒸留によって復元性能が維持されている。 この手法をSwinIRとEDSRという2つの画像超解像ネットワークに適用し,その効果を実証した。 結果、SwinIRminiとEDSRminiはモデルサイズと浮動小数点演算(FLOP)をそれぞれ89%と96%削減した。 また、オリジナルのモデルや一般的なSRアプローチと比較して、競争力のある超解像性能を維持している。 これら2つの軽量SRアプローチのソースコードと事前訓練されたモデルは、https://pikapi22.github.io/CDISM/でリリースされている。

Deep learning techniques have been applied in the context of image super-resolution (SR), achieving remarkable advances in terms of reconstruction performance. Existing techniques typically employ highly complex model structures which result in large model sizes and slow inference speeds. This often leads to high energy consumption and restricts their adoption for practical applications. To address this issue, this work employs a three-stage workflow for compressing deep SR models which significantly reduces their memory requirement. Restoration performance has been maintained through teacher-student knowledge distillation using a newly designed distillation loss. We have applied this approach to two popular image super-resolution networks, SwinIR and EDSR, to demonstrate its effectiveness. The resulting compact models, SwinIRmini and EDSRmini, attain an 89% and 96% reduction in both model size and floating-point operations (FLOPs) respectively, compared to their original versions. They also retain competitive super-resolution performance compared to their original models and other commonly used SR approaches. The source code and pre-trained models for these two lightweight SR approaches are released at https://pikapi22.github.io/CDISM/.
翻訳日:2024-01-03 16:53:55 公開日:2023-12-31
# 置換対称性の除去によるベイズニューラルネットワークのコンパクト表現

A Compact Representation for Bayesian Neural Networks By Removing Permutation Symmetry ( http://arxiv.org/abs/2401.00611v1 )

ライセンス: Link先を確認
Tim Z. Xiao, Weiyang Liu, Robert Bamler(参考訳) ベイズニューラルネットワーク(英: bayesian neural network、bnns)は、ディープラーニングにおける予測の不確実性をモデル化する原則に基づくアプローチである。 BNNの重みに対する正確なベイズ推定は難解であるため、ハミルトン・モンテ・カルロ (HMC) のようなサンプリング手法を金標準と見なす様々な近似推論法が存在する。 HMCは高品質なサンプルを提供するが、そのサンプル平均と分散は置換対称性のためニューラルネットワークでは意味がないため、解釈可能な要約統計を欠いている。 本稿では,まず,置換の役割が複数の転位計量によって意味的に定量化できることを示す。 そこで,最近提案されたRebasin法により,ニューラルネットワークにおける各重みに対する有意な明確な不確実性推定を提供するコンパクトな表現にHMCサンプルをまとめることができることを示す。 このコンパクトな表現により、サンプリング法と変分推定法でトレーニングされたBNNを直接重み空間で比較し、HMCからの不確実性推定を利用して、明示的なベイズフレームワークなしでトレーニングされたニューラルネットワークを効率的にプルーすることを示す。

Bayesian neural networks (BNNs) are a principled approach to modeling predictive uncertainties in deep learning, which are important in safety-critical applications. Since exact Bayesian inference over the weights in a BNN is intractable, various approximate inference methods exist, among which sampling methods such as Hamiltonian Monte Carlo (HMC) are often considered the gold standard. While HMC provides high-quality samples, it lacks interpretable summary statistics because its sample mean and variance is meaningless in neural networks due to permutation symmetry. In this paper, we first show that the role of permutations can be meaningfully quantified by a number of transpositions metric. We then show that the recently proposed rebasin method allows us to summarize HMC samples into a compact representation that provides a meaningful explicit uncertainty estimate for each weight in a neural network, thus unifying sampling methods with variational inference. We show that this compact representation allows us to compare trained BNNs directly in weight space across sampling methods and variational inference, and to efficiently prune neural networks trained without explicit Bayesian frameworks by exploiting uncertainty estimates from HMC.
翻訳日:2024-01-03 16:47:02 公開日:2023-12-31
# ジャマイカにおけるアルゴリズムとコーディングの高校キャンプ

A High School Camp on Algorithms and Coding in Jamaica ( http://arxiv.org/abs/2401.00610v1 )

ライセンス: Link先を確認
Daniel T. Fokum, Zaria Chen Shui, Kerene Wright, Orr Paradise, Gunjan Mansingh, Daniel Coore(参考訳) これはジャマイカの高校生のための4週間のコンピュータサイエンスキャンプであるjamcodersに関するレポートである。 このキャンプは大学レベルのコーディングとアルゴリズムを教え、9年生から11年生(14歳から17歳)を対象にしている。 質的評価は、キャンプが概して成功であったことを示している。 我々は、キャンプの背景と学術的構造を考察し、成功しているキャンプの設計と運営に関する重要な教訓を共有している。 我々は,キャンプ前後に収集したデータを分析し,学生の成績に及ぼす人口差の影響を地図化した。 われわれのアプローチの改善の可能性についての議論を締めくくった。

This is a report on JamCoders, a four-week long computer-science camp for high school students in Jamaica. The camp teaches college-level coding and algorithms, and targets academically excellent students in grades 9--11 (ages 14--17). Qualitative assessment shows that the camp was, in general terms, a success. We reflect on the background and academic structure of the camp and share key takeaways on designing and operating a successful camp. We analyze data collected before, during and after the camp and map the effects of demographic differences on student performance in camp. We conclude with a discussion on possible improvements on our approach.
翻訳日:2024-01-03 16:46:40 公開日:2023-12-31
# 会話エージェントとチャットボットにおけるパーソナリティ、パーソナリティ、プロフィールに関する調査

A Survey of Personality, Persona, and Profile in Conversational Agents and Chatbots ( http://arxiv.org/abs/2401.00609v1 )

ライセンス: Link先を確認
Richard Sutcliffe(参考訳) 本稿では、チャットボットとも呼ばれる神経会話エージェント(CA)の個性についてレビューする。 まず、パーソナリティ、ペルソナ、プロファイルを定義します。 本稿では、CAで使用されているすべてのパーソナリティスキームと、それらが使用するスキームに基づいてモデルのリストを作成する。 次に,最近のcaパーソナリティ研究で開発された21のデータセットについて述べる。 第3に,CAにおけるパーソナリティを具現化する手法を定義し,それを用いた最近のモデルについて検討する。 第4に,CAs,パーソナリティ,関連トピックに関するいくつかの関連レビューを調査する。 最後に、我々は結論を導き、この重要な新興分野の研究課題を特定する。

We present a review of personality in neural conversational agents (CAs), also called chatbots. First, we define Personality, Persona, and Profile. We explain all personality schemes which have been used in CAs, and list models under the scheme(s) which they use. Second we describe 21 datasets which have been developed in recent CA personality research. Third, we define the methods used to embody personality in a CA, and review recent models using them. Fourth, we survey some relevant reviews on CAs, personality, and related topics. Finally, we draw conclusions and identify some research challenges for this important emerging field.
翻訳日:2024-01-03 16:46:31 公開日:2023-12-31
# コンテキストを取り戻す:マルチモーダル知識グラフにおけるリンク予測としてのカメラトラップ種識別

Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2401.00608v1 )

ライセンス: Link先を確認
Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su(参考訳) カメラトラップは生物多様性の監視と保護のために動物生態学において貴重な道具である。 しかし、新しい見えない場所でのデプロイメントへの一般化の欠如のような課題は、実用的応用を制限する。 イメージは、おそらく異なるモダリティで、異種形式のコンテキストと自然に関連づけられる。 本研究では,カメラトラップ画像に付随する構造的コンテキストを利用して,カメラトラップの種識別作業における分布外一般化を改善する。 例えば、野生動物の写真は、いつどこで撮影されたかに関する情報や、動物種に関する構造生物学の知識と関連付けられるかもしれない。 通常、既存の作業では見過ごされるが、そのようなコンテキストを戻すことで、データの不足の解消や一般化の促進など、画像理解を改善する潜在的なメリットがいくつかある。 しかし、このような異種コンテキストを視覚領域に効果的に統合することは難しい問題である。 そこで本研究では,多変量知識グラフ (kg) において種分類をリンク予測として再編成する新しい枠組みを提案する。 このフレームワークは視覚認識のための様々な形態のマルチモーダルコンテキストをシームレスに統合する。 この枠組みをiwildcam2020-wildsとスナップショットマウンテンゼブラデータセットの分散種分類に適用し,最先端手法による競合性能を達成する。 さらに, 生物分類学を取り入れ, 一般化に成功し, 低発現種を識別するサンプル効率を高めた。

Camera traps are valuable tools in animal ecology for biodiversity monitoring and conservation. However, challenges like poor generalization to deployment at new unseen locations limit their practical application. Images are naturally associated with heterogeneous forms of context possibly in different modalities. In this work, we leverage the structured context associated with the camera trap images to improve out-of-distribution generalization for the task of species identification in camera traps. For example, a photo of a wild animal may be associated with information about where and when it was taken, as well as structured biology knowledge about the animal species. While typically overlooked by existing work, bringing back such context offers several potential benefits for better image understanding, such as addressing data scarcity and enhancing generalization. However, effectively integrating such heterogeneous context into the visual domain is a challenging problem. To address this, we propose a novel framework that reformulates species classification as link prediction in a multimodal knowledge graph (KG). This framework seamlessly integrates various forms of multimodal context for visual recognition. We apply this framework for out-of-distribution species classification on the iWildCam2020-WILDS and Snapshot Mountain Zebra datasets and achieve competitive performance with state-of-the-art approaches. Furthermore, our framework successfully incorporates biological taxonomy for improved generalization and enhances sample efficiency for recognizing under-represented species.
翻訳日:2024-01-03 16:46:22 公開日:2023-12-31
# SteinDreamer:Stein Identityによるテキスト・ツー・3Dスコア蒸留の可変化

SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity ( http://arxiv.org/abs/2401.00604v1 )

ライセンス: Link先を確認
Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra(参考訳) スコア蒸留は、テキストから3Dの資産合成において最も一般的なアプローチの1つである。 基本的に、スコア蒸留は3Dパラメーターを異なる視点で平均値を持ち上げることで更新する。 本稿では, スコア蒸留における勾配推定が高分散性に起因することを明らかにした。 分散還元のレンズを通して、SDSとVSDの有効性は、蒸留されたスコアのモンテカルロ推定器に対する様々な制御変数の応用と解釈できる。 この再考に動機付けられ、スタインの同一性に基づいて、スコア蒸留の分散を低減するためのより一般的な解法(Stein Score Distillation (SSD))を提案する。 SSDはスタインIDによって構築された制御変数を取り入れており、任意のベースライン関数が可能である。 これにより、フレキシブルなガイダンスとネットワークアーキテクチャを組み込むことで、分散削減を明示的に最適化できます。 実験では, 全体パイプラインをSteinDreamerと呼び, 制御変数を単分子深度推定器でインスタンス化して実装した。 その結果, SSDは蒸留の分散を効果的に低減し, オブジェクトレベルとシーンレベルの双方の視覚的品質を継続的に向上させることができることがわかった。 さらに,SteinDreamerは,より安定した勾配更新により,既存の手法よりも高速な収束を実現することを示す。

Score distillation has emerged as one of the most prevalent approaches for text-to-3D asset synthesis. Essentially, score distillation updates 3D parameters by lifting and back-propagating scores averaged over different views. In this paper, we reveal that the gradient estimation in score distillation is inherent to high variance. Through the lens of variance reduction, the effectiveness of SDS and VSD can be interpreted as applications of various control variates to the Monte Carlo estimator of the distilled score. Motivated by this rethinking and based on Stein's identity, we propose a more general solution to reduce variance for score distillation, termed Stein Score Distillation (SSD). SSD incorporates control variates constructed by Stein identity, allowing for arbitrary baseline functions. This enables us to include flexible guidance priors and network architectures to explicitly optimize for variance reduction. In our experiments, the overall pipeline, dubbed SteinDreamer, is implemented by instantiating the control variate with a monocular depth estimator. The results suggest that SSD can effectively reduce the distillation variance and consistently improve visual quality for both object- and scene-level generation. Moreover, we demonstrate that SteinDreamer achieves faster convergence than existing methods due to more stable gradient updates.
翻訳日:2024-01-03 16:46:00 公開日:2023-12-31
# NMR相関と交換実験のサブサンプリング

Sub-sampling of NMR Correlation and Exchange Experiments ( http://arxiv.org/abs/2401.00599v1 )

ライセンス: Link先を確認
Julian B. B. Beckmann, Mick D. Mantle, Andrew J. Sederman, Lynn F. Gladden(参考訳) シミュレーションされた$T_1$-$D$NMR信号にサブサンプリングを適用し、インバージョン性能への影響を評価する。 この異なるレベルのサブサンプリングでは、完全なサンプル信号から元のデータポイントの2%未満まで、さまざまなレベルが採用されていた。 これは完全なランダムサンプリング、切断、両方の組み合わせを含む複数のサンプルスキームと組み合わされた。 異なる逆アルゴリズムの性能を比較するために、生成したサブサンプル信号は、Tikhonov正則化、改良された総一般化変動(MTGV)正則化、ディープラーニング、深層学習とTikhonov正則化の組み合わせを用いて反転した。 さらに,選択したコスト関数が相対反転性能に及ぼす影響について検討した。 全体として、ほとんどのケースにおいて、ディープラーニングは、信号が完全あるいは完全サンプリングに近い場合、正規化に基づく反転法よりも明らかに優れていることが示される。 しかし、かなりサブサンプル信号の正則化の場合、Tikhonov よりも明らかに MTGV の方が優れた逆変換性能が得られる。 さらに、完全なランダムサンプリングは、反転法とは無関係に、最善の全体サンプリングスキームとして同定できる。 最後に、コスト関数の選択は、試験されたインバージョンアルゴリズムの相対的なランクに大きく影響し、実験意図に従ってコスト関数を選択することの重要性を強調することも示せる。

Sub-sampling is applied to simulated $T_1$-$D$ NMR signals and its influence on inversion performance is evaluated. For this different levels of sub-sampling were employed ranging from the fully sampled signal down to only less than two percent of the original data points. This was combined with multiple sample schemes including fully random sampling, truncation and a combination of both. To compare the performance of different inversion algorithms, the so-generated sub-sampled signals were inverted using Tikhonov regularization, modified total generalized variation (MTGV) regularization, deep learning and a combination of deep learning and Tikhonov regularization. Further, the influence of the chosen cost function on the relative inversion performance was investigated. Overall, it could be shown that for a vast majority of instances, deep learning clearly outperforms regularization based inversion methods, if the signal is fully or close to fully sampled. However, in the case of significantly sub-sampled signals regularization yields better inversion performance than its deep learning counterpart with MTGV clearly prevailing over Tikhonov. Additionally, fully random sampling could be identified as the best overall sampling scheme independent of the inversion method. Finally, it could also be shown that the choice of cost function does vastly influence the relative rankings of the tested inversion algorithms highlighting the importance of choosing the cost function accordingly to experimental intentions.
翻訳日:2024-01-03 16:45:39 公開日:2023-12-31
# 芸術とは何か? マルチプロンプトLCM評価のためのコール

State of What Art? A Call for Multi-Prompt LLM Evaluation ( http://arxiv.org/abs/2401.00595v1 )

ライセンス: Link先を確認
Moran Mizrahi, Guy Kaplan, Dan Malkin, Rotem Dror, Dafna Shahaf, Gabriel Stanovsky(参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な評価ベンチマークの開発につながっている。 これらのベンチマークは通常、特定のタスクで全てのLSMを評価するための単一の命令テンプレートに依存している。 本稿では,3つのベンチマークから20の異なるLLMと39のタスクを含む6.5Mインスタンスを対象とした単発評価により得られた結果の脆さを包括的に解析する。 解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。 特定のユースケース(例えば、LLM開発者と、特定の下流タスクに関心のある開発者)に対する調整された評価基準について議論し、より信頼性が高く有意義なLLM機能の評価を保証する。 次に、これらの基準を実装し、複数のモデルの評価を行い、現在のLLMの真の強みと限界についての洞察を提供する。

Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs.
翻訳日:2024-01-03 16:45:18 公開日:2023-12-31
# 単純性バイアス、アルゴリズム確率およびランダムロジスティックマップ

Simplicity bias, algorithmic probability, and the random logistic map ( http://arxiv.org/abs/2401.00593v1 )

ライセンス: Link先を確認
Boumediene Hamzi, Kamaludin Dingle(参考訳) 単純さバイアス(Simplicity bias)は、様々な入力出力マップでよく見られる興味深い現象であり、より単純で規則的で対称な出力を好むことが特徴である。 特に、これらの写像は通常、単純なパターンを持つ高確率出力を特徴とするが、複雑なパターンは指数関数的に少ない。 このバイアスは、アルゴリズム情報理論とアルゴリズム確率から導かれた原理により、広く研究され、評価されている。 重要な進歩として、有名なロジスティック写像 $x_{k+1}=\mu x_k(1-x_k)$ が証明され、他の一次元写像は入力出力系として概念化されたときに単純バイアスを示す。 この基礎研究に基づいて、ランダムロジスティックマップ内の単純さバイアスの顕在化について、特に加法雑音を含むシナリオに注目した。 本研究は,時系列の予測と解析に関する包括的理論を定式化するという,総合的な目標によって進められる。 ランダムなロジスティック・マップにおいて、単純さのバイアスは、$\mu$とノイズ・マグニチュードの特定の範囲で観測可能である。 さらに、このバイアスは、小さな測定ノイズを発生しても持続するが、ノイズレベルが増加するにつれて減少する。 また,ノイズによるカオス現象,特に$\mu=3.83$の場合には,複雑性確率プロットによってその特性を明らかにする。 一貫性のある傾向に固執するデータが増えると、時々外挿予測の信頼性が低下し、従来の知恵に挑戦し、動的システムの解析に確率・複雑さの視点を取り入れれば、系列予測に関連する統計的学習理論を著しく強化できると提案する。

Simplicity bias is an intriguing phenomenon prevalent in various input-output maps, characterized by a preference for simpler, more regular, or symmetric outputs. Notably, these maps typically feature high-probability outputs with simple patterns, whereas complex patterns are exponentially less probable. This bias has been extensively examined and attributed to principles derived from algorithmic information theory and algorithmic probability. In a significant advancement, it has been demonstrated that the renowned logistic map $x_{k+1}=\mu x_k(1-x_k)$, and other one-dimensional maps exhibit simplicity bias when conceptualized as input-output systems. Building upon this foundational work, our research delves into the manifestations of simplicity bias within the random logistic map, specifically focusing on scenarios involving additive noise. This investigation is driven by the overarching goal of formulating a comprehensive theory for the prediction and analysis of time series.Our primary contributions are multifaceted. We discover that simplicity bias is observable in the random logistic map for specific ranges of $\mu$ and noise magnitudes. Additionally, we find that this bias persists even with the introduction of small measurement noise, though it diminishes as noise levels increase. Our studies also revisit the phenomenon of noise-induced chaos, particularly when $\mu=3.83$, revealing its characteristics through complexity-probability plots. Intriguingly, we employ the logistic map to underscore a paradoxical aspect of data analysis: more data adhering to a consistent trend can occasionally lead to reduced confidence in extrapolation predictions, challenging conventional wisdom.We propose that adopting a probability-complexity perspective in analyzing dynamical systems could significantly enrich statistical learning theories related to series prediction.
翻訳日:2024-01-03 16:45:04 公開日:2023-12-31
# 大規模言語モデルの実現における公正性

Fairness in Serving Large Language Models ( http://arxiv.org/abs/2401.00588v1 )

ライセンス: Link先を確認
Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang Zhuo, Joseph E. Gonzalez, Ion Stoica(参考訳) オンデマンドのllm推論サービス(chatgptやbardなど)は、短いチャット会話から長いドキュメントの読み込みまで、幅広いリクエストをサポートしている。 すべてのクライアントリクエストが公平に処理されることを保証するため、ほとんどの主要なllm推論サービスはリクエストレート制限を持ち、クライアントがリクエストキューを支配できないようにする。 しかし、この初歩的な公平性の概念は、余分なキャパシティがある場合、リソースの過小評価とクライアントエクスペリエンスの低下をもたらす。 フェアスケジューリングには豊富な文献があるが、LLMは予測不可能な要求長と並列アクセラレータ上での独自のバッチ特性のために、新たな課題を提示している。 本稿では,処理された入力および出力トークンの数を考慮に入れたコスト関数に基づいて,LLMサービスフェアネスの定義を提案する。 サービスにおける公平性を達成するために,連続バッチ機構に基づく公平なスケジューラであるVirtual Token Counter (VTC)を提案する。 2つのバックログ化されたクライアント間のサービス差に2倍の厳しい上限があることを証明します。 様々な条件下での欠点を示す他のベースライン法と対照的に, 公平性を確保するために, VTCの優れた性能を示す。

High-demand LLM inference services (e.g., ChatGPT and BARD) support a wide range of requests from short chat conversations to long document reading. To ensure that all client requests are processed fairly, most major LLM inference services have request rate limits, to ensure that no client can dominate the request queue. However, this rudimentary notion of fairness also results in under-utilization of the resources and poor client experience when there is spare capacity. While there is a rich literature on fair scheduling, serving LLMs presents new challenges due to their unpredictable request lengths and their unique batching characteristics on parallel accelerators. This paper introduces the definition of LLM serving fairness based on a cost function that accounts for the number of input and output tokens processed. To achieve fairness in serving, we propose a novel scheduling algorithm, the Virtual Token Counter (VTC), a fair scheduler based on the continuous batching mechanism. We prove a 2x tight upper bound on the service difference between two backlogged clients, adhering to the requirement of work-conserving. Through extensive experiments, we demonstrate the superior performance of VTC in ensuring fairness, especially in contrast to other baseline methods, which exhibit shortcomings under various conditions.
翻訳日:2024-01-03 16:44:31 公開日:2023-12-31
# 深層学習, 注意機構, エネルギーによる不確かさ予測に基づく脳腫瘍の分節

Brain Tumor Segmentation Based on Deep Learning, Attention Mechanisms, and Energy-Based Uncertainty Prediction ( http://arxiv.org/abs/2401.00587v1 )

ライセンス: Link先を確認
Zachary Schwehr and Sriman Achanta(参考訳) 脳腫瘍は、死亡率が80%を超える最も致命的ながんの1つである。 迅速かつ正確な診断は生存可能性を高めるために重要である。 しかし、医学的な分析では、脳腫瘍の手動アノテーションとセグメンテーションは複雑な作業である可能性がある。 腫瘍領域に関するユニークな情報を提供するため、複数のMRIモダリティが典型的に分析される。 これらのMRIモダリティはグリオーマの分画に有用であるが、オーバーフィッティングや計算量を増加させる傾向にある。 本稿では,データ前処理中に実装された関心領域検出アルゴリズムを提案する。 これにより入力サイズが小さくなり、より積極的なデータ拡張とより深いニューラルネットワークが可能になる。 MRIモダリティの事前処理の後、ソフトアテンションを持つ完全畳み込みオートエンコーダは、異なる脳MRIを分割する。 これらのディープラーニングアルゴリズムが実際に実装されると、アナリストと医師は正確な予測と不正確な予測を区別できない。 その後、ボクセルに基づく不確実性予測には、テスト時間拡張とエネルギーベースモデルが用いられた。 実験はBraTSベンチマークで行われ、最先端のセグメンテーション性能を達成した。 さらに,セグメンテーションモデルと不確実性予測を定性的に評価した。

Brain tumors are one of the deadliest forms of cancer with a mortality rate of over 80%. A quick and accurate diagnosis is crucial to increase the chance of survival. However, in medical analysis, the manual annotation and segmentation of a brain tumor can be a complicated task. Multiple MRI modalities are typically analyzed as they provide unique information regarding the tumor regions. Although these MRI modalities are helpful for segmenting gliomas, they tend to increase overfitting and computation. This paper proposes a region of interest detection algorithm that is implemented during data preprocessing to locate salient features and remove extraneous MRI data. This decreases the input size, allowing for more aggressive data augmentations and deeper neural networks. Following the preprocessing of the MRI modalities, a fully convolutional autoencoder with soft attention segments the different brain MRIs. When these deep learning algorithms are implemented in practice, analysts and physicians cannot differentiate between accurate and inaccurate predictions. Subsequently, test time augmentations and an energy-based model were used for voxel-based uncertainty predictions. Experimentation was conducted on the BraTS benchmarks and achieved state-of-the-art segmentation performance. Additionally, qualitative results were used to assess the segmentation models and uncertainty predictions.
翻訳日:2024-01-03 16:44:11 公開日:2023-12-31
# 微分プライベートリニア学習者に対する客観的摂動のプライバシと実用性の向上

Improving the Privacy and Practicality of Objective Perturbation for Differentially Private Linear Learners ( http://arxiv.org/abs/2401.00583v1 )

ライセンス: Link先を確認
Rachel Redberg, Antti Koskela and Yu-Xiang Wang(参考訳) プライバシー保護機械学習の分野では、個人確率勾配降下(DP-SGD)が人気と関心の客観的摂動メカニズムを上回りつつある。 汎用性はないが、DP-SGDは非自明なプライバシオーバーヘッド(モデルのハイパーパラメータをプライベートにチューニングする)と、線形回帰やロジスティック回帰のような単純なモデルに余計な計算複雑性を必要とする。 本稿では,対象の摂動機構を,より厳密なプライバシー解析と,非拘束凸線形問題に対するdp-sgdとの競合性を高めるための新しい計算ツールによって改良する。

In the arena of privacy-preserving machine learning, differentially private stochastic gradient descent (DP-SGD) has outstripped the objective perturbation mechanism in popularity and interest. Though unrivaled in versatility, DP-SGD requires a non-trivial privacy overhead (for privately tuning the model's hyperparameters) and a computational complexity which might be extravagant for simple models such as linear and logistic regression. This paper revamps the objective perturbation mechanism with tighter privacy analyses and new computational tools that boost it to perform competitively with DP-SGD on unconstrained convex generalized linear problems.
翻訳日:2024-01-03 16:43:57 公開日:2023-12-31
# siameseニューラルネットワークを用いた埋め込み層と類似度スコアの解析

An Analysis of Embedding Layers and Similarity Scores using Siamese Neural Networks ( http://arxiv.org/abs/2401.00582v1 )

ライセンス: Link先を確認
Yash Bingi and Yiqiao Yin(参考訳) 言語理解や記述からアプリケーション開発の支援まで、さまざまなユースケースにおいて、LLM(Large Lanugage Models)が人気を集めています。 LLMの最適函手性にとって最も重要な側面の1つは、層を埋め込むことである。 単語埋め込みは連続ベクトル空間における単語の分散表現である。 llmの文脈では、入力テキストからの単語やトークンはモデル特有の一意なアルゴリズムを用いて高次元ベクトルに変換される。 本稿では,OpenAIやGoogleのPaLM,BERTなど,業界の主要企業の組み込みアルゴリズムについて検討する。 医療データを用いて,各埋め込み層の類似度を解析し,各アルゴリズムの性能差を観察した。 各モデルを強化し、追加のエンコーディング層を提供するため、siameseニューラルネットワークも実装しました。 モデルの追加により性能の変化を観察した後,訓練の時期ごとの炭素映像を測定した。 大規模言語モデル(LLM)に関連する炭素フットプリントは重要な問題であり、様々なユースケースのアルゴリズムを選択する際に考慮すべきである。 全体として, 埋込みアルゴリズムとカーボン映像の精度を比較した結果, 埋込みアルゴリズムの全体的評価が可能となった。

Large Lanugage Models (LLMs) are gaining increasing popularity in a variety of use cases, from language understanding and writing to assistance in application development. One of the most important aspects for optimal funcionality of LLMs is embedding layers. Word embeddings are distributed representations of words in a continuous vector space. In the context of LLMs, words or tokens from the input text are transformed into high-dimensional vectors using unique algorithms specific to the model. Our research examines the embedding algorithms from leading companies in the industry, such as OpenAI, Google's PaLM, and BERT. Using medical data, we have analyzed similarity scores of each embedding layer, observing differences in performance among each algorithm. To enhance each model and provide an additional encoding layer, we also implemented Siamese Neural Networks. After observing changes in performance with the addition of the model, we measured the carbon footage per epoch of training. The carbon footprint associated with large language models (LLMs) is a significant concern, and should be taken into consideration when selecting algorithms for a variety of use cases. Overall, our research compared the accuracy different, leading embedding algorithms and their carbon footage, allowing for a holistic review of each embedding algorithm.
翻訳日:2024-01-03 16:43:44 公開日:2023-12-31
# バイオメディカル言語処理におけるインストラクションチューニングの効果を探る

Exploring the Effectiveness of Instruction Tuning in Biomedical Language Processing ( http://arxiv.org/abs/2401.00579v1 )

ライセンス: Link先を確認
Omid Rohanian, Mohammadmahdi Nouriborji, David A. Clifton(参考訳) 大規模言語モデル(LLM)、特にChatGPTに類似するものは、自然言語処理(NLP)の分野に大きな影響を与えている。 これらのモデルは一般的な言語タスクで優れているが、生物医学的および臨床的な名前付きエンティティ認識(ner)、関係抽出(re)、医学的自然言語推論(nli)といったドメイン固有の下流タスクのパフォーマンスはまだ進化を続けている。 本研究は,バイオメディカル言語処理における指導指導の可能性について検討し,本手法を大規模2つのLLMに適用した。 約200,000ドルの命令中心のサンプルからなるデータセット上でトレーニングされた包括的命令ベースモデルを提案する。 このデータセットは、命令ベースのタスクの特定の要求に合わせて慎重に適応し、修正された既存のデータの注意深くコンパイルされたコンパイルを表します。 このイニシアチブは、biobertやbioclinicalbertのような特殊なエンコーダのみのモデルと同等の結果を様々な古典的生物医学的nlpタスクに利用するための重要なステップである。 我々の研究は、データセットの構成とモデルパフォーマンスへの影響を分析し、命令チューニングの複雑さに関する洞察を提供する。 コード、モデル、および独自に構築された命令ベースのデータセットを共有することで、この分野の継続的な研究と開発を促進することを目指している。

Large Language Models (LLMs), particularly those similar to ChatGPT, have significantly influenced the field of Natural Language Processing (NLP). While these models excel in general language tasks, their performance in domain-specific downstream tasks such as biomedical and clinical Named Entity Recognition (NER), Relation Extraction (RE), and Medical Natural Language Inference (NLI) is still evolving. In this context, our study investigates the potential of instruction tuning for biomedical language processing, applying this technique to two general LLMs of substantial scale. We present a comprehensive, instruction-based model trained on a dataset that consists of approximately $200,000$ instruction-focused samples. This dataset represents a carefully curated compilation of existing data, meticulously adapted and reformatted to align with the specific requirements of our instruction-based tasks. This initiative represents an important step in utilising such models to achieve results on par with specialised encoder-only models like BioBERT and BioClinicalBERT for various classical biomedical NLP tasks. Our work includes an analysis of the dataset's composition and its impact on model performance, providing insights into the intricacies of instruction tuning. By sharing our codes, models, and the distinctively assembled instruction-based dataset, we seek to encourage ongoing research and development in this area.
翻訳日:2024-01-03 16:43:24 公開日:2023-12-31
# ニューラルネットワークによる自己学習--小さなラベル付きおよび大きなラベルなし集合を用いた分類

Neural Networks Against (and For) Self-Training: Classification with Small Labeled and Large Unlabeled Sets ( http://arxiv.org/abs/2401.00575v1 )

ライセンス: Link先を確認
Payam Karisani(参考訳) ニューラルネットワークの正と負の1つの特性を用いた自己学習に基づく半教師付きテキスト分類器を提案する。 自己学習の弱点の1つはセマンティックドリフト問題であり、ノイズの多い擬似ラベルが反復的に蓄積され、結果としてエラー率が上昇する。 この課題に対処するため、擬似ラベルの役割を再構築し、階層的な情報の順序を作る。 さらに、自己学習における重要なステップは、分類器の信頼度予測を使って最良の候補の擬似ラベルを選択することである。 このステップは、ニューラルネットワークによって効率的に行うことはできない。 この課題を克服するために,信頼度測定を代替するハイブリッド指標を提案する。 サブサンプリング手法を用いて予測の不確実性を考慮する。 我々は,このモデルを5つの標準ベンチマークで評価し,10種類のベースラインモデルを大幅に上回っていることを示す。 さらに,本モデルにより達成された改善は,未ラベル文書の使用に広く用いられている言語モデル事前学習に付加的であることを示す。 私たちのコードはhttps://github.com/p-karisani/RSTで利用可能です。

We propose a semi-supervised text classifier based on self-training using one positive and one negative property of neural networks. One of the weaknesses of self-training is the semantic drift problem, where noisy pseudo-labels accumulate over iterations and consequently the error rate soars. In order to tackle this challenge, we reshape the role of pseudo-labels and create a hierarchical order of information. In addition, a crucial step in self-training is to use the classifier confidence prediction to select the best candidate pseudo-labels. This step cannot be efficiently done by neural networks, because it is known that their output is poorly calibrated. To overcome this challenge, we propose a hybrid metric to replace the plain confidence measurement. Our metric takes into account the prediction uncertainty via a subsampling technique. We evaluate our model in a set of five standard benchmarks, and show that it significantly outperforms a set of ten diverse baseline models. Furthermore, we show that the improvement achieved by our model is additive to language model pretraining, which is a widely used technique for using unlabeled documents. Our code is available at https://github.com/p-karisani/RST.
翻訳日:2024-01-03 16:43:01 公開日:2023-12-31
# テキストから3次元生成のためのスコア蒸留におけるタンピングモード崩壊

Taming Mode Collapse in Score Distillation for Text-to-3D Generation ( http://arxiv.org/abs/2401.00909v1 )

ライセンス: Link先を確認
Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra(参考訳) テキストから3d生成におけるスコア蒸留の顕著な性能にもかかわらず、このような技法は「ジャヌス」アーティファクトとして知られるビューの不一貫性の問題に苦しめられ、生成されたオブジェクトは複数の前面でそれぞれのビューを偽装する。 経験的に効果的な手法は、スコアデバイアスやプロンプトエンジニアリングを通じてこの問題にアプローチしてきたが、この問題を説明し対処するためのより厳格な視点はいまだに解明されていない。 本稿では,既存のスコア蒸留方式のテキスト・ツー・3D生成フレームワークが,個々の視点を個別に探す最大確率に縮退し,実際にJanusアーティファクトとして現れるモード崩壊問題に悩まされることを明らかにする。 モード崩壊を抑えるため,エントロピー項を対応する変分目的に再確立することにより,スコアの蒸留を改良し,描画画像の分布に適用する。 エントロピーの最大化は、生成された3Dアセットにおける異なる視点の多様性を促進する。 この新たな目的に基づいて,エントロピースコア蒸留(ESD)と呼ばれる3Dスコア蒸留の新しい更新規則を導出する。 変量点蒸留における分類器不要誘導法を応用すれば,ESDの簡易化と実装が可能であることを理論的に明らかにする。 恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。

Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
翻訳日:2024-01-03 15:23:29 公開日:2023-12-31
# DocLLM:マルチモーダル文書理解のためのレイアウト対応生成言語モデル

DocLLM: A layout-aware generative language model for multimodal document understanding ( http://arxiv.org/abs/2401.00908v1 )

ライセンス: Link先を確認
Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu(参考訳) 形式、請求書、領収書、報告書、契約書などのエンタープライズ文書は、しばしばテキストと空間のモダリティの交点においてリッチな意味論を持つ。 複雑なレイアウトによって提供される視覚的手がかりは、これらの文書を効果的に解釈する上で重要な役割を果たす。 本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMを提案する。 本モデルは,既存のマルチモーダルllmと異なり,高価な画像エンコーダを回避し,空間レイアウト構造を組み込むバウンディングボックス情報のみに焦点をあてる。 具体的には、古典トランスフォーマーの注意機構を不連続行列の集合に分解して、テキストと空間的モダリティの相互関係を捉える。 さらに,テキストセグメントをインフィルすることを学ぶ事前学習目標を考案する。 このアプローチにより、視覚文書で頻繁に発生する不規則なレイアウトや異種コンテンツに対処できる。 事前訓練されたモデルは、4つのコアドキュメントインテリジェンスタスクをカバーする大規模な命令データセットを使用して微調整される。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットをうまく一般化しています。

Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
翻訳日:2024-01-03 15:23:01 公開日:2023-12-31
# LaFFi: 微調整言語モデルのためのハイブリッド自然言語フィードバックの活用

LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models ( http://arxiv.org/abs/2401.00907v1 )

ライセンス: Link先を確認
Qianxi Li, Yingyue Cao, Jikun Kang, Tianpei Yang, Xi Chen, Jun Jin and Matthew E. Taylor(参考訳) 微調整大型言語モデル(LLM)は、訓練されたモデルを特定の下流タスクに適用し、タスク固有のパフォーマンスを大幅に改善する。 Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。 しかし、SFTで訓練されたLSMは単純な誤りを犯し、質問応答のような推論タスクに幻覚をもたらすことがある。 外部からのフィードバックがなければ、特に小さなデータセットを用いて、SFTが質問と望ましい回答の適切なマッピングを学ぶことは困難である。 本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。 LaFFiには、アノテータからのフィードバックを直接予測するLLMがある。 SFT LLMの領域における自然言語フィードバックの適用に期待できる方向を提供するため,そのようなリフレクションを必要とすると,ドメイン内質問応答タスクの精度が大幅に向上することがわかった。 追加のアブレーション研究により、アノテートデータセット内の人間の注釈付きデータの一部が微調整性能に影響を与えることが示されている。

Fine-tuning Large Language Models (LLMs) adapts a trained model to specific downstream tasks, significantly improving task-specific performance. Supervised Fine-Tuning (SFT) is a common approach, where an LLM is trained to produce desired answers. However, LLMs trained with SFT sometimes make simple mistakes and result in hallucinations on reasoning tasks such as question-answering. Without external feedback, it is difficult for SFT to learn a good mapping between the question and the desired answer, especially with a small dataset. This paper introduces an alternative to SFT called Natural Language Feedback for Finetuning LLMs (LaFFi). LaFFi has LLMs directly predict the feedback they will receive from an annotator. We find that requiring such reflection can significantly improve the accuracy in in-domain question-answering tasks, providing a promising direction for the application of natural language feedback in the realm of SFT LLMs. Additional ablation studies show that the portion of human-annotated data in the annotated datasets affects the fine-tuning performance.
翻訳日:2024-01-03 15:22:38 公開日:2023-12-31
# MIMIC-IVデータセットの公平性とベースラインアルゴリズムの評価:静止予測のICU長への適用

Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline Algorithm: Application to the ICU Length of Stay Prediction ( http://arxiv.org/abs/2401.00902v1 )

ライセンス: Link先を確認
Alexandra Kakadiaris(参考訳) 本稿では、MIMIC-IVデータセットを用いて、集中介護単位(ICU)滞在期間(LOS)を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。 この研究は、重篤な患者の管理においてICUが重要な役割を担っていることを強調する。 リソース割り当てに対するlos予測の重要性を強調する。 この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。 XGBoostモデルは全体的によく機能するが、レースと保険属性の相違は、調整されたアセスメントと継続的監視の必要性を反映している。 この論文は、バイアスと医療専門家とデータサイエンティストの協力の必要性を軽減するために、公正を意識した機械学習技術の推奨で締めくくっている。

This paper uses the MIMIC-IV dataset to examine the fairness and bias in an XGBoost binary classification model predicting the Intensive Care Unit (ICU) length of stay (LOS). Highlighting the critical role of the ICU in managing critically ill patients, the study addresses the growing strain on ICU capacity. It emphasizes the significance of LOS prediction for resource allocation. The research reveals class imbalances in the dataset across demographic attributes and employs data preprocessing and feature extraction. While the XGBoost model performs well overall, disparities across race and insurance attributes reflect the need for tailored assessments and continuous monitoring. The paper concludes with recommendations for fairness-aware machine learning techniques for mitigating biases and the need for collaborative efforts among healthcare professionals and data scientists.
翻訳日:2024-01-03 15:22:20 公開日:2023-12-31
# Video-GroundingDINO:オープン語彙の時空間ビデオグラウンド化を目指して

Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2401.00901v1 )

ライセンス: Link先を確認
Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan(参考訳) ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時空間区間をローカライズすることを目的としている。 本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。 限定的なトレーニングデータと事前定義された語彙によって、オープンボキャブラリーシナリオに苦しむ一般的なクローズドセットアプローチとは異なり、本モデルは基礎的な空間的接地モデルから事前学習された表現を活用する。 これにより、自然言語と多様な視覚コンテンツの間のセマンティックギャップを効果的に橋渡しし、クローズドセットとオープンボキャブラリ設定で強力なパフォーマンスを達成することができる。 コントリビューションには、新しい時空間ビデオグラウンドモデル、複数のデータセットに対するクローズドセット評価の最先端結果を上回ること、オープン語彙シナリオにおける優れたパフォーマンスを示すことが含まれる。 提案モデルでは,VidSTG(Declarative and Interrogative)とHC-STVG(V1,V2)データセットのクローズドセット設定において,最先端の手法よりも優れている。 さらに、HC-STVG V1 と YouCook-Interactions のオープン語彙評価では、我々のモデルは最近の最高のパフォーマンスモデルよりも4.26$ m_vIoU と $1.83\% の精度を上回り、多様な言語的および視覚的概念をビデオ理解の改善のために扱えることを示す。 私たちのコードはhttps://github.com/talalwasim/video-groundingdinoでリリースされる。

Video grounding aims to localize a spatio-temporal section in a video corresponding to an input text query. This paper addresses a critical limitation in current video grounding methodologies by introducing an Open-Vocabulary Spatio-Temporal Video Grounding task. Unlike prevalent closed-set approaches that struggle with open-vocabulary scenarios due to limited training data and predefined vocabularies, our model leverages pre-trained representations from foundational spatial grounding models. This empowers it to effectively bridge the semantic gap between natural language and diverse visual content, achieving strong performance in closed-set and open-vocabulary settings. Our contributions include a novel spatio-temporal video grounding model, surpassing state-of-the-art results in closed-set evaluations on multiple datasets and demonstrating superior performance in open-vocabulary scenarios. Notably, the proposed model outperforms state-of-the-art methods in closed-set settings on VidSTG (Declarative and Interrogative) and HC-STVG (V1 and V2) datasets. Furthermore, in open-vocabulary evaluations on HC-STVG V1 and YouCook-Interactions, our model surpasses the recent best-performing models by $4.26$ m_vIoU and $1.83\%$ accuracy, demonstrating its efficacy in handling diverse linguistic and visual concepts for improved video understanding. Our codes will be released at https://github.com/TalalWasim/Video-GroundingDINO.
翻訳日:2024-01-03 15:22:07 公開日:2023-12-31
# 騒音環境下でのクジラのエコーロケーションクリックの有無の検出

Detecting the presence of sperm whales echolocation clicks in noisy environments ( http://arxiv.org/abs/2401.00900v1 )

ライセンス: Link先を確認
Guy Gubnitsky and Roee Diamant(参考訳) クジラ(Physeter macrocephalus)は、エコーロケーションクリックとして知られる一連の衝動的でクリックのような音で水中を航行する。 これらのクリックは、特徴的なパターンとして機能するマルチパルス構造(MPS)によって特徴づけられる。 本研究では,mpsの安定性を,雑音環境におけるクリックの存在を認識・分類するための検出指標として用いる。 ノイズトランジェントを識別し、複数のクジラからの同時放出を処理するために、我々のアプローチは、クリック間隔、時間、スペクトルの制限を満たさない潜在的なクリックを除去しながら、一連のMPS測定をクラスタ化する。 その結果,高ノイズの過渡と低信号対雑音比の処理が可能となった。 本研究は,地中海から7ヶ月の録音を手動で確認した環境騒音を含むデータ,ドミニカ島から収集した数日間のラベル付きデータを複数のクジラから約4万回のクリックを含むデータ,バハマ諸島からのラベル付き1,203回のクリックを含むデータを用いて調査した。 2つのベンチマーク検出器の結果と比較すると、精度とリコールのトレードオフが向上し、特にノイズの多い環境では誤検出率の大幅な低下が観察された。 再現性を確保するため,実装コードとともにラベル付きクリックのデータベースを提供する。

Sperm whales (Physeter macrocephalus) navigate underwater with a series of impulsive, click-like sounds known as echolocation clicks. These clicks are characterized by a multipulse structure (MPS) that serves as a distinctive pattern. In this work, we use the stability of the MPS as a detection metric for recognizing and classifying the presence of clicks in noisy environments. To distinguish between noise transients and to handle simultaneous emissions from multiple sperm whales, our approach clusters a time series of MPS measures while removing potential clicks that do not fulfil the limits of inter-click interval, duration and spectrum. As a result, our approach can handle high noise transients and low signal-to-noise ratio. The performance of our detection approach is examined using three datasets: seven months of recordings from the Mediterranean Sea containing manually verified ambient noise; several days of manually labelled data collected from the Dominica Island containing approximately 40,000 clicks from multiple sperm whales; and a dataset from the Bahamas containing 1,203 labelled clicks from a single sperm whale. Comparing with the results of two benchmark detectors, a better trade-off between precision and recall is observed as well as a significant reduction in false detection rates, especially in noisy environments. To ensure reproducibility, we provide our database of labelled clicks along with our implementation code.
翻訳日:2024-01-03 15:21:34 公開日:2023-12-31
# 視覚とそれを超える自己教師型表現学習のためのマスケッドモデリング

Masked Modeling for Self-supervised Representation Learning on Vision and Beyond ( http://arxiv.org/abs/2401.00897v1 )

ライセンス: Link先を確認
Siyuan Li, Luyuan Zhang, Zedong Wang, Di Wu, Lirong Wu, Zicheng Liu, Jun Xia, Cheng Tan, Yang Liu, Baigui Sun, Stan Z. Li(参考訳) ディープラーニング革命が進むにつれ、自己教師あり学習は目覚ましい表現学習能力とラベル付きデータへの依存度によって近年注目を集めている。 これらの様々な自己監督手法の中で、トレーニング中に比例的にマスキングされる元のデータの一部を予測する固有のアプローチとしてマスク付きモデリングが登場している。 このパラダイムは、ディープモデルによる堅牢な表現の学習を可能にし、コンピュータビジョン、自然言語処理、その他のモダリティの文脈で例外的なパフォーマンスを示した。 本稿では,マスキングモデリングフレームワークとその方法論の包括的レビューを行う。 マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。 そこで本研究では,ドメイン間の広範適用を体系的に検討する。 さらに,異なる分野におけるマスクモデリング手法の共通性と相違についても検討する。 本稿では,本稿の終わりに向けて,現在の手法の限界を議論し,マスキングモデリング研究の進展に向けたいくつかの道筋を指摘する。 この調査によるペーパーリストプロジェクトは、 \url{https://github.com/lupin1998/awesome-mim} で見ることができる。

As the deep learning revolution marches on, self-supervised learning has garnered increasing attention in recent years thanks to its remarkable representation learning ability and the low dependence on labeled data. Among these varied self-supervised techniques, masked modeling has emerged as a distinctive approach that involves predicting parts of the original data that are proportionally masked during training. This paradigm enables deep models to learn robust representations and has demonstrated exceptional performance in the context of computer vision, natural language processing, and other modalities. In this survey, we present a comprehensive review of the masked modeling framework and its methodology. We elaborate on the details of techniques within masked modeling, including diverse masking strategies, recovering targets, network architectures, and more. Then, we systematically investigate its wide-ranging applications across domains. Furthermore, we also explore the commonalities and differences between masked modeling methods in different fields. Toward the end of this paper, we conclude by discussing the limitations of current techniques and point out several potential avenues for advancing masked modeling research. A paper list project with this survey is available at \url{https://github.com/Lupin1998/Awesome-MIM}.
翻訳日:2024-01-03 15:21:11 公開日:2023-12-31
# TrailBlazer:拡散映像生成のための軌道制御

TrailBlazer: Trajectory Control for Diffusion-Based Video Generation ( http://arxiv.org/abs/2401.00896v1 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, J.P. Lewis, W. Bastiaan Kleijn(参考訳) 最近のtext-to-video(t2v)生成のアプローチでは、合成ビデオの制御性を達成することがしばしば課題となる。 通常、この問題はエッジマップ、深度マップ、あるいは変更すべき既存のビデオという形で、低レベルのフレーム単位のガイダンスを提供することによって解決される。 しかし、そのような指導を得るプロセスは労働集約的である。 本稿では,ニューラルネットワークのトレーニングや微調整,推定時間における最適化,あるいは既存のビデオの使用を必要とせず,映像合成における制御性の向上に重点を置く。 我々のアルゴリズムであるTraceBlazerは、事前訓練された(T2V)モデルに基づいて構築されており、実装が容易である。 提案する空間的および時間的注意マップ編集により、被験者は境界ボックスによって指示される。 さらに,キーフレーミングの概念を導入し,移動境界ボックスと対応するプロンプトの両方で対象の軌跡や外観をガイドできるようにし,詳細なマスクを提供する必要がなくなる。 この方法は効率的であり、基礎となる事前訓練されたモデルに対する追加計算は無視できる。 バウンディングボックスガイダンスの単純さにもかかわらず、結果として得られる動きは驚くほど自然であり、ボックスサイズが大きくなるにつれて、視野や仮想カメラへの動きなど、創発的な効果がある。

Within recent approaches to text-to-video (T2V) generation, achieving controllability in the synthesized video is often a challenge. Typically, this issue is addressed by providing low-level per-frame guidance in the form of edge maps, depth maps, or an existing video to be altered. However, the process of obtaining such guidance can be labor-intensive. This paper focuses on enhancing controllability in video synthesis by employing straightforward bounding boxes to guide the subject in various ways, all without the need for neural network training, finetuning, optimization at inference time, or the use of pre-existing videos. Our algorithm, TrailBlazer, is constructed upon a pre-trained (T2V) model, and easy to implement. The subject is directed by a bounding box through the proposed spatial and temporal attention map editing. Moreover, we introduce the concept of keyframing, allowing the subject trajectory and overall appearance to be guided by both a moving bounding box and corresponding prompts, without the need to provide a detailed mask. The method is efficient, with negligible additional computation relative to the underlying pre-trained model. Despite the simplicity of the bounding box guidance, the resulting motion is surprisingly natural, with emergent effects including perspective and movement toward the virtual camera as the box size increases.
翻訳日:2024-01-03 15:20:52 公開日:2023-12-31
# クロスモーダル浸透によるバランス付きマルチモーダルフェデレーション学習

Balanced Multi-modal Federated Learning via Cross-Modal Infiltration ( http://arxiv.org/abs/2401.00894v1 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Jiaqi Zhu, and Song Guo(参考訳) フェデレートラーニング(FL)は、クライアントの生データを公開せずにニューラルネットワークを協調的にトレーニングすることで、プライバシ保護分散コンピューティングの進歩を支えている。 現在のflパラダイムは、主にユニモーダルデータに焦点を当てているが、分散マルチモーダルデータからの知識の活用は、ほとんど未解決である。 Existing multimodal FL (MFL) solutions are mainly designed for statistical or modality heterogeneity from the input side, however, have yet to solve the fundamental issue,"modality imbalance", in distributed conditions, which can lead to inadequate information exploitation and heterogeneous knowledge aggregation on different modalities.In this paper, we propose a novel Cross-Modal Infiltration Federated Learning (FedCMI) framework that effectively alleviates modality imbalance and knowledge heterogeneity via knowledge transfer from the global dominant modality. 支配モダリティの振舞いを単に模倣することによる弱モダリティの情報損失を回避するため,弱モダリティの局所的特徴利用を推進しつつ,支配モダリティからの知識を統合するための2プロジェクタモジュールを設計する。 さらに,各クラスにまたがる公正な性能を実現するため,クラスワイド温度適応方式を提案する。 一般的なデータセットに関する広範な実験を行い、mflの各モダリティの情報を完全に探究するための提案フレームワークの満足度を確認した。

Federated learning (FL) underpins advancements in privacy-preserving distributed computing by collaboratively training neural networks without exposing clients' raw data. Current FL paradigms primarily focus on uni-modal data, while exploiting the knowledge from distributed multimodal data remains largely unexplored. Existing multimodal FL (MFL) solutions are mainly designed for statistical or modality heterogeneity from the input side, however, have yet to solve the fundamental issue,"modality imbalance", in distributed conditions, which can lead to inadequate information exploitation and heterogeneous knowledge aggregation on different modalities.In this paper, we propose a novel Cross-Modal Infiltration Federated Learning (FedCMI) framework that effectively alleviates modality imbalance and knowledge heterogeneity via knowledge transfer from the global dominant modality. To avoid the loss of information in the weak modality due to merely imitating the behavior of dominant modality, we design the two-projector module to integrate the knowledge from dominant modality while still promoting the local feature exploitation of weak modality. In addition, we introduce a class-wise temperature adaptation scheme to achieve fair performance across different classes. Extensive experiments over popular datasets are conducted and give us a gratifying confirmation of the proposed framework for fully exploring the information of each modality in MFL.
翻訳日:2024-01-03 15:20:33 公開日:2023-12-31
# ソーシャルLLM:言語モデルとソーシャルネットワークデータを用いた大規模ユーザ行動モデリング

Social-LLM: Modeling User Behavior at Scale using Language Models and Social Network Data ( http://arxiv.org/abs/2401.00893v1 )

ライセンス: Link先を確認
Julie Jiang, Emilio Ferrara(参考訳) ソーシャルネットワークデータの拡散は、人間の行動に関する広範なデータ駆動の探索において、前例のない機会を解放した。 ソーシャルネットワークの構造的複雑さは、様々な計算社会科学問題、特に社会的影響と情報拡散に関する洞察を提供する。 しかし、大規模なソーシャルネットワークデータのモデリングには計算上の課題が伴う。 大規模言語モデルは、テキストコンテンツのモデル化をこれまで以上に容易にするが、高度なネットワーク表現手法は、拡張性と非サンプルユーザへの効率的なデプロイに苦労する。 そこで本研究では,ユーザ検出タスクにおけるソーシャルネットワークデータのモデリングに適した新しいアプローチを提案する。 この革新的な手法は、大規模言語モデルの能力と局所的なソーシャルネットワークの相互作用を統合する。 ソーシャルネットワークのhomophily(ホモフィリー)という前提の下で運用されており、ソーシャルに繋がったユーザーが類似点を共有していると仮定している。 我々は,7つの実世界のソーシャル・ネットワーク・データセットにまたがる手法を徹底的に評価し,様々なトピックや検出タスクを網羅し,計算社会科学研究の先進性を示す。

The proliferation of social network data has unlocked unprecedented opportunities for extensive, data-driven exploration of human behavior. The structural intricacies of social networks offer insights into various computational social science issues, particularly concerning social influence and information diffusion. However, modeling large-scale social network data comes with computational challenges. Though large language models make it easier than ever to model textual content, any advanced network representation methods struggle with scalability and efficient deployment to out-of-sample users. In response, we introduce a novel approach tailored for modeling social network data in user detection tasks. This innovative method integrates localized social network interactions with the capabilities of large language models. Operating under the premise of social network homophily, which posits that socially connected users share similarities, our approach is designed to address these challenges. We conduct a thorough evaluation of our method across seven real-world social network datasets, spanning a diverse range of topics and detection tasks, showcasing its applicability to advance research in computational social science.
翻訳日:2024-01-03 15:20:12 公開日:2023-12-31
# WoodScape Motion Segmentation for autonomous Driving -- CVPR 2023 OmniCV Workshop Challenge

WoodScape Motion Segmentation for Autonomous Driving -- CVPR 2023 OmniCV Workshop Challenge ( http://arxiv.org/abs/2401.00910v1 )

ライセンス: Link先を確認
Saravanabalagi Ramachandran and Nathaniel Cibik and Ganesh Sistu and John McDonald(参考訳) 運動セグメンテーションは、自律運転において複雑だが不可欠である。 カメラのエゴモーション、魚眼レンズの放射歪み、時間的一貫性の必要性によって、タスクはより複雑になり、従来の畳み込みニューラルネットワーク(CNN)のアプローチはより効果的になる。 面倒なデータラベリング、多様で珍しいシナリオの表現、広範囲なデータキャプチャ要件は、機械学習モデルのパフォーマンスを改善するために合成データが必要となる。 この目的のために,parallel domainが開発したpd-woodscape合成データセットとwoodscape fisheyeデータセットを併用した。 そこで,本研究では, CVPR 2023 Workshop on Omnidirectional Computer Vision (OmniCV) の一環として, 自律走行のためのWoodScape fisheye運動セグメンテーションチャレンジを行う。 魚眼運動分節に着目した最初のコンペティションの1つとして,本領域における合成データ活用の可能性と影響を探求し,評価することを目的とする。 本稿では,グローバルチーム112チームが参加し,合計234人が応募したコンペについて,詳細な分析を行った。 本研究は,移動セグメンテーションの課題に内在する複雑さを詳述し,魚眼データセットの重要性を強調し,合成データセットの必要性と,それらが生み出すドメインギャップを明確にし,ソリューション開発の基礎的青写真の概要を述べる。 その後,基礎実験の詳細と,その質的,定量的な結果を評価する方法について検討し,有用な知見を得た。

Motion segmentation is a complex yet indispensable task in autonomous driving. The challenges introduced by the ego-motion of the cameras, radial distortion in fisheye lenses, and the need for temporal consistency make the task more complicated, rendering traditional and standard Convolutional Neural Network (CNN) approaches less effective. The consequent laborious data labeling, representation of diverse and uncommon scenarios, and extensive data capture requirements underscore the imperative of synthetic data for improving machine learning model performance. To this end, we employ the PD-WoodScape synthetic dataset developed by Parallel Domain, alongside the WoodScape fisheye dataset. Thus, we present the WoodScape fisheye motion segmentation challenge for autonomous driving, held as part of the CVPR 2023 Workshop on Omnidirectional Computer Vision (OmniCV). As one of the first competitions focused on fisheye motion segmentation, we aim to explore and evaluate the potential and impact of utilizing synthetic data in this domain. In this paper, we provide a detailed analysis on the competition which attracted the participation of 112 global teams and a total of 234 submissions. This study delineates the complexities inherent in the task of motion segmentation, emphasizes the significance of fisheye datasets, articulate the necessity for synthetic datasets and the resultant domain gap they engender, outlining the foundational blueprint for devising successful solutions. Subsequently, we delve into the details of the baseline experiments and winning methods evaluating their qualitative and quantitative results, providing with useful insights.
翻訳日:2024-01-03 15:07:52 公開日:2023-12-31
# 行動分析のための超動物前訓練ポーズ推定モデル

SuperAnimal pretrained pose estimation models for behavioral analysis ( http://arxiv.org/abs/2203.07436v4 )

ライセンス: Link先を確認
Shaokai Ye and Anastasiia Filippova and Jessy Lauer and Steffen Schneider and Maxime Vidal and Tian Qiu and Alexander Mathis and Mackenzie Weygandt Mathis(参考訳) 行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。 行動分析の一般的なステップは、まず、ポーズ推定として知られる動物の重要な点を抽出することである。 しかし、現在、ポーズの信頼できる推論には、教師付きモデルを構築するためにドメイン知識と手作業によるラベル付けが必要である。 我々は,新たにスーパーアニマル(SuperAnimal)と呼ばれる技術革新を行い,45種以上で使用可能な統一基盤モデルを,追加の人間ラベルなしで開発する。 具体的には、(一般化データ変換器を介して)異なるラベル付きデータセット間でキーポイント空間を統一する手法を導入し、(キーポイント勾配マスキングとメモリ再生アプローチを介して)不均衡な入力からキーポイントを破滅的に忘れないように、これらの多様なデータセットをトレーニングする。 これらのモデルは6つのポーズベンチマークで優れたパフォーマンスを示している。 そして,エンドユーザーにとって最大のユーザビリティを確保するために,異なるラベル付きデータに基づいてモデルを微調整する方法を実証し,教師なしビデオ適応による性能向上とフレーム間のジッタ低減のためのツールを提供する。 モデルが微調整された場合、SuperAnimalモデルは、従来のトランスファーラーニングベースのアプローチよりも10-100$\times$データ効率が高いことを示す。 本稿では,マウスの行動分類と馬の歩行解析におけるモデルの有用性について述べる。 総じて,動物のポーズ推定のためのデータ効率の高いソリューションを提案する。

Quantification of behavior is critical in applications ranging from neuroscience, veterinary medicine and animal conservation efforts. A common key step for behavioral analysis is first extracting relevant keypoints on animals, known as pose estimation. However, reliable inference of poses currently requires domain knowledge and manual labeling effort to build supervised models. We present a series of technical innovations that enable a new method, collectively called SuperAnimal, to develop unified foundation models that can be used on over 45 species, without additional human labels. Concretely, we introduce a method to unify the keypoint space across differently labeled datasets (via our generalized data converter) and for training these diverse datasets in a manner such that they don't catastrophically forget keypoints given the unbalanced inputs (via our keypoint gradient masking and memory replay approaches). These models show excellent performance across six pose benchmarks. Then, to ensure maximal usability for end-users, we demonstrate how to fine-tune the models on differently labeled data and provide tooling for unsupervised video adaptation to boost performance and decrease jitter across frames. If the models are fine-tuned, we show SuperAnimal models are 10-100$\times$ more data efficient than prior transfer-learning-based approaches. We illustrate the utility of our models in behavioral classification in mice and gait analysis in horses. Collectively, this presents a data-efficient solution for animal pose estimation.
翻訳日:2024-01-03 03:34:30 公開日:2023-12-31
# consci\^encia e mec\^anica qu\^antica: uma abordagem filos\'ofica

Consci\^encia e mec\^anica qu\^antica: uma abordagem filos\'ofica ( http://arxiv.org/abs/2201.09663v6 )

ライセンス: Link先を確認
Raoni Arroyo(参考訳) 本書は、標準的な非相対論的量子力学のオントロジー的含意と、測定問題の解決に「意識」の概念を用いることを扱っている。

This book deals with some ontological implications of standard non-relativistic quantum mechanics, and the use of the notion of `consciousness' to solve the measurement problem.
翻訳日:2024-01-03 03:33:08 公開日:2023-12-31
# 数学者のためのデータ倫理に関する非専門家の紹介

A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v2 )

ライセンス: Link先を確認
Mason A. Porter(参考訳) データ倫理について簡単に紹介します。 データ倫理に関する背景情報と社会的文脈から始めます。 次に,数理科学教育におけるデータ倫理について論じ,利用可能な教材を示す。 私は、データ倫理、社会、社会的善に関するいくつかの取り組みを、私の自宅や他の施設で簡単に強調します。 次に、研究におけるオープンデータ、研究の再現性、研究における他の倫理的な問題、プライバシーとオープンデータとコードの間の緊張、そしていくつかの議論を呼ぶ研究と研究に対する反応について論じます。 次に、倫理原則、制度審査委員会、および人間のデータの科学的利用に関するいくつかの考察について論じる。 最後に、データの倫理とデータのプライバシーに関する様々な研究や記事を簡単に調査します。 私は要約して締めくくる。 私の関心は数学者ですが、この章が他の人にとっても役に立つことを願っています。 私はデータ倫理の専門家ではありません。 私は、データ倫理、数学教育におけるその役割、データとデータ分析の社会的な意味について、私が議論するリソースを調べ、慎重に振り返ることをお勧めします。 データと技術が進化し続けるにつれ、このような慎重な省察が生涯にわたって続くことを願っています。

I give a short introduction to data ethics. I begin with some background information and societal context for data ethics. I then discuss data ethics in mathematical-science education and indicate some available course material. I briefly highlight a few efforts -- at my home institution and elsewhere -- on data ethics, society, and social good. I then discuss open data in research, research replicability and some other ethical issues in research, and the tension between privacy and open data and code, and a few controversial studies and reactions to studies. I then discuss ethical principles, institutional review boards, and a few other considerations in the scientific use of human data. Finally, I briefly survey a variety of research and lay articles that are relevant to data ethics and data privacy. I conclude with a brief summary. My focal audience is mathematicians, but I hope that this chapter will also be useful to others. I am not an expert about data ethics, and this chapter provides only a starting point on this wide-ranging topic. I encourage you to examine the resources that I discuss and to reflect carefully on data ethics, its role in mathematics education, and the societal implications of data and data analysis. As data and technology continue to evolve, I hope that such careful reflection will continue throughout your life.
翻訳日:2024-01-03 03:33:02 公開日:2023-12-31
# 群同変非拡大作用素の空間の幾何学的およびリーマン的構造について

On the geometric and Riemannian structure of the spaces of group equivariant non-expansive operators ( http://arxiv.org/abs/2103.02543v2 )

ライセンス: Link先を確認
Pasquale Cascarano, Patrizio Frosini, Nicola Quercioli and Amir Saki(参考訳) 群同変非拡張作用素は、最近トポロジカルデータ解析とディープラーニングの基本的な構成要素として提案されている。 本稿では、群同変作用素の空間の幾何的性質について検討し、群同変非拡大作用素の空間$\mathcal{F}$がリーマン多様体の構造によってどのように与えられるかを示すので、$\mathcal{F}$上のコスト関数の最小化に勾配降下法が利用できる。 このアプローチの応用として、検討多様体内の代表群同変非拡大作用素の有限集合を選択する手順も記述する。

Group equivariant non-expansive operators have been recently proposed as basic components in topological data analysis and deep learning. In this paper we study some geometric properties of the spaces of group equivariant operators and show how a space $\mathcal{F}$ of group equivariant non-expansive operators can be endowed with the structure of a Riemannian manifold, so making available the use of gradient descent methods for the minimization of cost functions on $\mathcal{F}$. As an application of this approach, we also describe a procedure to select a finite set of representative group equivariant non-expansive operators in the considered manifold.
翻訳日:2024-01-03 03:30:31 公開日:2023-12-31
# 高速ビデオサルエント物体検出のためのモーションアウェアメモリネットワーク

Motion-aware Memory Network for Fast Video Salient Object Detection ( http://arxiv.org/abs/2208.00946v2 )

ライセンス: Link先を確認
Xing Zhao, Haoran Liang, Peipei Li, Guodao Sun, Dongdong Zhao, Ronghua Liang and Xiaofei He(参考訳) 従来の3DCNN, convLSTM, あるいは光流を用いた手法は, ビデオサルエント物体検出(VSOD)において大きな成功を収めている。 しかし、それでも高い計算コストや、生成されたサリエンシマップの品質に悩まされている。 これらの問題を解決するために,vodの時間分枝として,隣接フレームから現在フレームの有用な時間情報を抽出する時空間メモリ(stm)ベースのネットワークを設計する。 さらに,従来の手法は時間的関連のない単一フレーム予測のみを考慮した。 結果として、モデルは時間的情報に十分に集中できない。 そこで本研究ではまず,フレーム間移動予測をvsodに導入する。 我々のモデルは標準エンコーダ-デコーダアーキテクチャに従う。 符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。 このアプローチは光フローベースの手法よりも効率的である。 復号段階では,空間分枝と時間分枝の効果的な融合戦略を提案する。 ハイレベルな特徴のセマンティック情報は、低レベルな特徴にオブジェクトの詳細を融合するために使用され、時空的特徴を段階的に取得してサリエンシーマップを再構築する。 さらに,イメージ・サリエント・オブジェクト検出(ISOD)に共通する境界監督に着想を得て,物体の境界運動を予測するための動き認識損失を設計し,VSODのマルチタスク学習とオブジェクトの動作予測を同時に行うことにより,時空間の特徴を正確に抽出し,オブジェクトの整合性を維持することができる。 いくつかのデータセットに対する大規模な実験により,提案手法の有効性が実証され,いくつかのデータセット上で最先端のメトリクスを達成できた。 提案するモデルでは,光学フローなどの前処理を必要とせず,100FPSの速度に達することができる。

Previous methods based on 3DCNN, convLSTM, or optical flow have achieved great success in video salient object detection (VSOD). However, they still suffer from high computational costs or poor quality of the generated saliency maps. To solve these problems, we design a space-time memory (STM)-based network, which extracts useful temporal information of the current frame from adjacent frames as the temporal branch of VSOD. Furthermore, previous methods only considered single-frame prediction without temporal association. As a result, the model may not focus on the temporal information sufficiently. Thus, we initially introduce object motion prediction between inter-frame into VSOD. Our model follows standard encoder--decoder architecture. In the encoding stage, we generate high-level temporal features by using high-level features from the current and its adjacent frames. This approach is more efficient than the optical flow-based methods. In the decoding stage, we propose an effective fusion strategy for spatial and temporal branches. The semantic information of the high-level features is used to fuse the object details in the low-level features, and then the spatiotemporal features are obtained step by step to reconstruct the saliency maps. Moreover, inspired by the boundary supervision commonly used in image salient object detection (ISOD), we design a motion-aware loss for predicting object boundary motion and simultaneously perform multitask learning for VSOD and object motion prediction, which can further facilitate the model to extract spatiotemporal features accurately and maintain the object integrity. Extensive experiments on several datasets demonstrated the effectiveness of our method and can achieve state-of-the-art metrics on some datasets. The proposed model does not require optical flow or other preprocessing, and can reach a speed of nearly 100 FPS during inference.
翻訳日:2024-01-03 03:21:28 公開日:2023-12-31
# 核ヒルベルト空間の再生におけるアンサンブル予測

Ensemble forecasts in reproducing kernel Hilbert space family ( http://arxiv.org/abs/2207.14653v4 )

ライセンス: Link先を確認
Benjamin Duf\'ee, B\'erenger Hug, Etienne M\'emin and Gilles Tissot(参考訳) 海洋流や大気流などの高次元力学系のアンサンブルに基づく推定とシミュレーションのための方法論的枠組みを提案する。 そのために、力学系は、力学によって駆動されるカーネル関数を持つ再生カーネルヒルベルト空間(RKHS)の族に埋め込まれる。 RKHS族では、クープマン作用素とペロン・フロベニウス作用素はユニタリかつ一様連続である。 この性質は、無限小生成子から定義される対角化可能な有界進化作用素の指数級数で表現できる。 Lyapunov指数へのアクセスや、接線力学の正確なアンサンブルに基づく表現も直接利用可能である。 rkhsファミリーは、軌道サンプルの一定時間線形結合の観点から軌道再構成のための驚くほど単純なアンサンブルデータ同化手法を考案する。 このような恥ずかしい単純な戦略は、いくつかの基本的な定理から生じる完全に正当化された重ね合わせ原理によって実現される。

A methodological framework for ensemble-based estimation and simulation of high dimensional dynamical systems such as the oceanic or atmospheric flows is proposed. To that end, the dynamical system is embedded in a family of reproducing kernel Hilbert spaces (RKHS) with kernel functions driven by the dynamics. In the RKHS family, the Koopman and Perron-Frobenius operators are unitary and uniformly continuous. This property warrants they can be expressed in exponential series of diagonalizable bounded evolution operators defined from their infinitesimal generators. Access to Lyapunov exponents and to exact ensemble based expressions of the tangent linear dynamics are directly available as well. The RKHS family enables us the devise of strikingly simple ensemble data assimilation methods for trajectory reconstructions in terms of constant-in-time linear combinations of trajectory samples. Such an embarrassingly simple strategy is made possible through a fully justified superposition principle ensuing from several fundamental theorems.
翻訳日:2024-01-03 03:21:01 公開日:2023-12-31
# 決定依存分布をもつ確率近似:漸近正規性と最適性

Stochastic Approximation with Decision-Dependent Distributions: Asymptotic Normality and Optimality ( http://arxiv.org/abs/2207.04173v2 )

ライセンス: Link先を確認
Joshua Cutler, Mateo D\'iaz, Dmitriy Drusvyatskiy(参考訳) 決定依存問題に対する確率近似アルゴリズムを解析し,アルゴリズムが使用するデータ分布は反復列に沿って進化する。 このような問題の主な例は、性能予測とそのマルチプレイヤー拡張である。 穏やかな仮定の下では、アルゴリズムの平均反復値と解の偏差は漸近的に正常であり、勾配ノイズと分布シフトの影響を明確に分離する共分散が存在する。 さらに, h\'ajek と le cam の研究に基づいて, 平均化を伴うアルゴリズムの漸近的性能は局所的 minimax 最適であることを示した。

We analyze a stochastic approximation algorithm for decision-dependent problems, wherein the data distribution used by the algorithm evolves along the iterate sequence. The primary examples of such problems appear in performative prediction and its multiplayer extensions. We show that under mild assumptions, the deviation between the average iterate of the algorithm and the solution is asymptotically normal, with a covariance that clearly decouples the effects of the gradient noise and the distributional shift. Moreover, building on the work of H\'ajek and Le Cam, we show that the asymptotic performance of the algorithm with averaging is locally minimax optimal.
翻訳日:2024-01-03 03:19:47 公開日:2023-12-31
# 変動推論を用いたクラスタ型回帰と金融予測への応用

Cluster-based Regression using Variational Inference and Applications in Financial Forecasting ( http://arxiv.org/abs/2205.00605v3 )

ライセンス: Link先を確認
Udai Nagpal, Krishan Nagpal(参考訳) 本稿では,クラスタを同時に同定し,クラスタ固有の回帰パラメータを推定する手法について述べる。 このようなアプローチは、出力推定のための回帰パラメータが入力空間の異なる領域で異なる場合、入力と出力の関係を学ぶのに有用である。 最適化手法を用いて後続確率密度を求める機械学習手法である変分推論(VI)を用いて,各クラスタの説明変数と回帰パラメータのクラスタを同定する。 これらの結果から、予測出力の期待値と全分布の両方を得ることができる。 提案手法の他の利点は、エレガントな理論解と結果の明確な解釈性である。 提案手法は、市場が異なる体制(またはクラスタ)を持ち、それぞれの体制における異なるパターンと市場変化の相関関係を持つ金融予測に適している。 金融アプリケーションでは、そのようなクラスタに関する知識はポートフォリオのパフォーマンスに関する有用な洞察を与え、異なる市場体制における変数の相対的重要性を特定する。 1日ごとのS&P変化を予測するための図示的な例は、このアプローチを示し、提案手法の性能をクラスタなしの標準回帰と比較するものである。 問題の幅広い適用可能性、そのエレガントな理論解、提案アルゴリズムの計算効率から、このアプローチは金融領域を超えて広がる多くの領域で有用である。

This paper describes an approach to simultaneously identify clusters and estimate cluster-specific regression parameters from the given data. Such an approach can be useful in learning the relationship between input and output when the regression parameters for estimating output are different in different regions of the input space. Variational Inference (VI), a machine learning approach to obtain posterior probability densities using optimization techniques, is used to identify clusters of explanatory variables and regression parameters for each cluster. From these results, one can obtain both the expected value and the full distribution of predicted output. Other advantages of the proposed approach include the elegant theoretical solution and clear interpretability of results. The proposed approach is well-suited for financial forecasting where markets have different regimes (or clusters) with different patterns and correlations of market changes in each regime. In financial applications, knowledge about such clusters can provide useful insights about portfolio performance and identify the relative importance of variables in different market regimes. An illustrative example of predicting one-day S&P change is considered to illustrate the approach and compare the performance of the proposed approach with standard regression without clusters. Due to the broad applicability of the problem, its elegant theoretical solution, and the computational efficiency of the proposed algorithm, the approach may be useful in a number of areas extending beyond the financial domain.
翻訳日:2024-01-03 03:17:58 公開日:2023-12-31
# Wasserstein分布ロバスト最適化のための単純かつ一般的な双対証明

A Simple and General Duality Proof for Wasserstein Distributionally Robust Optimization ( http://arxiv.org/abs/2205.00362v3 )

ライセンス: Link先を確認
Luhao Zhang, Jincheng Yang, Rui Gao(参考訳) 本稿では,wasserstein 分布的ロバスト最適化のための初等的かつ一般的な双対性証明を提案する。 この双対性は、ある可測性条件と等価な交換性原理が成立するならば、任意のカントロビッチ輸送コスト、可測損失関数、および名目確率分布に成り立つ。 提案手法のより広範な適用性を示すため,マルコフ決定過程と多段階確率計画における双対性結果の厳密な扱いについて述べる。 さらに,infinity-wasserstein分布ロバスト最適化,リスク回避最適化,グローバル化分布ロバスト最適化など,他の問題にもその結果を拡張した。

We present an elementary yet general proof of duality for Wasserstein distributionally robust optimization. The duality holds for any arbitrary Kantorovich transport cost, measurable loss function, and nominal probability distribution, provided that an interchangeability principle holds, which is equivalent to certain measurability conditions. To illustrate the broader applicability of our approach, we provide a rigorous treatment of duality results in distributionally robust Markov decision processes and distributionally robust multistage stochastic programming. Furthermore, we extend the result to other problems including infinity-Wasserstein distributionally robust optimization, risk-averse optimization, and globalized distributionally robust counterpart.
翻訳日:2024-01-03 03:17:35 公開日:2023-12-31
# QMAとQCMAの分配試験オラクル分離

A distribution testing oracle separation between QMA and QCMA ( http://arxiv.org/abs/2210.15380v4 )

ライセンス: Link先を確認
Anand Natarajan and Chinmay Nirkhe(参考訳) 量子複雑性理論では、$\textit{non-deterministic}$の量子計算の定義が量子証人$(\textsf{QMA})$、または古典的目撃者がsuffice$(\textsf{QCMA})$を必要としているかどうかという長い問題である。 各計算複雑性クラスを分離したランダム化された古典オラクルを構築することにより、この問題を進展させる。 以前の分離 (Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)) は量子ユニタリオラクルを必要とした。 分離問題は、正規の非方向グラフでサポートされている分布が複数の連結成分(yesインスタンス)で構成されているか、または1つの拡張連結成分(noインスタンス)で構成されているかを決定することである。 したがって oracle は $n$-bit boolean 関数上のディストリビューションである。

It is a long-standing open question in quantum complexity theory whether the definition of $\textit{non-deterministic}$ quantum computation requires quantum witnesses $(\textsf{QMA})$ or if classical witnesses suffice $(\textsf{QCMA})$. We make progress on this question by constructing a randomized classical oracle separating the respective computational complexity classes. Previous separations [Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)] required a quantum unitary oracle. The separating problem is deciding whether a distribution supported on regular un-directed graphs either consists of multiple connected components (yes instances) or consists of one expanding connected component (no instances) where the graph is given in an adjacency-list format by the oracle. Therefore, the oracle is a distribution over $n$-bit boolean functions.
翻訳日:2024-01-03 03:10:40 公開日:2023-12-31
# 微分プライベート拡散モデル

Differentially Private Diffusion Models ( http://arxiv.org/abs/2210.09929v3 )

ライセンス: Link先を確認
Tim Dockhorn, Tianshi Cao, Arash Vahdat, Karsten Kreis(参考訳) 現代の機械学習モデルは、ますます大きなトレーニングデータセットに依存しているが、データはプライバシーに敏感なドメインに限定されることが多い。 機密データに対して差分プライバシー(DP)でトレーニングされた生成モデルは、この課題を回避し、代わりに合成データへのアクセスを提供する。 本稿では,最近の拡散モデル(dms)の成功に基づき,微分プライベート拡散モデル(dpdms)を導入し,微分プライベート確率勾配降下(dp-sgd)を用いたプライバシーを強制する。 本稿では,DPDMにおいて重要な要素であるDMパラメータ化とサンプリングアルゴリズムについて検討し,DMの訓練に適したDP-SGDの強力な修正であるノイズ多重性を提案する。 我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。 さらに、標準ベンチマークでは、dpdm生成合成データで訓練された分類器はタスク固有のdp-sgd訓練された分類器と同等の性能を発揮する。 プロジェクトページとコード:https://nv-tlabs.github.io/DPDM。

While modern machine learning models rely on increasingly large training datasets, data is often limited in privacy-sensitive domains. Generative models trained with differential privacy (DP) on sensitive data can sidestep this challenge, providing access to synthetic data instead. We build on the recent success of diffusion models (DMs) and introduce Differentially Private Diffusion Models (DPDMs), which enforce privacy using differentially private stochastic gradient descent (DP-SGD). We investigate the DM parameterization and the sampling algorithm, which turn out to be crucial ingredients in DPDMs, and propose noise multiplicity, a powerful modification of DP-SGD tailored to the training of DMs. We validate our novel DPDMs on image generation benchmarks and achieve state-of-the-art performance in all experiments. Moreover, on standard benchmarks, classifiers trained on DPDM-generated synthetic data perform on par with task-specific DP-SGD-trained classifiers, which has not been demonstrated before for DP generative models. Project page and code: https://nv-tlabs.github.io/DPDM.
翻訳日:2024-01-03 03:08:44 公開日:2023-12-31
# ショットフルガルおよびロバスト量子カーネル分類器

Shot-frugal and Robust quantum kernel classifiers ( http://arxiv.org/abs/2210.06971v3 )

ライセンス: Link先を確認
Abhay Shastry, Abhijith Jayakumar, Apoorva Patel, Chiranjib Bhattacharyya(参考訳) 量子カーネル法は、教師あり機械学習における量子スピードアップの候補である。 合理的なカーネル推定に必要な量子測度Nの数は、複雑さの考慮と、短期的な量子ハードウェアの制約の両方から重要なリソースである。 我々は,分類タスクの目的が信頼性の高い分類であり,正確なカーネル評価ではないことを強調し,前者がはるかに資源効率が高いことを示す。 さらに,ノイズの存在下では,分類の精度が適切な性能指標にはならないことを示し,分類の信頼性を特徴付ける新しい指標を動機付けている。 次に、N の有界値を得ると、データセット上の分類誤差が理想化された量子カーネル分類器のマージン誤差によって有界であることを保証する。 確率制約プログラミングと量子カーネル分布の亜ガウス的境界を用いて、サポートベクトルマシンの原始的な定式化から始まるShot-frugalとRobust(ShofaR)プログラムを導出する。 これにより、必要な量子測定回数が大幅に減少し、建設によってノイズに強い。 この戦略は、偏りのないノイズ源から生じる量子カーネルの不確実性に適用できる。

Quantum kernel methods are a candidate for quantum speed-ups in supervised machine learning. The number of quantum measurements N required for a reasonable kernel estimate is a critical resource, both from complexity considerations and because of the constraints of near-term quantum hardware. We emphasize that for classification tasks, the aim is reliable classification and not precise kernel evaluation, and demonstrate that the former is far more resource efficient. Furthermore, it is shown that the accuracy of classification is not a suitable performance metric in the presence of noise and we motivate a new metric that characterizes the reliability of classification. We then obtain a bound for N which ensures, with high probability, that classification errors over a dataset are bounded by the margin errors of an idealized quantum kernel classifier. Using chance constraint programming and the subgaussian bounds of quantum kernel distributions, we derive several Shot-frugal and Robust (ShofaR) programs starting from the primal formulation of the Support Vector Machine. This significantly reduces the number of quantum measurements needed and is robust to noise by construction. Our strategy is applicable to uncertainty in quantum kernels arising from any source of unbiased noise.
翻訳日:2024-01-03 03:07:50 公開日:2023-12-31
# 例外的絡み合い現象:非古典性と非古典性

Exceptional entanglement phenomena: non-Hermiticity meeting non-classicality ( http://arxiv.org/abs/2210.04494v4 )

ライセンス: Link先を確認
Pei-Rong Han, Fan Wu, Xin-Jie Huang, Huai-Zhi Wu, Chang-Ling Zou, Wei Yi, Mengzhen Zhang, Hekang Li, Kai Xu, Dongning Zheng, Heng Fan, Jianming Wen, Zhen-Biao Yang, Shi-Biao Zheng(参考訳) 量子力学ハミルトニアンの非エルミタン(NH)拡張は物理学における最も重要な進歩の1つである。 過去20年間、多くの NH 現象が明らかにされ実証されてきたが、これらは全て量子系と古典系の両方に現れる。 NHシグネチャは、古典物理学から根本的に離れているのだろうか? この問題の解法は、真のNH量子力学の探索には不可欠であるが、まだ実験的には触れられていない。 ここでは, nh相互作用量子系の例外点に生じる絡み合い遷移を例にし, 特異な例外的絡み合い現象を明らかにすることにより, この基本的な問題を解く。 回路量子力学アーキテクチャを用いて, 自然散逸型光マターシステムを用いて, このような純粋量子力学的NH効果を実証する。 本研究は, 量子力学 NH 物理学研究の基盤を築き, 特異点対応エンタングルメントの挙動を指標としたものである。

Non-Hermitian (NH) extension of quantum-mechanical Hamiltonians represents one of the most significant advancements in physics. During the past two decades, numerous captivating NH phenomena have been revealed and demonstrated, but all of which can appear in both quantum and classical systems. This leads to the fundamental question: what NH signature presents a radical departure from classical physics? The solution of this problem is indispensable for exploring genuine NH quantum mechanics, but remains experimentally untouched so far. Here, we resolve this basic issue by unveiling distinct exceptional entanglement phenomena, exemplified by an entanglement transition, occurring at the exceptional point of NH interacting quantum systems. We illustrate and demonstrate such purely quantum-mechanical NH effects with a naturally dissipative light-matter system, engineered in a circuit quantum electrodynamics architecture. Our results lay the foundation for studies of genuinely quantum-mechanical NH physics, signified by exceptional-point-enabled entanglement behaviors.
翻訳日:2024-01-03 03:07:31 公開日:2023-12-31
# 物理コンピューティング:物理計算とシステム構成性に関するカテゴリー論的視点

Physical Computing: A Category Theoretic Perspective on Physical Computation and System Compositionality ( http://arxiv.org/abs/2210.00392v4 )

ライセンス: Link先を確認
Nima Dehghani, Gianluca Caterina(参考訳) 本稿では、量子コンピューティングと非標準計算システムの進歩を踏まえ、物理計算を再定義するカテゴリ理論に基づくフレームワークを提案する。 この広い視点で古典的な定義を統合することで、論文は物理コンピューティングデバイスとプロセスを構成するものを厳格に再コンテキスト化する。 これは、物理コンピューティングシステムの構成的性質と関係構造が、圏論を用いてコヒーレントに定式化されることを示す。 このアプローチは、最近の物理コンピューティングの形式化をカプセル化するだけでなく、システム内の動的相互作用を調べるための構造化された方法も提供する。

This paper introduces a category theory-based framework to redefine physical computing in light of advancements in quantum computing and non-standard computing systems. By integrating classical definitions within this broader perspective, the paper rigorously recontextualizes what constitutes physical computing devices and processes. It demonstrates how the compositional nature and relational structures of physical computing systems can be coherently formalized using category theory. This approach not only encapsulates recent formalisms in physical computing but also offers a structured method to explore the dynamic interactions within these systems.
翻訳日:2024-01-03 03:06:57 公開日:2023-12-31
# マルコフのスライスなワッサースタイン距離:独立の予測を超える

Markovian Sliced Wasserstein Distances: Beyond Independent Projections ( http://arxiv.org/abs/2301.03749v3 )

ライセンス: Link先を確認
Khai Nguyen and Tongzheng Ren and Nhat Ho(参考訳) Sliced Wasserstein (SW) 距離は、独立な一様ランダム射影方向による冗長な投影に悩まされる。 問題を部分的に克服するために、マックス K はワッサーシュタイン (Max-K-SW) 距離 (K\geq 1$) をスライスした。 射影数を減らすことができるにもかかわらず、最適化の非最適性のため、Max-K-SWの計量性は保証できない。 さらに、直交制約もまた計算コストが高く、効果的ではないかもしれない。 この問題に対処するために、我々は、射影方向に対して1次マルコフ構造を課すマルコフスライスドワッサースタイン距離(msw)と呼ばれる新しいsw距離の族を導入する。 先行分布,遷移分布,燃焼・薄肉化技術を含むマルコフ構造を同定し,MSWの様々な部材について考察する。 さらに,mswの理論特性として,位相特性(計量性,弱収束性,他距離との接続性),統計特性(サンプル複雑性,モンテカルロ推定誤差),計算特性(計算複雑性とメモリ複雑性)について検討した。 最後に, 勾配流, 色転移, 深部生成モデルなどの様々な応用において, msw 距離とこれまでの sw 変種を比較し, msw の良好な性能を示す。

Sliced Wasserstein (SW) distance suffers from redundant projections due to independent uniform random projecting directions. To partially overcome the issue, max K sliced Wasserstein (Max-K-SW) distance ($K\geq 1$), seeks the best discriminative orthogonal projecting directions. Despite being able to reduce the number of projections, the metricity of Max-K-SW cannot be guaranteed in practice due to the non-optimality of the optimization. Moreover, the orthogonality constraint is also computationally expensive and might not be effective. To address the problem, we introduce a new family of SW distances, named Markovian sliced Wasserstein (MSW) distance, which imposes a first-order Markov structure on projecting directions. We discuss various members of MSW by specifying the Markov structure including the prior distribution, the transition distribution, and the burning and thinning technique. Moreover, we investigate the theoretical properties of MSW including topological properties (metricity, weak convergence, and connection to other distances), statistical properties (sample complexity, and Monte Carlo estimation error), and computational properties (computational complexity and memory complexity). Finally, we compare MSW distances with previous SW variants in various applications such as gradient flows, color transfer, and deep generative modeling to demonstrate the favorable performance of MSW.
翻訳日:2024-01-03 02:55:31 公開日:2023-12-31
# GANに基づく画像間翻訳におけるコンテンツ制約のパラダイムの再考

Rethinking the Paradigm of Content Constraints in GAN-based Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2211.10867v2 )

ライセンス: Link先を確認
Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao(参考訳) 画像から画像への変換(I2I)タスクに十分なコンテンツ制約が欠如している未ペア環境では、GANベースのアプローチは通常、崩壊する傾向にある。 現在のソリューションは、再構築ベースとシームズネットワークベースという2つのカテゴリに分けられる。 前者は、変換された画像または変換された画像が元の画像に完全に変換されるように要求する。 後者は、オリジナルイメージと生成されたイメージを特徴抽出器に供給し、出力をマッチングする。 これは十分に効率的ではなく、普遍的な特徴抽出器は簡単には利用できない。 本稿では,パッチレベルの特徴の潜在空間における表現的類似性を,生成器の \textbf{en}coder と de\textbf{co}der の同じ段階から制約することにより,コンテンツの保守をシンプルかつ効率的に行う enco を提案する。 類似度関数では、コントラスト損失の代わりに単純なmse損失を使い、現在i2iタスクで広く使われている。 設計の利点は、EnCoのトレーニングは非常に効率的であり、エンコーダの機能はデコードによりポジティブな効果をもたらし、より満足できる世代を生み出します。 さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングを代替する差別的注意誘導型 (DAG) パッチサンプリング戦略を提案する。 DAGはパラメータフリーであり、計算オーバーヘッドは無視できるが、モデルの性能は大幅に改善される。 複数のデータセットに対する大規模な実験は、EnCoの有効性と利点を示し、従来の方法と比較して複数の最先端を実現する。 私たちのコードはhttps://github.com/xiudingcai/enco-pytorchで利用可能です。

In an unpaired setting, lacking sufficient content constraints for image-to-image translation (I2I) tasks, GAN-based approaches are usually prone to model collapse. Current solutions can be divided into two categories, reconstruction-based and Siamese network-based. The former requires that the transformed or transforming image can be perfectly converted back to the original image, which is sometimes too strict and limits the generative performance. The latter involves feeding the original and generated images into a feature extractor and then matching their outputs. This is not efficient enough, and a universal feature extractor is not easily available. In this paper, we propose EnCo, a simple but efficient way to maintain the content by constraining the representational similarity in the latent space of patch-level features from the same stage of the \textbf{En}coder and de\textbf{Co}der of the generator. For the similarity function, we use a simple MSE loss instead of contrastive loss, which is currently widely used in I2I tasks. Benefits from the design, EnCo training is extremely efficient, while the features from the encoder produce a more positive effect on the decoding, leading to more satisfying generations. In addition, we rethink the role played by discriminators in sampling patches and propose a discriminative attention-guided (DAG) patch sampling strategy to replace random sampling. DAG is parameter-free and only requires negligible computational overhead, while significantly improving the performance of the model. Extensive experiments on multiple datasets demonstrate the effectiveness and advantages of EnCo, and we achieve multiple state-of-the-art compared to previous methods. Our code is available at https://github.com/XiudingCai/EnCo-pytorch.
翻訳日:2024-01-03 02:53:31 公開日:2023-12-31
# 微細組織中の酵母細胞のインスタンスセグメンテーションデータセット

An Instance Segmentation Dataset of Yeast Cells in Microstructures ( http://arxiv.org/abs/2304.07597v4 )

ライセンス: Link先を確認
Christoph Reich, Tim Prangemeier, Andr\'e O. Fran\c{c}ani, Heinz Koeppl(参考訳) 顕微鏡データから単一セル情報を抽出するには、正確なインスタンスワイドセグメンテーションが必要である。 顕微鏡画像からのピクセル単位のセグメンテーションは、特に微構造環境の複雑さが増すと、依然として困難な課題である。 本稿では酵母細胞を微構造に分割する新しいデータセットを提案する。 ピクセル単位のインスタンスセグメンテーションラベルをセルとトラップマイクロ構造の両方に提供します。 総計493枚の密注釈顕微鏡画像を公開する。 本稿では,新しいセグメンテーションアルゴリズムの統一的な比較を容易にするために,データセットの標準化評価戦略を提案する。 データセットと評価戦略の目的は、新しい細胞分割アプローチの開発を促進することである。 データセットはhttps://christophreich 1996.github.io/yeast_in_microstructures_dataset/で公開されている。

Extracting single-cell information from microscopy data requires accurate instance-wise segmentations. Obtaining pixel-wise segmentations from microscopy imagery remains a challenging task, especially with the added complexity of microstructured environments. This paper presents a novel dataset for segmenting yeast cells in microstructures. We offer pixel-wise instance segmentation labels for both cells and trap microstructures. In total, we release 493 densely annotated microscopy images. To facilitate a unified comparison between novel segmentation algorithms, we propose a standardized evaluation strategy for our dataset. The aim of the dataset and evaluation strategy is to facilitate the development of new cell segmentation approaches. The dataset is publicly available at https://christophreich1996.github.io/yeast_in_microstructures_dataset/ .
翻訳日:2024-01-03 02:44:46 公開日:2023-12-31
# 合成データを用いた深層学習による眼画像における角膜反射の精密局在

Precise localization of corneal reflections in eye images using deep learning trained on synthetic data ( http://arxiv.org/abs/2304.05673v3 )

ライセンス: Link先を確認
Sean Anthony Byrne, Marcus Nystr\"om, Virmarie Maquiling, Enkelejda Kasneci, Diederick C. Niehorster(参考訳) 眼球画像中の1つの角膜反射(CR)の中心を正確に位置決めする深層学習法を提案する。 従来のアプローチとは異なり、シミュレーションデータのみを使用してトレーニングされた畳み込みニューラルネットワーク(cnn)を使用する。 シミュレーションデータのみを使用することで、実眼画像の教師付きトレーニングに必要な手動アノテーションの時間を要するプロセスを完全に回避できるというメリットがある。 提案手法の精度を体系的に評価するために,まず,異なる背景にCRを配置し,様々なノイズレベルに埋め込まれた画像上で実験を行った。 第2に,実眼で撮影した高品質ビデオを用いて実験を行った。 本手法は,実眼画像における空間精度の35%削減による最先端アルゴリズム手法よりも優れており,空間精度の面ではシミュレーション画像の最先端アルゴリズムと比較し,cr中心位置推定の高精度な手法を提供し,視線推定のための深層学習モデルの開発における重要な障害の一つであるデータ可用性問題に対する解決策を提供する。 CR中心のより優れた局在化と適用容易性により、CRベースのアイトラッカーの精度と精度を向上させる可能性がある。

We present a deep learning method for accurately localizing the center of a single corneal reflection (CR) in an eye image. Unlike previous approaches, we use a convolutional neural network (CNN) that was trained solely using simulated data. Using only simulated data has the benefit of completely sidestepping the time-consuming process of manual annotation that is required for supervised training on real eye images. To systematically evaluate the accuracy of our method, we first tested it on images with simulated CRs placed on different backgrounds and embedded in varying levels of noise. Second, we tested the method on high-quality videos captured from real eyes. Our method outperformed state-of-the-art algorithmic methods on real eye images with a 35% reduction in terms of spatial precision, and performed on par with state-of-the-art on simulated images in terms of spatial accuracy.We conclude that our method provides a precise method for CR center localization and provides a solution to the data availability problem which is one of the important common roadblocks in the development of deep learning models for gaze estimation. Due to the superior CR center localization and ease of application, our method has the potential to improve the accuracy and precision of CR-based eye trackers
翻訳日:2024-01-03 02:44:34 公開日:2023-12-31
# 拡散HPC:混在領域における人間のメッシュ回復のための合成データ生成

Diffusion-HPC: Synthetic Data Generation for Human Mesh Recovery in Challenging Domains ( http://arxiv.org/abs/2303.09541v2 )

ライセンス: Link先を確認
Zhenzhen Weng, Laura Bravo-S\'anchez, Serena Yeung-Levy(参考訳) 近年のテキストから画像への生成モデルは、高忠実度およびフォトリアリスティックな画像を生成する優れた能力を発揮している。 しかし、視覚的に印象的な結果にもかかわらず、これらのモデルはしばしば、世代でもっともらしい人間の構造を維持するのに苦労する。 このため、生成モデルは大量の合成データを生成して下流画像認識タスクを支援するという有望な結果を示しているが、下流人間のポーズ認識と理解を改善するには適していない。 本研究では,人間の身体構造に関する事前知識を注入して,適切なポーズを持つ写真実像を生成するテキストコンディショニング手法である,ヒューマンポーズ補正(diffusion-hpc)を用いた拡散モデルを提案する。 私たちの生成した画像には、3dトレーニングデータの不足が長年問題となっているヒューマンメッシュのリカバリタスクを改善するための基盤となる3dメッシュが添付されています。 さらに,Diffusion-HPCは,異なる条件下での人間世代の現実性を効果的に改善することを示した。

Recent text-to-image generative models have exhibited remarkable abilities in generating high-fidelity and photo-realistic images. However, despite the visually impressive results, these models often struggle to preserve plausible human structure in the generations. Due to this reason, while generative models have shown promising results in aiding downstream image recognition tasks by generating large volumes of synthetic data, they are not suitable for improving downstream human pose perception and understanding. In this work, we propose a Diffusion model with Human Pose Correction (Diffusion-HPC), a text-conditioned method that generates photo-realistic images with plausible posed humans by injecting prior knowledge about human body structure. Our generated images are accompanied by 3D meshes that serve as ground truths for improving Human Mesh Recovery tasks, where a shortage of 3D training data has long been an issue. Furthermore, we show that Diffusion-HPC effectively improves the realism of human generations under varying conditioning strategies.
翻訳日:2024-01-03 02:42:01 公開日:2023-12-31
# DiffusionNAG:拡散モデルを用いた予測型ニューラルネットワーク生成

DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models ( http://arxiv.org/abs/2305.16943v2 )

ライセンス: Link先を確認
Sohyun An, Hayeon Lee, Jaehyeong Jo, Seanie Lee, Sung Ju Hwang(参考訳) 既存のNAS手法は、繰り返しサンプリングや多くのタスク非関連アーキテクチャの訓練に過剰な時間を要する。 既存のNAS手法の制限に対処するため,DiffusionNAGと呼ばれる拡散モデルに基づく,NASから新しい条件付きニューラルネットワーク生成(NAG)フレームワークへのパラダイムシフトを提案する。 具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するグラフ拡散モデルを提案する。 さらに、パラメータ化された予測器のガイダンスにより、d diffusionnagは様々なタスクに望ましい特性を持つタスク最適アーキテクチャを柔軟に生成することができる。 この条件付きNAGスキームは、アーキテクチャをサンプリングし、特性予測器を用いてフィルタリングする以前のNASスキームよりもはるかに効率的である。 我々は,transportable nas と bayesian optimization (bo) を用いたnas の2つの予測系において,distributionnag の有効性を検証する。 DiffusionNAGは、Transferable NASベンチマークのベースラインと比較して最大20倍のスピードアップを達成している。 さらに、BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れる。

Existing NAS methods suffer from either an excessive amount of time for repetitive sampling and training of many task-irrelevant architectures. To tackle such limitations of existing NAS methods, we propose a paradigm shift from NAS to a novel conditional Neural Architecture Generation (NAG) framework based on diffusion models, dubbed DiffusionNAG. Specifically, we consider the neural architectures as directed graphs and propose a graph diffusion model for generating them. Moreover, with the guidance of parameterized predictors, DiffusionNAG can flexibly generate task-optimal architectures with the desired properties for diverse tasks, by sampling from a region that is more likely to satisfy the properties. This conditional NAG scheme is significantly more efficient than previous NAS schemes which sample the architectures and filter them using the property predictors. We validate the effectiveness of DiffusionNAG through extensive experiments in two predictor-based NAS scenarios: Transferable NAS and Bayesian Optimization (BO)-based NAS. DiffusionNAG achieves superior performance with speedups of up to 20 times when compared to the baselines on Transferable NAS benchmarks. Furthermore, when integrated into a BO-based algorithm, DiffusionNAG outperforms existing BO-based NAS approaches, particularly in the large MobileNetV3 search space on the ImageNet 1K dataset.
翻訳日:2024-01-03 02:33:33 公開日:2023-12-31
# ランダム化の遅れ:部分ラベル付きデータによる二重ロバストな因果推論

The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference with Partially Labeled Data ( http://arxiv.org/abs/2305.12789v2 )

ライセンス: Link先を確認
Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic(参考訳) 現実のシナリオでは、データ収集の制限はしばしば部分的にラベル付けされたデータセットを生じさせ、信頼できる因果推論を作成するのが困難になる。 半教師付き(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。 これらの課題に対処するため,本論文では,失語症(MAR)の新たな枠組みを提案する。 この枠組みは、高次元の設定において欠落した結果に対処し、共変量に対するラベリング確率の依存性から生じる選択バイアスを考慮に入れる。 特に、欠落データ文献で一般的に必要とされる肯定的条件の必要性を緩和し、サンプルサイズのラベル付け確率スコアの均一な減衰を許容し、ラベルなしデータの高速な成長を調節する。 我々の劣化するMARフレームワークは、正確に特定されたニュアンスモデルであっても、平均処理効果の2倍燃焼(DR)推定が可能である。 さらに、モデル不特定の下での漸近正常化を促進する。 そこで本研究では,非ラベルデータ量を完全に活用する新しい半パラメトリック手法とともに,適応型新たなバイアス低減型ニュアンス推定器と非対称クロスフィッティングを提案する。 われわれのアプローチには空間条件が弱い。 提案手法の有効性と汎用性を確認し,選択バイアスとモデル誤特定に対処した。

In real-world scenarios, data collection limitations often result in partially labeled datasets, leading to difficulties in drawing reliable causal inferences. Traditional approaches in the semi-supervised (SS) and missing data literature may not adequately handle these complexities, leading to biased estimates. To address these challenges, our paper introduces a novel decaying missing-at-random (decaying MAR) framework. This framework tackles missing outcomes in high-dimensional settings and accounts for selection bias arising from the dependence of labeling probability on covariates. Notably, we relax the need for a positivity condition, commonly required in the missing data literature, and allow uniform decay of labeling propensity scores with sample size, accommodating faster growth of unlabeled data. Our decaying MAR framework enables easy rate double-robust (DR) estimation of average treatment effects, succeeding where other methods fail, even with correctly specified nuisance models. Additionally, it facilitates asymptotic normality under model misspecification. To achieve this, we propose adaptive new targeted bias-reducing nuisance estimators and asymmetric cross-fitting, along with a novel semi-parametric approach that fully leverages large volumes of unlabeled data. Our approach requires weak sparsity conditions. Numerical results confirm our estimators' efficacy and versatility, addressing selection bias and model misspecification.
翻訳日:2024-01-03 02:32:18 公開日:2023-12-31
# 育種パターンを持つホップフィールドモデル--教師による自己教師型学習モデル

Hopfield model with planted patterns: a teacher-student self-supervised learning model ( http://arxiv.org/abs/2304.13710v3 )

ライセンス: Link先を確認
Francesco Alemanno, Luca Camanzi, Gianluca Manzan and Daniele Tantari(参考訳) ホップフィールドネットワークはメモリ記憶と検索のパラダイムモデルとして知られているが、現代の人工知能システムは主に機械学習のパラダイムに基づいている。 ホップフィールドモデルと構造的パターンの適切な一般化の観点から,教師が教師に指導する自己教師付き学習問題をボルツマンマシンで定式化することが可能であり,スピン変数は機械の重みとパターンがトレーニングセットの例に対応する。 本研究では,トレーニングセットサイズ,データセットノイズ,推論温度(すなわち重みの正規化)を用いて位相図を解析し,学習性能の分析を行った。 小さいが情報的なデータセットで、機械は記憶によって学習できる。 ノイズの多いデータセットでは、クリティカルしきい値を超える多数のサンプルが必要になる。 この体制では、システムの記憶容量制限は、システムの一般化が可能な学習体制の発生の機会となる。

While Hopfield networks are known as paradigmatic models for memory storage and retrieval, modern artificial intelligence systems mainly stand on the machine learning paradigm. We show that it is possible to formulate a teacher-student self-supervised learning problem with Boltzmann machines in terms of a suitable generalization of the Hopfield model with structured patterns, where the spin variables are the machine weights and patterns correspond to the training set's examples. We analyze the learning performance by studying the phase diagram in terms of the training set size, the dataset noise and the inference temperature (i.e. the weight regularization). With a small but informative dataset the machine can learn by memorization. With a noisy dataset, an extensive number of examples above a critical threshold is needed. In this regime the memory storage limits of the system becomes an opportunity for the occurrence of a learning regime in which the system can generalize.
翻訳日:2024-01-03 02:29:23 公開日:2023-12-31
# instruct-reid: 指示付き多目的人物再識別タスク

Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions ( http://arxiv.org/abs/2306.07520v4 )

ライセンス: Link先を確認
Weizhen He and Yiheng Deng and Shixiang Tang and Qihao Chen and Qingsong Xie and Yizhou Wang and Lei Bai and Feng Zhu and Rui Zhao and Wanli Ouyang and Donglian Qi and Yunfeng Yan(参考訳) 人間の知性は、視覚と言語の両方の記述に従って、任意の人物を検索することができる。 しかし、現在のコンピュータビジョンコミュニティは、異なるシナリオにおける特定の人物再識別(ReID)タスクを別々に研究しており、現実世界の応用を制限している。 本稿では,与えられた画像や言語命令に従って画像を取得することをモデルに要求する新しいinstruct-reidタスクを提案することで,この問題を解決する。 我々の命令-ReIDはより一般的なReID設定であり、既存の6つのReIDタスクを異なる命令を設計することで特別なケースとして見ることができる。 そこで本研究では, 大規模omnireidベンチマークと適応三重項損失をベースラインとして提案する。 Experimental results show that the proposed multi-purpose ReID model, trained on our OmniReID benchmark without fine-tuning, can improve +0.5%, +0.6%, +7.7% mAP on Market1501, MSMT17, CUHK03 for traditional ReID, +6.4%, +7.1%, +11.2% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothes template based clothes-changing ReID when using only RGB images, +24.9% mAP on COCAS+ real2 for our newly defined language-instructed ReID, +4.3% on LLCM for visible-infrared ReID, +2.6% on CUHK-PEDES for text-to-image ReID. データセット、モデル、コードはhttps://github.com/hwz-zju/instruct-reidで入手できる。

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Our instruct-ReID is a more general ReID setting, where existing 6 ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the proposed multi-purpose ReID model, trained on our OmniReID benchmark without fine-tuning, can improve +0.5%, +0.6%, +7.7% mAP on Market1501, MSMT17, CUHK03 for traditional ReID, +6.4%, +7.1%, +11.2% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothes template based clothes-changing ReID when using only RGB images, +24.9% mAP on COCAS+ real2 for our newly defined language-instructed ReID, +4.3% on LLCM for visible-infrared ReID, +2.6% on CUHK-PEDES for text-to-image ReID. The datasets, the model, and code will be available at https://github.com/hwz-zju/Instruct-ReID.
翻訳日:2024-01-03 02:22:10 公開日:2023-12-31
# 大規模言語モデルは相関から因果関係を推論できるか?

Can Large Language Models Infer Causation from Correlation? ( http://arxiv.org/abs/2306.05836v2 )

ライセンス: Link先を確認
Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab, Bernhard Sch\"olkopf(参考訳) 因果推論は人間の知能の指標の1つである。 コーサルNLPの分野は近年多くの関心を集めているが、NLPの既存の因果推論データセットは主に経験的知識(例えばコモンセンス知識)から因果関係を発見することに依存している。 本研究では,大規模言語モデル(llm)の純粋因果推論スキルをテストする最初のベンチマークデータセットを提案する。 具体的には,新しいタスクCorr2Causeを定式化し,一連の相関文を取り,変数間の因果関係を決定する。 我々は,200万以上のサンプルからなる大規模データセットをキュレートし,既存のLLMを17個評価した。 実験により, LLMの因果推論能力において重要な欠点を同定し, これらのモデルがタスクのランダムな性能にほぼ近いことを示す。 この欠点は、微調整によってこのスキルのためにllmを再利用しようとすると多少軽減されますが、これらのモデルがまだ一般化できていないことに気付きます -- クエリで使用される変数名とテキスト式がトレーニングセットのものと似ている場合のみ、分散内設定で因果推論を行うことが可能ですが、これらのクエリを乱すことによって生成された分散外設定では失敗します。 Corr2CauseはLLMにとって難しい課題であり、LLMの純粋推論スキルと一般化可能性を改善するための将来の研究を導くのに役立つだろう。 私たちのデータはhttps://huggingface.co/datasets/causalnlp/corr2です。 私たちのコードはhttps://github.com/causalnlp/corr2です。

Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
翻訳日:2024-01-03 02:21:20 公開日:2023-12-31
# BRICS:イメージコレクションの2レベル特徴表現

BRICS: Bi-level feature Representation of Image CollectionS ( http://arxiv.org/abs/2305.18601v3 )

ライセンス: Link先を確認
Dingdong Yang, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang(参考訳) 本稿では,特徴グリッド空間上にキーコード空間を配置した画像コレクションの2レベル特徴表現であるBRICSを提案する。 具体的には,マルチ解像度特徴格子群から特徴を抽出するために使用される連続キーコードに画像を符号化するオートエンコーダで表現を学習する。 我々のキーコードと特徴グリッドは、明確に定義された勾配流と共に継続的に訓練され、特徴グリッドの使用率が高くなり、離散ベクトル量子化(VQ)と比較して生成モデリングが改善された。 kl正規化潜在符号のような既存の連続表現とは異なり、我々の重要なコードはスケールと分散で厳密に区切られている。 全体として、bricsによる機能エンコーディングはコンパクトで、トレーニングに効率的であり、拡散モデルを用いたキーコード上の生成モデリングを可能にする。 実験の結果,より小型で効率的なデコーダネットワーク(gflopsの50%削減)を実現するとともに,vqに匹敵する再構成結果が得られた。 キーコード空間に拡散モデルを適用することで、FFHQとLSUN-Church(LDMより29%低く、StyleGAN2より32%低く、CLIP-FIDではProjected GANより44%低い)の画像合成における最先端のパフォーマンスを実現する。

We present BRICS, a bi-level feature representation for image collections, which consists of a key code space on top of a feature grid space. Specifically, our representation is learned by an autoencoder to encode images into continuous key codes, which are used to retrieve features from groups of multi-resolution feature grids. Our key codes and feature grids are jointly trained continuously with well-defined gradient flows, leading to high usage rates of the feature grids and improved generative modeling compared to discrete Vector Quantization (VQ). Differently from existing continuous representations such as KL-regularized latent codes, our key codes are strictly bounded in scale and variance. Overall, feature encoding by BRICS is compact, efficient to train, and enables generative modeling over key codes using the diffusion model. Experimental results show that our method achieves comparable reconstruction results to VQ while having a smaller and more efficient decoder network (50% fewer GFlops). By applying the diffusion model over our key code space, we achieve state-of-the-art performance on image synthesis on the FFHQ and LSUN-Church (29% lower than LDM, 32% lower than StyleGAN2, 44% lower than Projected GAN on CLIP-FID) datasets.
翻訳日:2024-01-03 02:18:15 公開日:2023-12-31
# プログラム理解のための雑音ラベル学習に関する実証的研究

An Empirical Study on Noisy Label Learning for Program Understanding ( http://arxiv.org/abs/2307.08990v2 )

ライセンス: Link先を確認
Wenhan Wang, Yanzhou Li, Anran Li, Jian Zhang, Wei Ma, Yang Liu(参考訳) 近年、深層学習モデルがプログラム理解タスクに広く適用されており、これらのモデルは多くのベンチマークデータセットで最先端の結果を達成している。 プログラム理解のためのディープラーニングの大きな課題は、これらのアプローチの有効性がデータセットの品質に依存することである。 データセットを理解するプログラムの典型的なノイズはラベルノイズである。 研究者はノイズラベルの悪影響を軽減するための様々なアプローチを提案し、新しい研究トピックであるノイズラベル学習(nll)を作成した。 本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性に関する実証的研究を行う。 我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。 評価結果から,以下の知見を得た。 1) 学習済みの小型モデルでは, プログラム理解において雑音をラベル付けする傾向が強いが, 学習済みモデルでは頑健性が高い。 2) NLLアプローチは, ノイズの多い訓練セット上での小型モデルのプログラム分類精度を著しく向上させるが, 分類精度の大きな事前学習モデルにはわずかに効果がある。 3)NLLは,プログラム理解における合成雑音を効果的に検出するが,現実の雑音を検出するのに苦労する。 我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。 私たちはコードをhttps://github.com/jacobwh/noise_seでリリースした。

Recently, deep learning models have been widely applied in program understanding tasks, and these models achieve state-of-the-art results on many benchmark datasets. A major challenge of deep learning for program understanding is that the effectiveness of these approaches depends on the quality of their datasets, and these datasets often contain noisy data samples. A typical kind of noise in program understanding datasets is label noise, which means that the target outputs for some inputs are incorrect. Researchers have proposed various approaches to alleviate the negative impact of noisy labels, and formed a new research topic: noisy label learning (NLL). In this paper, we conduct an empirical study on the effectiveness of noisy label learning on deep learning for program understanding datasets. We evaluate various NLL approaches and deep learning models on three tasks: program classification, vulnerability detection, and code summarization. From the evaluation results, we come to the following findings: 1) small trained-from-scratch models are prone to label noises in program understanding, while large pre-trained models are highly robust against them. 2) NLL approaches significantly improve the program classification accuracies for small models on noisy training sets, but they only slightly benefit large pre-trained models in classification accuracies. 3) NLL can effectively detect synthetic noises in program understanding, but struggle in detecting real-world noises. We believe our findings can provide insights on the abilities of NLL in program understanding, and shed light on future works in tackling noises in software engineering datasets. We have released our code at https://github.com/jacobwwh/noise_SE.
翻訳日:2024-01-03 02:10:49 公開日:2023-12-31
# schr\"odinger cat状態測定支援非ガウスゲートの作成:フォック資源状態と立方相状態

Measurement-assisted non-Gaussian gate for Schr\"odinger cat states preparation: Fock resource state versus cubic phase state ( http://arxiv.org/abs/2307.06349v2 )

ライセンス: Link先を確認
A. V. Baeva, N. G. Veselkova, N. I. Masalaeva, and I. V. Sokolov(参考訳) 本稿では,Fock資源状態,量子非破壊(QND)エンタングル操作,ホモダイン測定に基づく計測補助ゲートを用いたSchr\"odinger cat stateの作成について検討する。 従来,同じ目的のために,現実的(有限)スクイーズにおける二次スクイーズ状態から生成される非ガウシアン立方晶相状態を用いたゲートを検討してきた。 両方のスキームの効率、すなわち猫のような重ね合わせを高い忠実度と成功の確率で生成する能力を比較することは明らかである。 本稿では、ゲート演算の正確な理論的記述と並行して、入力フィールド変数の半古典的マッピングに基づく出力状態の明確な視覚的解釈を紹介する。 両方のスキームにおける入力状態のコピーの重ね合わせの出現は、これらのマッピングが出力フィールドオブザーバブルの2つの(または、一般に、それ以上)値セットと互換性があるためである。 両ゲートの出力の詳細な詳細さえも効果的に予測され,我々のアプローチで解釈されることを示す。 我々は、忠実度と成功確率を調べ、フォック状態と立方相状態に基づくゲートが同等の忠実度と(または)成功確率を示す物理パラメータの範囲を明らかにする。

In this paper, we consider the preparation of Schr\"odinger cat states using a measurement-assisted gate based on the Fock resource state, the quantum non-demolition (QND) entangling operation, and the homodyne measurement. Previously we have investigated the gate, which for the same goal uses the ancillary non-Gaussian cubic phase state generated from quadrature squeezed states at realistic (finite) squeezing. It is of evident interest to compare the efficiency of both schemes, that is, their ability to produce cat-like superpositions with high fidelity and probability of success. We introduce, in parallel with the exact theoretical description of the gate operation, a clear visual interpretation of the output state based on the semiclassical mapping of the input field variables. The emergence of the superpositions of copies of the input state in both schemes is due to the fact that such mapping is compatible with two (or, in general, more) sets of values of the output field observables. We demonstrate that even fine details of the output of both gates are effectively predicted and interpreted in our approach. We examine the fidelity and success probability and reveal the ranges of physical parameters where the Fock state-based and the cubic phase state-based gates demonstrate comparable fidelity and (or) probability of success.
翻訳日:2024-01-03 02:10:25 公開日:2023-12-31
# grassroots social networking: メンバーが個人情報とソーシャルグラフを所有し、管理する場

Grassroots Social Networking: Where Members Own and Control their Personal Information and Social Graph ( http://arxiv.org/abs/2306.13941v2 )

ライセンス: Link先を確認
Ehud Shapiro(参考訳) メンバーが個人情報やソーシャルグラフを制御できるソーシャルネットワークのためのアーキテクチャを提供することは、オープンな課題である。 ここでは、サーバーレス、無許可、ピアツーピアのソーシャルネットワークのための草の根アーキテクチャ、Grassroots Social Networkingを紹介します。 このアーキテクチャは、信頼性の低いネットワーク上で通信するローミング(アドレス変更)エージェント、例えばUDPを介して通信するスマートフォンを対象としている。 アーキテクチャは (i)各会員が管理し、維持し、その地域のみをグラフに保存する分散社会グラフ (二)フィードを作成・保存する著者及びフォロワーを伴い、メンバーが作成したフィード (iii)社会グラフの縁に沿ってのみメンバー間のコミュニケーションが行われる草の根拡散プロトコル。 アーキテクチャは、複製された完全に順序付けられたブロックチェーンの部分的に順序付けられた分散データ構造であるブロックレスデータ構造を使用して、これらのコンポーネントを実現する。 当社は、Grassroots Social Networkingプロトコル(TwitterライクとWhatsAppライク)の2つの例を提供し、セキュリティ(安全、ライブ、プライバシ)、スパム/ボット/ディープフェイク耐性、実装に対処し、サーバベースのソーシャルネットワークが草の根アーキテクチャによってどのように置き換えられるかを示す。

Offering an architecture for social networking in which the members are in control of their personal information and social graph is an open challenge. Here we present a grassroots architecture for serverless, permissionless, peer-to-peer social networks termed Grassroots Social Networking that aims to address this challenge. The architecture is geared for roaming (address-changing) agents communicating over an unreliable network, e.g., smartphones communicating via UDP. The architecture incorporates (i) a decentralized social graph, where each member controls, maintains and stores only their local neighborhood in the graph; (ii) member-created feeds, with authors and followers who create and store the feeds; and (iii) a grassroots dissemination protocol, in which communication among members occurs only along the edges of the social graph. The architecture realizes these components using the blocklace data structure -- a distributed partially-ordered counterpart of the replicated totally-ordered blockchain. We provide two example Grassroots Social Networking protocols -- Twitter-like and WhatsApp-like -- and address their security (safety, liveness and privacy), spam/bot/deep-fake resistance, and implementation, demonstrating how server-based social networks could be supplanted by a grassroots architecture.
翻訳日:2024-01-03 02:07:30 公開日:2023-12-31
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v5 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh(参考訳) 量子基礎の基本的な結果の1つがkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が知られているが、最小のKSベクトル系を3次元で見つけるという問題は55年以上も頑固に開き続けている。 本稿では,この問題を解決するために,ブール充足可能性 (SAT) と計算機代数システム (CAS) を組み合わせた新しい手法を提案する。 本手法は,3次元のks系が少なくとも24ベクトルを含む必要があることを示す。 SAT+CAS法は従来のCAS検索よりも22ベクトルの既知下界の導出において35,000倍高速である。 より重要なことは、KS問題の低い境界のコンピュータで検証可能な最初の証明証明書を、23で41.6 TiBの証明サイズで提供することである。 この効率の向上は、SATソルバの強力な組合せ探索学習能力と、CASをベースとしたグラフを秩序に生成するイソモルフィックフリーの徹底的な方法を利用することができるという事実による。 我々の研究は、量子基礎の領域における問題に対するSAT+CAS法の第一の応用であり、コンピュータで検証可能な証明証明を持つ最小コチェン=スペーカー問題における第一の下位境界である。

One of the fundamental results in quantum foundations is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known, the problem of finding the minimum KS vector system in three dimensions has remained stubbornly open for over 55 years. In this paper, we present a new method based on a combination of a Boolean satisfiability (SAT) solver and a computer algebra system (CAS) to address this problem. Our approach shows that a KS system in three dimensions must contain at least 24 vectors. Our SAT+CAS method is over 35,000 times faster at deriving the previously known lower bound of 22 vectors than the prior CAS-based searches. More importantly, we provide the first computer-verifiable proof certificate of a lower bound in the KS problem with a proof size of 41.6 TiB in order 23. The increase in efficiency is due to the fact we are able to exploit the powerful combinatorial search-with-learning capabilities of SAT solvers, together with the CAS-based isomorph-free exhaustive method of orderly generation of graphs. To the best of our knowledge, our work is the first application of a SAT+CAS method to a problem in the realm of quantum foundations and the first lower bound in the minimum Kochen-Specker problem with a computer-verifiable proof certificate.
翻訳日:2024-01-03 02:06:44 公開日:2023-12-31
# 廃棄物を湿潤化する - 連続条件生成対向ネットワークの強化のための低品質サンプルの活用

Turning Waste into Wealth: Leveraging Low-Quality Samples for Enhancing Continuous Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2308.10273v3 )

ライセンス: Link先を確認
Xin Ding and Yongwei Wang and Zuheng Xu(参考訳) Continuous Conditional Generative Adversarial Networks (CcGANs) は、連続スカラー変数 (termed regression labels) に基づく生成的モデリングを可能にする。 しかし、トレーニングデータに制限があるため、偽画像も生成できる。 負データ拡張(NDA)は、実際のトレーニング画像に異常を導入し、低品質の出力からGANを誘導することにより、非条件およびクラス条件のGANを効果的に強化するが、CcGANサンプリング中に発生する負のサンプルを複製できないため、そのCcGANへの影響は限定的である。 この問題に対処するために,CcGAN に適した新しい NDA アプローチである Dual-NDA を提案する。 Dual-NDAは、事前訓練されたCcGANから生成された視覚的に非現実的なイメージと、実画像のラベルを操作することによって生成されたラベル一貫性のないイメージの2つのタイプの負のサンプルを使用している。 これらの負のサンプルを活用し,修正ccganトレーニングアルゴリズムと並行して,新たな判別対象を導入する。 UTKFace と Steering Angle の実証分析により、Dual-NDA は CcGAN が生成した偽画像の視覚的忠実度とラベルの一貫性を一貫して向上し、バニラ NDA よりもかなりの性能向上を示した。 さらに、Dual-NDAを適用することで、CcGANsは最先端の条件付きGANと拡散モデルの能力を超える顕著な進歩を示し、新しい性能のパイナクルを確立した。 私たちのコードはhttps://github.com/UBCDingXin/Dual-NDA.orgで参照できます。

Continuous Conditional Generative Adversarial Networks (CcGANs) enable generative modeling conditional on continuous scalar variables (termed regression labels). However, they can produce subpar fake images due to limited training data. Although Negative Data Augmentation (NDA) effectively enhances unconditional and class-conditional GANs by introducing anomalies into real training images, guiding the GANs away from low-quality outputs, its impact on CcGANs is limited, as it fails to replicate negative samples that may occur during the CcGAN sampling. We present a novel NDA approach called Dual-NDA specifically tailored for CcGANs to address this problem. Dual-NDA employs two types of negative samples: visually unrealistic images generated from a pre-trained CcGAN and label-inconsistent images created by manipulating real images' labels. Leveraging these negative samples, we introduce a novel discriminator objective alongside a modified CcGAN training algorithm. Empirical analysis on UTKFace and Steering Angle reveals that Dual-NDA consistently enhances the visual fidelity and label consistency of fake images generated by CcGANs, exhibiting a substantial performance gain over the vanilla NDA. Moreover, by applying Dual-NDA, CcGANs demonstrate a remarkable advancement beyond the capabilities of state-of-the-art conditional GANs and diffusion models, establishing a new pinnacle of performance. Our codes can be found at https://github.com/UBCDingXin/Dual-NDA.
翻訳日:2024-01-03 02:00:21 公開日:2023-12-31
# スパース主成分分析のアルゴリズムと障壁は、他の構造化設定にも拡張できるか?

Do algorithms and barriers for sparse principal component analysis extend to other structured settings? ( http://arxiv.org/abs/2307.13535v2 )

ライセンス: Link先を確認
Guanyi Wang, Mengqi Lou, Ashwin Pananjady(参考訳) 本研究では、信号の構造をサブスペースの和合モデルによって捉えたスパイクド・ウィッシュアートモデルに基づく主成分分析問題について検討する。 この一般的なクラスは、バニラスパースPCAと、グラフ空間の変動を含む。 これらの問題を統一的な統計・計算レンズで研究することを目的として,問題インスタンスの形状に依存する基本的な限界を定式化し,その解の統計的に最適に近い近傍に局所収束することを示す。 これらの結果は,パスとツリーの疎結合によって与えられる2つの重要な特殊ケースを概ねエンドツーエンドで解析し,初期化法と計算硬度の整合性を示す。 以上の結果から,バニラスパースPCAで観察される現象のいくつかは,自然にその構造に反するものであることが示唆された。

We study a principal component analysis problem under the spiked Wishart model in which the structure in the signal is captured by a class of union-of-subspace models. This general class includes vanilla sparse PCA as well as its variants with graph sparsity. With the goal of studying these problems under a unified statistical and computational lens, we establish fundamental limits that depend on the geometry of the problem instance, and show that a natural projected power method exhibits local convergence to the statistically near-optimal neighborhood of the solution. We complement these results with end-to-end analyses of two important special cases given by path and tree sparsity in a general basis, showing initialization methods and matching evidence of computational hardness. Overall, our results indicate that several of the phenomena observed for vanilla sparse PCA extend in a natural fashion to its structured counterparts.
翻訳日:2024-01-03 01:55:16 公開日:2023-12-31
# 深層学習アルゴリズムを用いた核形態計測は犬皮膚肥満細胞腫瘍の予後と相関する

Nuclear Morphometry using a Deep Learning-based Algorithm has Prognostic Relevance for Canine Cutaneous Mast Cell Tumors ( http://arxiv.org/abs/2309.15031v2 )

ライセンス: Link先を確認
Andreas Haghofer, Eda Parlak, Alexander Bartel, Taryn A. Donovan, Charles-Antoine Assenmacher, Pompei Bolfa, Michael J. Dark, Andrea Fuchs-Baumgartinger, Andrea Klang, Kathrin J\"ager, Robert Klopfleisch, Sophie Merz, Barbara Richter, F. Yvonne Schulman, Jonathan Ganz, Josef Scharinger, Marc Aubreville, Stephan M. Winkler, Matti Kiupel, Christof A. Bertram(参考訳) 核の大きさと形状の変化は多くの腫瘍の悪性度の重要な基準であるが、病理学者による分類学的推定は再現性に乏しい。 核特性の測定(モルフォメトリー)は再現性を向上させるが、手動の手法は時間を要する。 本研究では,犬の皮膚マスト細胞腫瘍96例の深層学習アルゴリズムを用いて,完全自動形態計測を行い,患者の生存状況について検討した。 アルゴリズムによる形態計測は,11名の病理組織学的評価,9名の病理組織学による12細胞の手動核形態計測,および有糸分裂率を指標とした。 腫瘍特異的生存率 (0.943: 95% CI: 0.889 - 0.996) は核領域の標準偏差 (SD) よりも高い値 (0.868, 95% CI: 0.737 - 0.991) と mitotic count (0.885, 95% CI: 0.765 - 1.00) であった。 提案したしきい値において、アルゴリズム形態計測のハザード比は18.3 (95% ci: 5.0 - 67.1)、手動形態計測 (95% ci: 10.9 \mu m^2$) 9.0 (95% ci: 6.0 - 13.4)、karyomegaly estimated 7.6 (95% ci: 5.7 - 10.1)、mitotic count 30.5 (95% ci: 7.8 - 118.0)であった。 カリオメガリー推定値の再現性はfair (\kappa$ = 0.226) であり、個々の病理学者の感度・特異性は高い。 手動形態計測(核領域SD)の再現性は良好であった(ICC = 0.654)。 本研究は, 推定値と手動測定値の限界を克服するための予測テストとして, アルゴリズムモーフォメトリの利用を支持する。

Variation in nuclear size and shape is an important criterion of malignancy for many tumor types; however, categorical estimates by pathologists have poor reproducibility. Measurements of nuclear characteristics (morphometry) can improve reproducibility, but manual methods are time consuming. In this study, we evaluated fully automated morphometry using a deep learning-based algorithm in 96 canine cutaneous mast cell tumors with information on patient survival. Algorithmic morphometry was compared with karyomegaly estimates by 11 pathologists, manual nuclear morphometry of 12 cells by 9 pathologists, and the mitotic count as a benchmark. The prognostic value of automated morphometry was high with an area under the ROC curve regarding the tumor-specific survival of 0.943 (95% CI: 0.889 - 0.996) for the standard deviation (SD) of nuclear area, which was higher than manual morphometry of all pathologists combined (0.868, 95% CI: 0.737 - 0.991) and the mitotic count (0.885, 95% CI: 0.765 - 1.00). At the proposed thresholds, the hazard ratio for algorithmic morphometry (SD of nuclear area $\geq 9.0 \mu m^2$) was 18.3 (95% CI: 5.0 - 67.1), for manual morphometry (SD of nuclear area $\geq 10.9 \mu m^2$) 9.0 (95% CI: 6.0 - 13.4), for karyomegaly estimates 7.6 (95% CI: 5.7 - 10.1), and for the mitotic count 30.5 (95% CI: 7.8 - 118.0). Inter-rater reproducibility for karyomegaly estimates was fair ($\kappa$ = 0.226) with highly variable sensitivity/specificity values for the individual pathologists. Reproducibility for manual morphometry (SD of nuclear area) was good (ICC = 0.654). This study supports the use of algorithmic morphometry as a prognostic test to overcome the limitations of estimates and manual measurements.
翻訳日:2024-01-03 01:48:11 公開日:2023-12-31
# IMUに基づく歩行認証に関する辞書攻撃

Dictionary Attack on IMU-based Gait Authentication ( http://arxiv.org/abs/2309.11766v2 )

ライセンス: Link先を確認
Rajesh Kumar and Can Isik and Chilukuri K. Mohan(参考訳) スマートフォンに内蔵された慣性計測ユニット(IMU)によって記録された歩行パターンを利用する認証システムに対する新たな逆方向モデルを提案する。 攻撃のアイデアは、知識(PINまたはパスワード)ベースの認証システムに対する辞書攻撃の概念に触発され、命名された。 特に、IMUGaitパターンの辞書を作成して攻撃を開始するか、ターゲットのIMUGaitパターンにマッチするIMUGaitパターンを積極的に再現できる模倣者を見つけることができるかを検討する。 9人の身体的および人口的多様な個体が、予め定義された4つの歩行因子(速度、歩幅、歩幅、大腿リフト)の様々なレベルを歩行し、178種類のIMUGaitパターンを生み出した。 各パターンは様々なユーザー認証モデルを攻撃した。 IMUGaitパターンに基づく認証システムが最も難解であるという考えに対して、攻撃前および攻撃後におけるエラー率のより深い分析は、敵のモデルや関連する対策についてさらなる研究が必要である。

We present a novel adversarial model for authentication systems that use gait patterns recorded by the inertial measurement unit (IMU) built into smartphones. The attack idea is inspired by and named after the concept of a dictionary attack on knowledge (PIN or password) based authentication systems. In particular, this work investigates whether it is possible to build a dictionary of IMUGait patterns and use it to launch an attack or find an imitator who can actively reproduce IMUGait patterns that match the target's IMUGait pattern. Nine physically and demographically diverse individuals walked at various levels of four predefined controllable and adaptable gait factors (speed, step length, step width, and thigh-lift), producing 178 unique IMUGait patterns. Each pattern attacked a wide variety of user authentication models. The deeper analysis of error rates (before and after the attack) challenges the belief that authentication systems based on IMUGait patterns are the most difficult to spoof; further research is needed on adversarial models and associated countermeasures.
翻訳日:2024-01-03 01:46:57 公開日:2023-12-31
# 熱力学および構成パラメータを用いた高エントロピー合金の相・結晶構造予測改善のための機械学習フレームワーク

A Boosted Machine Learning Framework for the Improvement of Phase and Crystal Structure Prediction of High Entropy Alloys Using Thermodynamic and Configurational Parameters ( http://arxiv.org/abs/2309.00993v2 )

ライセンス: Link先を確認
Debsundar Dey, Suchandan Das, Anik Pal, Santanu Dey, Chandan Kumar Raul, Arghya Chatterjee(参考訳) 高エントロピー合金(HEAs)の顕著な性質の背後にある理由は、それらを含む様々な相と結晶構造に根ざしている。 材料情報学の分野では、HEAの相と結晶構造を分類するために機械学習(ML)技術を用いることが大きな意味を持つ。 本研究では,位相を予測するため,異なる組成の1345個のHAAを新たに収集した。 このコレクションには705個のデータがあり、熱力学と電子配置の助けを借りて結晶構造を予測するために使われた。 本研究では,Pearson相関係数という方法論的枠組みを導入し,相関関係の強い特徴の選択と予測精度の向上を支援する。 本研究は、位相と結晶構造を予測するために5つの異なるブースティングアルゴリズムを用い、これらの予測の精度を向上させるためのガイドラインを改良した。 これらのアルゴリズムの中で、XGBoostは位相の予測の最高精度(94.05%)を与え、LightGBMは位相の結晶構造の予測の最高精度(90.07%)を与える。 モデルの精度にパラメータが与える影響の定量化を行い, 位相予測と結晶構造予測のプロセスにおける個々のパラメータの寄与を解明するための新しいアプローチを行った。

The reason behind the remarkable properties of High-Entropy Alloys (HEAs) is rooted in the diverse phases and the crystal structures they contain. In the realm of material informatics, employing machine learning (ML) techniques to classify phases and crystal structures of HEAs has gained considerable significance. In this study, we assembled a new collection of 1345 HEAs with varying compositions to predict phases. Within this collection, there were 705 sets of data that were utilized to predict the crystal structures with the help of thermodynamics and electronic configuration. Our study introduces a methodical framework i.e., the Pearson correlation coefficient that helps in selecting the strongly co-related features to increase the prediction accuracy. This study employed five distinct boosting algorithms to predict phases and crystal structures, offering an enhanced guideline for improving the accuracy of these predictions. Among all these algorithms, XGBoost gives the highest accuracy of prediction (94.05%) for phases and LightGBM gives the highest accuracy of prediction of crystal structure of the phases (90.07%). The quantification of the influence exerted by parameters on the model's accuracy was conducted and a new approach was made to elucidate the contribution of individual parameters in the process of phase prediction and crystal structure prediction.
翻訳日:2024-01-03 01:45:09 公開日:2023-12-31
# 適応型パーソナライズレイヤーを用いた2段階デカップリング

Federated Two Stage Decoupling With Adaptive Personalization Layers ( http://arxiv.org/abs/2308.15821v2 )

ライセンス: Link先を確認
Hangyu Zhu, Yuxiang Fan, Zhenping Xie(参考訳) フェデレーテッド・ラーニングは、プライバシーの制約を維持しながら分散学習を可能にするという画期的な能力によって大きな注目を集めている。 しかし、分散デバイス間のデータ不均一性の結果、本質的には学習劣化と収束速度の低下を経験する。 したがって、同種クライアントを同じ群にクラスタリングするという概念を採用することは自然であり、各群内のモデル重みのみを集約することができる。 既存のクラスタ型フェデレーション学習手法のほとんどは、モデル勾配や推論出力をクライアント分割のメトリクスとして採用しているが、同様のデバイスをグループ化することを目的としているため、各クラスタ内にも異種性がある可能性がある。 さらに、クラスタリングの適切なタイミングを決定するための基礎となる理由を探求する研究は少なく、特に非独立で同一に分散した(Non-IID)データのコンテキストにおいて、各クライアントを個別のクラスタに割り当てる一般的な実践となっている。 本稿では,FedTSDPという適応型パーソナライズ層を持つ2段階のデカップリングフェデレーション学習アルゴリズムを提案する。 ホプキンス修正サンプリングは、公開ラベルなしデータのクラスタリングの適切なタイミングとサンプリング重みを決定するために採用されている。 また,多様なデータスキューに基づいてパーソナライズ層を適応的に調整する,単純かつ効果的な手法を開発した。 実験の結果,提案手法はIIDと非IIDの両方のシナリオで信頼性の高い性能を示すことがわかった。

Federated learning has gained significant attention due to its groundbreaking ability to enable distributed learning while maintaining privacy constraints. However, as a consequence of data heterogeneity among decentralized devices, it inherently experiences significant learning degradation and slow convergence speed. Therefore, it is natural to employ the concept of clustering homogeneous clients into the same group, allowing only the model weights within each group to be aggregated. While most existing clustered federated learning methods employ either model gradients or inference outputs as metrics for client partitioning, with the goal of grouping similar devices together, may still have heterogeneity within each cluster. Moreover, there is a scarcity of research exploring the underlying reasons for determining the appropriate timing for clustering, resulting in the common practice of assigning each client to its own individual cluster, particularly in the context of highly non independent and identically distributed (Non-IID) data. In this paper, we introduce a two-stage decoupling federated learning algorithm with adaptive personalization layers named FedTSDP, where client clustering is performed twice according to inference outputs and model weights, respectively. Hopkins amended sampling is adopted to determine the appropriate timing for clustering and the sampling weight of public unlabeled data. In addition, a simple yet effective approach is developed to adaptively adjust the personalization layers based on varying degrees of data skew. Experimental results show that our proposed method has reliable performance on both IID and non-IID scenarios.
翻訳日:2024-01-03 01:44:48 公開日:2023-12-31
# 自己教師付きカリキュラム学習によるネステッドブール論理の強化

Empower Nested Boolean Logic via Self-Supervised Curriculum Learning ( http://arxiv.org/abs/2310.05450v2 )

ライセンス: Link先を確認
Hongqiu Wu, Linfeng Liu, Hai Zhao, Min Zhang(参考訳) 言語モデルによって示される大きな認知能力を超えて、その推論能力が強い一般化に起因するのか、単に関連するデータへの露出に起因するのかを精査することが重要である。 複雑な論理を構成するのとは対照的に,本論文では論理推論器の根元能力であるブール論理を考察する。 大規模言語モデルを含む任意の事前学習された言語モデルは、人間が容易に扱えるタスクであるマルチネストブール論理の面において、ランダムセレクタのように振る舞う。 この基本的な能力で言語モデルを強化するために,我々は,学習データをネストしたブール論理チェインで段階的に拡張し,より単純な論理パターンからより難しいパターンへと徐々にトレーニングをプログラムする,新しい自己教師付き学習手法 \textit{curriculum logical reasoning} (\textsc{clr})を提案する。 この新たなトレーニングパラダイムにより、言語モデルはより難しく、より長いホップ論理に効果的に一般化することができる。 さらに、ブール論理は、その後の一般的な論理タスクを改善するための優れた基盤であることを示す。

Beyond the great cognitive powers showcased by language models, it is crucial to scrutinize whether their reasoning capabilities stem from strong generalization or merely exposure to relevant data. As opposed to constructing increasingly complex logic, this paper probes into the boolean logic, the root capability of a logical reasoner. We find that any pre-trained language models even including large language models only behave like a random selector in the face of multi-nested boolean logic, a task that humans can handle with ease. To empower language models with this fundamental capability, this paper proposes a new self-supervised learning method \textit{Curriculum Logical Reasoning} (\textsc{Clr}), where we augment the training data with nested boolean logic chain step-by-step, and program the training from simpler logical patterns gradually to harder ones. This new training paradigm allows language models to effectively generalize to much harder and longer-hop logic, which can hardly be learned through naive training. Furthermore, we show that boolean logic is a great foundation for improving the subsequent general logical tasks.
翻訳日:2024-01-03 01:36:09 公開日:2023-12-31
# 自己監督型学習のためのハードビュー選択

Hard View Selection for Self-Supervised Learning ( http://arxiv.org/abs/2310.03940v4 )

ライセンス: Link先を確認
Fabio Ferreira, Ivo Rapant, Frank Hutter(参考訳) 多くの自己監視学習(SSL)メソッドは、優れたデータ拡張パイプラインが不可欠であるイメージ入力の異なる"ビュー"に不変であるようにモデルをトレーニングする。 プリテキストタスク、アーキテクチャ、ロバスト性の改善(例えば、シームズネットワークや教師ソフトマックス中心化など)にかなりの努力が払われたが、これらの手法の大半は、ランダムな再サイズ作物や色歪み操作のような画像拡張パイプライン内の操作のランダムサンプリングに強く依存している。 本稿では,ビュー生成の役割とそのパフォーマンスへの影響が,これまでのところ十分注目されていないことを論じる。 これに対処するために,ssl トレーニング中にトレーニング済みモデルをハードサンプルに公開するために,ランダムビュー生成を拡張するように設計された,簡単で学習不要かつ強力なハードビュー選択 (hvs) 戦略を提案する。 以下の反復的なステップを含む。 1)複数のビューをランダムにサンプリングし、2つのビューのペアを作成する。 2) トレーニング済みのモデルでは,ビューペアごとに前方パスを実行します。 3) 反対に,最悪の損失をもたらすペアを選択し, 4) 選択したペアで後方パスを実行する。 実験分析の結果,hvsでは,事前学習中のビューの結合を制御し,タスクの難易度を高めることが示された。 300-epochプリトレインのみにより、hvsは800-epoch dinoベースラインと密接に競合することができ、これはhvsの追加のフォワードによって引き起こされる減速の要因としても非常に有利である。 さらに、HVSは、リニア評価とDINO、SimSiam、iBOT、SimCLRなどの複数のSSLメソッド間の転送タスクにおける同様の改善で、ImageNetの0.4%から1.9%の精度改善を一貫して達成している。

Many Self-Supervised Learning (SSL) methods train their models to be invariant to different "views" of an image input for which a good data augmentation pipeline is crucial. While considerable efforts were directed towards improving pre-text tasks, architectures, or robustness (e.g., Siamese networks or teacher-softmax centering), the majority of these methods remain strongly reliant on the random sampling of operations within the image augmentation pipeline, such as the random resized crop or color distortion operation. In this paper, we argue that the role of the view generation and its effect on performance has so far received insufficient attention. To address this, we propose an easy, learning-free, yet powerful Hard View Selection (HVS) strategy designed to extend the random view generation to expose the pretrained model to harder samples during SSL training. It encompasses the following iterative steps: 1) randomly sample multiple views and create pairs of two views, 2) run forward passes for each view pair on the currently trained model, 3) adversarially select the pair yielding the worst loss, and 4) run the backward pass with the selected pair. In our empirical analysis we show that under the hood, HVS increases task difficulty by controlling the Intersection over Union of views during pretraining. With only 300-epoch pretraining, HVS is able to closely rival the 800-epoch DINO baseline which remains very favorable even when factoring in the slowdown induced by the additional forwards of HVS. Additionally, HVS consistently achieves accuracy improvements on ImageNet between 0.4% and 1.9% on linear evaluation and similar improvements on transfer tasks across multiple SSL methods, such as DINO, SimSiam, iBOT, and SimCLR.
翻訳日:2024-01-03 01:34:51 公開日:2023-12-31
# 偽情報コンバットのためのAI技術の実験:IDMOプロジェクト

Experimenting AI Technologies for Disinformation Combat: the IDMO Project ( http://arxiv.org/abs/2310.11097v5 )

ライセンス: Link先を確認
Lorenzo Canale, Alberto Messina(参考訳) イタリアのデジタルメディア天文台(IDMO)プロジェクトは、偽情報や偽ニュースに対抗することに焦点を当てている。 本報告では,プロジェクトへのrai-critsからの貢献について概説する。 (i)試験技術のための新規データセットの作成 (ii)幅広い分析を容易にするためにpagella politica verdictsを分類する自動モデルの開発 (iii)フィーバーデータセットにおける例外的正確性を伴う文章の包含認識のための自動モデルの作成 (iv)gpt-4によるコンテンツ処理スタイル検出の評価 (v)全国のイベントで偽ニュースに対する意識を高めるゲーム。

The Italian Digital Media Observatory (IDMO) project, part of a European initiative, focuses on countering disinformation and fake news. This report outlines contributions from Rai-CRITS to the project, including: (i) the creation of novel datasets for testing technologies (ii) development of an automatic model for categorizing Pagella Politica verdicts to facilitate broader analysis (iii) creation of an automatic model for recognizing textual entailment with exceptional accuracy on the FEVER dataset (iv) assessment using GPT-4 to detecting content treatment style (v) a game to raise awareness about fake news at national events.
翻訳日:2024-01-03 01:23:29 公開日:2023-12-31
# 双方向長期記憶ネットワークを用いた色生成

Generation Of Colors using Bidirectional Long Short Term Memory Networks ( http://arxiv.org/abs/2311.06542v3 )

ライセンス: Link先を確認
A. Sinha(参考訳) 人間の視覚は、200万から700万の識別可能な色合いと推定される広大な色を区別することができる。 しかし、この印象的な範囲は、これらの色が我々の辞書の中で正確に命名され、記述されていることを本質的に意味していない。 私たちはしばしば、日常生活で身近な物体や概念と色を関連付けます。 この研究は、無数の陰影に対する視覚的認識と、それらを正確に表現し、命名する能力のギャップを埋めようとしている。 この目的を達成するために,双方向長短期記憶(BiLSTM)ネットワークとアクティブラーニングを利用した新しいモデルが開発された。 このモデルは、この研究のために慎重にキュレートされたプロプライエタリなデータセット上で動作する。 本研究の主な目的は、以前は名前のない色を分類・命名したり、伝統的な色用語を損なう中間色を識別するための多用途ツールを作ることである。 この発見は、色知覚と言語に対する我々の理解を革新するこの革新的なアプローチの可能性を基礎にしている。 本研究は, 厳密な実験と分析を通じて, 多様な産業における自然言語処理(NLP)応用の道筋を照らすものである。 広い色スペクトルの探索を容易にすることで、NLPの潜在的な応用は従来の境界を越えて拡張される。

Human vision can distinguish between a vast spectrum of colours, estimated to be between 2 to 7 million discernible shades. However, this impressive range does not inherently imply that all these colours have been precisely named and described within our lexicon. We often associate colours with familiar objects and concepts in our daily lives. This research endeavors to bridge the gap between our visual perception of countless shades and our ability to articulate and name them accurately. A novel model has been developed to achieve this goal, leveraging Bidirectional Long Short-Term Memory (BiLSTM) networks with Active learning. This model operates on a proprietary dataset meticulously curated for this study. The primary objective of this research is to create a versatile tool for categorizing and naming previously unnamed colours or identifying intermediate shades that elude traditional colour terminology. The findings underscore the potential of this innovative approach in revolutionizing our understanding of colour perception and language. Through rigorous experimentation and analysis, this study illuminates a promising avenue for Natural Language Processing (NLP) applications in diverse industries. By facilitating the exploration of the vast colour spectrum the potential applications of NLP are extended beyond conventional boundaries.
翻訳日:2024-01-03 01:13:19 公開日:2023-12-31
# オンラインテストタイム適応の損失の検索:サーベイ

In Search of Lost Online Test-time Adaptation: A Survey ( http://arxiv.org/abs/2310.20199v2 )

ライセンス: Link先を確認
Zixin Wang, Yadan Luo, Liang Zheng, Zhuoxiao Chen, Sen Wang, Zi Huang(参考訳) 本稿では、バッチ到着時に新しいデータ分布に機械学習モデルを適用することに焦点を当てた、オンラインテスト時間適応(OTTA)に関する総合的な調査を行う。 近年のottaメソッドの急増にもかかわらず、この分野は曖昧な設定、時代遅れのバックボーン、一貫性のないハイパーパラメータチューニングといった問題に潜んでいる。 明快さと厳密な比較のために、OTTA手法を3つの主要なカテゴリに分類し、強力な視覚変換器(ViT)のバックボーンを用いてベンチマークを行い、真に効果的な戦略を発見する。 ベンチマークは,cifar-10/100-cやimagenet-cといった従来型の破損したデータセットだけでなく,cifar-10.1やcifar-10-warehouseに具体化された実世界のシフトにも及ぶ。 オンラインシナリオの効率を計測するために,フロップを包含する新しい評価指標を導入し,適応精度と計算オーバーヘッドのトレードオフを浮き彫りにする。 その結果,(1)トランスフォーマは多様な領域シフトに対して高い反発性を示し,(2)多くのotta法の有効性は豊富なバッチサイズにかかっている,(3)最適化と摂動に対する耐性の安定性は適応中,特にバッチサイズが1。 これらの知見に感銘を受け、将来的な研究の方向性を指摘した。 ソースコードはhttps://github.com/jo-wang/otta_vit_survey。

In this paper, we present a comprehensive survey on online test-time adaptation (OTTA), a paradigm focused on adapting machine learning models to novel data distributions upon batch arrival. Despite the proliferation of OTTA methods recently, the field is mired in issues like ambiguous settings, antiquated backbones, and inconsistent hyperparameter tuning, obfuscating the real challenges and making reproducibility elusive. For clarity and a rigorous comparison, we classify OTTA techniques into three primary categories and subject them to benchmarks using the potent Vision Transformer (ViT) backbone to discover genuinely effective strategies. Our benchmarks span not only conventional corrupted datasets such as CIFAR-10/100-C and ImageNet-C but also real-world shifts embodied in CIFAR-10.1 and CIFAR-10-Warehouse, encapsulating variations across search engines and synthesized data by diffusion models. To gauge efficiency in online scenarios, we introduce novel evaluation metrics, inclusive of FLOPs, shedding light on the trade-offs between adaptation accuracy and computational overhead. Our findings diverge from existing literature, indicating: (1) transformers exhibit heightened resilience to diverse domain shifts, (2) the efficacy of many OTTA methods hinges on ample batch sizes, and (3) stability in optimization and resistance to perturbations are critical during adaptation, especially when the batch size is 1. Motivated by these insights, we pointed out promising directions for future research. The source code is made available: https://github.com/Jo-wang/OTTA_ViT_survey.
翻訳日:2024-01-03 01:10:44 公開日:2023-12-31
# 深層学習における幾何適応勾配勾配による一様指数速度での大域的$\mathcal{L}^2$最小化

Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning ( http://arxiv.org/abs/2311.15487v2 )

ライセンス: Link先を確認
Thomas Chen(参考訳) 我々は,深層学習ネットワークにおける$\mathcal{l}^2$コスト関数の最小化に広く用いられている勾配降下流を考察し,過パラメータ設定に適応したバージョンと過パラメータ設定に適応したバージョンを2つ導入した。 どちらも明快で自然な不変な幾何学的意味を持ち、オーバーパラメトリゼーションにおけるプルバックベクトルバンドル構造とアンダーパラメトリゼーションされた設定におけるプッシュフォワードベクトルバンドル構造を考慮に入れている。 過パラメータ化の場合、ランク条件が成り立つならば、修正された勾配降下の全ての軌道は、一様指数収束率で、$\mathcal{l}^2$コストをその大域的最小値に駆動する。 後者と部分リーマン幾何学の関係を指摘する。

We consider the gradient descent flow widely used for the minimization of the $\mathcal{L}^2$ cost function in Deep Learning networks, and introduce two modified versions; one adapted for the overparametrized setting, and the other for the underparametrized setting. Both have a clear and natural invariant geometric meaning, taking into account the pullback vector bundle structure in the overparametrized, and the pushforward vector bundle structure in the underparametrized setting. In the overparametrized case, we prove that, provided that a rank condition holds, all orbits of the modified gradient descent drive the $\mathcal{L}^2$ cost to its global minimum at a uniform exponential convergence rate; one thereby obtains an a priori stopping time for any prescribed proximity to the global minimum. We point out relations of the latter to sub-Riemannian geometry.
翻訳日:2024-01-03 00:59:46 公開日:2023-12-31
# 安定な未学習例:安定な誤り最小化雑音による未学習例のロバスト性向上

Stable Unlearnable Example: Enhancing the Robustness of Unlearnable Examples via Stable Error-Minimizing Noise ( http://arxiv.org/abs/2311.13091v2 )

ライセンス: Link先を確認
Yixin Liu, Kaidi Xu, Xun Chen, and Lichao Sun(参考訳) 大量の画像データのオープンソースは、ディープラーニング技術の開発を促進する。 これと同時に、これらのオープンソースイメージデータセットが不正な第三者によって悪用され、商用または違法な目的でディープラーニングモデルをトレーニングされるという、プライバシリスクも伴う。 一般データへの悪用を避けるため,有毒化技術である無害化手法を提案し,データにある種の知覚不能ノイズを加えることにより,モデルの一般化性能を著しく低下させる。 対人訓練に対する堅牢性をさらに強化するため、既存の研究は防御ノイズと代理モデルの両方で反復対人訓練を活用している。 しかし, サロゲートモデルの強化や防音効果が, 未学習例の頑健性に起因しているかどうかは不明である。 防衛騒音の訓練過程における逆雑音の除去がロバストな既知例の性能を改善することを観察し,サロゲートモデルのロバスト性のみが性能に寄与することを示す。 さらに, 防音性能と防音性能との間には負の相関が認められ, 防音の不安定性の問題が示唆された。 そこで本研究では, 安定な雑音最小化ノイズ (SEM) を導入し, 防御騒音の安定性を向上させるために, 時間を要する対向的摂動ではなく, ランダムな摂動に対する防御ノイズを訓練する。 本研究では,CIFAR-10, CIFAR-100, ImageNet SubsetにおけるSEMの性能を,有効性と効率の両面から検証した。 コードはhttps://github.com/liuyixin-louis/stable-unlearnable-exampleで入手できる。

The open source of large amounts of image data promotes the development of deep learning techniques. Along with this comes the privacy risk of these open-source image datasets being exploited by unauthorized third parties to train deep learning models for commercial or illegal purposes. To avoid the abuse of public data, a poisoning-based technique, the unlearnable example, is proposed to significantly degrade the generalization performance of models by adding a kind of imperceptible noise to the data. To further enhance its robustness against adversarial training, existing works leverage iterative adversarial training on both the defensive noise and the surrogate model. However, it still remains unknown whether the robustness of unlearnable examples primarily comes from the effect of enhancement in the surrogate model or the defensive noise. Observing that simply removing the adversarial noise on the training process of the defensive noise can improve the performance of robust unlearnable examples, we identify that solely the surrogate model's robustness contributes to the performance. Furthermore, we found a negative correlation exists between the robustness of defensive noise and the protection performance, indicating defensive noise's instability issue. Motivated by this, to further boost the robust unlearnable example, we introduce stable error-minimizing noise (SEM), which trains the defensive noise against random perturbation instead of the time-consuming adversarial perturbation to improve the stability of defensive noise. Through extensive experiments, we demonstrate that SEM achieves a new state-of-the-art performance on CIFAR-10, CIFAR-100, and ImageNet Subset in terms of both effectiveness and efficiency. The code is available at https://github.com/liuyixin-louis/Stable-Unlearnable-Example.
翻訳日:2024-01-03 00:58:59 公開日:2023-12-31
# 検出可能性の絡み合い対策

Entanglement measures for detectability ( http://arxiv.org/abs/2311.11189v2 )

ライセンス: Link先を確認
Masahito Hayashi and Yuki Ito(参考訳) 仮説テスト設定に基づく検出性能として,新たな絡み合い尺度を提案する。 量子サノフ定理を拡張して絡み合った状態を検出する方法を明らかにする。 解析は有限長設定を扱っている。 このエンタングルメント測度をエクスプロットし、この測度の幾何学的構造を用いてエンタングルメント証人を導出し、与えられたエンタングルド状態を検出する方法を示す。 最大相関状態に対するそれらの計算式を導出し、一般的な絡み合った状態に作用するアルゴリズムを提案する。 さらに,本アルゴリズムがメンバシップ問題に対する分離可能性の解決にどのように役立つかを検討する。

We propose new entanglement measures as the detection performance based on the hypothesis testing setting. We clarify how our measures work for detecting an entangled state by extending the quantum Sanov theorem. Our analysis covers the finite-length setting. Exploiting this entanglement measure, we present how to derive entanglement witness to detect the given entangled state by using the geometrical structure of this measure. We derive their calculation formulas for maximally correlated states, and propose their algorithms that work for general entangled states. In addition, we investigate how our algorithm works for solving the membership problem for separability.
翻訳日:2024-01-03 00:57:39 公開日:2023-12-31
# クロスコントラストパッチ埋め込みによる山火事煙検出

Wildfire Smoke Detection with Cross Contrast Patch Embedding ( http://arxiv.org/abs/2311.10116v2 )

ライセンス: Link先を確認
Chong Wang, Cheng Xu, Adeel Akram, Zhilin Shan, Qixing Zhang(参考訳) Transformerベースのディープネットワークは、CNNに対して大きな優位性を示している。 いくつかの既存の研究は、山火事の認識や検知の分野に適用している。 しかし,バニラ変圧器は煙の特徴抽出に適していないことがわかった。 色、透明性、テクスチャなどの低レベル情報は煙認識にとって非常に重要であり、トランスフォーマーは中・高レベル特徴間の意味的関連性に注意を払っており、空間における低レベル特徴の微妙な変化には敏感ではない。 この問題を解決するために,Swin Transformerに基づくCross Contrast Patch Embedding(CCPE)モジュールを提案する。 煙のファジィ境界は、ジレンマにおけるインスタンスの正のラベルと負のラベルを割り当てる。 この問題を解決するために,分離型負サンプリング機構(SNSM)を提案する。 正のイメージと負のイメージに対する2つの異なる負のインスタンスサンプリング戦略を用いることで、ネットワークトレーニングの過程でラベルの多様性に起因する信号の混乱が軽減される。 本稿では,提案手法の評価と今後の研究を促進するために,これまでで最大の実火試験セットであるRealFire Testをリリースする。 ビデオクリップは3,649枚から50,535枚である。 提案手法は,RealFire Testデータセット上で広範囲に検証および評価され,ベースライン検出モデルと比較して性能が大幅に向上した。

The Transformer-based deep networks have increasingly shown significant advantages over CNNs. Some existing work has applied it in the field of wildfire recognition or detection. However, we observed that the vanilla Transformer is not friendly for extracting smoke features. Because low-level information such as color, transparency and texture is very important for smoke recognition, and transformer pays more attention to the semantic relevance between middle- or high-level features, and is not sensitive to the subtle changes of low-level features along the space. To solve this problem, we propose the Cross Contrast Patch Embedding(CCPE) module based on the Swin Transformer, which uses the multi-scales spatial frequency contrast information in both vertical and horizontal directions to improve the discrimination of the network on the underlying details. The fuzzy boundary of smoke makes the positive and negative label assignment for instances in a dilemma, which is another challenge for wildfires detection. To solve this problem, a Separable Negative Sampling Mechanism(SNSM) is proposed. By using two different negative instance sampling strategies on positive images and negative images respectively, the problem of supervision signal confusion caused by label diversity in the process of network training is alleviated. This paper also releases the RealFire Test, the largest real wildfire test set so far, to evaluate the proposed method and promote future research. It contains 50,535 images from 3,649 video clips. The proposed method has been extensively tested and evaluated on RealFire Test dataset, and has a significant performance improvement compared with the baseline detection models.
翻訳日:2024-01-03 00:57:29 公開日:2023-12-31
# スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写

Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion ( http://arxiv.org/abs/2312.10402v2 )

ライセンス: Link先を確認
Gakusei Sato, Taketo Akama(参考訳) AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。 機械学習技術による最近のパフォーマンス向上にもかかわらず、現在の手法は通常、豊富な注釈付きデータが利用できる領域で高い精度を達成する。 低あるいは無リソースのドメインに対処することは、未解決の課題である。 そこで本研究では,無記名実音声を用いた事前学習と逆境領域の混乱に対するスケーラブルな合成音声の利用により,midi-audioペアデータを必要としない転写モデルを提案する。 実験では、トレーニングデータセットがターゲットデータ領域にMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。 提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。 さらに、アブレーション研究は、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題に関する洞察を与えている。

Automatic Music Transcription (AMT) is a vital technology in the field of music information processing. Despite recent enhancements in performance due to machine learning techniques, current methods typically attain high accuracy in domains where abundant annotated data is available. Addressing domains with low or no resources continues to be an unresolved challenge. To tackle this issue, we propose a transcription model that does not require any MIDI-audio paired data through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. In experiments, we evaluate methods under the real-world application scenario where training datasets do not include the MIDI annotation of audio in the target data domain. Our proposed method achieved competitive performance relative to established baseline methods, despite not utilizing any real datasets of paired MIDI-audio. Additionally, ablation studies have provided insights into the scalability of this approach and the forthcoming challenges in the field of AMT research.
翻訳日:2024-01-03 00:53:15 公開日:2023-12-31
# 禁止事実:llama-2における競合目標の調査

Forbidden Facts: An Investigation of Competing Objectives in Llama-2 ( http://arxiv.org/abs/2312.08793v3 )

ライセンス: Link先を確認
Tony T. Wang, Miles Wang, Kaivalya Hariharan, Nir Shavit(参考訳) LLMは、しばしば競合する圧力(例えば、有用性対無害性)に直面します。 モデルがこのような矛盾をどのように解決するかを理解するため、llama-2-chatモデルを禁止ファクトタスクで研究する。 具体的には、llama-2に、正しい答えを述べることを禁じながら、事実リコールステートメントを真に完了するよう指示します。 これはしばしばモデルに誤った答えを与える。 Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。 まとめると、約35のコンポーネントが完全な抑制動作を確実に実装するのに十分であることがわかった。 しかし、これらのコンポーネントはかなり異種であり、多くのコンポーネントは欠陥ヒューリスティックを使って動作している。 我々は、これらのヒューリスティックの1つが、カリフォルニア攻撃と呼ばれる手動で設計された敵の攻撃によって悪用できることを発見した。 以上の結果から,先進的なMLシステムの解釈に成功している障害が浮き彫りになった。 プロジェクトwebサイトはhttps://forbiddenfacts.github.ioで閲覧できる。

LLMs often face competing pressures (for example helpfulness vs. harmlessness). To understand how models resolve such conflicts, we study Llama-2-chat models on the forbidden fact task. Specifically, we instruct Llama-2 to truthfully complete a factual recall statement while forbidding it from saying the correct answer. This often makes the model give incorrect answers. We decompose Llama-2 into 1000+ components, and rank each one with respect to how useful it is for forbidding the correct answer. We find that in aggregate, around 35 components are enough to reliably implement the full suppression behavior. However, these components are fairly heterogeneous and many operate using faulty heuristics. We discover that one of these heuristics can be exploited via a manually designed adversarial attack which we call The California Attack. Our results highlight some roadblocks standing in the way of being able to successfully interpret advanced ML systems. Project website available at https://forbiddenfacts.github.io .
翻訳日:2024-01-03 00:50:49 公開日:2023-12-31
# 測定デバイス非依存な超量子状態検出

Measurement-Device-Independent Detection of Beyond-Quantum State ( http://arxiv.org/abs/2312.06151v2 )

ライセンス: Link先を確認
Baichu Yu and Masahito Hayashi(参考訳) 量子論において、2つの相手の複合系上の量子状態は、テンソル積形式を持つ任意の測定要素を持つ非負確率を実現する。 しかし、上記の条件を満たす非量子状態も存在する。 このような状態は超量子状態と呼ばれ、標準ベル試験では検出できない。 量子状態と量子状態とを区別するため,量子状態検出のための測定デバイス非依存(MDI)テストを提案する。 提案プロトコルの性能は,テスト状態と測定演算子の形態に依存しないため,現実的なシナリオでは有利である。 また,検出に対する入力集合のトモグラフィ完全性の重要性についても論じる。

In quantum theory, a quantum state on a composite system of two parties realizes a non-negative probability with any measurement element with a tensor product form. However, there also exist non-quantum states which satisfy the above condition. Such states are called beyond-quantum states, and cannot be detected by standard Bell tests. To distinguish a beyond-quantum state from quantum states, we propose a measurement-device-independent (MDI) test for beyond-quantum state detection, which is composed of quantum input states on respective parties and quantum measurements across the input system and the target system on respective parties. The performance of our protocol is independent of the forms of the tested states and the measurement operators, which provides an advantage in practical scenarios. We also discuss the importance of tomographic completeness of the input sets to the detection.
翻訳日:2024-01-03 00:49:12 公開日:2023-12-31
# PGS:人体再同定における衣服交換の緩和のためのPose-Guided Supervision

PGS: Pose-Guided Supervision for Mitigating Clothes-Changing in Person Re-Identification ( http://arxiv.org/abs/2312.05634v2 )

ライセンス: Link先を確認
Quoc-Huy Trinh and Nhat-Tan Bui and Dinh-Hieu Hoang and Phuoc-Thao Vo Thi and Hai-Dang Nguyen and Debesh Jha and Ulas Bagci and Ngan Le and Minh-Triet Tran(参考訳) 個人再識別(Re-ID)タスクは、監視カメラによる複数の個人追跡を強化することを目的としている。 テキストベースの人物検索やヒューマンマッチングなど、マルチモーダルタスクへの追加サポートを提供する。 Re-IDで直面する重要な課題の1つは、着替えを扱うことであり、同じ人が異なる衣装に現れる可能性がある。 これまでの方法では、衣服データの一貫性を維持し、衣服の変化データを扱うことは顕著な進歩を遂げてきたが、それでも服の情報に過度に依存する傾向にある。 この課題を軽減するために,Re-IDタスク内でポーズガイダンスを学習するための効果的なフレームワークであるPose-Guided Supervision (PGS)を提案する。 私たちのpgsは、人間のエンコーダ、ポーズエンコーダ、ポーズツーヒューマンプロジェクションモジュール(php)という3つのモジュールで構成されています。 ポーズエンコーダモジュールは凍結した事前学習モデルを使用し、人間のエンコーダモジュールのための事前学習された人間中心モデルを微調整する。 当社のPHP転送は、ポーズエンコーダモジュールから、複数のプロジェクタを介してヒューマンエンコーダモジュールへの知識を付加します。 筆者らのフレームワークは,5つのベンチマークデータセットに対する広範な実験を経て,現在最先端の手法の性能を常に上回っている。 私たちのコードはhttps://github.com/huyquoctrinh/pgsで利用可能です。

Person Re-Identification (Re-ID) task seeks to enhance the tracking of multiple individuals by surveillance cameras. It provides additional support for multimodal tasks, including text-based person retrieval and human matching. Among the significant challenges faced in Re-ID, one of the most prominent is dealing with clothes-changing, where the same person may appear in different outfits. While previous methods have made notable progress in maintaining clothing data consistency and handling clothing change data, they still tend to rely excessively on clothing information, which can limit performance due to the dynamic nature of human appearances. To mitigate this challenge, we propose the Pose-Guided Supervision (PGS), an effective framework for learning pose guidance within the Re-ID task. Our PGS consists of three modules: a human encoder, a pose encoder, and a Pose-to-Human Projection module (PHP). The pose encoder module utilizes a frozen pre-trained model while we fine-tune a pre-trained human-centric model for the human encoder module. Our PHP transfers pose knowledge from the pose encoder module to the human encoder module through multiple projectors. Our framework, following extensive experimentation on five benchmark datasets, consistently surpasses the performance of current state-of-the-art methods. Our code is available at https://github.com/huyquoctrinh/PGS.
翻訳日:2024-01-03 00:49:01 公開日:2023-12-31
# カットオフブレーンとカーク・ランダルブレーン--変動するケース

Cutoff brane vs the Karch-Randall brane: the fluctuating case ( http://arxiv.org/abs/2312.03531v2 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen(参考訳) 近年,ads$_3$/bcft$_2$対応 \cite{basu:2022crn,basu:2023wmv} の主な特徴を捉えるためのホログラフィック変換 cft$_2$ が提案されている。 本稿では,ワイル変換を適用することにより,KR(Karch-Randall)ブレーンの変動を考慮した一般化AdS/BCFTセットアップをシミュレートする。 ワイル変換CFTの重力双対では、ワイル変換によって誘導されるいわゆるカットオフブレーンがKRブレーンと同じ役割を果たす。 変動しない構成とは異なり、2d$の有効理論では、余分なツイスト演算子はブレーンに挿入されたものと異なる場所で挿入される。 これはワイル変換 CFT のセットアップでよく理解されているが、実効理論がブレーン上にあるはずの AdS/BCFT のセットアップでは混乱している。 この混乱は、KRブレーンがワイル変換を介して境界 CFT$_2$ から出現することを示している。 また,変動ブレーン構成における平衡部分絡み合い(bpe)を計算し,絡み合いくさみ断面(ewcs)と一致していることを見いだした。 これは BPE と EWCS の対応に対する非自明なテストであり、ワイル変換 CFT セットアップに対する非自明な整合性チェックである。

Recently, certain holographic Weyl transformed CFT$_2$ is proposed to capture the main features of the AdS$_3$/BCFT$_2$ correspondence \cite{Basu:2022crn,Basu:2023wmv}. In this paper, by adapting the Weyl transformation, we simulate a generalized AdS/BCFT set-up where the fluctuation of the Karch-Randall (KR) brane is considered. In the gravity dual of the Weyl transformed CFT, the so-called cutoff brane induced by the Weyl transformation plays the same role as the KR brane. Unlike the non-fluctuating configuration, in the $2d$ effective theory the additional twist operator is inserted at a different places, compared with the one inserted on the brane. Though this is well-understood in the Weyl transformed CFT set-up, it is confusing in the AdS/BCFT set-up where the effective theory is supposed to locate on the brane. This confusion indicates that the KR brane may be emergent from the boundary CFT$_2$ via the Weyl transformations. We also calculate the balanced partial entanglement (BPE) in the fluctuating brane configurations and find it coincide with the entanglement wedge cross-section (EWCS). This is a non-trivial test for the correspondence between the BPE and the EWCS, and a non-trivial consistency check for the Weyl transformed CFT set-up.
翻訳日:2024-01-03 00:47:30 公開日:2023-12-31
# 条件付きボルツマン発生器としての分子GNNの事前学習

Pre-training of Molecular GNNs as Conditional Boltzmann Generator ( http://arxiv.org/abs/2312.13110v2 )

ライセンス: Link先を確認
Daiki Koge, Naoaki Ono, Shigehiko Kanaya(参考訳) 深層学習を用いた分子構造表現の学習は分子特性予測タスクの基本的な問題である。 分子は本質的に3次元構造として現実世界に存在するが、3次元ユークリッド空間では静的ではないが連続運動であり、ポテンシャルエネルギー面を形成する。 したがって、事前に複数のコンフォメーションを生成し、複数のコンフォメーションを組み込んだ4D-QSARモデルを用いて分子表現を抽出することが望ましい。 しかし、このアプローチは、複数のコンフォメーションを得るための計算コストのため、薬物や物質発見タスクには実用的ではない。 そこで本研究では,既存の分子コンホメーションデータセットを用いた分子GNNの事前学習手法を提案し,複数のコンホメーションに共通な潜在ベクトルを2次元分子グラフから生成する。 我々の手法はボルツマンGNNと呼ばれ、コンフォメーション生成のための条件生成モデルの条件境界確率を最大化することによって定式化される。 本モデルでは,分子グラフと3次元分子構造を用いた既存の事前学習法よりも分子特性の予測性能が向上することを示す。

Learning representations of molecular structures using deep learning is a fundamental problem in molecular property prediction tasks. Molecules inherently exist in the real world as three-dimensional structures; furthermore, they are not static but in continuous motion in the 3D Euclidean space, forming a potential energy surface. Therefore, it is desirable to generate multiple conformations in advance and extract molecular representations using a 4D-QSAR model that incorporates multiple conformations. However, this approach is impractical for drug and material discovery tasks because of the computational cost of obtaining multiple conformations. To address this issue, we propose a pre-training method for molecular GNNs using an existing dataset of molecular conformations to generate a latent vector universal to multiple conformations from a 2D molecular graph. Our method, called Boltzmann GNN, is formulated by maximizing the conditional marginal likelihood of a conditional generative model for conformations generation. We show that our model has a better prediction performance for molecular properties than existing pre-training methods using molecular graphs and three-dimensional molecular structures.
翻訳日:2024-01-02 21:04:32 公開日:2023-12-31
# 言語支援型3次元シーン理解

Language-Assisted 3D Scene Understanding ( http://arxiv.org/abs/2312.11451v2 )

ライセンス: Link先を確認
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang(参考訳) ポイントクラウドデータセットの規模と品質は、ポイントクラウド学習の進歩を制約している。 近年,マルチモーダル学習の発展に伴い,画像やテキストといった他のモダリティからドメインに依存しない事前知識を取り入れ,ポイントクラウド機能学習を支援することが有望な道のりとなってきた。 既存手法は点雲におけるマルチモーダルコントラストトレーニングと特徴蒸留の有効性を示した。 しかし、ペア三重項データの必要性、教師付き特徴の冗長性とあいまいさ、元の先行事項の破壊など、課題は残る。 本稿では,llmsに基づくテキストエンリッチメントを通じて意味概念を豊かにする,ポイントクラウド機能学習(last-pcl)のための言語支援手法を提案する。 統計的・訓練不要の有意特徴選択により,先行文を妥協することなく,冗長性と特徴次元の削減を実現する。 さらに、テキストコントラストトレーニングがポイントクラウドに与える影響について、詳細な分析も行っています。 提案手法は,3次元セマンティックセグメンテーション,3次元オブジェクト検出,および3次元シーン分類タスクにおいて,意味的に意味のあるポイントクラウドの特徴を学習し,最先端ないし同等のパフォーマンスを実現する。

The scale and quality of point cloud datasets constrain the advancement of point cloud learning. Recently, with the development of multi-modal learning, the incorporation of domain-agnostic prior knowledge from other modalities, such as images and text, to assist in point cloud feature learning has been considered a promising avenue. Existing methods have demonstrated the effectiveness of multi-modal contrastive training and feature distillation on point clouds. However, challenges remain, including the requirement for paired triplet data, redundancy and ambiguity in supervised features, and the disruption of the original priors. In this paper, we propose a language-assisted approach to point cloud feature learning (LAST-PCL), enriching semantic concepts through LLMs-based text enrichment. We achieve de-redundancy and feature dimensionality reduction without compromising textual priors by statistical-based and training-free significant feature selection. Furthermore, we also delve into an in-depth analysis of the impact of text contrastive training on the point cloud. Extensive experiments validate that the proposed method learns semantically meaningful point cloud features and achieves state-of-the-art or comparable performance in 3D semantic segmentation, 3D object detection, and 3D scene classification tasks.
翻訳日:2024-01-02 21:02:39 公開日:2023-12-31
# 政策ネットワークの一般化分析 : ダブルインテグレータシステムを用いたケーススタディ

Analyzing Generalization in Policy Networks: A Case Study with the Double-Integrator System ( http://arxiv.org/abs/2312.10472v2 )

ライセンス: Link先を確認
Ruining Zhang, Haoran Han, Maolong Lv, Qisong Yang, Jian Cheng(参考訳) 各種連続制御タスクにおける深部強化学習(DRL)政策網の大規模利用は,入力状態規範が訓練環境よりも大きい拡張状態空間における性能劣化に関する疑問を提起している。 本稿では、状態分割と呼ばれる新しい解析手法を用いて、拡張状態空間を扱う際の性能劣化の原因を明らかにすることを目的とする。 状態分割をポストホックな説明ツールとして用いた従来のアプローチとは対照的に,我々の方法論はDRL政策網の本質的な特性を考察する。 具体的には、状態空間の拡大は飽和性を示す活性化関数 $\tanh$ を誘導し、状態分割境界を非線形から線型へ変換することを示した。 本研究では,この線形性への段階的な変化がバンバン・バン制御を想起させる制御行動をもたらすことを明らかにした。 しかし、分割境界の固有の線形性は理想的なバンバン制御の実現を妨げ、避けられないオーバーシューティングをもたらす。 多様なRLアルゴリズムを用いた実験により、この性能現象はDRLポリシーネットワークの固有の特性に由来することが証明され、様々な最適化アルゴリズム間で一貫性が保たれている。

Extensive utilization of deep reinforcement learning (DRL) policy networks in diverse continuous control tasks has raised questions regarding performance degradation in expansive state spaces where the input state norm is larger than that in the training environment. This paper aims to uncover the underlying factors contributing to such performance deterioration when dealing with expanded state spaces, using a novel analysis technique known as state division. In contrast to prior approaches that employ state division merely as a post-hoc explanatory tool, our methodology delves into the intrinsic characteristics of DRL policy networks. Specifically, we demonstrate that the expansion of state space induces the activation function $\tanh$ to exhibit saturability, resulting in the transformation of the state division boundary from nonlinear to linear. Our analysis centers on the paradigm of the double-integrator system, revealing that this gradual shift towards linearity imparts a control behavior reminiscent of bang-bang control. However, the inherent linearity of the division boundary prevents the attainment of an ideal bang-bang control, thereby introducing unavoidable overshooting. Our experimental investigations, employing diverse RL algorithms, establish that this performance phenomenon stems from inherent attributes of the DRL policy network, remaining consistent across various optimization algorithms.
翻訳日:2024-01-02 21:00:26 公開日:2023-12-31
# 大面積空間順序メサトップシングル量子ドット:オンチップ集積量子情報処理プラットフォームに適した単一光子エミッタ

Large-Area Spatially Ordered Mesa Top Single Quantum Dots: Suitable Single Photon Emitters for On-Chip Integrated Quantum Information Processing Platforms ( http://arxiv.org/abs/2312.15132v3 )

ライセンス: Link先を確認
Qi Huang, Lucas Jordao, Siyuan Lu, Swarnabha Chattaraj, Jiefei Zhang, and Anupam Madhukar(参考訳) 長い間望まれていたオンチップのスケーラブルなフォトニック量子情報処理ネットワークの実現は、大量のしきい値を超えるエミッションフィギュアを持つ空間的に秩序づけられてスケーラブルなシングル光子エミッタが存在しないために妨げられている。 位置決めは必要な精度を満たさなければならないため、相互接続によって必要な機能ネットワークを構築することができる。 本稿では,mesa-top single quantum dots (mtsqds) の大規模空間配列の実現について報告する。[1] 量子鍵分布,線形光学量子コンピューティング,量子多体問題のシミュレーション,メトロロジー/センシングを対象とする量子フォトニック回路/プラットフォームの実装要件を満たす特性を持つオンデマンド単一光子エミッタであることを示す。 SESRE (substrate-encoded size-reducing epitaxy) を介して成長した報告されたGaAs/InGaAs/GaAs MTSQDアレイは、半径1cmの範囲で最大100x100の多重配列である。 3.35nmの標準偏差を示す放射強度(明度)と色符号化波長分布の図示的な大面積画像を示す。 走査型透過電子顕微鏡は、qd位置の左右に約3nm、垂直に約1nmの顕著な制御を示す。 残る主な課題は、基板全体にわたる現在の湿式化学的にエッチングされたナノメカの側面サイズを均一に制御することである。 このように、sesreは、オンチップで完全に集積された量子フォトニック回路プラットフォーム(絶縁体上のalgaasに基づくような)や、シリコンオン絶縁体(soi)フォトニック集積回路(pic)を利用するハイブリッドといった、オンチップでスケーラブルな、オンデマンドで明るい単一量子エミッタの配列を実現する、最も有望なアプローチを提供する。

Realization of the long sought on-chip scalable photonic quantum information processing networks has been thwarted by the absence of spatially-ordered and scalable on-demand single photon emitters with emission figures-of-merit exceeding the required thresholds across large numbers. The positioning must meet the required degree of accuracy that enables fabricating their interconnection to create the desired functional network. Here we report on the realization of large-area spatially-ordered arrays of mesa-top single quantum dots (MTSQDs) that are demonstrated [1] to be on-demand single photon emitters with characteristics that meet the requirements for implementing quantum photonic circuits/platforms aimed at quantum key distribution, linear optical quantum computing, simulations of quantum many-body problems, and metrology/sensing. The reported GaAs/InGaAs/GaAs MTSQD arrays, grown via SESRE (substrate-encoded size-reducing epitaxy) are in multiple arrays of up to 100x100 with 5um pitch, across a centimeter radius area. We show illustrative large-area images of the emission intensity (brightness) and color-coded wavelength distribution exhibiting ~3.35nm standard deviation. Scanning transmission electron microscopy shows a remarkable control on the QD location to within ~3nm accuracy laterally and ~1nm vertically. The primary remaining challenge is the control on the uniformity of the currently wet-chemically etched as-patterned nanomesa lateral size across the substrate, a surmountable technical issue. Thus, SESRE offers the most promising approach to realizing on-chip scalable spatially-ordered arrays of on-demand bright single quantum emitters meeting the figures-of-merit required for on-chip fully integrated quantum photonic circuit platforms-monolithic (such as based upon AlGaAs on insulator) or hybrid that leverage the silicon-on-insulator (SOI) photonic integrated circuit (PIC).
翻訳日:2024-01-02 20:25:27 公開日:2023-12-31
# 文脈認識デコードによるクエリ中心の要約における幻覚の低減

Context-aware Decoding Reduces Hallucination in Query-focused Summarization ( http://arxiv.org/abs/2312.14335v2 )

ライセンス: Link先を確認
Zhichao Xu(参考訳) query-focused summarization (qfs) は、与えられたクエリの情報ニーズを満たす単一のドキュメント/マルチドキュメントの要約を提供することを目的としている。 抽象スニペット生成やより最近の検索拡張生成(RAG)など、現実世界の様々なアプリケーションに有用である。 原型的なqfsパイプラインは、レトリバー(疎検索または密検索)とジェネレータ(通常、大きな言語モデル)から構成される。 しかし、大きな言語モデル(LLM)を適用すると、特にその証拠が以前のLLMの信念と矛盾する場合、幻覚につながる可能性がある。 世代品質を改善し幻覚を減少させる新しい復号法の開発に関心が高まっている。 本研究では,最近提案されたデコード手法であるcad(context-aware decoding)について,大規模再現性について検討する。 ニュース要約データセットに関するCADの実験の複製に加えて、QFSデータセットの実験も含み、計算複雑性とハイパーパラメータ感度に関するより厳密な分析を行う。 8つの異なる言語モデルを用いた実験により,CADは(1)事実性エラー/幻覚の低減,(2)ROUGEスコアによる語彙パターンの一致の維持,さらには推論時間FLOPの増大と復号速度の低減によるQFS品質の向上が示された。 Huggingface Libraryに基づくコード実装はhttps://github.com/zhichaoxu-shufe/context-aware-decoding-qfsで利用可能である。

Query-focused summarization (QFS) aims to provide a summary of a single document/multi documents that can satisfy the information needs of a given query. It is useful for various real-world applications, such as abstractive snippet generation or more recent retrieval augmented generation (RAG). A prototypical QFS pipeline consists of a retriever (sparse or dense retrieval) and a generator (usually a large language model). However, applying large language models (LLM) potentially leads to hallucinations, especially when the evidence contradicts the prior belief of LLMs. There has been growing interest in developing new decoding methods to improve generation quality and reduce hallucination. In this work, we conduct a large-scale reproducibility study on one recently proposed decoding method -- Context-aware Decoding (CAD). In addition to replicating CAD's experiments on news summarization datasets, we include experiments on QFS datasets, and conduct more rigorous analysis on computational complexity and hyperparameter sensitivity. Experiments with eight different language models show that performance-wise, CAD improves QFS quality by (1) reducing factuality errors/hallucinations while (2) mostly retaining the match of lexical patterns, measured by ROUGE scores, while also at a cost of increased inference-time FLOPs and reduced decoding speed. The code implementation based on Huggingface Library is made available https://github.com/zhichaoxu-shufe/context-aware-decoding-qfs
翻訳日:2024-01-02 20:22:47 公開日:2023-12-31
# 波物理インフォームドマトリックス分解

Wave Physics-informed Matrix Factorizations ( http://arxiv.org/abs/2312.13584v2 )

ライセンス: Link先を確認
Harsha Vardhan Tetali, Joel B. Harley, Benjamin D. Haeffele(参考訳) 深層学習を具体例として含む表現学習手法が最近成功を収めたことにより、既知の物理的制約を学習表現に組み込む手法の開発にかなりの関心が寄せられている。 一例として、物理メディアを伝搬する信号(光学、音響、流体力学など)を含む多くの応用において、信号のダイナミクスは波動方程式によって課される制約を満たす必要があることが知られている。 本稿では,これらの信号を成分の和に分解する行列分解法を提案し,各成分を規則化し,波動方程式の制約を満たすようにした。 提案する定式化は非凸であるが,大域的最適性に効率的に解けることを示す。 この一連の研究を通じて,信号処理におけるウェーブインフォームド学習とフィルタリング理論との理論的関係を確立する。 さらに,本研究は,構造診断や予後診断によく発生する形態解析問題に対する応用を実証する。

With the recent success of representation learning methods, which includes deep learning as a special case, there has been considerable interest in developing techniques that incorporate known physical constraints into the learned representation. As one example, in many applications that involve a signal propagating through physical media (e.g., optics, acoustics, fluid dynamics, etc), it is known that the dynamics of the signal must satisfy constraints imposed by the wave equation. Here we propose a matrix factorization technique that decomposes such signals into a sum of components, where each component is regularized to ensure that it {nearly} satisfies wave equation constraints. Although our proposed formulation is non-convex, we prove that our model can be efficiently solved to global optimality. Through this line of work we establish theoretical connections between wave-informed learning and filtering theory in signal processing. We further demonstrate the application of this work on modal analysis problems commonly arising in structural diagnostics and prognostics.
翻訳日:2024-01-02 20:21:30 公開日:2023-12-31
# VLCounter:ゼロショットオブジェクトカウントのためのテキスト対応ビジュアル表現

VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting ( http://arxiv.org/abs/2312.16580v2 )

ライセンス: Link先を確認
Seunggu Kang, WonJun Moon, Euiyeon Kim, Jae-Pil Heo(参考訳) Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。 ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。 しかし、逐次的に設計された2段階プロセスのエラー伝播には脆弱性がある。 本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。 その後、VLBaseからVisual- Language Counter(VLCounter)への拡張は、オブジェクトカウントのためにVLBaseをカスタマイズするために考案された3つのモジュールを統合することで達成される。 まず、SPT(Semantic-conditioned Prompt Tuning)が画像エンコーダ内に導入され、ターゲットハイライト表現を取得する。 第二に、Learningable Affine Transformation (LAT) を用いて、意味パッチ類似性マップをカウントタスクに適したものに翻訳する。 最後に、レイヤワイズで符号化された機能は、Segment-aware Skip Connection (SaSC)を通じてデコーダに転送される。 FSC147、CARPK、PUCPR+に関する広範な実験を通じて、エンドツーエンドフレームワークであるVLCounterの利点が示された。

Zero-Shot Object Counting (ZSOC) aims to count referred instances of arbitrary classes in a query image without human-annotated exemplars. To deal with ZSOC, preceding studies proposed a two-stage pipeline: discovering exemplars and counting. However, there remains a challenge of vulnerability to error propagation of the sequentially designed two-stage process. In this work, an one-stage baseline, Visual-Language Baseline (VLBase), exploring the implicit association of the semantic-patch embeddings of CLIP is proposed. Subsequently, the extension of VLBase to Visual-language Counter (VLCounter) is achieved by incorporating three modules devised to tailor VLBase for object counting. First, Semantic-conditioned Prompt Tuning (SPT) is introduced within the image encoder to acquire target-highlighted representations. Second, Learnable Affine Transformation (LAT) is employed to translate the semantic-patch similarity map to be appropriate for the counting task. Lastly, the layer-wisely encoded features are transferred to the decoder through Segment-aware Skip Connection (SaSC) to keep the generalization capability for unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, the benefits of the end-to-end framework, VLCounter, are demonstrated.
翻訳日:2024-01-02 19:55:00 公開日:2023-12-31
# コンパタンスサンプリングによるリワード, 最大優先度最適化の選好

Preference as Reward, Maximum Preference Optimization with Importance Sampling ( http://arxiv.org/abs/2312.16430v2 )

ライセンス: Link先を確認
Zaifan Jiang, Xing Huang, Chao Wei(参考訳) 優先度学習は、言語モデルと人間の価値を合わせるための重要な技術である。 人的フィードバックからの強化学習(rlhf)は、まず選好スコアに対して報奨モデルに適合し、次に報奨を最大化するためにオンポリシーppoアルゴリズムで生成ポリシーを最適化する、選好学習を最適化するモデルベースアルゴリズムである。 RLHFの処理は複雑で、時間がかかり、不安定である。 オフラインアルゴリズムを用いた直接選好最適化(DPO)アルゴリズムにより、生成ポリシーを直接最適化し、データ効率が高く安定した報酬モデルの必要性を排除する。 DPOはBradley-Terryモデルとログロスを使用し、好みが決定論的である場合のKL正規化項を無視して、好みデータに過度に適合する。 IPOは、無視するKL正規化問題を解決するために、根絶するMSE損失を使用する。 本論では、優先性が決定論的である場合にIPOが問題を修正するが、DPOとIPOはいずれも基準分布と一致しないため、KL正規化項に失敗する。 次に,最大選好最適化(mpo)と呼ぶ重要サンプリング視点から,単純で直感的なオフポリシー選好最適化アルゴリズムを設計し,kl正規化を真に効果的にするオフポリシーkl正規化項を追加する。 MPOの目的は、RLHFの目的に似ており、IPOと同様に、MPOは非政治である。 したがって、MPOは両方の世界のベストを達成できる。 学習プロセスを簡素化し、メモリ使用量を節約するために、MPOは報酬モデルと参照ポリシーの両方の必要性を排除する。

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference is deterministic. IPO uses a root-finding MSE loss to solve the ignoring KL-regularization problem. In this paper, we'll figure out, although IPO fix the problem when preference is deterministic, but both DPO and IPO fails the KL-regularization term because the support of preference distribution not equal to reference distribution. Then, we design a simple and intuitive off-policy preference optimization algorithm from an importance sampling view, which we call Maximum Preference Optimization (MPO), and add off-policy KL-regularization terms which makes KL-regularization truly effective. The objective of MPO bears resemblance to RLHF's objective, and likes IPO, MPO is off-policy. So, MPO attains the best of both worlds. To simplify the learning process and save memory usage, MPO eliminates the needs for both reward model and reference policy.
翻訳日:2024-01-02 19:52:26 公開日:2023-12-31